ナレッジセンター機能解説と設計概念

ナレッジセンター機能解説と設計概念
ウチダスペクトラム株式会社
Product Management Office
©2013 Uchida Spectrum, Inc. All rights reserved.
集合知形成フレームワーク(ナレッジセンター 概念図)
組織
【検索結果に過去の利用状況を提示】
付加情報(Collabo)付き検索結果
タグ、コメント、投票
•検索する
•ドキュメント参照する
【エンタープライズレコメンド】
作業履歴
ナレッジコンテンツ
•タグ
•投票
登録
•タグをつける
•コメントをつける
•投票する
•コメント
•ドキュメントメタデータ
•参照ログ
etc
ユーザー、スペース、ドキュメント、キーワード
【個人の利用履歴の管理】
•お気に入りドキュメント
検索エンジン
•お気に入りタグ
個人スペース
•サーチヒストリ
【検索手段の簡単作成・共有】
•タグヒストリ
•メッセージ
File Server
Web Site
【プロファイリング】
ナレッジオブジェクト
•お気に入りサーチ
データソース
関連キーワード、関連ドキュメント一覧
操作履歴の表示
•検索ログ
•ログイン・ログアウトログ
•検索手順を保存する
•ブックマークする
【ユーザーレコメンド】
【監査】
ナレッジログ
検索
関連キーワード、関連ドキュメント一覧
ドキュメント参照ユーザー一覧
キーワード利用ユーザー一覧
•QA
•自動タグ
データベース
ドキュメントメタデータの取得
共有スペース
【コンテンツの自動分類】
自動タグ
Lotus/Notes
©2013 Uchida Spectrum, Inc. All rights reserved.
Page-2
ナレッジオブジェクト
検索をベースとした「集合知の形成」を積極的に取り入れていくことが、情報活用方法を考える上で重
要なポイントとなります。InSightでは、ユーザーのつけたタグや、ユーザーが行った検索の条件、特定の
検索結果のブックマークなどを「ナレッジオブジェクト」として保存し、分析・再利用ができる「集合知の形
成」を実現しています。
以下の種類のナレッジオブジェクトをサポートします。
種別
概要
お気に入りサーチ
使用した検索条件を保存し、再利用を可能にします。お気に入りサーチを作成すると、よく
使用する条件を毎回設定する必要がなく、簡単に複雑な条件の検索をおこなうことができま
す。
お気に入りドキュメント
よく参照するドキュメントのリンク情報を保存します。
お気に入りタグ
よく使用するマスターデータを保存して、検索で再利用することができます。
メッセージ
指定した条件で、新着ドキュメントをお知らせします。
サーチヒストリ
検索で使用したキーワードをフィールド別に保存します。
タグヒストリ
©2013 Uchida Spectrum, Inc. All rights reserved.
タグ付けとして使用した値を保存します。
Page-3
ナレッジオブジェクトの登録
Widget操作
ナレッジオブジェクトの登録(作成)は、Widgetの操作およびアイテムのD&Dにより、個人スペースに登録されます。
©2013 Uchida Spectrum, Inc. All rights reserved.
アイテムのD&D
Page-4
コラボレーション
● スペース
ナレッジオブジェクトは、スペースと呼ばれる管理領域で管理されます。
スペースには、個人スペースと共有スペースがあり、ナレッジオブジェクトを作成すると、個人スペースに保存
されます。
個人スペースで管理しているオブジェクトを共有スペースへD&Dすることで、オブジェクトを特定のグループ、
組織に公開することができます。
スペースは、ユーザーフォルダを作成することができ、オブジェクトを階層管理することが可能となっています。
フォルダを作成し、
階層管理が可能。
登録
共有
【検索】
ナレッジオブジェクト
個人スペース
ナレッジオブジェクト
©2013 Uchida Spectrum, Inc. All rights reserved.
共有スペース
スペースは、必要なユーザー、グ
ループごとに、複数作成することが
可能
Page-5
レコメンド機能
ユーザーが実行した検索や指定したドキュメントに対して、関連する情報を表示します。
種別
説明
検索履歴
下記のレコメンドを表示します。
【キーワード】
サーチバーで検索したキーワードで、過去に利用した追加キーワードを表示します。
【エンタープライズユニット名、エンタープライズグループ名、InSightグループ名、アクションユー
ザー名】
サーチバーで検索したキーワードを、過去に利用した組織、グループ名、ユーザー名を表示しま
す。
参照履歴
サーチバーで検索したキーワードの検索結果で、過去にダウンロードされたことのある
ドキュメントの一覧を表示します。
ドキュメント参照履歴
検索結果のドキュメントから、過去に参照したユーザー名の一覧を表示します。
©2013 Uchida Spectrum, Inc. All rights reserved.
Page-6
ナレッジメタデータ&ナレッジコンテンツ
ナレッジオブジェクト、ログデータに加えて、コンテンツに付与されたナレッジメタデータをInSightの
ストレージに保存します。
【ナレッジメタデータ】
閲覧 (ユーザーが閲覧した履歴)
投票 (そのドキュメントの投票数)
お気に入りドキュメント(ドキュメントのお気に入りドキュメントへの登録数)
ユーザータグ (フリーテキストタグ)
エンタープライズタグ (マスターを使用したタグ)
コメント(フリーテキストでのコメント)
これらのコンテンツのメタデータと関連するナレッジメタデータの格納領域をナレッジコンテ
ンツと呼びます。
タグ
閲覧
お気に入り
ドキュメント
検索結果ウィジェット
投票 コメント
ドキュメント タイトル・要約・更新日時 etc
©2013 Uchida Spectrum, Inc. All rights reserved.
ナレッジ
コンテンツ
Page-7
自動タグ
自動タグ付けは、実際のコンテンツに手を入れることなく、点在するドキュメントに
共通の意味付けをおこなうことで、「見える化」が図れ、再発掘をサポートします。
【拠点・共有フォルダ 1】
【拠点・共有フォルダ 3】
拠点ごとにフォルダ階層が異なり、ファイル名などの
ルールもないため、一貫した検索は難しい。
【拠点・共有フォルダ 2】
【検索用インデックス】
【研究テーマ別】
サーチエンジン
事前に定義したルールにもとづき、
仮想グルーピングをおこなう。
©2013 Uchida Spectrum, Inc. All rights reserved.
【ドキュメント種別】
タグ付けにより、検索の絞込みが可能。またタグやプロパティを
可視化することで、「見える化」の実現し、活用を促進する。
Page-8
仮想統合フレームワークを利用した検索インデックス作成機能
メタデータ
マッピング
データ プロセッシング
JDBC
Connector
INDEX
Enterprise
Crawler
File
Crawler
Internet Service
タグマスター
サーチフェデレーション
Notes
Connector
データ
チェーン
クローラー
柔軟なパイプライン処理
コンテンツ
セット
仮想データ統合フレームワーク
インターネットサービスを利用可能な
フェデレーションサーチ
©2013 Uchida Spectrum, Inc. All rights reserved.
Page-9
自動タグ付けの概念
対象となるファイルの中身などからマッピングするタグデータをデザインします。
ファイルのクロール処理の過程で、プロパティや中身からコンテンツに対してメタデータを
自動付与します。
Solr UpdateHandler
ファイルの読み込み
1.ファイルを解析
Title
・・・
Other
Processor
・・・
G2 Custom
Processor
Other
Processor
ファイルクローラ
UpdateProcessorChain
Solr
Index
2.コンテンツと関連するマスタ参照
テスト計画書
MimeType
application/msword
URL
\\tokyodev\dev1\testplan.doc
製品種別
冷蔵庫
部門
開発1部
属性の追加
©2013 Uchida Spectrum, Inc. All rights reserved.
3.メタデータ付与
研究テーママスタ
素材・技術マスタ
Insight G2
DB
Page-10
自動タグ付け機能 概要
自動タグ付けは、ユーザーの要件やコンテンツの管理状況などから、様々なソリューションがありますが、下記に
代表的な手法を示します。
以下に、自動タグ付けの代表的なパターンを記します。
1.
プロパティ
著者、タイトルなどのファイルに含まれるプロパティをタグとして利用する。プロパティの値をそのまま利用することも可能だが、そこに
含まれる文字列から辞書、ルールに基づいたゆらぎの補正、マッピングによるタグ付けをおこなうことも可能。
2.
フォルダマッピング
ファイルが格納されているフォルダとタグのマッピングをおこない、ファイルにタグ付けを行う。複数の異なるフォルダ階層をもった共有
フォルダ(サーバー)に対して、同じタグをマッピングすることも可能。
3.
本文抽出
ファイルの本文情報から、タグパターンの解析を行い、一致するタグ付けを行う。本文の解析には、下記のパターンがある。
3.1 フリーキーワード
特定のキーワード(複数可)の存在有無や正規表現での適合チェックをおこない、適合する場合、マッピングされている
タグ付けをおこなう。
3.2 特定位置テキスト抽出
Excelのセルや、ヘッダ/フッダなど文書の特定の位置をターゲットとして、テキストの抽出を行いタグ付けを行う。
※ 基本的には、ユーザー要件に応じて、クロール処理もしくは、UpdateProcessorにカスタマイズが必要
となります。
©2013 Uchida Spectrum, Inc. All rights reserved.
Page-11
自動タグ パターン1) プロパティによる自動タグ
文書のファイルに含まれるプロパティをタグとして利用します。
プロパティに含まれる文字列にゆらぎがある場合は、辞書や一定のルールを定義することで、統一
したタグとして登録することもできます。
【ドキュメントに格納されているプロパティ】
【検索インデックス】
プロパティ名
値
タイトル
テスト計画書
分類項目
テストプランニング
件名
ドラム耐久テスト
ドキュメント種別
製品種別
作成者
Toshiaki Nakagawa
テスト計画
洗濯機
ゆらぎ補正
【製品種別キーワード・マッピング】
プロパティ情報を取得して
キーワードを検索
©2013 Uchida Spectrum, Inc. All rights reserved.
キーワード
製品種別
ドラム、糸くずフィルター、パルセーター
洗濯機
製氷機、冷媒循環回路
冷蔵庫
該当の製品種別を
タグとしてインデックスに格納
Page-12
自動タグ パターン2) フォルダマッピング
ファイルが格納されているフォルダ構造をもとにして、タグを決定して、自動的にマッピングを
おこないます。
階層の異なるフォルダでも、それぞれにマッピングデータを保持することで
共通のタグ付けをすることが可能
フォルダ ー タグ
マッピングマスター
部品マスター
部門マスタ
©2013 Uchida Spectrum, Inc. All rights reserved.
Page-13
自動タグ パターン3ー1) 本文抽出(フリーキーワード)
本文に1つ以上の該当する単語が存在する場合、マスターで定義されたタグを自動的に付与し
ます。
【検索インデックス】
本文テキストの抽出
BODY
研究テーマ
本文
水流による洗浄効果
プロパティ情報を取得してキーワード
を検索
【研究テーマキーワード・マッピング】
キーワード
QueryType
研究テーマ
ドラム、 パルセーター 、水流*
AND
水流による洗浄効果
ドラム、回転式、渦巻き式*
OR
回転ドラム式洗濯機
【様々な検索手法を考慮】



複数のキーワードを指定して、AND/OR
キーワードを正規表現で指定して、あいまい検索
ノーマライズ(大文字小文字、全角半角)検索
©2013 Uchida Spectrum, Inc. All rights reserved.
【カスタマイズポイント】
UpdateProcessor
Page-14
自動タグ パターン3ー2) 本文抽出(特定位置テキスト抽出)
本文の特定の位置や領域に存在する文字列から、マスターで定義されたタグを自動的に付与しま
す。
【検索インデックス】
【様々な検索手法を提供】
 マッピングテーブルに指定された位置にある文字列を比較対象とする。
 位置の例は、Excelのセル、ページ番号(シート)、ヘッダ/フッダなど
テキストを特定できる領域となる。
BODY
種別
本文
部品調達管理票
本文
ユーザーマニュアル
【種別キーワード・マッピング】
©2013 Uchida Spectrum, Inc. All rights reserved.
キーワード
検索種別
文書種別
位置
種別
部品調達先
AND
xlsx
B3
部品調達管理票
ユーザー マニュアル
OR
docx
head
ユーザーマニュアル
Page-15
ナレッジセンターの構成
ナレッジセンターは、ナレッジログとナレッジコンテンツの2種類のインデックスで構成されています。
検索、検索
…
これ、タグ付し
とこう
ログアウト…と。
絞込み検
索して…
コメント入れて
おこう
お気に入り登
録しておこう。
•ログイン
•検索
•タグ付け
•コメント追加
•投票
・・・etc
•閲覧情報
•タグ付されたタグ情報
•コメント情報
•投票情報
•ブックマーク情報
ナレッジセンター
ナレッジログ
主に操作ログ
©2013 Uchida Spectrum, Inc. All rights reserved.
InSight内部に
Solr Indexを保持
ナレッジコンテンツ
主にメタデータ情報
Page-16
ナレッジログとは
ナレッジログとは以下のような操作のログです。

サーチログ
サーチバー等からの検索や、ナビゲーションからの絞込みやデータチェインなどのログ
実行日時、実行ユーザー、検索条件などの情報を保持しています。

リファレンスログ
ドキュメントの閲覧のログ
閲覧日時、実行ユーザー、閲覧ドキュメントパスなどの情報を保持しています。

タギングログ
エンタープライズタグやユーザタグのタグ操作や、コメントや投票の操作ログ
タギング日時、実行ユーザー、付加/削除されたメタタグ、付加/削除されたドキュメントパスなどの情報を保持
しています。

ログイン/ログアウトログ
ログイン・ログアウトのログ
ログイン・ログアウト日時、実行ユーザーなどの情報を保持しています。

ナレッジオブジェクト アクションログ
個人/共有スペースのナレッジオブジェクトの操作やお気に入りドキュメントの操作ログ
操作日時、実行ユーザー、操作対象となるナレッジオブジェクト情報などを保持しています。
©2013 Uchida Spectrum, Inc. All rights reserved.
Page-17
ナレッジログの登録(1)
ナレッジログをキューに溜め、バッチ処理でナレッジログにインデックスする場合の登録の流れ
例)検索時
①
①検索を実行
②ナレッジログをキューに保存(※)
②
③
LogCommitter バッチ
KC Queue
ナレッジログ
インデックス
©2013 Uchida Spectrum, Inc. All rights reserved.
③InSightの内部バッチである
LogCommiterバッチが、指定された
スケジュールに基づき実行
④未登録のナレッジログが有る場合は
キューからインデックスに登録して
commitする
④
(※)Log4jの設定で、キューを利用する設定の場合
Page-18
ナレッジログの登録(2)
ナレッジログをファイルに溜め、バッチ処理でナレッジログにインデックスする場合の登録の流れ
例)検索時
①
①検索を実行
②ナレッジログをファイルに保存(※)
③
ログフォルダ
④未登録のナレッジログが有る場合は
Feedされたログ情報からインデックスに
登録してcommitする
LogFeeder バッチ
ナレッジログ
インデックス
©2013 Uchida Spectrum, Inc. All rights reserved.
②
③InSightの内部バッチである
LogFeederバッチが、指定された
スケジュールに基づき実行
④
(※)Log4jの設定で、ファイル保存を利用する設定の
場合
Page-19
ナレッジコンテンツとは
ナレッジコンテンツとは以下のようなナレッジメタデータ情報です。
LWSにインデックスするナレッジメタデータ情報のバックアップでもあります。

閲覧
閲覧日時、閲覧ユーザー、閲覧回数、閲覧したドキュメント情報など

お気に入りドキュメント
お気に入りドキュメント登録日時、登録ユーザー、登録件数、登録したドキュメント情報など

タギングログ
エンタープライズタグやユーザタグの登録日時、登録ユーザー、登録件数、登録したエンタープラ
イズタグやユーザタグ、登録したドキュメント情報など

投票
投票日時、投票ユーザー、投票件数、投票したドキュメント情報など

コメント
コメント登録日時、登録ユーザー、登録件数、登録したコメント、登録したドキュメント情報など
©2013 Uchida Spectrum, Inc. All rights reserved.
Page-20
ナレッジコンテンツの登録
ナレッジコンテンツの登録の流れ
例)投票時
①投票をクリック
①
②データベースに
ナレッジメタデータ情報を登録
メタデータ情報
操作ログ
②
ナレッジログ
インデックス
InSight DB
更新データ有り
④
LWS
③
KCMetadataUpdater
③InSightの内部バッチである
KCMetadataUpdateバッチが、
指定された スケジュールに基づき
実行
④更新データが有る場合は
インデックスに登録してcommitする
Knowledge
Contents Index
©2013 Uchida Spectrum, Inc. All rights reserved.
Page-21
ナレッジセンターの構成
ナレッジセンターは、デフォルトの設定ではInSightと同一サーバー上に構築されます。
・logdataフォルダとdataフォルダは
insightConfig_Local.xmlで、インデックスを
保存するフォルダパスを指定します。
InSighのログ
(kc.log)
dataフォルダ
ナレッジ
コンテンツ
logdataフォルダ
ナレッジログ
©2013 Uchida Spectrum, Inc. All rights reserved.
利用頻度が高いInSightと同一サーバー上に
ナレッジセンターがある場合、次第にナレッジセンターの
インデックスが肥大してInSightサーバー自体の負荷が
高くなることがあります。
Page-22
ナレッジセンターを外部サーバーに構築
InSightの利用頻度の高い場合は、ナレッジセンターを外部サーバーに構築して
ナレッジセンターによる負荷分散することが可能です。
InSighのログ
(kc.log)
ナレッジの検索・ナレッジメタデータの更新
ログのフィード
dataフォルダ
logdataフォルダ
ナレッジセンター専用
Webアプリケーション
ナレッジ
コンテンツ
ナレッジログ
※ナレッジセンター用サーバは、複数台でも構成することも可能です。
©2013 Uchida Spectrum, Inc. All rights reserved.
Page-23
データ量設計例
利用想定ユーザー数3500人(1日当りの平均利用者数:60%)
1人当たりの利用想定数:50action (ナレッジコンテンツ:10ドキュメント)の場合
InSighのログ
(kc.log)
1actionあたりの増加量を1KB
= 1日あたりの増加量:約105MB(1×50action ×2,100人)
= 1月あたりの増加量:約 2.3GB(約170MB×22日)
logdataフォルダ
1actionあたり2.5KB増加
ナレッジログ
= 1日あたりの増加量:約262MB(2.5×50action ×2,100人)
= 1月あたりの増加量:約 5.7GB(約262MB×22日)
dataフォルダ
ナレッジ
コンテンツ
1ドキュメントあたり60KB増加
= 1日あたりの増加量:約1.2GB(60×10ドキュメント ×2,100人)
= 1月あたりの増加量:約 26GB(約2GB×22日) ※
※ 新規ドキュメントのタグ付のみ増加します。既にナレッジコンテンツに格納されているドキュメントに
対する操作は、アップデートとなり増加対象とはなりません。
注意)
1actionあたりの増加量は、検索条件の量に依存します。
また、1ドキュメントあたりの増加量は、メタデータ情報をタギングするドキュメントに依存します
©2013 Uchida Spectrum, Inc. All rights reserved.
Page-24
ナレッジセンター運用にかかわるバッチ(1)
ナレッジセンターにデータを登録する際に必要となるバッチ
バッチ名
概要
LogCommitter
ナレッジログデータをキューに溜めて利用する場合に必要となるバッチです。
このバッチを実行すると、ログ情報がナレッジログに反映されます。
ナレッジログの増加量が少ない場合に向いています。
LogFeeder
ナレッジログデータをファイルに保存して利用する場合に必要となるバッチです。
このバッチを実行すると、ログ情報がナレッジログに反映されます。
ナレッジログの増加量が多い場合に向いています。
また、万が一ナレッジログのインデックスが破損しても、ファイルから全て復旧が可能です。
KCMetadataUpdater
ナレッジメタデータ情報をナレッジコンテンツに登録 および 検索エンジンへの登録に必
要となるバッチです。
検索エンジンへの登録があるので、実行間隔は検索エンジン側のCommitのタイミン
グを考慮する必要があります。
©2013 Uchida Spectrum, Inc. All rights reserved.
Page-25
ナレッジセンター運用にかかわるバッチ(2)
ナレッジセンターを運用する上で、必要となるバッチ
バッチ名
概要
LogDeleter
ナレッジログの削除用バッチです。
設定された条件に従ってナレッジログを削除します。
例)起動日より1年前
KCIndexOptimizer
ナレッジログ、ナレッジコンテンツそれぞれに設定が必要となります。
Optimize実行のタイミングは、インデックス更新後を目安にしてください。
また、インデックスが大きくなるとオプティマイズに時間が掛ります。
HooSlaveReplicator
ナレッジセンターを外部サーバーで構築する場合に必要となるバッチです。
外部に構築したナレッジセンターの死活管理を行います。
©2013 Uchida Spectrum, Inc. All rights reserved.
Page-26
バックアップとリカバリ
バックアップ
ナレッジログ
ナレッジログのバックアップは、2種類あります。
いずれかの方法でバックアップを行ってください。
 ナレッジログのインデックスを定期的にバックアップする
(Tomcatを停止してコピーする)
 kc.logファイルを保管しておく
ナレッジコンテンツのバックアップ
ナレッジコンテンツのインデックスを定期的にバックアップする
(Tomcatを停止してコピー)
リカバリ
ナレッジログ
 バックアップしたナレッジログのインデックスに差し替える
(Tomcatを停止してコピーする)
 kc.logファイルを利用して、LogFeederバッチで再作成する
(リポジトリファイルを削除後、Tomcatを起動すると再作成されます)
ナレッジコンテンツ
バックアップしたナレッジコンテンツのインデックスに差し替える
(Tomcatを停止してコピー)
©2013 Uchida Spectrum, Inc. All rights reserved.
Page-27
ご清聴いただき、ありがとうございました。
©2013 Uchida Spectrum, Inc. All rights reserved.
Page-28