文書分類
文書分類とは?
文書分類は、文書管理を効率化させるための分類機能です。文書分類には以下の2つがあります。
「分類器」を使った分類
教師あり学習によるテキスト分類(Text Classification)を応用し、事前に文書とクラス(振り分け先)間の関係性を学習させた「分類器」を使って分類します。
「分類器」を使った分類技術は、学習させる量が多いほど分類精度が高まる傾向にあり、主にスパムメールの判定などに使われます。
「クラスタリング」による分類
教師なし学習によるテキスト・クラスタリング(Text Clustering)を応用し、文書情報のみで指定した数に「クラスタリング」(グループに分類)を行います。
類似する特徴のグループを抽出することができ、主に顧客情報の分析などに使われます。
QuickSolutionの文書分類機能には以下の特長があります。
- QuickSolutionとの連携により、社内に点在している情報を横断的に検索して学習・分類
- ルールベースを併用可能な「分類器」による、漏れの少ない分類
- 事前準備なしで実施可能な「クラスタリング」による分類
文書分類の仕組み
「分類器」「クラスタリング」を用いた分類の流れを詳しく説明します。
「分類器」による分類の流れ
「分類器」を用いた分類には大きく「学習」と「分類」の2つのフェーズがあります。
①学習フェーズ
このフェーズでは事前に準備した学習用の文書をQuickSolutionから検索し、分類器を作成します。分類方法として機械学習(教師あり学習)とルールベース(ユーザが指定した用語を含むか否か)またはその両方を指定でき、機械学習に対してはアルゴリズムの選択やパラメータ調整が可能です。また分類精度評価機能により、学習用文書の量、パラメータ、ルールを調整しながら希望の精度が得られるまで分類器の試作ができます。
②分類フェーズ
このフェーズでは実際に分類したい文書に対して「学習フェーズ」で作成した分類器を用いて分類します。分類結果はダウンロードして活用することができます。また、分類した文書に対してQuickSolutionの共有タグを付与することができ、タグを条件にして検索することも可能です。
「クラスタリング」による分類の流れ
「クラスタリング」による分類では事前準備は必要なく、分類したい文書をQuickSolutionから検索し、指定した数のグループに分類します。分類結果はダウンロードして活用することができます。分類した文書に対してQuickSolutionの共有タグを付与することができ、タグを条件にした検索や「分類器」作成のために学習データとして利用することも可能です。
文書分類機能の活用例
ファイルサーバなどの機密情報(個人情報)を漏れなく抽出
社内のファイルサーバなどに格納されている文書を、「分類器」を用いて機密/非機密に分類。
分類結果から機密情報の存在状況を確認することで、情報管理ルールの逸脱がないかなどの確認が可能です。
問い合わせ記録の分析
寄せられた大量の問い合わせ記録を、「クラスタリング」を用いて分類。
類似した特徴ごとにまとめられるため問い合わせの傾向や発生要因の分析などに利用できます。また「クラスタリング」による分類結果をもとに「分類器」を作成することで、以降発生した問い合わせを継続して分類することが可能です。
その他の活用例
- ファイルサーバなどから特定の研究分野の情報を漏れなく抽出
- 特許情報から特定の技術に関連する情報を漏れなく抽出
- 過去トラブル文書を原因別などに分類
- 問い合わせ/Q&Aデータを分類(分野別、契約範囲別など)
- 製品のレビューを「ポジティブ」「ネガティブ」に分類
- 社外入手文書を読み手(製造/研究/営業)別に振り分け
- 電子メールを「私用メール」と「業務メール」に分類