2016年7月9日土曜日

「SPSS Modeler Text Analytics」によるテキストマイニング(データ読み込みからグラフ化)

 お恥ずかしい限りなのですが、先日、SPSS Modelerから直接テキストマイニングが出来ることを始めて知ったワタクシです。はい、すいません。。
まだまだ勉強中なのですが、まずは、「データの読み込みからグラフ化」からご紹介させて頂きます。

 結論としては、下記のようなアウトプットが簡単にサクッと出来ちゃいます。


※本エントリーは、私、小田一弥が一個人として勉強を兼ねて記載したものです。私の勤務先である日本アイ・ビー・エム株式会社の見解・見識ではない、個人としての記載内容としてご覧ください。  


「SPSS Modeler Text Analytics」に関する基礎知識



■概要
・名前のとおり、SPSS Modelerからテキスト分析機能を提供するプログラム。
・高度な言語テクノロジと自然言語処理 (Natural Language Processing、NLP) を使用し、さまざまな構造のないテキストデータを高速で処理が可能。
・分析対象となるテキストから重要な「コンセプト」を抽出および整理し、これらのコンセプトをカテゴリーにグループ化する。

まぁ、だいたいわかったのですが、「コンセプト」だけは初見だったので調べました。

■「コンセプト」とは:
・SPSS Modeler Text AnalyticsやSPSS Text Analytics for Surveysによって抽出されたキーワード(単語だけはなく複合語も含む)のこと。
・「キーワード抽出」のみを実行すると非自立語を除いた自立語部分を抽出結果として出力する。

自立語:単独でひとつの文節を作ることが出来る単語
非自立語(付属語):単独では文節を作れず、常に単語のあとに付く単語

(例)  大きな  でした


ちなみに、「コンセプト」と合わせて「タイプ」という言葉もよく出てきます。

■「タイプ」とは:
・抽出された「コンセプト」における「名詞・動詞・形容詞」といった品詞分類なもの。
・SPSSの場合、固有名詞(「人名、地名、組織名」等)は名詞とは別に分類される。

「データ読み込みからグラフ化」までの手順


他にも色々言及すべき点はあると思いますが、そろそろ飽きられる段階かなーと思いはじめてますので、データ読み込んでグラフ化までやってみます。

■今回の作業環境
・OS:Windows7 Professional(SP1)
・IBM SPSS Modeler Premium 18.0
・IBM SPSS Modeler Premium Japanese(Extractor)18.0 (※1)
・クチコミサイトのクレジットカードに関するレビューデータ(1,575件) (※2)
※1:日本語のテキストマイニングには、「Japanese Extractor」のインストールが必要です。
※2:今回は作業手順のご紹介を目的としているため、細かいデータクリーニングはしておりません。マイニング結果については、サンプルデータ程度の扱いでご覧ください。



■以下手順
1.「Excel」ノードの配置
 入力パレットにある「Excel」ノードを配置してください。
今回、入力データがExcel形式のためですが、データ構造さえ問題なければ、もちろん、他の形式でもOKです。



2.データ内容チェック
 毎回ですが、「テーブル」ノードと「データ検査」ノードでデータ内容をご確認ください。満足度の高低とテキストマイニング結果の関係性を見ても面白そうですね。




3.「テキストマイニング」ノードを配置
 「IBM SPSS Text Analytics」パレットから「テキストマイニング」ノードを配置し、「Excel」ノードにつなげてください。


4.テキストマイニング対象データの読み込み
 「テキストマイニング」ノードを開き、「フィールド」タブの「テキストフィールド」から読み込ませたいカラム(列)を指定してください。


 「モデル」タブのデフォルト状態です。「リソースのコピー元」で「Opinions(Japanese-(感性意見))」になっているのをご確認ください。


 「エキスパート」タブもデフォルト状態では下記のようになっているはずです。


 上記を確認のうえ、「OK」ボタンを押してください。
こんか感じでカリカリ何か(=コンセプトの抽出作業)をやっています。自分のPC環境では1分弱かかりました。


5.「カテゴリー」を作成
 メニューの「カテゴリー」から「カテゴリーを作成」を選択してください。


 人生は短いです。今回は「今すぐ作成」押してください。あっという間に「カテゴリー」が生成されます。

6.グラフ化!
 とりあえず、お好きなカテゴリーを選択して、「カテゴリー」ペイン右上にある「表示」ボタンを押してください。
下記画像のようなダイアログが表示されますが、「いいえ」でお願いします。


「カテゴリー棒グラフ」です。ソートも出来ます。


「カテゴリーWeb」です。


うーん、ちょっとゴチャゴチャしてますね。タブのメニューにある「スライダーを表示」ボタンを押して調整してください。


「カテゴリーWebテーブル」です。
「カテゴリーWeb」と同じ情報をテーブル形式で表示します。


今回は、以上です。
次回はもう少し突っ込んだ使い方もご紹介出来ればと考えております。

その他:SPSS Moder関連エントリー


(無料)Watson StudioでSPSS Modeler flowの決定木を動かす

(Watson)Personality InsightsのJSONをR言語でパースしてみた

Watson Studioの「Data Refinery」機能で「馬の疝痛(せんつう)」データを眺めてみた。

SPSS Modelerでアソシエーション分析がしたいっ! (前処理編〜縦持ちを横持ちへ)
http://sapporomkt.blogspot.jp/2017/06/spss-modeler.html


「SPSS Modeler」におけるデータ操作及びシーケンスデータの取り扱いまとめ
http://sapporomkt.blogspot.jp/1970/01/spss-modeler_1.html

SPSS Modelerでリーディングサイアーデータ分析:前処理(レコード追加等)
http://sapporomkt.blogspot.jp/2016/05/spss-modeler.html

SPSS Modelerで「サイアー/ブルードメアサイアー」データをレコード結合
http://sapporomkt.blogspot.jp/2016/05/spss-modeler_13.html

0 件のコメント:

コメントを投稿