2015年2月12日木曜日

Tiny Text Minning(TTM)によるテキストマイニング(データの前処理)

 以前、フリーで利用出来るテキストマイニングツールであるTiny Text Minning(TTM)のご紹介をさせて頂いたのですが、今回はこのツールを使う前のデータ前処理について書きます。

専門知識ゼロ!誰でも出来るテキストマイニング。~TTMとは?
http://sapporomkt.blogspot.com/2015/01/ttm.html


 Windows環境でも手軽にテキストマイニングが出来るようになるので、日常のマーケティングプランニングにおける作業の幅も、ちょっとは広がりますかね。

1.CSVファイルから「レビュー本文列」を抜き出したシートを作成
















・1行目の列名を削除する。
・1列目は「タグ」名。「年代」データを置けば、「年代別の単語カウント数」等が比較可能。ここでは全数のため、「ALL」と記載している。

 2.CLEAN関数でレビュー本文セル内の改行を除去


























・レビュー本文列左横に1列挿入し、改行を削除したいレビュー列を  対象とした「CLEAN関数」をセット。
・「CLEAN関数」をセットしたセルをコピーし、下側のセルに  まとめて貼り付け。
※この作業で大体解析不可能なデータは除去出来ますが、たまにTTMを止める変な文字が残ることがあります。
※「秀丸エディタ」に機種依存文字を削除するマクロが公開されていますので、それを使うととっても便利です。


3.「形式を指定して貼り付け」
















・B列はそのままだと「CLEAN関数」形式になっているため、文字列データに変換する必要がある。
・「B列まるごとコピー」→「同じ場所で右クリック」→{形式を選択して貼り付け}→「値」とすると文字列データになる。
・「ファイル」メニューから「CSV形式で保存」を選択。


 上記前処理を行うことで、TTMでテキストマイニングをまわすことが出来るようになります。
当ツールに限らず 、意外にテキストマイニングを行う際、前処理で躓くことが多いのですが、意外にネット上にこのような手順を載せたものが少ない気がします。

 もしご興味ありましたら是非トライしてみてください^^

0 件のコメント:

コメントを投稿