2015年1月21日水曜日

専門知識ゼロ!誰でも出来るテキストマイニング。~TTMとは?

 以前、東京の広告代理店でマーケティングプランニングやマーケティングリサーチを担当しておりました。札幌でもご縁あって、同様の職務についていますが、結構困るのが「データソースの少なさ」です。

 昔は同一モニターに数百問レベルの調査を行い、ターゲットがどんなインサイトを持っているのか、プロファイル分析等も行える仕組みを使っていましたが、そのようなものを自前で整備出来るのは電通・博報堂・ADKさんぐらいでしょうか。
 とはいえ、自主提案などで、「お金(調査費)使わず、それなりに説得力がありそうなもの作って!」なんてオーダーを受けること、ありますよね。無理言うなって・・・。

 そんな「困ったちゃん案件」を札幌のような地方で上手くやるコツのひとつとして、「オープンソースの活用」はアリだと思います。「オープンデータ」と比べ、やや耳なじみがないかもしれませんが、簡単に言うと、「プログラムのソースコードが公開されている、無料で使えるソフトウェア」だと思っていただければ間違いないかなと。

 例えば、数年前までは大学の研究室にあるパソコンでしか使用出来なかった高度な統計解析のソフトウェアがいまでは無料で使えるんですよね(R言語とか)
ただ、まだまだLinux OS環境でしか使えないものが多いのですが、今回ご紹介するのはWindows環境でかなり簡単に使えるものです。もちろん、無料ですよ、無料!


TTM: TinyTextMiner

<TTMとは>
公式HP上では「テキストマイニングの前処理のためのフリーウェアです。」と書いていらっしゃしますが、あえて簡単に書かせて頂くと「形態素解析をタダで簡単にやれちゃう便利なツール」です。あっ、違ってたらスイマセン・・・。

もうひとつ、「形態素解析って何?」についてですが、IT用語辞典曰く、「文章を意味のある単語に区切り、辞書を利用して品詞や内容を判別すること」だそうです。例えば、「フリーアンサー等で集めたテキストデータを単語レベルに切り分けてカウントする」なんてことも、この手法を使うと実現できちゃいます。


<Windowsにおけるインストールで注意すること>
 特にありません(笑)
とはいえ、デフォルト以外のファイルパスを覚えない等、若干不便な特徴もありますので、「ttm.exe」「mecab」「cabocha」ともにデフォルトファイルパスへのインストールをオススメします。


 次回は、具体的な使い方や、意外に言及されない「最低限のデータ加工方法」等についてご紹介させて頂きます。

0 件のコメント:

コメントを投稿

Google+ Followers