2015年7月19日日曜日

高橋はるみ知事の記者会見をテキストマイニングしてみた(ちょっとだけ工夫Version)

 以前、高橋はるみ北海道知事の記者会見をテキストマイニングしてみましたが、ワードクラウドの出来がちょっと納得行かなかったので、やり直してみました。ちなみに今回の分析データも前回と同じものを使っているので、最近の記者会見データは入っていないのでご了承ください。

 高橋はるみ知事の記者会見をテキストマイニングしてみた。
http://sapporomkt.blogspot.jp/2015/06/blog-post_17.html


ソースコードとアウトプット。


 最小限だとこれぐらいでアウトプット出来ちゃいます。
R最高!RStudioありがとう!

library(RMeCab)
# ""内に形態素解析にかけたいテキスト文章をベースト。
mecab.data <- RMeCabC("")
# ワードクラウド用のパッケージをインストール。
# 僕の環境ではtmパッケージのインストールも求められたので、まだの方は別途入れてください。
library(wordcloud)
# min.freqは単語の最低頻出回数。
wordcloud(mecab.data, min.freq = 1, random.order = FALSE)
view raw gistfile1.r hosted with ❤ by GitHub
 min.freqの数値を変えると結構見た目が変わります。

こちらは、min.freq=1で指定したもの。とにかく全部出してみるコースです。 

こちらは、min.freq=3 でアウトプットしたもの。
発言数を棒グラフで見せるのが一番わかりやすいのだけど、印象強く残すのはむしろこっちがいいかも。

0 件のコメント:

コメントを投稿