2016年7月31日日曜日

(Bluemix)知ってた?dashDBってTwitter分析にもツカエルのさ(+ちょっとだけコンサドーレ調べ)

もう、タイトルのままなのですが、思っていたよりも簡単で驚きました。
Bluemixが使える状態になっていれば、統計やデータサイエンス等の特別な知識不要で、どなたでも出来ると思います。

最後にローカル環境のRで数行のコードを走らせていますが、下記のようなアウトプットが簡単に作成できます。



 ※本エントリーは、私、小田一弥が一個人として勉強を兼ねて記載したものです。私の勤務先である日本アイ・ビー・エム株式会社の見解・見識ではない、個人としての記載内容としてご覧ください。  


手順のご紹介


Bluemixの登録方法と「dashDB」「Insights for Twitter」両サービスの設置等については、既に様々なエントリーで紹介されているので割愛します。
特に両サービスともBluemix上での設置はガイドに沿ってボタンを押すだけなので、初見でも迷うところは皆無でした。

ちなみに、今回使用しているBluemixの各サービスは無料プラン内で充分遊べますので、出費など気にせず遊んでみてください。


1.「dashDB」と「Insights for Twitter」を設置済みの状態からスタート
Bluemix上で「dashDB」と「Insights for Twitter」を設置した状態から説明をスタートします。
他のエントリー等を参照しながらトライしてみてください。Qiita等にあるエントリーがわかりやすいと思います。


2.「dashDB」をオープン
「dashDB」右上の「OPEN」ボタンを押してください。


画面左側メニューから「Load>Load Twitter Data>」を選択してください。


「Use an exising Twitter service:」のプルダウンメニューで事前に設置した「Insights for Twitter」のサービスを選択してください。


3.検索したいTweetを指定
今回は、当ブログでも何度か分析対象として取り上げている「コンサドーレ」について調べてみます。
ハッシュタグで「#consadole」 と書かれたTweetは「38,271件」検索可能なことがわかります。


4.テーブルで識別するための名称を記載
「Load the data into new tables with this prefix:」欄で、「consadole」と入力すると、 各カラム名称が動的に変更されます。


5.Tweetデータのロード開始
前の画面の「Next」ボタンを押すと、下記画面のように「dashDB」上にTweetデータをロードし始めます。今回は件数が多いので結構時間がかかりますが、数千件なら数分で取得できると思います。




6.「Statistics」の表示
Loadが完了すると、下記のような統計情報が一覧表示されます。


下記は「#consadole」を含むTweet件数の時系列グラフ。 10分の1サンプリングがかかっているので全件数ではないですが、それでも今年はJ2で一位(2016年7月31日現在)となっている同チームが話題化していることがわかりますね。


また、その他のハッシュタグを含むグラフも出力されます。


その他、下記のようなデータも出力されます。




7.「Data」の表示
「Statistics」の横にある「Data」をクリックすると、ローデータの操作も可能となります。


テーブルメニューバーにある「↑(ダウンロード)」ボタンを押すと、ローデータがダウンロードできます。



8.日本地図上にTweetをプロット
GPS(位置情報システム)をオンにしたままTweetすると、その時に発話された経度・緯度が付加されます。今回はTweet総数がそれほど多くなかったので、190件ほどしか位置情報を取得できませんでしたが、とりあえずR言語でプロットしてみました。

ちなみにRのソースコードはこちら。
「leaflet」というRの描画用パッケージなのですが、たったこれだけでプロットできちゃいます。
radiusオプション、colorオプション、weightオプションはお好みで変えてください。

library(leaflet)
consadole_lat_lon.dat <- read.csv("consadole_lat_lon.csv",head=TRUE)
View(consadole_lat_lon.dat)
leaflet(consadole_lat_lon.dat) %>% addTiles() %>% addCircles(lng=~lon,lat=~lat,radius=100,color="#09f",weight=5)


その他、Tweetのテキストも取得可能です。Freeプランでも500万Tweetまでは無料で取得できますので、御興味ある方は是非試してみてください。

(おまけ)
「#ポケモンGO」でつぶやいた方々のマップはこちら。



R言語関連のエントリー




RMeCabで形容詞の形態素解析をやってみた。
http://sapporomkt.blogspot.jp/2016/07/rmecab.html


【R言語】leafletで札幌市内のサツドラをプロットしてみた。
http://sapporomkt.blogspot.jp/2016/01/rleaflet_4.html

【R言語】今年は、leafletでマップをグリグリしたい。
http://sapporomkt.blogspot.jp/2016/01/rleaflet.html

【R言語】factor型で数値を集計するときの注意点
http://sapporomkt.blogspot.jp/2016/01/rfactor.html

【R言語】ベクトルにおける関数の使い方
http://sapporomkt.blogspot.jp/2015/12/r_80.html 

【R言語】「rpivotTable」パッケージが高機能過ぎて泣ける件
http://sapporomkt.blogspot.jp/2015/11/rrpivottable.html

【R言語】どうしても「ディープインパクト」全産駒の内訳を集計したくなったの<前処理編>。
http://sapporomkt.blogspot.jp/2015/10/r.html 

AEIが優秀な種牡馬を調べてみたら・・・やっぱりディープ(略)
http://sapporomkt.blogspot.jp/2015/10/aei.html

過去5年間のリーディングサイアー成績を眺めてみた~ディープインパクトって実際・・・
http://sapporomkt.blogspot.jp/2015/10/5.html

(R言語)readHTMLTable関数でJ2の順位を音速で抜き出す。
http://sapporomkt.blogspot.jp/2015/07/rreadhtmltablej2.ht

2016年7月18日月曜日

次の地方創生キーワードはこれ!「日本版BIDを含むエリアマネジメント」とは?

2016年6月30日に「まち・ひと・しごと創生本部」から「日本版BIDを含むエリアマネジメントの推進方策検討会」という「エリアマネジメント」に関するドキュメントが公開されました。


「日本版DMO」「日本版CCRC」に続く、「地方創生キーワード」になるのでしょうね。
結構な文章量のドキュメントなので、気になる部分だけ抜粋してみました。

「エリアマネジメント」「日本版BID/日本版TID」とは?


特定のエリアを単位に、民間が主体となって、まちづくりや地域経営(マネジメント)を積極的に行うという取り組み。

<エリアマネジメントで具体的に目指す事柄>・エリア内の良好な環境の形成
・エリアの魅力向上
・コミュニティ内における対話と協働の促進
・まちの個性の構築
・まちへの愛着と誇り(シビックプライド)の醸成
・社会関係資本(ソーシャルキャピタル)の形成 など

<エリアマネジメントの主要制度>
BID(Business Improvement District)
地理的に区画され多くの場合インナーシティに位置する地区で、不動産所有者や事業者から徴収される負担金により、その地区の維持管理、開発、プロモーションを行うもの。
BIDが提供するサービスは、通り、歩道、公園やオープンスペースの維持管理、治安の改善、マーケティング、施設改善、その他の開発である。

(1)海外でのBID事例
マンハッタンのグランドセントラル駅周辺エリア
→BID税の資金を活用し、治安回復と街のイメージ刷新を実現。

ブライアントパーク
→治安改善などによる不動産価格の向上。

(2)日本でのBID事例
・大阪市(大阪版BID制度)

大阪市エリアマネジメント活動促進制度(大阪版BID制度)を創設し、まちづくり資金を大阪市が徴収し、エリアマネジメント団体に交付する仕組みを制度化した。

・横浜市(横浜市エリアマネジメント計画)

・北海道倶知安町(平成23年度から研究会を発足)



TID(Tourism Improvement District)
BIDの旅行関連事業者版。宿泊事業者における宿泊収入からTID資金を拠出させ、地元エリアの観光関連ビジネスの促進を図る仕組み。日本の地方創生でも主要施策のひとつとして注目されている「DMO」の資金としても活用されている。


地方創生に関する他のエントリー


<DMO参考ページ>
「地方人口ビジョン及び地方版総合戦略の策定状況」が結構・・・
http://sapporomkt.blogspot.jp/2016/04/blog-post_30.html

地方創生の新たなキーワード「日本版DMO」って知ってる?
http://sapporomkt.blogspot.jp/2015/06/dmo.html

世界のDMO~「アルベルゴ・ディフーゾ」って知ってる?
http://sapporomkt.blogspot.jp/2015/09/dmo_12.html

イタリア発のDMO~「チッタスロー」運動ってご存知?
http://sapporomkt.blogspot.jp/2015/09/dmo_13.html

日本版DMO~「美しい村連合」について調べてみた。
http://sapporomkt.blogspot.jp/2015/09/dmo.html

「日本版DMO」設立が地方自治体でプチブレイク?~地方創生先行型の交付対象事業
http://sapporomkt.blogspot.jp/2015/11/dmo.html


<CCRC参考ページ>
(地方創生)「日本版CCRC」に関する調査報告
http://sapporomkt.blogspot.jp/2015/05/ccrc.html

(SPSS Modeler)馬の疝痛データを誰でもカンタン決定木♪

「そんなヤヤコシイもんがカンタン?」と思われるかもしれませんが、SPSS Modelerならホントにカンタンです。

今回は、UCIにある機械学習用として無料で公開されている「馬の疝痛(せんつう)データ」を使ってSPSS Modeler上で「決定木」をサクっと作ってみます。当エントリーの手順どおりやって頂けると、どなたでも下記のような決定木を楽勝でアウトプットできると思います。


※本エントリーは、私、小田一弥が一個人として勉強を兼ねて記載したものです。私の勤務先である日本アイ・ビー・エム株式会社の見解・見識ではない、個人としての記載内容としてご覧ください。  


用語の説明等


疝痛(せんつう)とは?
疝痛(せんつう、colic)とは腹部臓器の疼痛およびそれに伴う腹痛を示す症状名。馬ではその解剖学的、生理学的特徴から多発する。以下では主に馬について記述する。馬で多発する原因として、胃が体躯に比べ小さいために嘔吐しにくい構造であること、腸間膜(mesentery)が長く固定されていないこと、巨大な盲腸をもつことなどが挙げられる。
(Wikipediaより)

ちなみに、1997年に皐月賞と日本ダービーを制した名馬「サニーブライアン」なども疝痛で命を落としていまして、お馬さん業界の中では結構メジャーで怖い病らしいです。

決定木分析とは?
対象データを統計的な基準をもとに分岐し、ツリー構造状の分類モデルを作成することにより、発生事象を予測する分析手法(教師あり学習法モデルの代表格)。葉が分類を表し、枝がその分類に至るまでの特徴の集まりを表すような木構造を示す。

手順


1.UCIのサイトからデータをダウンロード
下記サイトからローデータをダウンロードしてください。上段にある「Download: Data Folder」をクリックするとローデータが表示されます。また、当ページの下部には各データ列の詳細についての解説もあるので、後ほどデータ形式の指定時に参照します。

 ちなみに、欠損値も30%ほど入っているので、置換ノードによるデータ加工のお勉強としても活用そうですね。


2.CSV形式で保存
早速データを保存しようと思ったのですが・・・。うーん、CSV形式等でもあると楽なんですけどね^^;


このまま取り込んでも何とかなるのですが、面倒なのでTerapadで半角スペースを「,(カンマ)」に全置換してCSV形式で保存しました。

(参考) Terapad公式ページ

ちなみに、Terapad、ほんとに便利ですよ。正規表現による改行やタブの置換も出来るので、調査票作成時等にも大助かりです。


3.SPSS Modelerでデータ取り込み
「入力パレット」から「可変長ファイル」ノードを設置するか、CSVファイルをそのままストリーム上にドラッグ&ドロップしてください。なお、「行区切り文字は改行文字です」にチェックをつけるのをお忘れなく。


4.「テーブル」ノードでデータ内容をチェック
取り込んだCSVファイルに「出力パレット」にある「テーブル」ノードをつなげてデータ内容をチェックしてください。「?」と表記されている部分がユーザー欠損値となります。


5.「データ型」ノードでホニャララ・・・できないorz
「フィールド設定」パレットから「データ型」ノードを入力ファイルにつなげてホニャララしようと思ったら・・・あら、数値データが入っているフィールドなのに、「ストレージ:文字列」になっています。


6.「フィールド作成」ノードで「整数型」に一括変換
「フィールド設定」パレットから「フィールド作成」ノードを配置してください。

・フィールドリスト:
「整数型」に変換したいフィールドを下記スクリーンショット画面のように複数選択してください。

・CLEM式:
入力欄に「to_integer(@FIELD)」と記入してください(式ビルダーでもOKです)

@FIELD関数~CLEM式が複数のフィールドに適用される場合、@FIELDは順番に各フィールドを表します。
to_integer(ITEM)関数~ITEMを整数に変換します。ITEMは文字列または数字でなければなりません。
→「フィールドリストで指定した文字列フィールドをまとめて整数型に変換してね」の意味です。


ちなみに、「データ型」ノードを通過した後に「テーブル」ノード等でデータ内容をチェックすると、いつの間にか「?(ユーザー欠損値)」が「$null$」のシステム欠損値に変換されていますね。

7.「データ型」ノードで各フィールドのストレージを確認
ハイライトしたフィールド名横のアイコンをご覧ください。先ほどのCLEM式で指示した型変換が反映されていますね。ここで変換後の各フィールドにおける尺度を変更してください。



8.「フィルター」ノードで変換前のフィールドを削除
「フィールド設定」パレットにある「フィルター」ノードを配置して、「フィールド作成」で変換する前の文字列フィールドを削除してください。


9.「フィールド順序」ノードで順番を揃える
「フィールド設定」パレットにある「フィールド順序」を配置してフィールドの順番を揃えてください。


10.「フィルター」ノードでフィールド名を変更
一回目の「フィルター」ノード設置時に行ってもいいのですが、そろそろフィールド名が読み込み直後のままだと味気ないので、UCIの「Attribute Information:」を参考にしながらフィールド名を変更しします(Field25~27も不要なのでカットしました)


11.「データ型」ノードで各フィールドの値とラベルを変更
最初の「データ型」ノードで実施してもいいのですが、自分はここで行いました。
変更したいフィールドで右クリック→編集で下記画面となりますので、適宜、変更してください。


12.「CHAID」ノードを設置
さて、いよいよ決定木を作ります!
「モデル作成」ノードから「CHAID」ノードを設置してください。


予測対象としたいフィールドを選択します。今回は、「馬の疝痛治療の結果、生死がどうなったか」を表す「outcome」を選びました。予測変数には残りの変数をガサっと入れてみました。
(28:cp_dataは、「そんなに参考ならないデータ」と書かれていたので除外しました)


「作成オプション」タブは下記のように設定してください。あまり低い%を設定すると枝が分かれすぎて解釈が難しいので、これぐらいの数値がちょうど良いとのことです。



13.モデルで確認!
先ほどのノードで「実行」を押すと、ストリーム上にナゲットが生成されますので、ダブルクリックで中身をご確認ください。

生死を分かつのが「痛がってるかどうか」なのはよく分かるのですが、次の分岐が「タンパク質(多分、血中濃度)」 なのは「へぇ~」な感じでした。

実際、馬が疝痛になると脱水症状につながりやすく、結果として 「ヘマトクリット(赤血球容積比)」も高くなるそうです。ノード11・12がその部分にあたるのですが、ノード12では、当値が高くなると死亡率が高まるのが見てとれます。



なお、手順12のように「出力」パレットにある「精度分析」ノードを配置した上で、「テーブル」ノードを使ってデータを表示すると予測結果の確認も出来るので、ご興味ありましたらご覧ください。

その他:SPSS Moder関連エントリー


SPSS Modelerでアソシエーション分析がしたいっ! (前処理編〜縦持ちを横持ちへ)
http://sapporomkt.blogspot.jp/2017/06/spss-modeler.html


「SPSS Modeler Text Analytics」によるテキストマイニング(データ読み込みからグラフ化)http://sapporomkt.blogspot.jp/2016/07/spss-modeler-text-analytics.html

「SPSS Modeler」におけるデータ操作及びシーケンスデータの取り扱いまとめ
http://sapporomkt.blogspot.jp/1970/01/spss-modeler_1.html

SPSS Modelerでリーディングサイアーデータ分析:前処理(レコード追加等)
http://sapporomkt.blogspot.jp/2016/05/spss-modeler.html

SPSS Modelerで「サイアー/ブルードメアサイアー」データをレコード結合
http://sapporomkt.blogspot.jp/2016/05/spss-modeler_13.html

2016年7月16日土曜日

RMeCabで形容詞の形態素解析をやってみた。

 最近、テキストマイニングがマイブームです。
普段は「kh coder」や「TTM(Tiny Text Mininer)」か、弊社のテキストマイニングツールを使っているのですが、R言語のエントリーでRMeCabを使ったものがあったので、妙に触りたくなりました。

 今回は、クチコミサイトにあったクレジットカードのレビューをサンプルデータにグラフ化までやってみます。

・OS:Windows7
・R version:R version 3.3.0 (2016-05-03)
・IDE:RStudio ver0.99.902
・データ件数:1,575件

「RMeCab」とは?


オープンソースの形態素解析エンジンである「MeCab(めかぶ)」をR環境から直接利用できるパッケージです。

RMeCabのインストールはR環境からコマンドコピペ一発で出来ますが、MeCabのインストールはやや苦戦するかもしれません。ご利用になるRのバージョンに合致するMeCabをご確認の上、インストールしてください(・・・って、言うほど難しくないです)。

(参考ページ)RMeCab
http://rmecab.jp/wiki/index.php?FrontPage

ソースコード


# パッケージのロード
library(RMeCab)

# read.csvとか使わずに、RMeCabから直接読み込めるのは便利ですね。
card.res <- RMeCabFreq("card.txt")

# str()でデータフレーム構造を確かめておきましょう。

> str(card.res)
'data.frame':    9798 obs. of  4 variables:
 $ Term : chr  "あ" "あー" "あの" "え" ...
 $ Info1: chr  "フィラー" "フィラー" "フィラー" "フィラー" ...
 $ Info2: chr  "*" "*" "*" "*" ...
 $ Freq : int  3 1 3 8 7 8 6 3 2 1 ...


# Info1には品詞情報が入っています。今回は「50回以上頻出」した「形容詞」を抽出します。
card_adj_50over <- card.res[(card.res$Info1=="形容詞"&card.res$Freq > 50),]

# とりあえず、頻出回数順に降順でソートをかけておきます。
card_adj_de <- card_adj_50over[order(card_adj_50over$Freq,decreasing = T),]

# もう一回データフレーム構造を見ておきましょう。
str(card_adj_dec)

> str(card_adj_dec)
'data.frame':    20 obs. of  4 variables:
 $ Term : chr  "ない" "良い" "やすい" "多い" ...
 $ Info1: chr  "形容詞" "形容詞" "形容詞" "形容詞" ...
 $ Info2: chr  "自立" "自立" "非自立" "自立" ...
 $ Freq : int  989 676 487 456 431 358 277 247 142 140 ...


# 都度データフレーム名を入力するのは面倒なので、「attach」しておきます。
attach(card_adj_dec)

# グラフを作りたいのでggplot2をロードしておきます。
library(ggplot2)

# 描画レイヤーを一枚ずつ重ねあわせる
g <- ggplot(
  card_adj_dec,          # ggplot 用データフレーム
  aes (                     # ggplot オプション設定
    x = Term,            # x軸:Term
    y = Freq,             # y軸:Freq
  )
)
g <- g + geom_bar(   # 縦棒グラフの指定
  width = 0.8,           # 棒の幅
  stat = "identity"
)
g <- g + xlab("形容詞")           # x 軸名
g <- g + ylab("頻出回数")       # y 軸名
g <- g + ggtitle("クレジットカードレビューにおける形容詞ランキング")   # グラフ名

# グラフ描画。うーん、せっかく元データを降順にしたのに、反映されていない。。^^;
# 次回までに勉強しておきます。
plot(g)


R言語関連のエントリー


【R言語】leafletで札幌市内のサツドラをプロットしてみた。
http://sapporomkt.blogspot.jp/2016/01/rleaflet_4.html

【R言語】今年は、leafletでマップをグリグリしたい。
http://sapporomkt.blogspot.jp/2016/01/rleaflet.html

【R言語】factor型で数値を集計するときの注意点
http://sapporomkt.blogspot.jp/2016/01/rfactor.html

【R言語】ベクトルにおける関数の使い方
http://sapporomkt.blogspot.jp/2015/12/r_80.html 

【R言語】「rpivotTable」パッケージが高機能過ぎて泣ける件
http://sapporomkt.blogspot.jp/2015/11/rrpivottable.html

【R言語】どうしても「ディープインパクト」全産駒の内訳を集計したくなったの<前処理編>。
http://sapporomkt.blogspot.jp/2015/10/r.html 

AEIが優秀な種牡馬を調べてみたら・・・やっぱりディープ(略)
http://sapporomkt.blogspot.jp/2015/10/aei.html

過去5年間のリーディングサイアー成績を眺めてみた~ディープインパクトって実際・・・
http://sapporomkt.blogspot.jp/2015/10/5.html

(R言語)readHTMLTable関数でJ2の順位を音速で抜き出す。
http://sapporomkt.blogspot.jp/2015/07/rreadhtmltablej2.htm



2016年7月9日土曜日

Oracle Modern Business Experiences 2016に相沢直人氏が登壇!

「Oracle Modern Business Experiences 2016」に前職時代(札幌の広告会社:インサイト)の私の部下で、同社マーケティングディレクターの相沢直人氏が登壇されるようです。




開催日時:2016年7月27日(水)10:00~17:00
会場:シェラトン都ホテル東京
住所:東京都港区白金台1-1-50
タイトル:観光×地域×クラウド 産官学連携が切り開く観光新時代!
 
>相沢様
 ぼく、「マルセイバターサンド」が食べたいです。。


(参考)日本オラクル「POCO」コンテスト受賞しましたっ!!
http://sapporomkt.blogspot.jp/2015/11/poco.html

「SPSS Modeler Text Analytics」によるテキストマイニング(データ読み込みからグラフ化)

 お恥ずかしい限りなのですが、先日、SPSS Modelerから直接テキストマイニングが出来ることを始めて知ったワタクシです。はい、すいません。。
まだまだ勉強中なのですが、まずは、「データの読み込みからグラフ化」からご紹介させて頂きます。

 結論としては、下記のようなアウトプットが簡単にサクッと出来ちゃいます。


※本エントリーは、私、小田一弥が一個人として勉強を兼ねて記載したものです。私の勤務先である日本アイ・ビー・エム株式会社の見解・見識ではない、個人としての記載内容としてご覧ください。  


「SPSS Modeler Text Analytics」に関する基礎知識



■概要
・名前のとおり、SPSS Modelerからテキスト分析機能を提供するプログラム。
・高度な言語テクノロジと自然言語処理 (Natural Language Processing、NLP) を使用し、さまざまな構造のないテキストデータを高速で処理が可能。
・分析対象となるテキストから重要な「コンセプト」を抽出および整理し、これらのコンセプトをカテゴリーにグループ化する。

まぁ、だいたいわかったのですが、「コンセプト」だけは初見だったので調べました。

■「コンセプト」とは:
・SPSS Modeler Text AnalyticsやSPSS Text Analytics for Surveysによって抽出されたキーワード(単語だけはなく複合語も含む)のこと。
・「キーワード抽出」のみを実行すると非自立語を除いた自立語部分を抽出結果として出力する。

自立語:単独でひとつの文節を作ることが出来る単語
非自立語(付属語):単独では文節を作れず、常に単語のあとに付く単語

(例)  大きな  でした


ちなみに、「コンセプト」と合わせて「タイプ」という言葉もよく出てきます。

■「タイプ」とは:
・抽出された「コンセプト」における「名詞・動詞・形容詞」といった品詞分類なもの。
・SPSSの場合、固有名詞(「人名、地名、組織名」等)は名詞とは別に分類される。

「データ読み込みからグラフ化」までの手順


他にも色々言及すべき点はあると思いますが、そろそろ飽きられる段階かなーと思いはじめてますので、データ読み込んでグラフ化までやってみます。

■今回の作業環境
・OS:Windows7 Professional(SP1)
・IBM SPSS Modeler Premium 18.0
・IBM SPSS Modeler Premium Japanese(Extractor)18.0 (※1)
・クチコミサイトのクレジットカードに関するレビューデータ(1,575件) (※2)
※1:日本語のテキストマイニングには、「Japanese Extractor」のインストールが必要です。
※2:今回は作業手順のご紹介を目的としているため、細かいデータクリーニングはしておりません。マイニング結果については、サンプルデータ程度の扱いでご覧ください。



■以下手順
1.「Excel」ノードの配置
 入力パレットにある「Excel」ノードを配置してください。
今回、入力データがExcel形式のためですが、データ構造さえ問題なければ、もちろん、他の形式でもOKです。



2.データ内容チェック
 毎回ですが、「テーブル」ノードと「データ検査」ノードでデータ内容をご確認ください。満足度の高低とテキストマイニング結果の関係性を見ても面白そうですね。




3.「テキストマイニング」ノードを配置
 「IBM SPSS Text Analytics」パレットから「テキストマイニング」ノードを配置し、「Excel」ノードにつなげてください。


4.テキストマイニング対象データの読み込み
 「テキストマイニング」ノードを開き、「フィールド」タブの「テキストフィールド」から読み込ませたいカラム(列)を指定してください。


 「モデル」タブのデフォルト状態です。「リソースのコピー元」で「Opinions(Japanese-(感性意見))」になっているのをご確認ください。


 「エキスパート」タブもデフォルト状態では下記のようになっているはずです。


 上記を確認のうえ、「OK」ボタンを押してください。
こんか感じでカリカリ何か(=コンセプトの抽出作業)をやっています。自分のPC環境では1分弱かかりました。


5.「カテゴリー」を作成
 メニューの「カテゴリー」から「カテゴリーを作成」を選択してください。


 人生は短いです。今回は「今すぐ作成」押してください。あっという間に「カテゴリー」が生成されます。

6.グラフ化!
 とりあえず、お好きなカテゴリーを選択して、「カテゴリー」ペイン右上にある「表示」ボタンを押してください。
下記画像のようなダイアログが表示されますが、「いいえ」でお願いします。


「カテゴリー棒グラフ」です。ソートも出来ます。


「カテゴリーWeb」です。


うーん、ちょっとゴチャゴチャしてますね。タブのメニューにある「スライダーを表示」ボタンを押して調整してください。


「カテゴリーWebテーブル」です。
「カテゴリーWeb」と同じ情報をテーブル形式で表示します。


今回は、以上です。
次回はもう少し突っ込んだ使い方もご紹介出来ればと考えております。

その他:SPSS Moder関連エントリー


(無料)Watson StudioでSPSS Modeler flowの決定木を動かす

(Watson)Personality InsightsのJSONをR言語でパースしてみた

Watson Studioの「Data Refinery」機能で「馬の疝痛(せんつう)」データを眺めてみた。

SPSS Modelerでアソシエーション分析がしたいっ! (前処理編〜縦持ちを横持ちへ)
http://sapporomkt.blogspot.jp/2017/06/spss-modeler.html


「SPSS Modeler」におけるデータ操作及びシーケンスデータの取り扱いまとめ
http://sapporomkt.blogspot.jp/1970/01/spss-modeler_1.html

SPSS Modelerでリーディングサイアーデータ分析:前処理(レコード追加等)
http://sapporomkt.blogspot.jp/2016/05/spss-modeler.html

SPSS Modelerで「サイアー/ブルードメアサイアー」データをレコード結合
http://sapporomkt.blogspot.jp/2016/05/spss-modeler_13.html