2017年7月23日日曜日

「Rの検索関数」まとめ

備忘録代わりに「Rでの検索関数」をまとめてみました。
実施環境については、以下の通りです。

・MacBook Air(CPU:1.6GHz,Memory 8GB)
・macOS Sierra ver10.12.3
・RStudio ver 1.0.136

apropos関数〜「機能」の検索


・利用したい「機能」の検索に使用する。
・検索キーワードには、単語もしくは単語の一部を指定する。
・「mode引数」にオブジェクトのモードを指定すると、検索結果を絞り込める。

# 「部分一致」での検索
apropos("tit")
[1] "attitude"               "identity"             
[3] "substitute"             "substituteDirect"     
[5] "substituteFunctionArgs" "Titanic"              
[7] "title"

# オブジェクトのモードを確認
mode(Titanic)
[1] "numeric"

# モードを指定して検索すると、先ほどの「Titanic」データセットだけが表示される。
apropos("tit", mode = "numeric")
[1] "Titanic"

find関数〜「環境やパッケージ名」の検索


・指定したキーワードで環境やパッケージ名を検索する。
・「simple.words = FALSE」オプションを指定すると「部分一致」での検索も可能。
・正規表現(以下では文頭を表す「^」を使用)

# iris(アヤメ)のデータセット名を検索。
find("^iris",simple.words=FALSE)

R関連エントリー


RESASの不動産取引データでheatmapを作ってみた。
http://sapporomkt.blogspot.jp/2017/05/resasheatmap.html 

RESASデータを「IBM Data Scientist Workbench」でゴニョゴニョしてみた。
http://sapporomkt.blogspot.jp/2017/05/resasibm-data-scientist-workbench.html

ggplot2でクロス集計的に複数グラフをプロットする方法
http://sapporomkt.blogspot.jp/2016/11/ggplot2.html

R開発環境が無料で簡単導入!「Data Scientist Workbench」を使ってみた。

http://sapporomkt.blogspot.jp/2016/10/rdata-scientist-workbench.html

(Bluemix)知ってた?dashDBってTwitter分析にもツカエルのさ(+ちょっとだけコンサドーレ調べ)
http://sapporomkt.blogspot.jp/2016/07/bluemixdashdbtwitter.html

RMeCabで形容詞の形態素解析をやってみた。
http://sapporomkt.blogspot.jp/2016/07/rmecab.html

【R言語】今年は、leafletでマップをグリグリしたい。
http://sapporomkt.blogspot.jp/2016/01/rleaflet.html

(R言語)当ブログアクセス者の興味関心事をコレポン(コレスポンデンス)した。
http://sapporomkt.blogspot.jp/2015/12/r.html

2017年6月2日金曜日

SPSS Modelerでアソシエーション分析がしたいっ! (前処理編〜縦持ちを横持ちへ)

色々あって、「SPSS Modeler」で「アソシエーション (マーケット・バスケット)分析」がしたくなりました。
「オムツを買う人はビールを買うことも多い」とかなんとかのアレです。

単なる練習というよりは、実業務で使うことを想定したいので、インスタンス数は数十万件ぐらいのデータをやっつけたいです。

今回のゴールは、「アソシエーション分析」の前処理として、下記のようなストリームを作ります。


なお、実施環境については、以下の通りです。
・MacBook Air(CPU:1.6GHz,Memory 8GB)
・macOS Sierra ver10.12.3
・SPSS Modeler ver18.0

※本エントリーは、私、小田一弥が一個人として勉強を兼ねて記載したものです。私の勤務先である日本アイ・ビー・エム株式会社の見解・見識ではない、個人としての記載内容としてご覧ください。  


まずはサンプルデータを探そう!


探してみて実感したのですが、数十万件クラスでアソシエーション分析に使えるサンプルデータってなかなか無いんですよね。
そんなとき、役に立つのが、ご存知(?)「Machine Learing Repository」!!


このデータですが、2010/12/1から2011/12/9における海外ECサイトの購入トランザクションデータとなっております。インスタンス数は、なんと、541,909件!! ありがとう!UCI!

データ取得はとても簡単です。画像の赤枠内にある「Data Folder」のリンクをクリックして「xlsx」形式のままローカルに保存してください。

ファイルを開くと・・・おっと、縦持ちデータ(LONG型)になっているではありませんか。
アソシエーション分析を実施するためには、 一旦、横持ちデータ(WIDE型)にする前処理が必要になります。


前処理を始めよう!〜「縦持ち」を「横持ち」データに


データ準備もできたところで、早速、「SPSS Modeler」によるデータ加工を始めます。

1.Excelデータの読み込み
 「入力」パレットから「Excel」ノードを選択してください。
「インポートファイル」の「...」ボタンから先程ダウンロードしたファイルを指定して読み込ませてください。


 2.「データ検査」の実施
 こんなに膨大なデータになると、欠損値が混入しているかもしれません。
「出力」パレットにある「データ検査」ノードを選択後、何も変更せずに「OK」ボタンを押してください。


結構なデータ件数なので、自分のマシンで2分ぐらいカリカリ処理していました。


処理が完了すると、下記のような画面が表示されます。「有効」の列を見てもいいのですが、「欠損値検査」タブをご確認ください。


「非欠損値の割合」列を見ると欠損値が入っていることがわかりますね。


3.欠損値が入ったインスタンスの除外
欠損値が入っているインスタンスを除外する方法は他にもあるのですが、今回はお手軽なやり方で行きましょう。

先程の「欠損値検査」タブの「生成」メニューから「欠損値選択ノード」を選択してください。


「レコードが次の状態の時に選択:」横にある「有効」ラジオボタンを選択し、「OK」を押してください。


「生成」ノードが出来るので「Excel」ノードからつなげてください。


「データ検査」ノードで再確認すると、「非欠損値の割合(%)」が100%になっていることがわかりますね。


4.尺度を「名義型」に変更
「フィールド設定」パレットにある「データ型」ノードを配置し、「生成」ノードからつなげてください。
「データ型」ノードを開き、反転表示させているフィールドの尺度を「名義型」に変更したいのですが、このデータでは尺度変更が正しく反映されません。

「ツール」メニューの「ストリームのプロパティ」から「オプション」を選択してください。


「オプション」タブの「名義型フィールドの最大メンバー」のチェックを外してください。
チェックがついたままだと、250項目を超えるフィールドの名義型変更が出来なくなります。


「データ型」ノードを開いて、反転表示させているフィールドの尺度を「名義型」に変更し、「値の読み込み」ボタンを押してください。以下のようになっていれば「OK」ボタンを押してください。


5.「再構成」ノードによる「数値フラグ」への変換
・「フィールド設定」タブから「再構成」ノードを選択し、「データ型」ノードにつなげてください。
・「利用可能なフィールド」で「Description」を選択すると、「利用可能な値」にフィールド内の項目が表示されるので、全選択し「→」ボタンを押してください。
※前述の「データ型」ノードで尺度を「名義型」に変更しないと、プルダウン内に表示されません。
 ・「数値フラグ」ラジオボタンを選択後、「OKボタン」を押してください。


6.「InvoiceNo」を「レコード」集計でまとめる
・「レコード設定」タブから「レコード集計」ノードを選択し、「データ型」ノードにつなげてください。
・「デフォルトモード」で「最大」だけ選択し、下記画面のような選択状態にした上で「OK」ボタンをお押してください。


7.「InvoiceNo」をソートする
「レコード設定」パレットで「ソート」ノードを選択し、「InvoiceNo」で昇順ソートしてください。


最後に「テーブル」ノードで確認しましょう。
全ストリームを流すので処理完了まで数分かかります。自分の環境では10分ほどかかりました。


これで「縦持ちデータ」が「横持ちデータ」となりました。
次回はこのデータを用いてアソシエーション分析を行います。
(再度、ストリームを流すとまた10分以上かかるので、ソート後のデータをCSV形式で保存されることをお勧めいたします)

その他:SPSS関連エントリー


 SPSS Modelerだと「Kohonenネットワーク」が超簡単。http://sapporomkt.blogspot.jp/2016/09/spss-modelerkohonen.html

(参考)SPSS Modelerでクラスター分析をやってみた(K-Means)
http://sapporomkt.blogspot.jp/2016/08/spss-modelerk-means.html

SPSS ModelerからStatistics用ファイルを出力する方法
 http://sapporomkt.blogspot.jp/2016/08/spss-modelerstatistics.html

(SPSS Modeler)馬の疝痛データを誰でもカンタン決定木♪
http://sapporomkt.blogspot.jp/2016/07/spss-modeler.html

「SPSS Modeler Text Analytics」によるテキストマイニング(データ読み込みからグラフ化)
 http://sapporomkt.blogspot.jp/2016/07/spss-modeler-text-analytics.html

「SPSS Modeler」におけるデータ操作及びシーケンスデータの取り扱いまとめ
http://sapporomkt.blogspot.jp/1970/01/spss-modeler_1.html

SPSS Modelerでリーディングサイアーデータ分析:前処理(レコード追加等)
http://sapporomkt.blogspot.jp/2016/05/spss-modeler.html

SPSS Modelerで「サイアー/ブルードメアサイアー」データをレコード結合
http://sapporomkt.blogspot.jp/2016/05/spss-modeler_13.html

2017年5月20日土曜日

RESASの不動産取引データでheatmapを作ってみた。

前回、「RESAS(リーサス:地域経済分析システム)」で公開されている各都道府県における「大規模土地取引」データで遊んでみました。

RESASデータを「IBM Data Scientist Workbench」でゴニョゴニョしてみた。
http://sapporomkt.blogspot.jp/2017/05/resasibm-data-scientist-workbench.html

今回は、このデータを使って「heatmap」を作ってみます。
最終的には、下記のようなアウトプットを目指します。

<2015年:都道府県別の大規模土地取引件数(内訳)>

データの取得方法については、上記の前回エントリーをご覧ください。
なお、実施環境については、以下の通りです。

・macOS Sierra ver10.12.3
・R version:3.3.3
・RStudio:1.0.136

分析手順のご紹介


冒頭のデータ読み込み部分は前回エントリーと同じです。

# データの読み込み
fudousan.dat <- read.csv("fudousan.csv",header = TRUE, stringsAsFactors = F,fileEncoding = "cp932")

# 読み込んだデータ内容の確認
View(fudousan.dat)

head(fudousan.dat)でも確認できますが、個人的にはこちらの方が好きです。


# カラム名の変更
fudousan2.dat <- fudousan.dat %>%
dplyr::rename(year = 集計年,pref_code = 都道府県コード, pref_name = 都道府県名, usage_code = 利用目的種別コード, usage = 利用目的種別名, deal_count = 取引件数.件., deal_field = 取引面積.u.)

# 2015年データの抽出:直近の状況を知りたいので、下記のようにしましたが、抽出したい年数を変えたい場合は「2015」部分を書き換えてください。
# ちなみに、dplyr関数でよく使う「%>%」は、Unixのshellでいう「パイプ」と同じ役割を果たします。RStudio上では「Ctrl+Shift+m」で入力できるので是非覚えましょう。
# 「!=」は「not equal」の意味です。「filter」以降の3条件は「AND」条件として処理されます。
fudousan2015.dat <- fudousan2.dat %>%
dplyr::filter(year == 2015,pref_name != "すべての都道府県", usage != "すべての利用目的")

# エリア x 利用用途 で 取引件数 を抽出:[ ,c(3,5,6)]の( )内は列番号を示しています。
fudousan3.dat <- fudousan2015.dat[,c(3,5,6)]

# 参考までに「縦持ち」データを「横持ち」データに変換してみます。
fudousan4.dat <- fudousan3.dat %>%
tidyr::spread(usage,deal_count)


うーん、まぁ、これぐらいの情報量ならセーフかもしれませんが、ちょっと見づらいですねぇ。

# heatmap作成
p <- ggplot(fudousan3.dat,aes(as.factor(usage),as.factor(pref_name))) +
geom_tile(aes(fill=deal_count)) +
scale_fill_gradient(low="white",high="red") +
theme_bw(base_family = "HiraKakuProN-W3")

# 上記のままだとX軸のラベルが潰れるので、微修正を追加。
p + labs(x = "",y = "") + scale_x_discrete(expand = c(0, 0)) + scale_y_discrete(expand = c(0, 0)) +  theme(axis.ticks = element_blank(), axis.text.x = element_text(size = 10, angle = 330, hjust = 0, colour = "grey50"))

<2015年:都道府県別の大規模土地取引件数(内訳)> 

前回エントリーでも言及しましたが、「北海道」における「資産保有・転売等目的」の取引件数は多いようですね(「大規模」になる土地の広さも影響していると思いますが)。
また、「静岡県」の「病院等その他の利用目的」が多いのも特徴的ですね。

このような感じで、わずか数行のコードでヒートマップが出力出来ちゃいました。
ggplot2の記法がやや取っつきにくいですが、一度コードを書いてしまえば後は転用できるのがRのいいところ。ご興味ありましたら、是非お試しください。

(参考サイト)
ヒートマップで行列を可視化する! -ggplot2を用いたmicroarray発現量の可視化をしよう!
http://tomoshige-n.hatenablog.com/entry/2014/08/15/235510

R関連エントリー


RESASデータを「IBM Data Scientist Workbench」でゴニョゴニョしてみた。
http://sapporomkt.blogspot.jp/2017/05/resasibm-data-scientist-workbench.html

ggplot2でクロス集計的に複数グラフをプロットする方法
http://sapporomkt.blogspot.jp/2016/11/ggplot2.html

R開発環境が無料で簡単導入!「Data Scientist Workbench」を使ってみた。

http://sapporomkt.blogspot.jp/2016/10/rdata-scientist-workbench.html

(Bluemix)知ってた?dashDBってTwitter分析にもツカエルのさ(+ちょっとだけコンサドーレ調べ)
http://sapporomkt.blogspot.jp/2016/07/bluemixdashdbtwitter.html

RMeCabで形容詞の形態素解析をやってみた。
http://sapporomkt.blogspot.jp/2016/07/rmecab.html

【R言語】今年は、leafletでマップをグリグリしたい。
http://sapporomkt.blogspot.jp/2016/01/rleaflet.html

(R言語)当ブログアクセス者の興味関心事をコレポン(コレスポンデンス)した。
http://sapporomkt.blogspot.jp/2015/12/r.html

2017年5月14日日曜日

RESASデータを「IBM Data Scientist Workbench」でゴニョゴニョしてみた。

「地方創生」プランニングの中核を成す分析システムとして提供されているRESAS(リーサス:地域経済分析システム)ですが、実は、一部の機能において集計前ローデータが提供されています。

今回は、Cloud上でビックデータで分析が可能な「IBM Data Scientist Workbench」を使って、軽くゴニョゴニョやってみます。Workbenchでの分析環境は「RStudio」を使用します。

※本エントリーは、私、小田一弥が一個人として勉強を兼ねて記載したものです。私の勤務先である日本アイ・ビー・エム株式会社の見解・見識ではない、個人としての記載内容としてご覧ください。   


サンプルデータの登録手順



以前、当ブログでデータ登録手順は軽く触れたことがありますが、もう少し丁寧におさらいしてみます。

1.利用申請後、「Data Scientist Workbench」にアクセスし、「LOGIN」を選択。
 https://my.datascientistworkbench.com/


2.ログイン処理を実施。
「ユーザー名/メールアドレス」「パスワード」を入力してください。各種SNSでもログイン可能です。


3.「マイ・データ」を選択。
「データ管理」→「マイ・データ」を選択してください。


 下記のようにファイルパスが表示されます。フォルダの作成/削除なども当画面で実施可能です。


4.RESAS(リーサス:地域経済分析システム)からデータをダウンロード。
リーサスにアクセス後、「まちづくりマップ」→「不動産取引」を選択してください。
グラフ画面の右下に「データをダウンロード」ボタンからデータをダウンロードしてください。

(参照)「RESAS(リーサス:地域経済分析システム)」ページ

当然、こちらで取得可能なデータはリーサス上でも閲覧可能ですが、UIの限界もあってか、詳細は分析は別のツールを用いる必要があります。


ダウンロードデータの解凍フォルダ内です。この中から「まちづくりマップ_不動産取引_大規模土地取引_都道府県.csv」を使います。400KB以上もあるので、そこそこのデータ件数です。

このままのファイル名でも取り込めますが、今のうちに「fudousan.csv」に変更しておきます。


5.ファイルをアップロード。
「Data Scientist Workbench」画面に戻り、「Upload Data」を選択してください。


なんと、ドラッグ&ドロップ一発でファイルのアップロードが出来ちゃいます。
便利ですねぇ〜(しみじみ)


「RStudio」での分析手順


「Data Scientist Workbench」で使用する「RStudio」ですが、高度な使い方をしない限り、ローカル版と大きな差は感じないと思います。

1.「RStudio」を起動。
左上の「BDU Labs」を選択し、下記画面から「RStudio IDE」を選択してください。


2.作業ディレクトリの変更。
ブウラザ上で「RStudio」が起動するのでメニューの「Session」→「Choose Directory」から先ほどデータをアップロードしたフォルダを選択してください。



上記画面で「Choose」を選択すると、「RStudio」画面左下のペインに「setwd("/resources/data/rstudio_data")」という文字が表示されます。
 本来は、「setwd」関数で手入力する作業ディレクトリ変更の処理がGUIで出来ましたよ ということですね。


3.Rのソースコードを入力!
あとは、以下のソースコードを入力するだけですが、「Data Scientist Workbench」のおける「RStudio」はほぼデフォルトインストールの状態のため、分析に必要なRのパッケージを随時インストールする必要があります。

コンソール画面に手入力してもいいのですが、「RStudio」の場合、下記のようにすると楽です。

「Tools」→「Install Packages」を選択すると下記のようなダイアログが表示されます。


ローカルインストール版と同様、パッケージ名の補完も動いてくれます。

※インストールに数分かかります。

インストール後は、適宜、利用するパッケージを下記「library」関数で呼び出してください。

library(ggplot2)

以降、「RStudio」のコンソールペインに入力するソースコードです。

# 作業ディレクトリの変更。先ほどGUIでやっていますけどね。
setwd("/resources/data/rstudio_data")
 # データの読み込み。今回、読み込むデータはWindows環境で作られたようなので、FileEncodingには「cp932」(Shift-JIS)を指定します。
# 「stringsAsFactors」はデフォルトのままだと「factor」型として読み込んでしまうので、「F」(FALSE)オプションをつけて抑制します。
fudousan.dat <- read.csv("fudousan.csv",header = TRUE, stringsAsFactors = F,fileEncoding = "cp932")

# 読み込んだデータ内容の確認
View(fudousan.dat)

# パッケージの呼び出し。インストールは前述の方法でお願いします。
library(dplyr)
library(ggplot2)

# カラム名の変更。日本語のままだと取り扱いが面倒なので変えておきます。
fudousan2.dat <- fudousan.dat %>%
dplyr::rename(year = 集計年,pref_code = 都道府県コード, pref_name = 都道府県名, usage_code = 利用目的種別コード, usage = 利用目的種別名, deal_count = 取引件数.件., deal_field = 取引面積.u.)

# 必要であればIDの追加。今回は不要ですが、パッケージや分析内容によってはID列が必要になったりしますので。
fudousan2.dat <- fudousan2.dat %>%
dplyr::mutate(id=rownames(fudousan2.dat))

# 分析対象データの抽出。下記は「北海道における”すべての利用目的”または"資産保有・転売等目的"」のデータを抽出します。
hokkaido.dat <- fudousan2.dat %>%
dplyr::filter(pref_name == "北海道", (usage == "すべての利用目的" | usage == "資産保有・転売等目的")) 

#今回は、シンプルに「すべての都道府県」データを抽出します。
national.dat <- fudousan2.dat %>%
dplyr::filter(pref_name == "すべての都道府県")

# 下記内容でグラフ化!
ggplot(national.dat, aes(x=year, y=deal_count, colour=usage)) +
geom_line() + theme_bw(base_family = "HiraKakuProN-W3") +
xlab("年") +
ylab("取引件数") +
ggtitle("RESAS:まちづくりマップ〜不動産取引データにおける取引件数(全国)") +
scale_color_hue(name = "利用用途")

・・・豆腐った(笑)
「base_family」を色々と変更したのですが、現時点ではWorkbenchでは豆腐化してしまうようです。もし、Workbench上での改善方法わかる方がいらっしゃったら教えてくださいm(_ _)m


同じコードをローカルで試すと正常に表示されました。もう少し利用用途を減らした方が見やすいですね。ここ数年で「生産設備」が妙に増えていますが、何でしょうか、これ。リーサスのサイトでも確認したのですが、定義が載っていなかったのでこちらもわかる方がいらっしゃったらご教示ください。


一部、ローカル環境とは使用感が異なる部分もありますが、自分で「RStudio」環境を構築する必要がない「IBM Data Scientist Workbench」。今後、Rデビューをご検討中の方にはオススメです^^

「IBM Data Scientist Workbench」関連エントリー


R開発環境が無料で簡単導入!「Data Scientist Workbench」を使ってみた。
http://sapporomkt.blogspot.jp/2016/10/rdata-scientist-workbench.html

2017年4月30日日曜日

Watson Explorerでディズニーの人気作品をテキストマイニング

唐突ですが、問題です。
これからご紹介するデータは The Internet Movie Script Database (IMSDb)※1に公開されているとある「ディズニー映画の脚本(Script)」をWatson※2で解析した結果です。
ずばり、その映画タイトルとは何でしょう?
※1:http://www.imsdb.com/
※2:https://personality-insights-livedemo.mybluemix.net/?vm=r&s=1


  ※本エントリーは、私、小田一弥が一個人として勉強を兼ねて記載したものです。私の勤務先である日本アイ・ビー・エム株式会社の見解・見識ではない、個人としての記載内容としてご覧ください。


Watson Personality Inights(PI)


<「前フリ」に関するおことわり>
 本エントリーは、IBMのテキストマイニングソリューションである「Watson Explorer(WEX)」のご紹介がメインですが、まずは、これから掲載するのは、「Watson Personality Insights」でアウトプットした内容となります。

■Personality Insightsとは:
ツイート分析や他のSNS分析を通じて、人間の性格の特性、要求、価値観をより深く理解し、パーソナライゼーションを強化します。

まずは、「性格特性」です。「作品のらしさ」が表われているのは、このあたりでしょうか。
※画像をクリックして拡大表示してください。

 ・気分が沈みがちなタイプです.
 ・興奮を求めるタイプです: リスクを取ることで高揚し、忙しくないと退屈に感じます.
 ・他人と対立することに尻込みしません. また、安定しているタイプです.
 ・自己表現を意識して意思決定するタイプです.

右側は、「カントリー・ミュージックを好む」傾向は低いという解析結果になっています。
うん、確かに、もっとアップテンポな曲を、比較的、最初から最後まで歌っている感じはあります。
あと、「クレジットカード」は、そもそも使える世界ではありませぬ(笑)


「自己表現」や「自由主義」が高いところがヒントになりそうです。ふふふふ。


いちおう、サンバーストチャートも掲載しておきますね。


さぁ、わかりましたか?

アレですよ、アレ。アレでございますよ。

・・・えっ、わからない? 一切、ヒント無しです。シンプルに考えればわかるかもしれません。

 そう、

ありのまま、「レリゴーでいいんですっ!!


いやー、全くわかりませんね、難問ですのでそろそろ映画タイトルを発表します。

 正解は、

・・・




「FROZEN」(邦題「アナと雪の女王」)でした。


・・・社風に合わないテーストの前フリはこの程度にしまして、WEXでサクっと見た内容をご紹介させて頂きます(汗)。


Watson Explorer(WEX)の解析結果をご紹介


 以下は、今回の解析に用いたデータ概要です。

解析対象データ
・解析対象データ:IMSDbの「Frozen」に関して記載されたレビュー
・データ期間:2013年11月20日~2017年2月2日
・データ件数:931件

 とりあえず、データの全体像を把握するために、全件の時系列グラフを確認してみます。
以下は、WEXの「時系列タブ」で出力した「月別」グラフですが、確かに映画が封切られた2013年11月からレビューが発生していることがわかりますね。

ち なみに、月別も含め、WEXでは「年、月、日、年ごとの各月、月ごとの各日、各曜日」別に集計が可能です。コールセンター等におけるVOC(Voice Of Customers)分析では、月末・月初・中日・週初め・週末などで周期性のある事象が発生するので、結構お世話になる機能のひとつです。


 次に、どのような単語が頻出しているのか確認してみましょう。
WEX には既存でプリセットされている「ファセット(分析の切り口)」があります。試しに「名詞」ファセットで各キーワードの頻度を確認すると、上位から6番目 に「song(570回)」があることがわかります。日本でも「松たか子」さんや先ごろご結婚された「神田沙也加」さんらの挿入歌が話題になりましたもん ね。


  また、プリセットファセットの中でオススメなのが「Voice of Customers」。文字通り、VOC分析でウォッチしたいキーワード群がおさめられています。今回は、「Unfavorable(嫌悪)」で集計して みましたが、上位には「problem」「lose」「accident」など、映画をご覧になった方であれば腹オチするキーワードが頻出していることが わかります。

 なお、この「VOC」、確かに便利ではありますが、これで全てのVOC分析をカバー出来ると考えるのではなく、あくまでも自社用のVOCファセットを作る際のマテリアル(ネタ元)としてご利用ください。
(最終的に、ファセット構築は各分析対象データの内容や品質に依存しますので、 プリセットで全て分析できると考えるのは早計です)


WEXのファセットは、プリセット以外に様々な方法で自分用のファセットを実装することが可能です。
今回は、「ユーザー辞書」という「同義語」をピックアップする機能で「キャラクター名」ファセットを作ってみました。

 結果は、「へぇ~」な感じですが、かわいい雪だるま君の「Olaf」は流石に人気モノですね。
一方、同じ雪ダルマ(?)のMashmallowですが、確かに自分も名前を知らなかったです。

1.Elsa(460回)
2.Anna(431回)
3.Olaf(347回)
4.Hans(245回)
5.Kristoff(209回)
6.Sven(126回)
7.Mashmallow(7回)


 最後に「評判タブ」機能もご紹介します。こちらは、ファセットに含まれる各キーワードが含まれるレコードの「評判」を「好評・拮抗・不評」の割合で表現してくれます。

 今回は上記で実装した主要キャラクターのファセットで集計したのですが、確かに頻度数の多いキャラクターの中で「Elsa」の不評率が高いのは、アレやコレやアレをやって誰かさんに迷惑をかけちゃったことが推察されますね(ネタバレ防止に最大限留意しております!w)


今回のWEX機能紹介は以上となります。
次回はちょっとしたTipsなども触れていければと考えております。


Watson関連エントリー


 Watson Explorer Content Analytics(WCA)の紹介動画を紹介したいんです。
http://sapporomkt.blogspot.jp/2017/03/watson-explorer-content-analyticswca.html

分析の常識が変わる?「Watson Analytics」すげー!!
http://sapporomkt.blogspot.jp/2016/01/watson-analytics.html 

「データ・ビジュアライゼーション」でも便利な「Watson Analytics」。
http://sapporomkt.blogspot.jp/2016/01/watson-analytics_13.html

 いま話題のIBM「Bluemix(ワトソンくん)」が「老人と海」をサマったら。
http://sapporomkt.blogspot.jp/2015/11/ibmbluemix.html

「Watson」先生に、AdSenseビンボーの理由を聞いてみた・・・
http://sapporomkt.blogspot.jp/2016/01/watsonadsense.html

2017年3月20日月曜日

Watson Explorer Content Analytics(WCA)の紹介動画を紹介したいんです。

IBM Watsonファミリーの中でも特に注目度の高いソリューションのひとつに「Watson Explorer(WEX)」があります。

IBM Watson Explorer(オファリングページ)
https://www.ibm.com/smarterplanet/jp/ja/ibmwatson/explorer.html

この「WEX」、コールセンターで蓄積されたお問い合わせ履歴やSNSで発話されたつぶやきデータ等を瞬時に分析することで、大量のデータに埋もれていた新しい気づきや発見を見つけ出すことが可能な「コグニティブ」ソリューションとなります。


私自身も当ソリューションを活用したテキストマイニングプロジェクトを担当しているのですが、本日は、Youtubeで公開されているWEXデモ動画を参考にしながら、簡単に各機能を紹介させていただきます。

  ※本エントリーは、私、小田一弥が一個人として勉強を兼ねて記載したものです。私の勤務先である日本アイ・ビー・エム株式会社の見解・見識ではない、個人としての記載内容としてご覧ください。


Watson Explorer Content Analytics(WCA) Overview動画


・・・でも、英語ですた・・・。だっ、大丈夫です!いまだに弊社ドアの「pull」と「push」を間違う自分でも理解出来る内容ですので(笑)


 公開時期は2016年3月ではありますが、主要な機能はほぼこの動画で理解できるかと思います。また、当動画は幅広い機能を有する「WEX」の中でも集計・分析を行うアプリケーションである「Watson Explorer Content Analytics(WCA)」に関する説明がメインになっています。

 ただ、上記画像でお判りの通り1時間を超える大作動画でございますので(汗)、「とりあえずこの機能だけはお伝えしたい!」と個人的に思うところを「WEX専門用語」解説付きで下記に記載させて頂きました。
(時間表示は、当動画において各コンテンツが紹介されるタイミングです)

21:45 WCAログイン画面
 ブラウザからテキストマイニングを行うアプリケーションである「WCA」画面にログインします。この画面とは別に分析対象データの設定を行う「管理コンソール」画面があります。

22:20 「時系列」タブ
  WCA画面上段にある検索式入力欄で抽出した母数を対象とした時系列グラフを出力します。他にも細かくデータを分析する機能があるのですが、通常の分析作業同様、まずデータの全体傾向を見る際に利用することが多い機能です。
(ちなみにこちらでは、年・月・日別でもグラフ化が可能です)

23:40 「ファセットビュー」タブ
 WCAがデフォルトで分析可能な品詞別(名詞・形容詞・動詞等)ファセット(※1)や、分析対象とするコレクション(※2)に含まれている分析項目別のファセットで集計したファセット値(※3)の出現頻度や相関値がグラフ化して表示されます。

※1:WCAにおける「辞書」。実務上は「商品名ファセット」「チャネルファセット」等を作るイメージです。
※2:WCAで分析対象とするデータソースのことです。
※3:ファセットで集計された各キーワードのことです。

24:22 「偏差ビュー」タブ
 各ファセット値別に、時系列で出現頻度や偏差索引グラフを表示します。
 この機能が秀逸なのは、各ファセット値別に過去数値を元に未来の数値を予測し、異常値になった日のグラフをハイライトしてくれるところです。
 例えば、「(競合も含めた)商品ブランド名ファセット」などを当機能にかけるとコミュニケーションで不評を買った月を瞬時に見つけ出すことが出来たりします。

35:26 「ファセットペアビュー」タブ
 二つのファセットを組み合わせて該当する組み合わせにおけるファセット値の出現頻度や相関値を見ることができます。実際に使わないとわかりにくいかもしれませんが、データ分析における「クロス集計」と近いイメージです。

 前述の「ファセットビュー」と同じ画面と、文字通り「クロス集計」的に表示する「グリッド表示」モードがあります。例えば、コレクション内に顧客属性(性年代等)があれば、それと「商品名ファセット」を組み合わせ、特定のデモグラフィックで言及が多い商品名を探し当てることも可能となります。

38:25 「評判」タブ
 簡単に言うと「センチメント分析」機能です。各ファセット値における「好評・不評・中立」の割合をグラフ化します。また、各割合をクリックすると当該ファセット値を含む原文を表示してくれます。

 他にも既存でビルトインされている辞書など、様々な機能がテンコ盛りなソリューションなのですが、まずは上記ご紹介機能をおさえていただければ一通りは大丈夫かと思います。

 次回はソーシャルデータを取り込んで分析した事例などをご紹介できればと考えています。

Watson関連エントリー


分析の常識が変わる?「Watson Analytics」すげー!!
http://sapporomkt.blogspot.jp/2016/01/watson-analytics.html 

「データ・ビジュアライゼーション」でも便利な「Watson Analytics」。
http://sapporomkt.blogspot.jp/2016/01/watson-analytics_13.html

 いま話題のIBM「Bluemix(ワトソンくん)」が「老人と海」をサマったら。
http://sapporomkt.blogspot.jp/2015/11/ibmbluemix.html

「Watson」先生に、AdSenseビンボーの理由を聞いてみた・・・
http://sapporomkt.blogspot.jp/2016/01/watsonadsense.html

2017年1月1日日曜日

Pythonの開発環境(IDE)「Rodeo」が、いいね!

今年からPythonはじめようかと思い、良さげな開発環境を探していたら
Rで使っている「RStudio」に似た「Rodeo」がいいよと。
インスト直後だけど、確かに良さそうな感じ。

Yhat End-to-End Data Science Platform: Rodeo
https://www.yhat.com/products/rodeo

しかも英語だけど、DataScience用のTutorialもあるって、ホンコレナニコレステキ。


これから少しづつ、Rと並行して勉強していこうと思っています。

Google+ Followers