2017年4月30日日曜日

Watson Explorerでディズニーの人気作品をテキストマイニング

唐突ですが、問題です。
これからご紹介するデータは The Internet Movie Script Database (IMSDb)※1に公開されているとある「ディズニー映画の脚本(Script)」をWatson※2で解析した結果です。
ずばり、その映画タイトルとは何でしょう?
※1:http://www.imsdb.com/
※2:Watson API:Personality Insightsデモサイト

https://www.ibm.com/watson/jp-ja/developercloud/personality-insights.html#try-it-out

  ※本エントリーは、私、小田一弥が一個人として勉強を兼ねて記載したものです。私の勤務先である日本アイ・ビー・エム株式会社の見解・見識ではない、個人としての記載内容としてご覧ください。


Watson Personality Inights(PI)


<「前フリ」に関するおことわり>
 本エントリーは、IBMのテキストマイニングソリューションである「Watson Explorer(WEX)」のご紹介がメインですが、まずは、これから掲載するのは、「Watson Personality Insights」でアウトプットした内容となります。

■Personality Insightsとは:
ツイート分析や他のSNS分析を通じて、人間の性格の特性、要求、価値観をより深く理解し、パーソナライゼーションを強化します。

まずは、「性格特性」です。「作品のらしさ」が表われているのは、このあたりでしょうか。
※画像をクリックして拡大表示してください。

 ・気分が沈みがちなタイプです.
 ・興奮を求めるタイプです: リスクを取ることで高揚し、忙しくないと退屈に感じます.
 ・他人と対立することに尻込みしません. また、安定しているタイプです.
 ・自己表現を意識して意思決定するタイプです.

右側は、「カントリー・ミュージックを好む」傾向は低いという解析結果になっています。
うん、確かに、もっとアップテンポな曲を、比較的、最初から最後まで歌っている感じはあります。
あと、「クレジットカード」は、そもそも使える世界ではありませぬ(笑)


「自己表現」や「自由主義」が高いところがヒントになりそうです。ふふふふ。


いちおう、サンバーストチャートも掲載しておきますね。


さぁ、わかりましたか?

アレですよ、アレ。アレでございますよ。

・・・えっ、わからない? 一切、ヒント無しです。シンプルに考えればわかるかもしれません。

 そう、

ありのまま、「レリゴーでいいんですっ!!


いやー、全くわかりませんね、難問ですのでそろそろ映画タイトルを発表します。

 正解は、

・・・




「FROZEN」(邦題「アナと雪の女王」)でした。


・・・社風に合わないテーストの前フリはこの程度にしまして、WEXでサクっと見た内容をご紹介させて頂きます(汗)。


Watson Explorer(WEX)の解析結果をご紹介


 以下は、今回の解析に用いたデータ概要です。

解析対象データ
・解析対象データ:IMSDbの「Frozen」に関して記載されたレビュー
・データ期間:2013年11月20日~2017年2月2日
・データ件数:931件

 とりあえず、データの全体像を把握するために、全件の時系列グラフを確認してみます。
以下は、WEXの「時系列タブ」で出力した「月別」グラフですが、確かに映画が封切られた2013年11月からレビューが発生していることがわかりますね。

ち なみに、月別も含め、WEXでは「年、月、日、年ごとの各月、月ごとの各日、各曜日」別に集計が可能です。コールセンター等におけるVOC(Voice Of Customers)分析では、月末・月初・中日・週初め・週末などで周期性のある事象が発生するので、結構お世話になる機能のひとつです。


 次に、どのような単語が頻出しているのか確認してみましょう。
WEX には既存でプリセットされている「ファセット(分析の切り口)」があります。試しに「名詞」ファセットで各キーワードの頻度を確認すると、上位から6番目 に「song(570回)」があることがわかります。日本でも「松たか子」さんや先ごろご結婚された「神田沙也加」さんらの挿入歌が話題になりましたもん ね。


  また、プリセットファセットの中でオススメなのが「Voice of Customers」。文字通り、VOC分析でウォッチしたいキーワード群がおさめられています。今回は、「Unfavorable(嫌悪)」で集計して みましたが、上位には「problem」「lose」「accident」など、映画をご覧になった方であれば腹オチするキーワードが頻出していることが わかります。

 なお、この「VOC」、確かに便利ではありますが、これで全てのVOC分析をカバー出来ると考えるのではなく、あくまでも自社用のVOCファセットを作る際のマテリアル(ネタ元)としてご利用ください。
(最終的に、ファセット構築は各分析対象データの内容や品質に依存しますので、 プリセットで全て分析できると考えるのは早計です)


WEXのファセットは、プリセット以外に様々な方法で自分用のファセットを実装することが可能です。
今回は、「ユーザー辞書」という「同義語」をピックアップする機能で「キャラクター名」ファセットを作ってみました。

 結果は、「へぇ~」な感じですが、かわいい雪だるま君の「Olaf」は流石に人気モノですね。
一方、同じ雪ダルマ(?)のMashmallowですが、確かに自分も名前を知らなかったです。

1.Elsa(460回)
2.Anna(431回)
3.Olaf(347回)
4.Hans(245回)
5.Kristoff(209回)
6.Sven(126回)
7.Mashmallow(7回)


 最後に「評判タブ」機能もご紹介します。こちらは、ファセットに含まれる各キーワードが含まれるレコードの「評判」を「好評・拮抗・不評」の割合で表現してくれます。

 今回は上記で実装した主要キャラクターのファセットで集計したのですが、確かに頻度数の多いキャラクターの中で「Elsa」の不評率が高いのは、アレやコレやアレをやって誰かさんに迷惑をかけちゃったことが推察されますね(ネタバレ防止に最大限留意しております!w)


今回のWEX機能紹介は以上となります。
次回はちょっとしたTipsなども触れていければと考えております。


Watson関連エントリー


 Watson Explorer Content Analytics(WCA)の紹介動画を紹介したいんです。
http://sapporomkt.blogspot.jp/2017/03/watson-explorer-content-analyticswca.html

分析の常識が変わる?「Watson Analytics」すげー!!
http://sapporomkt.blogspot.jp/2016/01/watson-analytics.html 

「データ・ビジュアライゼーション」でも便利な「Watson Analytics」。
http://sapporomkt.blogspot.jp/2016/01/watson-analytics_13.html

 いま話題のIBM「Bluemix(ワトソンくん)」が「老人と海」をサマったら。
http://sapporomkt.blogspot.jp/2015/11/ibmbluemix.html

「Watson」先生に、AdSenseビンボーの理由を聞いてみた・・・
http://sapporomkt.blogspot.jp/2016/01/watsonadsense.html

0 件のコメント:

コメントを投稿