きっと、ずっと、会議は踊る

エンジニアリングとアイドルとロックンロール

データサイエンティストの憂鬱と退屈

お久しぶりです、サボってました

前回書いた記事

shoe116.hatenablog.com

 の予想外のPVに満足(補足する必要すらないと思うけど、たいした数じゃないし当然自己満)して、その後サボり続けた。少し前に50回以上続く由緒正しき勉強会 データマイニング+WEB @東京 、通称Tokyo Webminingで、同じようなテーマで発表したので*1、今日はそれを掘り下げて書いてみる。ちなみにTokyo Webminingで使った資料は、我ながらよくまとまっていると思っている(当然こちらも自己満)。

www.slideshare.net

もちろん、この「憂鬱」と「退屈」の解決法も同時に提案できれば素晴らしいんだけれど、この手の問題は「相手に理解してもらうこと」自体が解決に向けての小さいけれど大きな一歩、だと僕は信じている。

はじめに:「データサイエンティスト」について

この呼び方が一般的なのかどうかよくわからないし、僕自身はもうそうではない(でも、隣で仕事をしていた人は多分そうだ)。ただ、一般社団法人 データサイエンティスト協会っていう協会*2があるくらいだから、ある程度認知はされているだろう。このエントリでは単に「データ分析を生業にする人」という意味でこの言葉を使う。

当然、データサイエンティストの仕事は以下に述べる憂鬱と退屈を補って余りある魅力とやりがいがあることを、まずはじめに断っておきたい。

データサイエンティストの憂鬱

勉強会でも触れたが、データサイエンティストは特に下記の点で日々憂鬱だ。

  • 「顧客がほんとうに必要だったもの」が曖昧
  • 「価値の進捗」が顧客から見えにくい
  • 日本人は確率と統計に疎い

顧客がほんとうに必要だったもの

ニコニコ大百科の「顧客が本当に必要だったものとは 」がとても詳しいので、ここではかの有名なイラスト*3を貼っておくに留める。

f:id:shoe116:20160403182819g:plain

何となく不自然な気もするが、システム開発において「要件定義 (Requirement Definition)」はエンジニア、つまり作る側の仕事だ(参考:要件定義とは: IT用語辞典)。すごく簡単に言えば「顧客が本当に必要な物」を定義する工程で、ある意味必ず失敗するのは上のイラストで察してもらえると思う。僕は、「できる限り手早く片付けて、致命的でない失敗する」ことが要件定義のキモだと考えている(もし間違ってたら、Twitterか何かで優しく教えて下さい)。

開発よりデータ分析でこの工程が憂鬱なのは、顧客からほとんど要件を説明されないことに起因する。開発の時は、少なくとも「作ってほしいもの」は顧客から説明される。一方でデータ分析の場合、少なくとも僕の知っている限りこんな感じだ。

  • 売上(もしくはそれに類するKPI)を上げたい
  • PDCAサイクルを回したい

最悪な場合

  • データを見て何か提案して欲しい

という要件が来たりする(これを要件と呼んで良ければ、だが)。ちなみに、この「最悪な場合」は少なくない頻度で起こる。開発の時以上に、要件定義が辛く苦しい工程になるのは想像に難くないはずだ。

「価値の進捗」が顧客から見えにくい

顧客は、待つのが嫌いだ。逆に言えば、「すぐ価値が提供される」というのはそれだけで価値がある(例えばファストフードやAmazonの「お急ぎ便」がそうだ)。僕は学生時代、居酒屋でバイトしていたけれど、「お通し」の仕組みは本当に偉大だと思う。こいつのおかげで相当数のクレームが未然に防がれているはずだ。もちろん、“ファーストドリンク”は他の注文より優先して提供する。その点で、データ分析作業は宿命的なハンデを抱えている。

基本的にデータ分析は

  1. 要件定義
  2. データ収集・データ加工
  3. 分析

という工程を追う。1. が難しい話はすでに述べたが、2の「データ収集とデータ加工」も相当に厄介だ。簡単に言うと「レシートを集めて、家計簿をつける」作業なので、ただひたすらに面倒ということを除いても、以下の点で辛く苦しい工程なのはわかってもらえると思う。

  • レシートを貰い忘れる、もしくは無くすリスクがつきまとう
  • そもそも、「レシート」が貰えない場合がある
  • 大抵、どこかで数値が合わなくなる

しかし、この工程の本当の憂鬱さは違うところにある。それは、「家計簿をつけただけではお金はたまらない」という周知の事実だ。データを集めて加工しているうちは、顧客に価値の進捗が見えない。

f:id:shoe116:20160403211354p:plain

この間顧客は「待たされている」と感じるだろうし、分析している側も「待たせている」自覚があり、そのストレスに苛まれる。

 日本人は確率と統計に疎い

「日本人は確率と統計に疎い」というのを、僕は常々思っていて、これには明確な理由がある。それは、高校後半まで習わない上、大学受験で捨てても良いからだ*4。データを分析したり、その結果を解釈したりするには

  • 確率と確率分布
  • 相関と因果の関係

を理解していることが必要だ(確率分布ついては、また近いうちに別エントリに書く。相関と因果についてはこちらに書いた。)。ところが、大学入学者選抜大学入試センター試験実施要項を見ればわかるように、

『数学Ⅱ・数学B』は,「数学Ⅱ」と「数学 B」を総合した出題範囲とする。 ただし,次に記す「数学B」の3 項目の内容 のうち,2 項目以上を学習した者に対応した出題とし,問題を選択解答させる。

[数列,ベクトル,確率分布と統計的な推測]

 つまり、これらを扱うのは高校数学Ⅱ・Bの、しかも選択問題の範囲だ。学生でも数学Ⅱ・Bを得意とする人はそんなに多くないだろうし、そもそも数学Bをがっつり履修するのは、いわゆる進学校で、かつ理系に限られている気がする。

データ分析の顧客は文系の人の方が多いくらいなので、「正しく分析結果を伝える」には、少なくとも高校の数学を教える程度の手間は惜しめないことになる。

恥ずかしい話だが、僕も確率分布を明確に意識したのは、大学で機械学習を勉強したタイミングなので、この辺りの理解が曖昧な人がいることを攻める気は全く無い。学校で習う、ほとんどのサイコロの出る目は「同様に確からしい」のだ(当然ながら、現実はそんなに単純ではない)。

データサイエンティストの退屈

個人的に、データ分析はある意味で「退屈」な仕事だと思っている。僕はかつて、尊敬する先輩に

データ分析の価値は、その分析結果を元にした意思決定が創出する価値によって決まる 

 と教えられて、まさにそうだと思っている。手段こそ違えど、データサイエンティストの顧客が求めているのは、占い師のアドバイスとそれほど変わらない。

さて、人がデータ分析の結果を重要視するのはどんな場合だろうか?きっと

  1. 自分では答えを出せない、もしくは出したくない場合
  2. 自分の判断の正しさを客観的に示したい場合
  3. その意思決定が自分にとってそれほど重大ではない場合

のいずれか、もしくはその組み合わせだ。本当に「なんとなく」なんだけど、僕はこの「3」が結構重要なファクターじゃないかと思っていて、その意味でデータ分析は退屈だ。

意思決定において、ランキングとかレビューの星の数と言った「客観的なデータ」をどの程度重視するかは、興味とかこだわりに大きく左右される。音楽が好きな人はオリコンのチャートを追いかけないし、本当にコアな部分は、ABテストする時点ですでに決定している。物件選びで内見するのは、その意思決定が「データではない何か」を気にするくらい重大だからだろう。

誤解されたくないのでしつこいくらいしっかりに書くが、ここで言っている“重視”は、あくまでも「意思決定において、データをどの程度重視するか」という意味で、「そのデータで、意思決定がどれくらい正しいものになるか」ではない。

結局のところ、データ分析をありがたがってもらえるのは「顧客にとってそれほど重大ではないことが多い」というのが、僕の感じた、ちょっとした退屈だ。これは段々変わっていくのかもしれないし、変わっていって欲しい。

最後に

「そろそろ人前で歌いたいなー」と思っていた矢先に、飲放題付きで参加費3000円という、願ってもないイベントに誘われたので、ふらっと出ることにしましたw

  • 日時:2016.04.22(金) 
  • 値段:¥1,000 + Drink (2D ¥1,000/飲み放題 ¥2,000)
  • 場所:高円寺CLUB LINER
  • その他:ローストビーフ丼とお菓子が食べれるらしい

金曜日なのでとりあえず飲み食いしたい人、早く帰る言い訳がほしい人お待ちしています。遊びに来てください。

 では最後に、月曜日で憂鬱なみなさんにNew OrderのBlue Mondayをお送りいたします。今週も頑張りましょう。

www.youtube.com

*1:主催の方が丁寧なまとめ記を書いてくださっているので、興味がある方はそちらも是非目を通していただければと思う。

*2:この協会は、以下のようにデータサイエンティストのスキルセットを定義している。「データサイエンティストに求められるスキルセット」に”データサイエンス”という部分空間があるのは、個人的には解せない。

www.slideshare.net

なお、完全に余談だが、下記のWebページのfaviconを設定してほしいとずっと思っている。

www.datascientist.or.jp

*3:調べたけれど、結局正確な出典が分からなかった。知っている方がいらっしゃったらTwitterか何かで教えて下さい。

*4:偉い人が今の入試制度をどう思っているか知らないが、僕が今でもきちんと覚えているのは、結局のところ受験の為に「詰め込んだ」科目ばかりだ。大学以降は一概にそうでもないが。