2018年8月号
特集 - 就職戦線異状あり!イノベーションの発火点データサイエンス
データサイエンティストのスキル定義と日本が成すべきこと
データサイエンティスト協会理事・ヤフーCSO安宅和人氏が語る

5年ほど前からデータサイエンスという言葉を聞くようになった。一般社団法人データサイエンティスト協会が設立された時期と重なる。それもそのはず、データサインティストが圧倒的に不足する状況に危機感を覚えた安宅和人氏らが啓蒙(けいもう)してきたからだ。データサイエンティスト協会理事・ヤフーCSO安宅氏が語るデータサイエンティストのスキル定義、そして日本は何を成すべきか。

データサイエンスを分かりやすく

同協会は、データサイエンティストに必要となるスキルや知識を定義し、育成カリキュラムの作成、評価制度の構築などを行う目的で2013年5月に設立された業界標準といえる存在だ。大きく分けると、データホルダーとソリューションベンダーの企業や団体などが加盟する。安宅氏は代表理事の草野隆史氏らと共に発起人の一人として中心的役割を担い、スキル委員長としてデータサイエンティストに必要なスキルやタスクなどを取りまとめてきた。

そもそもデータサイエンティストとは何かを明確に説明できる人が少ない。そこで同協会がまとめてきたものが役に立つ。その定義は「データサイエンス力、データエンジニアリング力をベースにデータから価値を創出し、ビジネス課題に答えを出すプロフェッショナル」としている。ここでいう「ビジネス」は社会に役立つ意味のある活動全般を指し、「プロフェッショナル」は体系的にトレーニングされた専門スキルを持ち、それをベースに顧客にコミットした価値を提供し、その結果に対して認識された価値の対価として報酬を得る人としている。同協会は、それらの活動の一環で「ミッション、スキルセット、定義、スキルレベル、スキルチェックリスト」を公開している。想定する対象と効果は下の①~⑤である。

①目指す人材は、習得すべきスキルを明確化する。

②採用する企業は、獲得したい人材のスキルの明確化や明文化と、人材の待遇のバラつきを解消する。

③求職者は、自分のスキルの明示とともに、期待される仕事のレベルの事前把握ができる。

④紹介する企業は、求職者と求人内容のスキルによるマッチングを行う。

⑤育成する教育機関や企業は、カリキュラムの明確化ができる。


公開されたスキルセットは、ビジネス力、データサイエンス力、データエンジニアリング力別に4段階のスキルレベルを定義し、1)業界を代表するレベル、2)棟梁レベル、3)独り立ちレベル、4)見習いレベルとする。まだ新しい概念だけに、一人歩きしないよう明確にしてきたわけだ。作成したスキルチェックシートは独立行政法人情報処理推進機構(IPA)のスキル標準に採用されるなど、標準化が構築されつつある。

異才な経歴で業界に新風を巻き起こす風雲児

興味深いのは、安宅氏の経歴だ。学部と修士では生物化学(分子生物学)を専攻した。脳の遺伝子研究がルーツである。その後、米コンサルティング大手のマッキンゼー・アンド・カンパニーに入社し、4年半コンサル業務を経験した。その後、同社を退職、米国のイェール大学の脳神経科学プログラムに入学しPh.D.を取得後、そのままポスドクとして研究者の道へ進んだが、「アメリカ同時多発テロ事件」があったことで帰国した。その後マッキンゼーに復帰し6年半在籍したが、当時の井上雅博社長に声を掛けられ2008年にはヤフー株式会社へ転身、現在はチーフストラテジーオフィスサー(CSO)として、事業戦略やデータ系戦略の統括を務める。

生物学とデータサイエンスはどうつながるのか、率直な疑問を投げかけると、「一秒一万回もの神経活動のレコーディングをしてそれを解析していたので、つながると言えばつながるし、つながらないと言えばつながりません。サイエンスとマネジメントとデータを経験してきた珍しい人間です」と応じる。内閣府、経財産業省、JSTさきがけ、日本経済団体連合会など、データサイエンスやAIなどの政策ほか多数のプロジェクトに関わり、滋賀大学におけるデータサイエンス教育研究のアドバイザリーボードメンバーに加わるなど、どこに行っても名前の出てくる「ザ・データマン」。つながっている証しだろう。

安宅和人(あたか かずと)氏 ヤフー本社で


「AI ready」な社会に

ビッグデータやIoT、AIを活用する上で不可欠な職種といわれるデータサイエンティストの数が、日本国内で絶対的に不足しているという。米国のトップ大学では、学部に関係なく、大半の学生がデータ解析関連の授業を学んで卒業する。そうしないと彼らが望む就職先には応募すらできないとまでいわれている。

「日本の場合、理系の院卒くらいでないとその域に達しません。戦場で相手がマシンガンを担いでいるのに、空手しか習っていないで出ていくようなものです」と安宅氏。さらに続けて「中学校の必修教科の一つの技術・家庭科などに、早々に組み込むべきです」と熱く語る。

そんな考えの下で進めているのが、内閣府の人材育成会議で発表した「AI ready 化」だ。人づくり、情報処理基盤、データ取得と利活用の在り方に至るまで広範な話だが、人づくりの視点で簡単に言えば、高等教育を受けた人は誰でもデータサイエンスを使うことができるよう、「理数・データ素養」を基礎教養にすべきだという提言である。現状、ビッグデータはあらゆる部分がデータ化されておらず、現在は過渡期といえる。データを取得するにも1カ月以上かかることもあるという。仮にデータ化されていてもクリーニングに半年以上も要することがあるのが実態だ。データをつなぎ合わせようとするとどのくらいの時間が必要なのかさえ分からないこともある。この状態は日本中で起きていて、これこそが「AI ready」ではない状態だ。その状態を改善するには、データ化できるあらゆるものをリアルタイムでデータとして準備し取り出すことが可能で、必要に応じ容易につないで活用できる状態にしておくことが好ましい。できる限り大量情報基盤がベンダーに依存しない形で整備されている状態にしておくべきだと安宅氏は提言している。

「そもそも日本は社会・市民のデータリテラシーが低すぎて、全くデータの利活用が進んでいません。大多数がリテラシーを高め、ある程度までAI構築の内製化ができるのが好ましい。この状態がAI readyな社会です。企業はAIネイティブ層とミドル・シニア層の二極化が進んで、“じゃまオジ”だらけです。僕らのようなミドル・シニア層は信用を与えたり、人をつなぎ、お金を出すことで補完すればいいのです」と、歯に衣(きぬ)着せぬ軽妙な「安宅節」でわが国のデータサイエンス分野をけん引する。

どんな素養が必要なのか

今、ウェブやさまざまなセンサーから大量に生まれてきているビッグデータは、マーケティングやコンサルで通常扱う調査系、財務系のデータとは、広がり、厚み、データ構造や、機械学習の基本手法や自然言語処理などベースになる手法が質的に異なるものではあるが、解析的な基本は共通だ。従って、適切な素養があるのであれば文系出身でもデータサイエンティストになれる。だが数字が嫌い、線形代数や微分積分、確率統計など解析手法、数理モデルのベースになる「言葉」が読めない、これらに嫌悪感を抱くようでは始まらない。さらに、ドメイン知識やその領域特有の課題について深く理解していないと解析できない。また、1人で全てをこなせるわけではなく、実態はチームで事に当たる。

「コンピューターサイエンスは米中がトップです。次いでシンガポール。先端事例や研究はほとんどが英語圏、中国語圏から来ます。いま何がカッティングエッジかを知るだけのためにも外国語素養が必要なのです。仏文学の学生ですら、形態素解析や機械学習して卒論を書く時代が来ます。アパレル商材の設計やサービス展開に普通にセンサーを埋め込み、そこからのデータ処理をしてモデルを組む時代が来ます。企業でも、この時代に、データやAIを使おうとしないのは自殺行為です。東京から大阪に、新幹線や飛行機を使わず徒歩で行くと言っているのと同じなのです」と安宅氏。データサイエンスは、これまでのように文系、理系などと分けて思考する領域ではないのは確かだ。

(取材・構成:本誌編集長 山口泰博)