独立の道を選んだデータ分析の専門家安部さんのキャリア観とは?
まだ世間でAIやビッグデータが騒がれていない業界黎明期より統計を学び、コミュニティTokyo.Rの創設期から参加、データ分析・AIを実践してきたデータ分析のスペシャリスト安部さんのキャリア観と目指すものを聞いてきました。
安部 晃生
2013年 名古屋大学大学院生命農学研究科博士課程(後期課程)を満期退学
樹木の系統地理学、集団遺伝学などの遺伝子の数理処理を扱う分野で研究を行う。
国立成育医療研究センター、ウルシステムズ株式会社、DATUM STUDIO株式会社を経て、2018年株式会社コネクトデータ(https://connecto-data.com)を創業。
著書『パーフェクトR』(技術評論社)『TensorFlow入門』(Deep Insider)
アカデミック系の研究所から民間のIT企業へ
これまでのご経歴を教えていただけますか?
私の大学時代は、高校の時から興味があったプログラミングと、もう一つ統計学に興味があり、なぜ興味がでてきたのかは覚えていないんですが、この2つを勉強していました。
大学卒業後は、博士をとりたいと思って目指していたんですが、3年間で学位とれなかったら諦めようと思っており、3年間で学位とれなかったので大学をでていくことになりました。
最初に入った企業はIT企業で、そこはビジネスと経営の間にできるギャップやITとビジネスの間にできるギャップをうめようとしているような会社でした。
いくつかの領域にまたがるところを橋渡しする人が重要としていた会社で、それが世の中の役に立つんだというところが大きな気づきでした。
そのころにはデータサイエンスという言葉もそこまで流行っていませんでしたが、民間に移って初めて学んだビジネスという世界とデータサイエンスを複合的につなげる橋渡し的な人間になりたいと思い、現在データサイエンス領域に従事しております。
プログラミングに興味を持ったきっかけは何ですか?
昔、HPを自分で作ってみたいなと思ったのがきっかけでした。
あとは、当時ページの中にリンクがすごく小さく書いていて「このページの中にあるリンクを探してね」みたいなゲームが流行っていました。
そういうときにJavaScriptとかを利用していくうちに、プログラミングに徐々に興味をもっていきました。
大学では、理系なので全員研究室に所属していました。
私の研究は、集団遺伝学といわれる分野でした。
たとえば日本人の血液型だとA型が40%でB型が20% O型30% AB型 10%など割合がきまっています。
ただし、他の国だと違う割合になっています。同じ遺伝子を持って地域的にそういう違いが生まれるというのは、地域的な混ざり具合っていうのが、徐々に離れていった結果です。
もともと一つの固まりだった遺伝子が、人が地理的にバラバラになることによって、その遺伝子の祖先も違いが生まれるみたいな、そういうような状態がおこります。
それを私は人ではなくてブナという植物で研究をしていました。
そこでは、ブナの遺伝的組成が地理的にどう分布し、どういう時間的スケールでうまれ、どんな変遷をたどったのかなどの研究をしていました。
これまで勤めた会社についてもう少し詳しくお聞かせいただけますか?
最初に入社した会社は、実は民間ではなくて、アカデミック系の研究所でした。
学位取れる見込みがあったわけでもないんですが、たまたま人の募集が知り合いからきたため、その縁もあって国立成育医療センターという厚生労働省の所轄の研究所に行きました。
医学系でデータ分析ができる人が少なかったので、データ分析とか統計とか得意な人を募集していて、お世話になりました。
とはいえ、学位をもっているわけでもないので、一年間で出ていきました。
その後は、学位とれなかったら民間に移るというつもりだったので、普通に就職活動をしました。
そしてその当時、Tokyo.Rという勉強会によくでており、そこに参加していた方がCodeIQというサービスを立ち上げたという話を聞き、そこで声がかかったウルシステムズという会社に行きました。
ウルシステムズに勤めている間に、DATUM STUDIOという会社が立ち上がり、創業者がTokyo.Rを主催していた関係で知り合いだったこともあり、ちょうど会社を大きくしていくタイミングでお声がかかりました。
ウルシステムズで何か不満があったわけでもないんですが、DATUM STUDIOは、さらに自分のやりたいことに近いかなと思い転職しました。
DATUMSTUDIOで多かったのは、教育の案件とシステムが絡むような案件でした。
教育面は、社員向け研修みたいな感じでデータ分析の基礎的な内容を教えていました。
私が社外のお客さんのところにいき、その企業の社内の方を研修していました。
当時、データマイニングとかデータ活用とかいう言葉が流行っていたので、データというのはどういう風に考えればいいのかということを教えてほしいという要望が多かったです。
システム系では、機械学習を使って何かを予測し、その予測結果をAPIみたいなので返すという開発系の案件があったりしました。
他にはWeb上でユーザーがどういう情報を読み取って、どういういうような行動をとっているかというようないわゆるトラッキングプラットフォームみたいなものを作って、トラッキングしたデータをBIみたいな形で可視化して、エンドユーザーに届けることをしていました。
そういうシステムを作ったり、そこで取得したデータを活用したりしてお客さんに届けるところをけっこうやらせていただいていますね。
どこで、どのように機械学習やディープラーニングを学ばれたのですか?
機械学習の基本的なところってディープランニングであろうが、ちがうモデルであろうがインプットアウトプットの概念でいうと大きく変わりません。
私がディープランニングを知って使い始めたころは、ある程度ディープランニングが流行って有名になった後なので、書籍とかも出ていて、そこで学んでいました。
そういう意味で、私は最新を走ってきたというよりは、すでに使われている技術を後追いで学んできた形です。
時期としては、TensorFlowとかの現在世の中で利用されているようなディープラーニングの使いやすいフレームワークがまだなかった時でした。
それ以前のいろんなディープラーニングのフレームワークが徐々に出始めた頃に、試しにやってみたいというお客様に向けて、どの案件でもやっていたような気がしますね。
ただ、当時というか今もそうだと思うんですが、ディープラーニングのハイパーパラメータのチューニングには結構時間がかかります。
我々はお客さんに対してある程度短期間で成果を出す必要もあったので、他の手法を使うことが多いですね。
最後の0.1%を詰めるというようなそういう世界観になっていくと、ディープランニングを使って、それをチューニングしていくところはすごい効果がでるかもしれません。
しかし、これまでの案件では妥当な精度を持ってお客さんが受け入れられるっていうものを作ることが多く、ディープラーニングを使ってとにかく精度を上げるようなことを必要とするお客さんがなかったという感じですね。
DATUM STUDIOでは本当に色んなことやらせていただきました。
最初は、データサイエンティストとしてお客さん向けの案件をやらせていただき、ある程度現場をしりぞいたら、社内インフラ整備とかプロジェクト管理とかを結構やらせていただきました。
プロジェクト管理の為の組織としてPMOみたいなのを立ち上げて運用を始めましたが、そういうのも実はなんかノウハウがあってやったわけではありません。
右も左もわからずやってきましたが、最近ようやく落ち着いてきたかなというところです。
その落ち着いてきた段階で、「自分がどういうことをやりたいのかな」と改めて考えました。
考えた結果、お客さんの仕事もやりたいとか、元々自分がサポートタイプの人間かなと思っているので、そういうのをやりたいときにDATUM STUDIOでデータサイエンティストとしての選択もないことはないかなと思いました。
とは言え、会社でとってきた案件を回すだけでは、自分の活動の場が限られるかなというのもあり、いっそのこと会社を立ててしまうという選択肢を思いつきました。
そうして活動してしまったほうが、自分の活躍の場というか 自分の魅力を引きだしてくれる人、もしかしたらこのインタビューもそういう場なのかもしれないですし、そういうところにリーチしやすくなるというのがあり、会社を立てました。
データ活用の市場をもう少し広げたい思いがある
現在はどんなことをされていますか?
現在は、DATUM STUDIOでPMOみたいな、会社としてプロジェクトってこうあるべきだよねという管理や、情報セキュリティみたいなところの企画、研修をしています。
あとは、社内システムにはどういうのが必要なのかというようないわゆる情シス的な仕事もしています。
一方、私の会社であるコネクトデータでは、お客さん向けの案件とかプロダクト開発とかを自由にやっていこうと考えています。 プロダクト開発に関しては、利益とかをあまり考えず、データ活用の市場をもう少し広げたいという思いがあり、なんかそういうのが気軽にできるようなものを出していきたいと思っています。
プロダクトを自由にやるために、お客さん向けの案件をこなしていくというイメージです。
もちろんお客さん向けの案件に全力を注がないという意味ではありません。
今後、独立してどこを目指していくのでしょうか?
ITは、今すごく発展し、どの会社でも活用していると思うのですが、結局それって業務を回す、スピードアップの為に使われているに過ぎません。
業務を行うと必ずデータがたまっていくので、それは宝の山だよねというのがデータマイニングとか呼ばれるものの考え方だと思います。
業務を回すだけのITだと非常にもったいないと思うので、そういうのを先ほど自分のキャリアのところで話した、データの活用とか ITとかビジネスとかそういうところと融合させたいです。
ITはあるけれど、自然にデータ活用に使われるような、そういう世界観を目指して活動していきたいですね。
具体的にはどのあたりを強みとしていかれたいのですか?
現職ではどんなことをされていますか?
データ、IT、ビジネスと言っていますが、はじめに要素技術みたいなのがあって、それを実際に要件としてビジネスに使う為に纏め、さらにそれを開発運用してという流れを一貫してサポートできる会社になりたいと思っていますね。
データサイエンスという言葉が流行っていて、そのデータサイエンティストの3つのスキルの分析スキル、エンジニアリングスキル、ビジネススキルみたいなのが言われている中で、実際にそれが全部できる人ってこの世に存在するのかみたいなことも言われているじゃないですか。
でもあえてそこを目指そうではないかみたいなことを一つの目標にして、他の会社との違いとしていきたいですね。
だいたい、どの方向もやりますよというと中途半端に終わることが多いんですが、3つのスキルを小さい三角形じゃなくて大きい三角形を目指していきたくて、今までの自分の経験とかの中からそういうのは無理ではないんじゃないかと思っています。
やっぱりデータ分析だけやっても事業回らないし、ITだけやっても事業が回るわけでもないし、事業だけやってもパフォーマンスがよくなるわけじゃないので。
結局3つがバランス良くないと、今後の会社の成長ってうまく立ち回らないんじゃないかと思っています。
どの会社さんも危機感もってやってらっしゃると思うんですよね。
だからこそ、DATUM STUDIOにも様々な業界のお客様から声がかかると思うんですが、そういうところを一貫して俯瞰的にサポートできる会社って必要なんじゃないかなと思っています。
机上で学べないリアルがどうして違うのかという視点をもつと価値があがりやすい
今市場に求められる人材像ってどんな人だと思いますか?
複数領域のことを横断的に話せる人は強いと思っていますね。
データサイエンティストって言われる人もそうですが、結局なんか各々が得意としている専門領域があって、ただそこをくっつけないと事業が回らないっていうときに そこを繋いでくれる人っていうのは価値があると思いますね。
そして、経験はもちろん重要ですが、経験以外にもできることがあると思います。
例えば、人とか事業とかを俯瞰的にみて、なんでこういうことをやっているんだろうとか、そういうのを突き詰めていけば、おそらくなぜこの人がこういう仕事をしているか、この会社はこういうことをやっているのかみたいなのが見えてくると思います。
それをより良くするとかこことここを繋げるにはどうすればいいか、みたいな考え方になると思うので そういうことをやっていくといいと思います。
人工知能の分野で最低限みにつけるスキルって何だとお考えですか?
データの世界の話でいうと、統計学とか機械学習とはなんぞやっていう簡単な説明ができるのは当然として、ある程度自分でデータを預かったときにどう分析すればよいのか、実際に手を動かして、そこはつたなくてもいいんですけど、なにかアウトプットをだせるところですね。
ITで言うと、システムっていうのがどういう風な考え方から作られて今のデータベースの設計があるのかとか、そういうのが理解できるとか。
ビジネスのほうで言うと、なぜこの事業があって、どういうお客さんをターゲットにしていて、それを達成するためにどういうことをやっているのかが理解できるとか。
そんな感じのスキル感があればいいかなと。
データ分析のところでは、データ分析設計って難しいと思っています。
データ分析の設計っていうとビジネスの視点も入ってきてしまうところがあって、スキルとしてはこういうデータがあって、これが説明変数で、これが目的変数ですみたいな感じで与えられたら、それに対して統計モデルなり機械学習モデルを組み立て、それを動かせるっていう意味での分析設計ができるという話ですね。
設計といいますが、実務的なところですね。
各々のいわゆるデータのフィールドで動けるとか、ITのフィールドで動けるとか、ビジネスのフィールドで動けるっていうところで、求められるスキルは最低限、各々の分野で1年くらいは必要なのかなって思いますね。
経験していくうえで注意すべきことは、SQLとか統計とか多分机上で学べるレベルですよね。
その次に机上で学べないようなリアル感というか、そういったところが机上のやつとどう違うのかどうして違うのかっていう視点をもって動いていくと、より価値があがりやすいかもしれないですね。
技術の進歩が早いので、自分の得意領域を学び続けることが大事
今後、付加価値を高めるために重要なことは何だとお考えですか?
データサイエンスの3つの軸に対して3つ三角形がまんべんなくできると理想ですけど、各々のデータサイエンティストが得意な領域ってあると思うんですよね。
私だったらエンジニアリングになるのかなと思うんですが、その領域を軸におきつつ、尚かつ他にもできる領域が存在していて、それがどういう風になるかというのを常に見続けるっていうか、要は走り続けるっていう感じでしょうか。
生物学の用語で赤の女王仮説という生物は進化し続けなければ絶滅してしまう、みたいな仮説があります。
それと一緒でどんな優れたサイエンティストでもその人が持っているスキルって、数年後には古い廃れたものになってしまいます。
だから、常に自分がデータサイエンスっていう領域に生きていくのであればその領域に必要とされる3つのスキルはフレームワーク化されているので、そのフレームワークに従ってもいいし、自分の発見をしてもいいんですけど、そういう領域に対して自分の得意としているところ、あるいはそれ以外の領域っていうのを常に学び続けるというのが大事かなと思います。
技術の進歩はほんとに早くて、エンジニアリングは自分の中では得意かと思っているんですけど、最近スピードが速すぎて、ほんとにこれは得意と言っていいのか常に気になりますよね。
自動化は進んでいるが、結局ビジネスとどう繋ぐかまではできていない
民主化の流れでキャリアの方向性を考えなければいけないと思うのですが、それについてどう思われますか?
自動化の領域でできるようになっていることってデータ分析とは言え、ITの複合領域なので、結局ビジネスとつながらないと思います。
となると、その二つの複合領域をどうビジネスと繋げるかっていうところに対してコミットすれば、全然生き残れると思うんですよね。
データサイエンティスト協会が3つ上手く軸用意してくれているので、その軸に従って今の流れを見ればそんなに悩むこともないんじゃないかと思います。
ビジネスとITや統計を繋げるのがなぜ難しいかというと、やっぱりイメージが湧きづらい部分だと思います。
私も最初のころ、ビジネス全然やっていなかったから、これを使って売上をあげるみたいなことを言われても、売上があがるってどういうことっていうレベルだったんですよね。
結局、各々の基礎の知識をみにつけなければ、つなぐこともできないので、基礎知識について身に着けていけば、おのずとつなげられるような気はするんですよね。
ビジネスとITとデータ分析って、データ分析とITは比較的理系の領域だと思うんですけど、ビジネスっていわゆる社会学的な文系の領域なんですね。
いわゆるアカデミックな学問レベルですら、そういう複合領域がうまく生まれないなかで、数学的な考え方と違う考え方をしないといけないので、今いった IT・データ分析とビジネスって 三角形だけどいびつな感じはしますよね。
最近はリアルタイムデータ分析や可視化に興味がある
最近注目されているテクノロジーはありますか?
最近興味があるのは、リアルタイム分析です。
これまでは過去のデータを使って、そのデータをどういう風にみるか、どういう予測ができるかがほとんどでした。
しかし最近、ツイッターとかフェイスブックをはじめとするSNSとか、IoTみたいなところでデータが取れるようになったっていうときに、今のようにじっくりとデータをためてから分析するみたいな価値観ってなくなるんじゃないかなと思っています。
データがどんどん入り続ける状況で、対応し続ける為のリアルタイムデータ分析とか可視化とか、リアルタイムにどういう風にさばいていくかっていうのは興味がありますね。
リアルタイムっていっても、ミリ秒みたいなそんな世界感ではなくて、いわゆる人間が認知できるような秒とか分単位でどういうことが起こっているかみたいなところです。
我々人間もおそらく感覚的にはミリ秒くらいの動きを察知して、アクションを返していますが、データ分析もそういうスピード感になるんじゃないのかなっていうのは思っています。
そういうリアルタイム的にどう処理するかって言うのは、私自身エンジニアとして非常に興味ありますね。
なぜそこにいきついたのでしょう?
要素技術って結構色んなところにあらわれるんですね。
オープンソースのプロジェクトだったり、大規模に処理するプラットホームだったり。
それをよりインタラクティブに分析する為にSparkとか、そういうのが出てくるとどんどん大きなデータが入ってくるところによりスピード感もって分析したいんだなって想像ができます。
需要がある部分を少し深く見ていけば、今後はリアルタイム性を追求していくんだろうという考えになるかなと。
ビジネスのほうではどういう事業が最近現れてきているのかなどはチェックしています。
今までBtoBとBtoCのビジネスが多かったのが、メルカリとかCtoCの事業が増えてきて、そうするとコンシューマ同士が市場活発化させるための動きとか、ビジネスがコンシューマにデリバリーできる分析手法とか変わってくるだろうなとか。
そういう風な考え方をしています。
人工知能の未来はこの先どうなっていくと思いますか?
結局は、ビジネスとITとデータの三角形がいびつな形になっているのが今の世の中なので、そこがよりきれいな三角形になっていくというか、各々の活用が、各々の領域が融合してより良いビジネスを生んでいくというか、そういう世界感になっていくと思います。
私が起業したのもそれがきっかけというのもあるし、なってくれるといいなというのもありますね。