当初描いた博士の道からソニーへ。画像の実務家島田さんはなぜその道を選び、どこを目指すのか?

キャリアの方向性として当初考えていた博士課程。 しかし、選んだ道はソニーへの就職。そんな島田さんのおきた心境の変化と現在の仕事や今後のキャリアの展望、市場で求められる人材像など聞いてきました。

島田 大樹

島田 大樹

法政大学大学院 理工学研究科 応用情報工学専攻 修士課程 修了
ソニー株式会社 R&Dプラットフォーム
システム研究開発本部 要素技術開発部門 ビジョンシステム技術開発部1課

最先端の技術と産業への応用にギャップを感じ就職を決意

島田 大樹さんのインタビュー

人工知能に興味をもたれたのはいつごろからですか?

人工知能との最初の接触点は、大学の授業でした。
大学は情報学部だったのですが、入ったのはセキュリティやネットワークなどに最初興味があったからでした。
大学2年生までは人工知能(AI)と全然違う分野の勉強をしており、セキュリティスペシャリストという資格をとったりしていて、今とはだいぶ毛色が違いました。

機械学習の講義の中で単純パーセプトロンという本当にシンプルで、線形分離できるものしか分類できないようなプログラムを授業で作ったことがありました。
その作ったプログラムがきちんと動いて、データから学習して分類できるアルゴリズムを自分で見て、こんなので人工知能の学習というものができてしまうのだというのを感じ、驚きました。

そこから人工知能に興味がわいて、人間のように学習することは果たしてコンピューターで実現できるのかという思いも芽生えました。

ちょうどそのころ、2012年ですが、ILSVRC (Imagenet Large Scale Visual Recognition Challenge)という画像認識のコンペティションではじめてCNN(畳み込みニューラルネットワーク)がでてきて、ぶっちぎりで優勝した年でした。
また、同じ年にGoogleブレインのジェフ・ディーンと当時スタンフォード大のアンドリュー・エンたちが開発した新しいアルゴリズムでYouTubeの動画をたくさん見させて、猫を認識するようなニューロンができたという論文をだしていました。

これらの出来事は、ネットなどでもセンセーショナルに扱われているのを目の当たりにし、これからますます伸びていく分野だと感じました。

大学は修士までですか?

はい。大学の修士課程を修了して就職しました。
キャリアの方向性としては、最初は博士課程に行こうと思っていました。
しかし、業界や研究のスピードを見ていると、最先端の技術がもの凄く速いスピードで生み出されている一方、生み出された技術が一般の方たちにリーチをしているかというと、そうでない部分が多いと感じていました。

最近は比較的新しい技術が入るようになってきましたが、僕が就職活動をしている1~2年前はそこまで新しい技術が導入されている状況ではありませんでした。
そこで、企業に入って研究をしながら新しい技術をいろんな人に触れられる場所を作れたらよいなと思い、就職を決めました。

なぜたくさんある企業からソニーを選ばれたのですか?

就職活動の際にはいろんな企業が人工知能(AI)をやるチームを作り、これからはAIの時代だと言いはじめた時期でした。
便利なフレームワークもでてきて、これからは誰でもプログラミングができれば簡単な人工知能(AI)が作れるような時代になると思いました。

そんな中で一人のエンジニアとしてどうやってキャリアを差異化していくかを考えながら就職活動をしました。
考えた結果、データを得るセンサーレベルから機械学習・認識技術を考えていきたいと思うようになりました。
そういうセンサーやデバイスから、サービスやロボットなど物理的に世界にはたらきかけるところまで、自分たちでひととおり作れるような会社が良いというのがありました。

弊社ならイメージセンサーも作っていますし、ロボットなども作っているので、そういう意味では自分の考えにマッチしていると思い選びました。

多様な製品やサービスのユースケースを考えるから難易度は高いが面白い

現在は主にどんなことをされていますか?

現在は、私の専門がコンピュータービジョンといわれる分野の1つの画像認識なので、画像認識における研究開発をしています。

弊社では、コンシューマーエレクトロニクスといわれるスマートフォン・カメラやロボットなどだけでなく、金融や不動産などもやっていて、さらに映画や音楽会社もあります。
ですから、弊社の全社的なR&D部隊として、必ずしもデバイスにのせるソリューションだけでなく、グループ会社のあらゆる要求に対して応えられるような仕事をしています。

BtoCだけでなくBtoBもあり幅広くさまざまな業界に携われるので、そういう意味ではやりがいを感じながら仕事をしています。これだけ多くの業界に携われるのは非常に楽しく、そういう状況だからこそ、「この技術はこういうところで使える」や「この技術は普段は使えないけどこういうケースの場合は力を発揮する」など技術の見極めをする力も問われているし、やりながら研ぎ澄まされていく感じがしています。

最近担当してやりがいを感じた、面白いと感じたことは?

人工知能(AI)を製品に組み込むとなった場合、結局のところ計算量とメモリ、場合によっては熱との戦いになるんですね。
よって、例えば論文にのっている手法をそのまま実装しましたという場合、まずきちんとのりません。
やはり、そこをどううまく製品やデバイスにのせるか考えるというのはやっていて面白いと感じます。

デバイスも複数あり、CPUやGPUだけではなく、FPGAなどいろいろなチップがあるので、そういう特性まで考える必要があります。
これまで学生として研究をやっていたころは、そういう部分は考えなくてもよかったので、今までとは違う難易度になり、すごく面白いと感じています。

もちろん、単純に計算量やパラメータ数を抑えるだけでなく、ユースケースを考慮してアルゴリズムを考える必要があります。
製品によっては、これは精度をあげていって欲しいというケースと、これは別に精度がでていなくとも機能的にはあまり気にならないから、精度をあげる代わりにスピードをすごく速くし、メモリを効率よくするなど、状況に応じて取るべき方法が異なります。

弊社の製品やサービスを加味しながら自分で考え、先回りしてこういうケースもあるだろうと想定し、事前にソリューションを用意しておくのは今の仕事の面白さの一つだと感じています。

御社のニューラルネットワークコンソールには携わられたのですか?

私は、ニューラルネットワークコンソールに直接的には携わっていません。
ただ、弊社ではニューラルネットワークコンソール以外にもニューラルネットワークライブラリーズという開発者向けのオープンソースソフトウェアがあり、コントリビューターとして参加しています。
そこでは、実際のソースコードを提供するなど、微力ながらお手伝いをしています。

いろんな勉強会で外部の方たちと会った際にも、ニューラルネットワークコンソールやニューラルネットワークライブラリーズの話がでるので、ありがたい限りです。
自分自身でディープラーニングフレームワークのコードを細かく読んだり、自分で変更を提案する経験はこれまでなかったので、レベルアップする良い経験になっていると思います。

結局使うのは人間だから、人間のことをわかっていなければならない

島田 大樹さんのインタビュー

今後はどこを目指していきたいとお考えですか?

まず企業に勤めているものなので、会社のミッションに対してきちんと貢献できるようになりたいと思います。
弊社のミッションは、『ユーザーの皆さんに感動をもたらし、好奇心を刺激する会社であり続ける』なので、そこを画像認識や機械学習の技術でどうアプローチしていくかというのを自分なりに明確にしたいと考えています。

また、最近考えていることとして、今ある技術を使って人々の体験を本当に変えられているかということです。
例えば、Deep Learningの技術で画像認識の精度が3%~4%あがったとして、それはアカデミックな成果としてみるとすごいことですが、製品を使うお客様にとっては、その3%~4%が果たしてどれくらい体験として違い、肌で感じることができるのかが大事だと思っています。
仮に4%精度があがったとしても、体験が変わらなければ、産業的な見方をするとあまり意味がないので、体験を変えられるような技術を作りたいなと思っています。

そう思うと、アルゴリズムだけでなく、実際にそれがどう使われるかというUIやUXと言われるところ、そこまで視野を広げて技術開発をするべきだと感じています。

目指す目標に向けて具体的にやっていることなどありますか?

あまり人工知能(AI)と関係がないかもしれませんが、認知科学や認知心理学など、学生のころから全脳アーキテクチャ若手の会に参加しながら勉強していましたが、そういうところが大事かなと思っています。
結局どんなに技術が進歩したとしても製品やサービスを使うのが人間ということは変わらないので、人間のことをよくわかっているべきだと考えています。

例として、ヒューマンエージェントインタラクションの話があります。
人間とロボットが会話をするとした場合、何かを問いかけると、一瞬で返事が返ってくる時と、問いかけてから少し間があいて返すのとでは、人間の受ける印象は違います。
間があいていると考えていると思うようなことが起こります。
今の技術なら一瞬で返せるところですが、わざわざ遅らせるなど、人間の受け取り方を知り、取り入れていくことも大事かと思っています。

顧客の課題に対し、いかに技術を結び付けて解決できるか思考できる人は貴重

市場で求められる人材とはどのような人だとお考えですか?

最近求められる人材像はドラスティックに変わってきていると思っています。
弊社のニューラルネットワークコンソール含めてフレームワークなどのツール類がたくさんでて便利になってきていて、もはやプログラミングがいらないレベルになってきています。

しかし、フレームワークが使えるだけではものは作れません。
そうなってくると、データを集める人もしくはデータを作る人が当然必要です。
また、学習をするためのインフラがそもそもないといけないので、インフラ周りの知識があって整備ができる人が必要だと感じています。

ただ、いつも思っているのは、人工知能(AI)を導入する際ハードウエアをまず選び、アルゴリズムをデザインし、データを収集、ないしはデータの収集の仕方を考えます。
その3つがそろっていれば、人工知能(AI)の導入の基本的なことはできてしまうので、その3つのどれかがわかる人が求められる人材像かと思います。

今後それらの人が増えてくると、その人たちをマネジメントする人も必要になると思っています。
ソフトウエア専門、ハードウエア専門の人がいるので、違う分野の異なる言葉をうまくお互いわかる言葉にしてコミュニケートできる人は特に求められるかと思っています。
全く違う分野を俯瞰して、取りまとめられる人は一番大事かもしれません。

今後付加価値を高めるためには何が必要だと感じていますか?

私が所属しているようなメーカーでは、人間のことをよく知ることがやはり大事だと思います。
繰り返しになってしまいますが、使ってくれるユーザーのことをどれだけ考えて技術開発ができるかというのはやはり重要だと思います。
フレームワークを使えて、尚かつ人間が使うところまで思考ができる人は付加価値が非常に高いですよね。

この先も物を使うのは人間ということは変わりえないので、その限りにおいては、そこは変わらず大事だと思っています。

あとは、ハードウエアや通信の技術が日進月歩なので、その辺の技術も追い続け、人工知能(AI)のアルゴリズムで精度をあげたほうが良いのか、計算量をおさえて速度をあげたほうが良いのか、もしくはメモリ量効率をあげたほうが良いのか、はたまた問題設定のどこに注力すると成果が最大化できるかを見極める力は非常に重要だと考えています。
その見極めができるかどうかはかなりのキーポイントだと思います。

例えば、問題設定の場合、『どの粒度で人をセンシングできるとうれしいか』といったことがあげられます。
『関節点のレベルで人の姿勢がわかる』とうれしいのか、それとも『大雑把に矩形で人がいることがわかる』というのがうれしいのか、それとも『ピクセルレベルでここからここまで』と厳密なエリアを特定できたほうがうれしいのかなど、今どの問題に焦点を絞って取り組むべきか見極められる人は付加価値が高いのではないかと思います。

特に現在は、日々新しい論文がでていますが、それらの実装がすぐにGitHubにあがってしまいます。
どこで差別化できるのかといったら、問題解決するところにどう結び付けられるかというところですかね。
自分の目の前にある問題や顧客の課題に対して適切に応える、そこに技術をいかに結び付けられるかというのが大事なのではと思います。

論文は毎日目を通し、各分野のトップカンファレンスも一通りチェック

島田 大樹さんのインタビュー

参考までにお聞きしたいのですが、どうやって情報収集していますか?

基本的には、arXivっていう論文があがっているものがありますが、そこを毎日見ています。
そこのコンピュータービジョンのジャンルで毎日何十件も論文があがっていますが、タイトルだけはひととおり目を通しています。
論文によっては、概要や内容にも目を通すので、それをやるだけで2時間くらいですが、それをやらなければ見逃しがでます。
だから、そうならないためにほぼ毎日論文チェックは実施しています。

プラスアルファの周辺領域については、知り合いなどから情報収集しています。
あとは、トップカンファレンスがあると、カンファレンスのホームページからざっと題目を確認して、どういうものが表彰され、どういうものがカンファレンスにでているのかなど大雑把な動向調査をしています。

カンファレンスは具体的にどのあたりをチェックされていますか?

ニューラルネットワーク、機械学習系であれば米国カリフォルニアで開催されたNIPS(Neural Information Processing Systems)や、5月ごろに開催されるICLR(International Conference on Learning Representations)がメインです。
コンピュータービジョンではCVPR(Computer Vision and Pattern Recognition)が6月ごろにあって、11月ごろにICCV(International Conference on Computer Vision)があります。

ロボット分野では、IROS(International Conference on Intelligent Robots and Systems)、その他AAAI(Association for the Advancement of Artificial Intelligence)など各分野のトップと呼ばれるカンファレンスはチェックしています。

大量の論文の中からどうやって有力な候補を見つけていますか?

基本的にタイトルと著者を見てフィルタリングをしています。
やはり著者を見ると、有名な著者であればどんな研究か雰囲気がわかります。

タイトルについては、だいたい端的に内容を表しているものが多いので、自分の興味ある研究のキーワードが入っているか照らし合わせながら見ています。

人工知能の未来は想像を超えるもので、自分もそこへ飛び込んでみたい

島田 大樹さんのインタビュー

人工知能の未来について思うことは?

どんどんいろんなところから新しい人に入ってきてもらいたいと考えています。
それは、全脳アーキテクチャのテーマでもあったのですが、例えば医学や心理学の方でも入ってもらい、こうしたほうが良いと意見をぶつけてほしいと思います。
今倫理的な話についても、だんだんと議論しなければならないという風潮になっていますが、そういうところも含めさまざまな議論をすることで、さらに前進し、発展していくと考えています。

ただ、個人的に思うことは、人間は昔から自分とは違う知的な何かを作りたいという欲求はある気がしています。
例えば、オートマタという15~16世紀ごろに中東で存在したからくり人形みたいなものや、日本でも江戸時代にからくり人形がありました。
それらは、ロボットの原形としてあって、古くから様々な人たちがチャレンジしてきたものだと思っています。

それらのゴールはきっとないのですが、今見えているものよりも、すごいものがこの先あり、自分もそこへ飛び込んでみたいというのはあります。
人間の仕事を奪われるなどの悲観論もありますが、個人的には楽観的で、技術の進歩とともに驚くようなものが起こりえるし、誰も想像しなかったようなものがでてくると純粋に面白いと感じます。
そうなってくると、技術の力を借りて一人でできることの幅もどんどん広がりますし、やりたいことも簡単に実現できると思います。

そんなわくわくする社会を実現する方向に、人工知能の発展が向かっていってほしいと思います。