文字サイズ :
HOME >  リリース一覧 >  深層学習によって「蛇の回転錯視」の知覚再現に成功

各種リリース

Release

深層学習によって「蛇の回転錯視」の知覚再現に成功

2018年3月20日 プレスリリース

内容

基礎生物学研究所 神経生理学研究室の渡辺英治准教授は、同研究所の八杉公基研究員と立命館大学の北岡明佳教授、生理学研究所の坂本貴和子助教、サクラリサーチオフィスの田中健太博士との共同研究によって、深層学習機が「蛇の回転錯視注1」が引き起こす運動知覚を再現することを、新たに発見しました。深層学習機は、脳の神経ネットワーク構造や動作原理を参照して設計された人工知能のひとつであり、近年、画像分類や音声認識など、幅広い分野で画期的な成果を収めているだけでなく、脳の動作メカニズムを研究するためのツールとしても期待が高まっています。今回研究グループは、大脳皮質の動作原理として有力な仮説のひとつである「予測符号化理論注2」を組み込んだ深層学習機によって、錯視の再現ができるかどうかを検証しました。深層学習機に、我々の日常生活などの自然な情景を撮影した動画(約5時間)を繰り返し学習させたところ、学習した後の深層学習機は、実際に動いているプロペラが回転する動きを予測するだけでなく、「蛇の回転錯視」が引き起こす、あたかも画像が回転しているかのように見える回転運動様の錯覚すらも再現することがわかりました。本成果は、錯視を深層学習機が再現した世界で初めての事例であり、錯視を引き起こすメカニズムのひとつとして予測符号化理論が有力な仮説であることを支持しています。今後、錯視を判断基準にした深層学習は、脳の動作原理の解明に貢献すると期待されます。本成果は2018年3月15日付けで学術誌 Frontiers in Psychologyに掲載されました。

注1)蛇の回転錯視: 立命館大学の北岡明佳博士が2003年に考案した錯視(「北岡明佳の錯視のページ」http://www.ritsumei.ac.jp/~akitaoka/)。静止画であるにもかかわらず強い運動知覚を生じさせる(図4参照)。人だけではなくサルやネコ、魚にも知覚されると考えられている錯視であり、生理学的な知見も集積している。北岡博士は、蛇の回転錯視以外にも多くの錯視を考案しているが、中でも特に2008年に発表されたシマシマガクガク錯視を用いた作品「ガンガゼ」は、米国アーティストであるレディー・ガガのアルバムジャケットに採用されたことで有名。

注2)予測符号化理論: RaoとBallardによって1999年(Nature Neuroscience)に提唱された視覚系の大脳皮質の動作原理。大脳皮質は常に視覚世界の予測をしており、感覚入力と予測との誤差のみを学習しているとする仮説(図1参照)。現在大脳皮質の動作原理を説明する仮説の中では最も有力なもののひとつ。

本研究の背景

深層学習機は、脳のネットワーク構造や動作原理を参照した人工知能のひとつです。囲碁の世界チャンピオンを制したアルファ碁に代表されるように、深層学習機を用いた研究は、今まさに世界中の企業や研究者がこぞって研究を進めています。特に画像分類や音声認識など、幅広い分野で画期的な成果が収められていますが、近年、脳の動作メカニズムを研究するためのツールとしても期待が高まっています。脳の動作原理を深層学習機に組み込み、実際の脳の特性と比較することで、これまでは推測するしかなかった脳理論の正当性を検証していく、といった試みが可能になりつつあります。これまでの脳科学では、主に細胞レベルの活動から脳の神経ネットワークの動作原理を推定してきましたが、本手法を用いて人工脳をコンピューター上に合成することで、脳のネットワークの動作原理を仮想的に推定することが可能になります。今回研究グループは、脳の動作原理を組み込んだ深層学習機が、人間の脳機能をどの程度再現しているのかを検証をするため、錯視に着目しました。
錯視とは、実際に提示されている画像などとは、大きさや色が異なっているかのように錯覚してしまう現象です。今回用いた北岡明佳博士考案の「蛇の回転錯視」は、数ある錯視の中でも特に代表的な作品であり、静止画であるにも関わらず、実際に目にすると、非常に強く回転運動が知覚されます。さらに蛇の回転錯視は、ネコや魚に対しても回転運動を引き起こすと考えられています。本研究では、静止画である蛇の回転錯視を、深層学習機が「回転している」画像として知覚するか否か検証しました。つまり、脳理論を組み込んだ深層学習機が蛇の回転錯視を「回転している」と予測したとしたら、深層学習機もヒトや他の動物と同じく、錯視(知覚処理)を再現している可能性があると言えるのです。
本研究で用いた深層学習機には、大脳の有力な理論のひとつである予測符号化理論を組み込みました(図1)。予測符号化理論では、大脳は入力される感覚情報を常に予測しており、その予測と実際の感覚情報との差分を学習していくとされています。差分情報は、大脳の各領野間を行き来し、高次領野では高度に抽象化された差分情報が符号化されると考えられます。この理論は、大脳の解剖学的知見及び生理学的知見をうまく説明できることから、現在は幅広い分野で支持されています。そこで本研究では、予測符号化理論を組み込んだ深層学習機が、蛇の回転錯視を再現できるか否かを検証しました。

本研究の成果

深層学習機に人間の視覚情報を学習させるため、我々が常日頃目にするような自然な景色を撮影した約5時間分の動画を繰り返し入力しました。この動画は、人間の帽子にカメラを取り付け、遊園地内を自由に動いてもらった際の動画です(図2)。まず、学習済みの深層学習機が回転運動をうまく予測できるかどうかを、実際に回転するプロペラを撮影した画像を使って検証しました。結果、深層学習機はプロペラの左回転、右回転、無回転をうまく予測しました(図3)。次に蛇の回転錯視画像の検証を行いました。蛇の回転錯視は、色の配列を入れ替えることで、容易に右回転、左回転、無回転の知覚を引き起こすことが可能です(図4)。動画を学習した深層学習機に、右回転、左回転、無回転の錯視画像を入力したところ、それぞれ回転に応じた回転運動の予測をしていることが判明しました(図5)。この結果は、深層学習機が人間や他の動物と同様、錯視を知覚することの証左であると共に、蛇の回転錯視を引き起こしているメカニズムのひとつとして、予測符号化理論が有力であることを示しています。

成果の意義

1)蛇の回転錯視を引き起こしているメカニズムのひとつとして、予測符号化理論が有力であることを示しました。予測誤差と錯視との関係については、すでに2010年に私たちの研究グループによって考察されており(Watanabe et al., Vision Research 50, 2381-2390, 2010)、そのアイデアがより直接的に支持されたことになります。
2)蛇の回転錯視は、ヒトだけではなくネコや魚にも知覚されていると考えられています。つまり予測符号化理論によって、動物の種を超えて大脳の動作原理を理解することが可能であると考えられます。
3)深層学習機は、心理学研究に直接応用可能であることを示しました。研究グループは、この手法を本論文にて「逆心理学」として提唱しています。
4)心理学と深層学習機の組み合わせは脳理論の検証に有効であることを示しました。
5)社会に応用が進む深層学習機が錯視というエラーを起こす可能性を示しました。人工知能をリスク管理する観点からも重要な知見です。

今後の展望

錯視を判断基準にした深層学習は、今後脳理論の研究を発展させ、脳の動作メカニズム解明に貢献すると期待されます。これまで科学の手を入れることの出来なかったヒトや動物の主観世界のメカニズムに挑戦できる土台が初めて整ったと言えるかもしれません。

掲載紙情報

雑誌名: Frontiers in Psychology  doi: 10.3389/fpsyg.2018.00345
論文タイトル: “Illusory Motion Reproduced by Deep Neural Networks Trained for Prediction”
著者: Eiji Watanabe, Akiyoshi Kitaoka, Kiwako Sakamoto, Masaki Yasugi, and Kenta Tanaka

研究グループ

本研究は基礎生物学研究所の基礎生物学研究所(神経生理学研究室)の渡辺英治准教授、八杉公基研究員、立命館大学の北岡明佳教授、生理学研究所の坂本貴和子助教、サクラリサーチオフィスの田中健太博士による成果です。
 

研究サポート

本研究は、文部科学省科学研究費助成事業などのサポートを受けて行われました。

お問い合わせ

本研究は、文部科学省科学研究費助成事業などのサポートを受けて行われました。

【本件に関するお問い合わせ先】
基礎生物学研究所 神経生理学研究室
准教授 渡辺 英治(ワタナベ エイジ)


【報道担当】
基礎生物学研究所 広報室

立命館大学 広報課(担当 桜井)

生理学研究所 研究力強化戦略室
 

 

20180320watanabe-1.jpg

[図1]予測符号化理論を組み込んだ深層学習機の概念図(Lotter et al. 2016の図1を改変)。一層だけを概念的に示してあります。「Representation」領域のニューロン群はリカレント回路を持つLSTM(メモリーセル)であり、Errorニューロンからの誤差情報、上位層のRepresentationニューロンからの情報、再帰的情報を元にして予測を作り出します(Prediction)。下層からの入力(Target)と予測から誤差情報が作られ(Error)、誤差情報は同一層及び上位層に伝搬されます。本研究では4層のネットワークを使用しており、トレーニングではバックプロパゲーション法によって誤差を最小化させるように学習を進めます。

 

 

20180320watanabe-2.jpg

[図2]深層学習機のトレーニングに使用された動画。帽子上のカメラから撮影した動画を約五時間分使用しました。約53万ビデオフレームに相当します。写真はそのうち2フレーム分を切り出して示しました。出典は以下のURL。
First-Person Social Interactions Dataset: http://ai.stanford.edu/~alireza/Disney/

 

 

20180320watanabe-3.jpg

[図3]深層学習機による回転するプロペラ(左図は左回転、右図は右回転)の予測。
連続した二枚の予測画像からオプチカルフローを検出し、ベクトルとして表現した(黄色の点がベクトルの始点、赤い線がベクトルの方向と大きさを示しています。

 

 

20180320watanabe-4.jpg

[図4]北岡明佳博士考案の蛇の回転錯視(左図)。右図は回転しないネガティブコントロール。より強い錯視を体験したい方は北岡博士のホームページ(次のURL)を参照下さい。
http://www.ritsumei.ac.jp/~akitaoka/

 

 

20180320watanabe-5.jpg

[図5]蛇の回転錯視(左図は左回転、右図は無回転)の運動知覚が深層学習機によって再現されました。連続した二枚の予測画像からオプチカルフローを検出し、ベクトルとして表現した(黄色の点がベクトルの始点、赤い線がベクトルの方向と大きさを示しています。

 

 

 


 

 

 


 

 

 

リリース元

nibbbig_logo.jpg nips_logo.jpg ritsumeikan_logo.jpg

自然科学研究機構 基礎生物学研究所
立命館大学
自然科学研究機構 生理学研究所

関連部門

関連研究者

お問い合わせ

各種お問い合わせはメールフォームにてお受けします