シンギュラリティサロン#34(東京第31回) 吉田 正俊「自由エネルギー原理と視覚的意識」

名称: シンギュラリティサロン @東京 第 31 回公開講演会
日時: 2019年6月8日(土) 1:30pm 〜 4:00pm
会場: 大手町サンケイプラザ 3 階
主催: シンギュラリティサロン
共催: 株式会社ブロードバンドタワー
講師: 吉田 正俊 (生理学研究所 認知行動発達機構研究部門 助教)
演題: 『自由エネルギー原理と視覚的意識』

講演概要:
フリストンの自由エネルギー原理では、外界に関する生成モデルと現在の認識から計算される変分自由エネルギーを最小化するために、1) 脳状態を変えることによって正しい認識に至る過程 (perceptual inference) と 2) 行動によって感覚入力を変えることによって曖昧さの低い認識に至る過程 (active inference) の二つを組み合わせていると考える。
本講演の前半では自由エネルギー原理について、我々が視線を移動させながら視覚像を構築してゆく過程を例にとって、簡単な説明を試みる。本講演の後半では、このようにして理解した自由エネルギー原理を元にして「自由エネルギー原理と現象学に基づいた意識理論」を提唱する。この理論において意識とは、 自由エネルギー原理における推測と生成モデルとを照合するプロセスそのものであり、イマココでの外界についての推測と非明示的な前提条件の集合である生成モデルとが一体になって意識を作り上げている。この考えはフッサール現象学における意識の構造についての知見と整合的である。
定員: 100名
入場料: 無料
聴講者: 小林 秀章 (記)
https://peatix.com/event/676133

【タイムテーブル】

13:30 〜 15:00 吉田 正俊氏講演:『自由エネルギー原理と視覚的意識』
15:00 〜 15:30 自由討論

【概要】

ヒトや動物などの個体が、外界からの感覚入力や外界への運動出力を通じて外界のありようを推測する情報処理のメカニズムを説明づけようとする理論のひとつとして、カール・フリストン氏が提唱した「自由エネルギー原理」がある。

今回、登壇した吉田正俊氏 (生理学研究所) は、自由エネルギー原理の中身の数理にめちゃめちゃ精通している、日本では希少な研究者の一人である。

自由エネルギー原理は、個体と外界とからなるモデルに基づいている。個体と外界との関係性は、外界から個体への感覚入力と、個体から外界への運動出力とがあり、それ以外にない。あと、これらの時間推移。

このモデルを眺めながら、個体内部での確率論的な推論過程を論考している我々自身は、すべてを俯瞰的に眺め渡すことのできる、神様視点に立っている。外界が実際にどうなっているか、個体自身は外界がどうなっていると思っているのか、その思い描いている外界の姿が現実の姿からどの程度乖離しているのか、何もかもすべてお見通しである。

一方、個体自身の視点に立って、主観のありようを内省的に考察する哲学として、例えば、フッサールの「現象学」がある。では、自由エネルギー原理と現象学とは、視点の相違を除去しさえすれば、内容的には整合するのか。

これはなかなか面白い問いで、整合するのであれば、「フッサールよ、お主、なかなかやるな」って話になる。

吉田氏の講演は前半と後半に分かれ、前半は自由エネルギーとは何か、その考え方と中身の数理について、簡単な例に基づいて解説し、後半は視覚的意識体験を自由エネルギー原理のどこに位置づけうるのかを考察していた。

シンギュラリティサロンでは、一人の講演者が大阪と東京で講演するのが通例となっており、吉田氏は、東京の回に 2 週間先立つ 5月25日(土) に大阪で講演している。

吉田氏は何につけ全力でぶつかっていく並外れた力強さを放射しているが、聴講する側も熱気を帯び、活発な議論が繰り広げられた。

大阪では、講演途中でもあちらこちらから質問が上がり、質疑応答の時間にも途切れなく質問が上がり、多くの聴講者が発言した。もともとは講演 90 分、質疑応答 30 分、交流 30 分の配分で、これでもよそでよく開かれる講演会に比べればたっぷり時間が取ってあるほうなのだが、この回は時間が押して、交流タイムが完全につぶれた。吉田氏は「その後の議論も含めてたいへん楽しく有意義な時間だった」とツイートしている。

東京では、それに加え、聴講者の面々が豪華だった。歴代の登壇者のうち 4 人が聴講に来ていたのである。金井 良太氏 (株式会社アラヤ 代表取締役)、渡辺 正峰氏 (東京大学 准教授)、三宅 陽一郎氏 (Square Enix)、中ザワヒデキ氏 (美術家) である。

吉田氏は「講演、無事終了。大阪のときより内容も良くなったと思う。議論も白熱して会場借りてる時間を使い切った。いろいろ有益なコメントをもらったが、金井さんから FEP を意識の理論にするには、という観点でコメントしてもらったのと、渡辺正峰さんと思った以上に考えが近いことがわかったのがよかった」と 10:16pm にツイートしている。

講演後、場所を下の階のスターバックスに移し、関係者でお茶した。その後、一部の面子がさらに場所を移し、飲みに突入。9:00pm 過ぎにお開きになったが、最後までいたのは、吉田氏、渡辺氏、聴講者 I 氏、私の 4 人であった。

東京講演で使用したスライド資料と聴講者が撮影した講演動画を吉田氏ご本人が 6月16日(日) にブログへ上げている。スライド資料は、著作権のある画像を差し替えたり、飛ばしたスライドを削ったり、といった編集を加えている。また、講演動画は、質問部分の削除などを行って 54 分に切り詰めてある。また、そのブログでは、経緯や感想などをレポートしている。
http://pooneil.sakura.ne.jp/archives/permalink/001673.php

ツイートによると、映像の編集作業は、ブログに上げる前日にしていたが、いろいろつらかったようで。「言い直し、繰り返しが多くて、我ながらウザい」。「喋りが噛みまくりで、そういうところを全部削りたいが、やってるとキリがない。つか飽きてきたー」。

いやいや、言い換えや繰り返しは理解の助けになるし、噛んでたかどうかなんて、まったく気づいてませんでしたー。

どうでもいいツッコミをあえて入れるとするならば、蛾として使っている画像はイチモンジセセリという蝶だ。

【ケバヤシが聴講する狙い】

□ 自由エネルギー原理と意識について

2017年7月9日(日) と 10月21日(土) にそれぞれ大阪と東京で開催されたシンギュラリティサロンにて、金井 良太氏 (株式会社アラヤ代表取締役) が『人工意識の実現』というテーマで講演している。
https://peatix.com/event/276334
https://peatix.com/event/309194

その中で、意識に関連の深い情報処理のメカニズムについて数理モデルを用いて説明づけようとする理論には 2 つあると述べている。カール・フリストン氏の「自由エネルギー原理 (Free Energy Principle; FEP)」とジュリオ・トノーニ氏の「統合情報理論 (Integrated Information Theory; IIT)」である。

前者は人工物に意識を宿らせる方法に関係し、後者は人工物に意識が宿ったことを確認する方法に関係するという。どちらも情報理論を下敷きにしている。確率 p に対して – p log p のディメンジョンをもつ量が主役を果たす。情報エントロピー (シャノン情報量) とか、カルバック・ライブラー情報量とか。

金井氏によれば、自由エネルギー原理を理解するためには、まず、「EM アルゴリズム」と「変分ベイズ」を理解する必要があるという。松田 卓也氏はそこらへんを猛勉強したようだ。

私も手をこまぬいちゃいられない。意識の謎に意識を捉えられている身としては、 意識に関してすでに誰かが提示した仮説についてはちゃんと理解しておきたい。

理論があることだけ知って、その中身を理解しないで放っておいたのでは、いつまで経っても外野から眺めているだけの素人の域から出られないぞ。今回のは、自由エネルギー原理についてちゃんと理解する絶好の機会という思いをもって臨む。

統合情報理論について、日本で一番詳しいのは、ほぼ間違いなく、大泉匡史氏 (東京大学准教授) であろう。大泉氏は、ウィスコンシン大学で 2 年間、トノーニ氏と一緒に研究している。帰国してから、理化学研究所に所属しているとき、統合情報理論を情報幾何学の枠組みで再解釈する方法論を発表している。

大泉氏は、2018年9月15日(土) と 10月13日(土) にそれぞれ大阪と東京で開催されたシンギュラリティサロンにて、『意識の統合情報理論から意識の理論の創り方を考える』というテーマで講演している。講演当時はアラヤの社員だったが、今年の 3月いっぱいで辞めて、4月からは東京大学の准教授になっている。
https://ss31.peatix.com/
https://peatix.com/event/434920

一方、自由エネルギー原理の中身の数理に関して、日本で一番詳しいのは、吉田氏か金井氏のどちらかであることはほぼ間違いないと思う。

吉田氏は、2019年8月31日(土)、9月1日(日) の 2 日間にわたって開催される予定の「脳の自由エネルギー原理チュートリアル・ワークショップ」に向けて、自由エネルギー原理の入門資料を作成し、5月3日(金) のブログに上げている。
http://pooneil.sakura.ne.jp/archives/permalink/001663.php

『自由エネルギー原理入門 改め 自由エネルギー原理の基礎徹底解説』と題する PDF ファイルは 68 ページに及ぶ。シンギュラリティサロンの開催前に上がっているので、予習して臨むことができた。自由エネルギー原理についての、この世でいちばんすばらしい教科書であろうと私は思っている。これを読んでも理解できなかったら、もう自分の頭が悪いせいなので、どうにも手の施しようがないだろうという覚悟で読んだ。

開催までには、あとちょっとで理解できそうな気がするところまでこぎつけていた。

□ 第 -2 章、上から眺めおろす視点

PDF 資料には、第 0 章が設けられている。タイトルは「自由エネルギー原理を数式なしで説明する」。数式が出てきたとたん、難解な話になったと拒否反応を起こしてしまう人は一定比率でいるようで、まずは、数式抜きに言葉で概略を説明しておけばハードルが下がって入ってきやすいのではないかという、たいへん親切な親心である。

ここでは、もうあと 2 歩、後ずさりして、第 -2 章と第 -1 章に相当することを言っておこうかな、と思う。

我々は通常、自分を中心に据えて、世界を放射状に眺めている。真正面に 60cm ほど行ったところに、パソコンのディスプレイの中心がある、とか。斜め左下へ 45cm ほど行ったところに紙コップがあって、冷めたコーヒーが 1/3 ほど残っている、とか。自分からの「向き」と「距離」とで外界にある物体の所在を捉えている。

「極座標」の視点とでも呼んでおこうか。自己中心的な視点と言ってもよいし、下等動物の視点と言ってもよいし、主観的な視点と言ってもよい。うっかり女の視点とか言っちゃうと、平手打ちが飛んできそうだ。

この視点で夜空を見上げれば、輝く星々は「天球」に貼りついていて、東から上空を経て西へと運行している。天動説の視点とも言える。

まあ、普通の視点とも言える。それ以外の視点なんてあるの? って言う人もきっと多かろう。生まれてから死ぬまで、この視点だけで生き抜くことができる人のほうがマジョリティなんじゃないかとさえ思える。そのほうがかえって情緒豊かに、生を謳歌して世を渡っていけるのかもなぁ。

もうひとつの視点は、箱庭を上から俯瞰的に眺めおろすような視点。京都駅から烏丸通を北上し、四条通との交差点の南西角に今わたしはいます、みたいな。地図を読む視点。

「直交座標」の視点とでも呼んでおこうか。客観的な視点と言ってもよい。死にかかって、魂が身体から抜けて、5m ぐらい浮いた上空から自分の抜け殻を見下ろしているような視点。幽体離脱の視点。

夜空の星々が東から西へ運行しているように見えるのは、地球が自転しているからだ、と言うとき、視点は宇宙空間にある。自分が実際にいる地球の表面上の一点とは別の位置から仮想的に眺めている。地動説の視点。

死人の視点とも言えるが、神の視点とも言える。眺めおろされている客体として、死体になり果てた自分がいて、それとは別に、上のほうの別の位置から眺めおろしている主体として、天使に昇格した自分がいる。分裂した視点。

自由エネルギー原理を理解しようとする上で、この客観視点に立つ発想がないことには、まず、スタート地点にすら立てない。

自由エネルギー原理は、そのモデルに「素朴実在論の否定」もしっかりと取り込んでいる。素朴実在論の否定は、客観視点に立って考えれば、ごくごくあたりまえの話で、ちょっと気がつけばいいだけの話なのだが、懇切丁寧に説明してもピンと来る人が異常に少ないのだ。もしかして、このモデルの基本的な設定が理解できることって、特別なことなの? と、たいへん心配になる。それで、第 -2 章。

脳内 BGM は、柏原よしえ『第二章・くちづけ』。

まず、すべての事象を眼下に俯瞰的に眺めおろす神の視点に立つ。ここが始まり。ここが大事。

神が眺めおろしている箱庭世界には、個体がいる。個体の例としては、一人のヒトや一匹の動物をイメージすればよいが、それに限らず、一匹の大腸菌であってもよいし、一体のロボットであってもよい。一個の生きた脳単体であってもよいかもしれない。自由エネルギー原理の用語では、この個体を「エージェント (agent)」と呼ぶ。

個体以外のすべては外界である。自由エネルギー原理の用語では、外界を「環境」と呼ぶ。

自由エネルギー原理は、個体と外界とからなるモデルに基づいている。個体と外界との関係性は、外界から個体への感覚入力と、個体から外界への運動出力からなり、それ以外にない。感覚入力とは、要は、目、耳、鼻、舌、肌といった感覚器官 (センサー) を通じて得られる五感の情報である。

光源から発した光が物体表面に当たり、乱反射し、反射光の一部が目に届く。眼球底部にある網膜に物体の倒立像が映り、それを視神経が捉えて、信号を脳に届ける。これが視覚情報。

音の発生源から空気の振動が伝播して、耳に届く。これが聴覚情報。光と音は、物体から目や耳に届くまでの間に空気が介在している。なので、物体の実在を間接的に捉えていると言える。それに対比して、触覚は、もっと直接的に物体の実在を捉えた情報だと思うかもしれない。

しかし、触覚信号だって、物体の表面を構成する分子と皮膚の表面を構成する分子との間で働く電気的な反発力を計測しているにすぎない。触覚信号が神経を通じて脳に届いたときは、視覚信号や聴覚信号と同様、0 か 1 かのビット列になっている。

そう考えると、個体が外界の実在を捉える手段としては、感覚入力を頼った間接的なものしかなく、外界のありようを直接的に確認しにいく手段がないということに気づくはずである。

もし私が、そこに紙コップが実在しているのを、100% 間違いなく、ぜったいに確かなことだ、と思ったとしても、それは、脳内に紙コップのイメージが形成されていることを主張しているにすぎない。外界にある実体としての紙コップと脳内の紙コップのイメージとは別物である。

紙コップのイメージが実体とどれくらい合致しているのか、それを私の側から直接比較して確かめにいく手段は、ない。これが、すなわち、素朴実在論の否定、ということである。

自由エネルギー原理のモデルにおいて、個体は外界のありようを知ることはできない、という設定になっている。素朴実在論を否定する考え方をちゃんと取り込んでいるのである。

しかし、自由エネルギー原理のモデルを眺める神視点の側に立てば、外界にある紙コップの実体も脳内にある紙コップのイメージも、すべて知ることができるので、比較してみることが可能である。

ほんとうは何も分かっていないのに、分かったと錯覚している個体の知の及ぶ範囲の限界と、すべてを正しく把握している神の全知性との対比が明確なのである。

個体から外界への運動出力は、外界のありようを変化させ、一瞬後の感覚入力を変化させる。

個体が、外界からの感覚入力や外界への運動出力を通じて、外界のありようを確率的に推測する情報処理のメカニズムを説明づけようとする理論のひとつとして、自由エネルギー原理がある。

実は、個体は、外界から入ってくる感覚入力を受動的な姿勢で待っているだけでは、外界について大してよく理解することができない。外界へ送り出した運動出力と、一瞬後に入ってくる感覚入力との関係性を手掛かりにすることで、より正確に、外界のありようを把握することができるようになる。

「見る」という行為ひとつをとってみても、それは、視覚情報が入ってくるのを受動的な姿勢で待っていることではなく、行動とセットになった能動的なことなのだと考えられる。これを active vision という。

□ 第 -1 章、個体に課せられた大目的は生き続けること

では、続いて、第 -1 章。

個体と外界のモデルにおいて、個体に課せられた大目的は生き続けることである。できる限り長生きすること。1 日生き延びたら 1 点もらえることにして、将来にわたって得られる点数の (減衰等比数列の重みつき) 総和を最大化せよ、というふうに条件設定すれば、とりもなおさず、強化学習の問題になる。

長期にわたる狙いを瞬間瞬間に還元すれば、そのとき、そのとき、精いっぱい生存確率を上げること、となる。

自分の周囲の外界がいまどういう状態になっているのか、よく把握しないまま、やみくもに行動をとったら、あぶなっかしい。崖から落ちるかもしれないし、熊のランチになっちゃうかもしれない。藪に危険はないだろうと思っていたら、熊が飛び出してきたのだとすれば、危険を正しく察知しておくのが重要だったということになる。

なので、生き続けるという大目的をいくつかの小目的に分解するとすれば、そのひとつとして、外界のありようをできる限り正しく理解せよ、というのがあるだろう。小目的はほかにも挙げられるかもしれない。

自由エネルギー原理においては、これを主たる目的として掲げる。吉田氏は「学者の欲望に忠実な世界観だな」と述べている。たしかになぁ。学者じゃなければ、世界の理解なんてほどほどにしておいて、楽しいほうや気持ちいいほうへ行っちゃうよなぁ。

この目的を達成する手段としては 3 つある。
(1) 知覚。感覚入力に基づいて、今現在の外界の状態について最良な推測をする
(2) 行動。外界を理解するために、より価値の高い情報が得られるよう、外界に対して行動出力する
(3) 学習。びっくりしたとき、同じことでまたびっくりしないよう、個体内部の生成モデルを更新する

いずれの手段をとるにせよ、それらに通底する原理があると、自由エネルギー原理は主張している。それは「変分自由エネルギー」の値を下げることであるという。つまり、生きようとする志向は、変分自由エネルギーを下げようとする志向に還元されるってことか。

フリストンは、次のように言っている。「いかなる自己組織化されたシステムでも、環境内で平衡状態でありつづけるためには、そのシステムの (情報的) 自由エネルギーを最小化しなくてはならない」。次のようにも言っている。「適応的なシステムが無秩序へ向かう自然な傾向に抗して持続的に存在しつづけるために必要な条件」。

□ つまずきの石 — 直接的に厳密解を算出しちゃだめなの?

自由エネルギー原理を初めて学ぼうとするとき、非常につまずきやすい石がある。たいていの人は、これで一度は転ぶ。暴露しちゃうのもアレだけど、松田先生も転んだ。

それは、簡単に解ける問題を、なぜわざわざ難しくして、回り道して解く必要があるのか、という疑問である。回り道して得られる解は、元の近道で得られる解と寸分たがわないにもかかわらず。

あまつさえ、厳密解が数式で表現できているにもかかわらず、なぜわざわざ近似解を求めようとする必要があるのか。

この疑問を定式化した形で言い換えると、次のようになる。

外界の状態を x とする。個体にとって、外界の状態 x を直接的に知ることができないのは、素朴実在論の否定の原理に由来する。

感覚入力を s とする。解きたい問題は、感覚入力 s に基づいて、外界の状態 x を推測することである。

と言っても、x がズバリひとつだけ選択できるというものではなく、いろいろでありうる x それぞれについて、それが起きる確率 p を求めるのがせいぜいである。

つまり、求めたい答えは、感覚入力 s が得られているという条件の下で、それが、外界の状態 x が原因であったために起きたという条件つき確率 p(x|s) である。

さて、もし、何の手掛かりもなければ、答えの求めようがない。いま、この個体は、あれやこれやの経験を経てきて、十分に育ち上がっているものとする。外界の状態 x と感覚入力 s との関係性を表す辞書のようなものをすでに獲得しているものとする。その辞書は、x と s との同時確率分布 p(x,s) の形ですでに内部に保持されているものとする。

この設定の下で、問題を記述しなおせば、同時確率分布 p(x,s) が与えられているとき、条件つき確率 p(x|s) を求めよ、ということになる。これは、めちゃめちゃ簡単な問題である。

同時確率分布が分かっているということは、だいたいすべて分かっているというに等しく、これに付随して分かりたいことは、何でもかんでも簡単に導出できるのである。

例えば、外界の状態 x がどんな感覚入力 s を引き起こすかに関心を向けず、ただ x が起きる確率 p(x) を知りたければ、s について総和をとればよい。これを周辺化という。p(s) についても同様。

  p(x) = Σ_s p(x, s)

  p(s) = Σ_x p(x, s)

物理的な現象が起きる因果関係としては、外界の状態 x が原因で感覚入力 s が結果である。x が起きたという条件の下で s が起きる条件つき確率を p(s|x) と表記する。

一方、個体にとっては、感覚入力 s が来たとき、その原因 x が何であったのか、遡って推測したい。つまり、求めたいのは因果関係をひっくり返した p(x|s) である。条件つき確率については、次が成り立つ。

  p(x, s) = p(s) p(x|s)

  p(x, s) = p(x) p(s|x)

この式をみれば、条件つき確率以外のところは、すでに求まっているものばかりである。よって、求めたい p(x|s) は

  p(x|s) = p(x, s) / p(s)

である。以上、終わり。自由エネルギーなんて、どこにも出てきませんね。

自由エネルギー原理では、次のように考える。求めたい p(x|s) が分からないので、これを q(x) とおく。q(x) の推測値を求めることを目的とする。

q(x) を用いて、変分自由エネルギー F という量を定義する。F を最小化するような q(x) を求めようとする。この問題は、先ほどのものよりも、いっそう難しくなっている。

これをがんばって解くと、先ほど得られていた解と、寸分たがわないものへたどり着く。じゃあ、この回り道は何のためだったの?

さらに、すでに厳密解が求まっているにも関わらず、反復計算によって近似解を求めようとする。いったい何のために?

これに対する答えは、次のようなものである。あの総和をとるところの計算がたいへんで、現実的でないのだ、と。外界の状態 x は、起こりうる、ありとあらゆる森羅万象である。どんだけの回数、足し算しなきゃならんのだ、ってわけである。

つまり、自由エネルギー原理を導入することにより、問題を解く過程は長く複雑になるけれども、中の数値計算は軽くなるのだ、と。ありがたみはそこにあるのだ、ってわけである。

なるほど! 私はいちおう納得した。でも、完全に納得できているわけではなく、疑念が残っている。それについては、【所感】の項でまた触れる。

□ 手抜きをしない生き方が驚異的

吉田氏は、何をするにしても、いちばん苦労しそうな茨の道をわざわざ選んで進む。超人的なバイタリティを感じさせてくれる、おそるべき生き方だ。

2019年8月31日(土)、9月1日(日) の 2 日間にわたって、愛知県岡崎市にある「生理学研究所」にて、「脳の自由エネルギー原理チュートリアル・ワークショップ」というセミナーが開催される予定になっている。定員は 24 名。
http://www.nips.ac.jp/~myoshi/nins_tutorial2019/

5月17日(金) に参加申し込みを開始し、6月30日(日) が締め切りだった。5 日目の 5月21日(火) の時点ですでに 24 人に達したことを吉田氏がツイートしている。「正直、予想外。FEP に興味持ってる人がそんな多かったとは…」。

大阪でシンギュラリティサロンが開催された 5月25日(土) の時点で、すでに定員の 2 倍以上の申し込みが来ているのだとか。

申し込み多数の場合、絞り込む手段としてよく採用されるのは、先着順か抽選だ。ところが、吉田氏は書類選考にするという。いやはや、セミナーを聴講するのに、大学入試みたいなのを突破しなくてはならない、と? しかも、聴講希望者の中には大学教授もいるという。無理ゲー?

いやいや、学力を問うのではなく、
(1) 自由エネルギー原理を活用してくれそうな人
(2) 広い分野からの参加者
という観点で選考するという。

申し込みフォームで 4 つの質問に答えるようになっている。
(a) FEP を活用したいと考えている分野やテーマ
(b) FEP について現状でどのくらいのことをご存知でしょうか
(c) プログラミング経験
(d) 期待すること

聴講すべき人に聴講してもらおうと意欲満々で、すばらしい選抜方法とは思うけど、50 通以上の回答にすべて目を通さなくてはならないではないか。そりゃ面倒だ、って思わないところが超人。まあ、おかげで、大阪の翌日にあわてて申し込んだ私にもまだチャンスがあるのだが。

7月11日(木) 0:15pm、メールが届いた。合格! わぁーい! 応募は最終的に 70 名に達したという。

8月31日(土) は京都で松田卓也氏の連続講座『迫り来るシンギュラリティと人類社会の未来』があるのだが。そっちは裏切って、欠席します。
http://www.jein.jp/jifs/workshop/science-salon-2019/details/1672-matsuda-salon.html

また、ポスドク研究者を 1 名募集するという。自分が選考する側なのだから、応募者を面接に呼んで好きに質問すればいいように思うが、募集をかける側になるのは初めてだからと、面接のしかたなどをネットで調べ、読み回っている。しかも、その結果得られた情報をまとめ、ブログで公開している。
http://pooneil.sakura.ne.jp/archives/permalink/001672.php

自分が先陣を切ってたいへんな思いをしたら、後に続く人は少しでもラクができるようにと情報を整理して共有する。その心がけが立派すぎてまぶしい。

でも、そんな調子で生きていたら、やりたいことが多すぎて消化しきれず、結局、いろいろなことを来世送りにしている。「… 来世で読む」というツイートが多い。

シンギュラリティサロンの準備においても、すごい手のかけようである。ツイートによると、大阪の前日、夕食後に仮眠してからスライド資料を仕上げようと思っていたら寝すぎて、目覚めたら 10:00pm だったとか。あと 3 時間でなんとかしなくては、とあせっている。

予定していた作業が完了したとツイートしたのが当日の 2:15am。いちおうこの資料で講演できるところまではこぎつけたけど、さらに、当日午前中の 3 時間、作業する気でいる。

大阪で講演した日の夕方 6:14pm には、反省点を盛り込んで、東京用のスライドをどう作り込むか思案するツイートをしている。もちろん、主催側からなんら要望が出たわけではなく、大阪のと同一内容でよいのだが。自主的にやっているのである。

東京講演の前日、京都大学で島崎秀昭氏の講演を聴講することになっていて、そこで聞いてきたことを東京講演に反映する算段にしていると、京都の前日の 7:03pm にツイートしている。

それとは別に、大阪ではスイッチと照明の例で解説していたのを東京では蝶と蛾の例に差し替えようとしていて、あと 3 時間ぐらいで目処をつけたいとツイートしている。

さらに当日、「今朝になって前半の説明の改良案を思いついたので、MATLAB での図から作りなおした。なんとか間に合って、東京駅に到着した」とツイートしている。

聴講する側としても、気合いを入れなおして、全力で聴かなくてはバチが当たるというものだ。

【内容】

□ 目次

[前半部]
1. アクティブビジョン
2. 自由エネルギー原理 (FEP) とはなにか
3. FEP について数式を使わないで説明
4. 変分自由エネルギーについて説明
5. 変分原理としての FEP

[後半部]
1. フッサール現象学での視覚論
2. FEP から見た視覚
3. FEP 的な視覚的意識の理論
4. 他の理論との比較
5. Active Inference 説の今後の課題

吉田氏のブログで、スライド資料と講演動画を見ることができます。
http://pooneil.sakura.ne.jp/archives/permalink/001673.php

また、68 ページにわたる入門者向けの教科書は下記のところで
拾えます。
http://pooneil.sakura.ne.jp/archives/permalink/001663.php

□ 前半部 – 1. アクティブビジョン

我々がものを見ているとき、あたかも視野全体にわたって隅々までピントの合ったシャッキリした写真を見ているかのように感じているかもしれない。しかし、実際はそうではない。ピントが合っているのは、視野角にしてわずか 1°にすぎない。1°というのは、腕を伸ばしたときに見える親指の爪ぐらい。

なので、実際には、視野の中心のごくわずかな領域にだけピントが合っていて、それ以外の大部分の周辺領域がボケボケの画像を見ている。

では、なぜ、全体がシャッキリ見えているように感じられるのか。それは、我々は 1 秒に 3 回ぐらいの頻度で絶えず視線を動かしながら、脳内で視覚シーンを構成しているから。

視覚とは、受け身での表象形成ではなくて、行動 (例えば眼球運動) によって、主体が視覚情報をサンプルすることである。これを「アクティブ・ビジョン (Active Vision)」という。

□ 前半部 – 2. 自由エネルギー原理 (FEP) とはなにか

「自由エネルギー原理 (Free Energy Principle; FEP)」の入り口でたいてい目にする図式がこれで、まず、「エージェント (個体)」対「環境 (外界)」からなるモデルが基本にある。

環境には「外界の状態 (External States)」があり、エージェント内部には「内部の状態 (Internal States)」がある。環境からエージェントへは、「感覚 (Sensation)」の入力があり、逆向きには「運動 (Action)」の出力がある。

外界の状態 → 感覚入力 → 内部の状態 → 運動出力 → 外界の状態、という情報の流れを「感覚運動ループ (sensorimotor loop)」という。「自由エネルギー原理」はまさに、感覚運動ループの定式化になっている。

カール・フリストンによる定義は、こうなっている。「いかなる自己組織化されたシステムでも、環境内で平衡状態でありつづけるためには、そのシステムの (情報的) 自由エネルギーを最小化しなくてはならない」。別な言い方をすると、「適応的なシステムが無秩序へ向かう自然的な傾向に抗して持続的に存在しつづけるために必要な条件」となる。

この原理により、知覚と行動選択と学習とを統一的に説明づけることができる。それ以外にも、いろいろ説明がついちゃう。

□ 前半部 – 3. FEP について数式を使わないで説明

・ (1/3) 知覚

話を簡略化するために、いま、世界の状態は 2 つしかないものとしよう。目の前に蝶がいるか、あるいは蛾がいるか。その下で、視覚情報の形で感覚入力として入ってきうるのは、蝶がいる画像か蛾がいる画像かの 2 つしかないものとしよう。

いま、感覚入力として、蝶がいるという視覚情報が入ってきたとしよう。エージェントの内部では、この視覚情報を利用して、外界にいるのが蝶である確率は 90% で、蛾である確率は 10% である、という推測をする。この推測を「知覚」という。

これを可能たらしめるためには、感覚入力と外界の状態との間の関係性を記述した辞書のような情報を、エージェントが内部に備えていないとならない。この情報を「生成モデル」という。

エージェントが、内部に備えた生成モデルを参照しながら、感覚入力に基づいて外界の状態を推測する過程は、ベイズ統計学を使って解くことができる。脳が実際にこの計算をしているはずだとする仮説を「ベイズ脳仮説」という。

しかし、その計算は、脳が直接的に実行できるような現実的な計算量なのかというと、なかなかむずかしそうだ。じゃあ、どうしているのか。そこで登場するのが「自由エネルギー原理」である。

自由エネルギー原理は、予測誤差と連動している。予測が大きくズレているとき、自由エネルギーの値が大きくなる。これを下げる方向へ予測を修正していき、自由エネルギーの値が最小になるところへ行き着いたとき、予測誤差も最小になっており、このとき、ベイズ脳と同じ結果に到達している。

つまり、「知覚」とは現在の「外界の状態」のよりよい推定である。

・ (2/3) 行動選択

いま、画像の左下にピントが合っているとしよう。右上のほうに何かがいて、蝶っぽくもあり蛾っぽくもあるが、ピンボケしているので、判然としない。

行動がなければ、これ以上の情報は得られない。目を右上に動かして、ピントを合わせることにより、はっきりと蝶が写った画像が得られる。これで、蝶であることが判明した。

ここで何が起きているかというと、やっぱり自由エネルギーが下がっている。

感覚運動ループの図でみると、右上を見る、という行動をとることによって、次に入ってくる感覚入力を変えることができる。エージェントは、内部に備えている生成モデルを参照することで、右上を見るという行動をとれば、自由エネルギーを下げることができると期待される、ということが先読みできる。

つまり、「行動選択」とは、未来の「外界の状態」のよりよい推定である。

・ (3/3) 学習

今までのところは、エージェントが内部に持っている「生成モデル」はすでに完成されたものとして扱っていた。しかし、実際には、外界の状態と感覚入力との関係性は最初から知っているわけではなく、経験に基づいて、その都度アップデートしている。このときもやはり、自由エネルギーを下げている。

つまり、「学習」とは (未来の「外界の状態」のよりよい推定のための) 生成モデルの構築、更新である。

□ 前半部 – 4. 変分自由エネルギーについて説明

ここからは数式を用いた説明に入る。エージェントがどのようにして自由エネルギーを下げるかについて、3 つのプロセスに分けて説明する。

・ (Level 1) 知覚 (Perception)

エージェントが、感覚入力に基づいて、内部に備えた生成モデルを参照しながら、外界の状態を推測する「知覚」のメカニズム自体は、自由エネルギーを持ち出す以前に、ベイズ統計学を使って説明がついてしまう。

外界の状態を x としよう。神様視点で図を眺めている我々は x の真値を知っているが、エージェントにとっては、100% の確度をもって知ることが決してできない「隠れ値」である。

外界の状態が x である確率を p(x) と表し、これを「事前確率」とよぶ。エージェントは、p(x) の値も正確に知ることができない。

感覚入力を s としよう。外界の状態 x が原因で、その結果として、感覚入力 s が起きるという物理的な因果関係がある。これを「生成過程」という。

外界の状態 x が分かっているという条件の下で感覚入力 s が起きる条件つき確率を p(s|x) と表す。

一方、エージェントの内部では何が起きるかというと、感覚入力 s が得られたという条件の下で、その原因が x であった確率を推測する。因果関係をひっくり返して、遡った推測をすることになる。つまり、p(x|s) を求めようとしている。先ほどの条件つき確率 p(s|x) とは逆になっている。この、因果関係のひっくり返った条件つき確率 p(x|s) を「事後確率」とよぶ。

さて、外界の状態が x であり、なおかつ、感覚入力が s である確率を p(x,s) と表す。これを「同時確率」とよぶ。

公式により、次がともに成り立つ。

  p(x,s) = p(x) p(s|x)               ……【数式 1】

  p(x,s) = p(s) p(x|s)               ……【数式 2】

【数式 1】を平文で読みくだすと、次のようになる。「x が起き、なおかつ s が起きる同時確率 p(x,s) は、x が起きる事前確率 p(x) と、x が起きたという条件の下で s が起きる条件つき確率 p(s|x) との積で表される」。

さて、エージェントにとって求めたい値 p(x|s) は、【数式 2】から、

  p(x|s) = p(x,s) / p(s)              ……【数式 3】

であることが分かる。

いま、エージェントはすでにじゅうぶんな経験を経て育ち上がっており、内部にある程度完成した生成モデル p(x,s) を備えているものとする。すると、【数式 3】の分子は分かっていることになる。じゃあ、分母はどうすれば分かるか。これは、p(x,s) の x についての総和を取ることにより、得られる。

  p(s) = Σ_x p(x,s)                ……【数式 4】

この計算を「周辺化」とよぶ。これを【数式 3】に代入して、

  p(x|s) = p(x,s) / Σ_x p(x,s)          ……【数式 5】

を得る。エージェントは同時確率 p(x,s) を知っているので、これをもとに、条件つき確率 p(x|s) が求まったことになる。

ここまでをまとめると、次のように言える。事後分布を計算するには、生成モデル (これまでの経験) と感覚入力 (イマココでの観測) があればいい。知覚とは、生成モデルと感覚入力に基づいて、外界の状態の事後分布を計算 (確率的に推定) することである。これを「ベイズ脳仮説」という。

ここまでは、自由エネルギーを持ち出すまでもなく、説明がついてしまった。

筆者注。ここで「分布」という言葉がさらっと登場している。これについて注釈しておきたい。一般に事象 x が起きる確率を p(x) と表す。いま、x が定数であって、あるひとつの事象だけを特定して指しているのであれば、p(x) はその事象 x が起きる確率である。

一方、もし、x が確率変数であって、起こりうるありとあらゆる事象を総称的に指しているのだとしたら、p(x) はケース A が起きる確率、ケース B が起きる確率、ケース C が起きる確率、… をすべて書き並べたものを表している。この意味の p(x) を「確率分布」という。

さて、我々のモデルでは、エージェントが p(x|s) を求めているが、これはある特定の x についての確率ではなく、ありとあらゆる x にわたる確率分布の意味で言っている。

問題設定としてこれが妥当かどうかについては、後ほど、【所感】で議論する。筆者注、ここまで。

さて、ベイズ脳仮説でほんとうに片がついているのであれば、わざわざ自由エネルギーを持ち出す必要はないのだが、そうはいかない事情がある。p(x,s) を x について周辺化して p(s) を得る計算では、起こりうるありとあらゆる x について総和をとらなくてはならない。

現実の場面において、x はそれこそ神羅万象すべてである。この総和をとる計算はたいへんだ。おそらく脳はこんなことはしていないだろうと考えられる。そこで、厳密解ではなく近似解でよいから、という譲歩をした上で、計算を端折れないか、ということを考える。

つまり、変分自由エネルギー F を導入することにより、論理の道筋は遠回りになるけれど、実際に数値計算してみると、計算量が軽くなっているのでお得である。ここに意義を求めている。この計算量軽減説の妥当性についても、後ほど、【所感】で議論する。

ほんとうは p(x|s) が欲しいけど、計算を端折って得られる近似解を q(x) と表すことにする。

この q(x) と同時確率 p(x,s) とを用いて、「変分自由エネルギー F」を定義する。

  F = Σ_x q(x) ln( q(x) / p(x,s) )        ……【数式 6】

ここに、ln() とは自然対数関数である。

q(x) を変化させると F の値も変化するが、F の値を最小にするような q(x) が、求めたい p(x|s) に一致するという仕掛けになっている。近似解 q(x) としては、F の最小値にぴったり到達しないまでも、数値計算により、近所まで迫っていければよしとしよう、という妥協をしている。

しかし、妥協したからといって、このままの形では、問題がちっとも簡単になっていない。易しい問題をかえって難しくしている。

実際、自由エネルギー F の定義式には、あらゆる x にわたって総和をとるという記述が残っている。なので、F の値そのものを求める計算は、p(x|s) を求める計算と同等以上にたいへんになっている。

じゃあ、どうすると話が簡単になるのか。F を未知数で偏微分すると、すばらしいことが起きる。総和をとる計算が一気に消滅して、たった 1 項しか残らないのである。そこがミソ。

未知数は q(x) であるが、この q(x) はある特定の x に関する生起確率を表しているのではなく、ありとあらゆる x に関する生起確率をすべて書き並べた確率分布を表している。未知数はひとつではなく、いっぱいある。

計算の初期設定として、q(x) は適当な値を割り振っておく。例えば、x の起きうるケースが N 通りあるのだとしたら、すべての x に対して均等に確率 1/N を割り振っておく。

F を未知数のうちのひとつで偏微分することにより、その未知数の値を上げるか下げるか、どっち方向に動かすと F の値が下がるのかが分かる。偏微分の値にも意味がある。F をそれぞれの未知数で偏微分した値を書き並べて得られるベクトルを「グラジエントベクトル」とよぶ。これは、F の 坂道がいちばん急峻になる方向を示している。地図で言えば、等高線に垂直な、登るのがいちばんしんどい方向である。

すべての未知数をいっせいに、グラジエントのマイナス方向、つまりは F の坂道を効率よく下る方向へ、ほんのちょこっとだけソリっと動かす。あんまり大きくガンっと動かしすぎると、F の最小値を飛び越えて、また上がってしまう可能性があるので。

動いた先では、グラジエントの向きが変わっている可能性があるので、また計算しなおす。坂をちょっと下ってはグラジエントをとりなおし、またちょっと下ってはグラジエントをとりなおし、盆地の底にたどり着くまでソリソリソリソリと反復する。

ぴったりでなくても、だいたい底の近くまで寄れればよし、としておけば、近似解 q(x) が得られている。

・ (Level 2) 行動 (Action)

ある場面で、画像の左下を見ているとき、そこの近辺にしかピントが合っていない。画面の右上に蝶っぽくもあり蛾っぽくもある何かがいそうな感じがしているけれども、ピンボケしているため、それが何なのか、特定できない。視線を画面の右上に移してみたら、ピントがしゃっきりして、そこにいるのは蝶であることが確認できた。

このとき、視線を左下から右上へ移すという行動をとったことによって、やはり、自由エネルギー F の値が下がっているのである。

自由エネルギー F の定義式には、感覚入力 s と同時確率 p(x,s) と近似解 q(x) が関わっていて、先ほどの知覚の例では、s と p(x,s) が固定されている上で、q(x) を動かすことができた。今回の行動の例では、s を別のもの s’ に差し替えることができる。これにより、p(x,s) が p(x,s’) に差し替わる。

F を最小化するような q(x) を求めるに際して、もともとの p(x,s) を使うよりも、差し替えたもの p(x,s’) を使ったほうが、運がよければ、もっと下へ行ける可能性がある。

フリストンによれば、「行動する理由は周りの世界を知りたいから」ということになる。これを吉田氏は「学者の欲望に忠実な世界観だな!」と返している。ううむ、我々凡人は、別の動機で行動することのほうが多そうだ。これをスケベ心という。そっちも定式化してくれないかな。

・ (Level 3) 反実仮想 (Counterfactual)

先ほどの行動においては、s を変えることによって、p(x,s) を別物に差し替えていた。運がよければ F をさらに下げることができるけれども、運が悪ければ、かえって上がってしまうかもしれない。上がる場合も下がる場合もあるけれど、総合的な期待値としては、下がり目だろうと予測して行動を選択しているのだろうと考えられる。

つまり、エージェントがある行動をとるとき、未来の状態を予測していて、それに基づいてどんな行動をとるか選択しているのであろう。時間がちょこっと進んだときになっている状態は、現在の状態とは異なっているであろう、ということで「反実仮想 (counterfactual)」とよぶ。

時間の推移も組み入れたモデルを考えると、変数が多くなってきて、たいへんややこしいのだが、グラフィカルモデルを用いることで、これらの依存関係を整理して眺めることができる。詳細をレポートするのは省くので、スライド資料と動画を参照してください。

□ 前半部 – 5. 変分原理としての FEP

統計物理学でも「自由エネルギー」という概念が出てくるが、それの定義は、我々がいま定義したものとは異なる。

我々の F は、式変形することにより、カルバック・ライブラー距離の項と周辺尤度の項との和の形に分離することができるが、物理の F は周辺尤度のほうを指しているっぽい。

先ほどの説明だと、ベイズ脳を実現するという目的が先にあって、そのための近似的な手段として自由エネルギー F を下げるという方法を導入した。しかし、ほんとうは逆なのではないか。

物理的な制約から、脳には何らかの作動原理があって、自由エネルギーあるいは周辺尤度を下げるように機能しているのではないか。その結果として、ベイズ脳が実現しているのではないか。

□ 後半部 – 1. フッサール現象学での視覚論

前半部で、自由エネルギーを下げるプロセスには 3 つあることをみてきた。
(1) 知覚的推論 (Perceptual Inference)
(2) 能動的推論 (Active Inference)
(3) 反実仮想 (Counterfactual)

では、エージェントが意識を宿すためには、どのプロセスが必要なのか?

吉田氏は能動的推論派、フリストンは反実仮想派。

能動的推論は、フッサールの「現象学」から着想を得ている。例えば、サイコロを眺めることひとつをとっても、自分が動くことによって、これまで見えていなかった側面を見ることができる。ものを見るというのは受動的な経験ではなく、つねに自分の身体の運動可能性と結びつけられる能動的な仕方で経験されている。

□ 後半部 – 2. FEP から見た視覚

「見る」とはどういうことか。受動的か能動的かで 2 つの説に分かれる。

エージェントは外界から感覚情報のひとつとして視覚情報を得て、その情報が脳内に取り込まれる。脳内に反映された外界の像が「表象 (representation)」である。エージェントは表象に基づいて、外界のありようを推測する。これは受動的な視覚観であり、「表象説」とよばれる。

一方、「見る」とは、「感覚運動随伴性 (Sensorimotor Contingency; SMC)」の習熟に媒介された探索的活動であるとする考え方がある。能動的な視覚観であり、「SMC 説」とよばれる。

自由エネルギー原理の考え方は、SMC 説と整合的である。しかし、視覚情報に基づいて外界のありようを推論する方法論の部分では、表象説とも整合的である。つまり、視覚には表象と SMC の両方が必要。

自由エネルギー原理の考え方は、表象説と SMC 説とを発展的に統一する。

□ 後半部 – 3. FEP 的な視覚的意識の理論

現象学において、意識は次の 3 つで構成される構造になっている。
(1) 注意を向けられている対象
(2) 注意を向けられてはいないが、目に映っていると思われるような周辺視
(3) 視覚世界を成り立たせている前提条件が互いに緊密に結びついた構造

自由エネルギー原理において、(1) は「イマココの推測 q(x)」に相当する。(3) は「世界のモデル p(x,s)」に相当する。(2) は両者の相互浸透に相当する。

意識は (1) であるとするのが表象説であるのに対して、(3) であるとするのが SMC 説である。現象学では (1) 〜 (3) をひとつの構造と捉える。

意識とは、イマココの推測 q(x) と世界のモデル p(x,s) が一体となって、知覚のたびにオンラインで統合され続ける「過程 (process)」である。

イマココの推測 q(x) と生成モデル p(x,s) との間の差異こそが意識を生き生きと成り立たせている。この差異がなくなったら、主体は環境と単に地続きとなり、意識も消滅してしまう。

意識は過程 (process) であるとしたところが大事。対抗する説として意識は「状態 (state)」であるとする説がある。表象説においてはこの立場をとり、脳の状態に対応して意識の状態があるとしている。

自由エネルギー原理の立場では、脳の状態が変化していくプロセスこそが意識であると捉える。

吉田氏は、意識が生じるための必要十分条件は何かという問いに対して、能動的推論 (Active Inference) 説の立場をとる。感覚的推論 (Perceptual Inference) は必要ではあるけれど、その機能なら現状の AI にも備わっており、これだけでは意識が生じるには十分ではない。一方、反実仮想ができれば十分ではあるけれど、この機能がなくても意識が生じている可能性はあり、必要ではない。

ちょうどよい中間に Active Inference 説があり、本質的なのは、世界へ介入できることである。カエルは世界への介入が可能なので、おそらく最小限の意識をもつであろう。

「介入することで、世界はリアルになる」。吉田氏のツッコミは「実験家の欲望に忠実な世界観だな!」。

□ 後半部 – 4. 他の理論との比較

渡辺正峰氏 (東京大学准教授) は著書『脳の意識 機械の意識』の中で、「生成モデルを持つことが意識の十分条件」と言っている。これは Perceptual Inference 説に属する。

「人工知能 (Artificial Intelligence; AI)」の一ジャンルとして、「機械学習」があり、3 つに大別される。
(1) 教師あり学習
(2) 教師なし学習
(3) 強化学習
ちなみに「深層学習 (Deep Learning)」は (1) 〜 (3) のすべてにおいて、下請けの便利な道具として使われている。

「教師なし学習」の一手法として、「変分自己符号化器 (Variational Autoencoder; VAE)」というのがある。これは生成モデル p(x,s) を備えており、p(x|s) による推論と p(s|x) による生成をおこなっている。Perceptual Inference 説の立場をとると、VAE が意識を持ちうるという話になる。

金井良太氏 (株式会社アラヤ代表取締役) は、「機能としての意識は自由エネルギー原理で決まり、意識がどの程度の強さをもって生じているかは情報統合の度合いによって決まる」と言っている。情報統合の度合いを測るための理論として「統合情報理論 (Integrated Information Theory; IIT)」がある。帰結として、やはり VAE に意識が宿りうることになる。

カール・フリストン氏とアニル・セス (Anil Seth) 氏 (英国サセックス大学) は、意識が生じるためには反実仮想が本質的だと言っている。

意識が本質的にどこから生じるかについて学者たちがとる立場を、Kirchhoff と Froese は 4 つに分類している。4 つの領域は田の字をなしている。

下半分は、心は生命に宿るものであり、生命と心は切っても切れない直結したものだと捉える立場である。上半分は、生命と心とは独立であって、心というものはそれを宿す主体に依存しない形で捉えうるものだと考える立場である。

自由エネルギー原理は、エージェント対環境のモデルを提示し、エージェントが外界を理解するためにおこなっている計算の仕方について述べた理論であって、生命にはまったく言及していない。なので、上半分に属するはずである。

… かと思いきや、Active Inference 説では、世界に介入する行動が必要になるので、身体を持ってないとならないことになり、したがって、下半分なのか。しかし、ルンバは世界を掃除しに行くけど? 生命をもたないロボットの身体が世界に介入したんじゃ、だめなの?

左半分は、エージェント内部でおこなっている計算的操作から意識が生じるとする立場である。右半分は、自己組織化するものに心はあるとする立場である。エージェントと外界との相互作用から意識が生じるとする立場だとも言える。

この田の字の中にいろんな学者を配置するとどうなるか? セス氏は下の真ん中。金井氏は、サセックス大学でセス氏と一緒に意識の研究をしていたが、立場としては上の右。渡辺氏は上の左。フリストン氏は、書いた論文によりけりで、下の左にも下の右にも上の右にもいる。おいおい、節操ないぞなもし。

□ 後半部 – 5. Active Inference 説の今後の課題

物理世界にあるもろもろの物体やもろもろの物理現象をどうやって (概念的なひとつひとつのカテゴリとして) 分節するのか、そして、「分節した別のものを同じものとみなす」という確率的扱いがいかにして可能なのかという問題はまったく解決していない。

筆者注。そここそ自己組織化などの教師なし学習の方法論が目指すところなのではあるまいか。

【所感】

分厚い専門書を一冊読み切ったかのような、情報量に圧倒された感があった。これだけの分量の情報をうまく整理して、全体を効率よく構成して時間配分していたので、入門者向けの話から専門家向けの話まで、奇跡のように 1 回の話としてまとまっている。

自由エネルギー原理について初めて聞く人にも分かりやすいように、まずは数式を使わない定性的な導入から入り、イメージをつかんでもらった後で、数式を持ち出してくるといった工夫を凝らしている。

最も単純な例を挙げて、それに沿って計算の過程をなぞっており、説明が非常に分かりやすかった。自由エネルギー原理に一から入門しようとするのなら、やはり吉田氏から教わるのがベストであろう。

しかし、単なるチュートリアルで終わらず、前半で解説した基礎を踏まえた上で、後半では、意識の仮説について、諸説を俯瞰的に整理して示しており、高度で踏み込んだ内容だった。

今までのシンギュラリティサロンの中で、歴代の登壇者たちが 4 人も聴講しに来た回はなかったのではあるまいか。おそらく専門家の期待も裏切らなかったであろう。

さて、そういうわけで、吉田氏の話の内容について、苦情を申し立てようという気持ちは少しもない。ただ、自由エネルギー原理そのものへの基本的な理解がまだ不完全な状態であるというもやもや感が解消しきれていない。というか、もっと言ってしまえば、この理論、ほんとうにこれでだいじょうぶなのか、という疑義が残る。そういうのはフリストンに直接言ってくれ、と言われればそれまでである。

□ ばかでかくてスカスカな表

エージェントは内部に生成モデル p(x,s) を保持しているという。まあ、そこにも疑いがないわけじゃないのだが、そこからやっていると話が始まらなくなってしまうので、いちおうよしとしておこう。

ただ、ここで確認しておきたいのは、p(x,s) を真っ正直に書きくだすと、やたらとでかい上にスカスカな表になっているという点である。どういうことか。

まず、x は外界のありとあらゆる神羅万象である。蝶がいるとか、蛾がいるとか、猫がいるとか、犬がいるとか、ゾウがいるとか、キリンがいるとか、クジラがいるとか、タコがいるとか、リンゴがあるとか、ミカンがあるとか、雨が降っているとか、雪が降っているとか、ぬるめの燗酒が出されたとか、あぶったイカが出されたとか、そんなやつである。

表の左側面の欄外の見出しに、上から下へ、これらを書き並べたとしよう。全部で N 個あったとしよう。N の値は数千とか数万とかになろう。いや、もっと多いか。

一方、感覚入力 s は、視覚を例にとれば、目に入ってきうる、ありとあらゆる画像である。薄茶色の子猫が寝転んでいる絵とか、でかい黒猫がジャンプしている絵とか、まあ、そんなたぐいの視覚情報すべてである。

表の上辺の欄外に、左から右へ、これらを書き並べたとしよう。全部で M 個あったとしよう。M の値は、数百万とか、数億とか、あるいはそれ以上のオーダーになるかもしれない。

そうすると、p(x,s) とは、N 行 × M 列からなるやたらと巨大な表であったということになる。第 j 行が「猫がいる」という外界の状態に対応しており、第 i 列が「三毛猫が餌を食べている」視覚情報に対応しているとすれば、表の第 j 行第 i 列に記入される値とは、猫がいて、なおかつ、目には三毛猫が餌を食べている絵が入ってくる確率である。

M × N 個の確率の値をぜーんぶ合計すると、1 になるようになっている。

さて、いま、目に飛び込んできた画像は、ピントがボケていて、蝶か蛾かは判然としないけれども、それっぽいものが何かいる、というものだったとしよう。このとき、外界に実際にいるのが、ゾウやキリンやクジラやタコであるはずがない。

つまり、この画像の列を縦にざーっとみていくと、ほとんどの確率がゼロで、ほんのわずかのコマに非ゼロの値が入っていることになる。これが「スカスカ」ということである。「疎」、あるいは「スパース (sparse)」であるともいう。

自由エネルギー原理では、我々エージェントの頭の中には、この巨大でスカスカな表が格納されていることになっている。ほんまかいな。そこは次項で考察しよう。

□ 圧縮は概念理解の本質かもしれない

もちろん、p(x,s) が頭の中に入っているとき、そうとう圧縮して格納しているに違いない。例えば、動物、植物、建物、日用品、飲食物、などのようにカテゴリ分けして、動物をさらに陸棲と水棲のサブカテゴリに分けたり、陸棲の動物をさらに猛獣と家畜といったサブサブカテゴリに分けたりして、階層化し、各階層の末端にそれぞれ比較的小さい表を作っておくことにすれば、それだけでも、広大なゼロ平原をばっさりカットすることができる。

情報を圧縮するというのは、メモリを節約できるという利便性にとどまらず、ものごとを理解する上での本質を表しているのではなかろうかと思う。

たとえば、一個のリンゴがあったとしよう。これに「リンゴ」だの「色」だの「大きさ」だの「つや」だの「傷」だのという属性ラベルを貼り付けて理解することを抜きにして、目の前にあるただの物体として、写実的にデッサンするかのように微に入り細にわたり記憶しようとすれば、そうとうな情報量になるであろう。

二個目のリンゴ、三個目のリンゴについても同じことをやっていると、占有する記憶容量が 2 倍、3 倍と増えていく。ここでズルをして、一般的なリンゴというものについて、ひとつ分だけ記憶しておき、個別のリンゴについてはそれぞれの属性や特徴だけを記憶しておくことにすれば、そうとうなメモリの節約になるはずである。

一般的なリンゴとは、プラトンの言う、リンゴのイデアみたいなものか。ここにおいて、「リンゴ」という抽象概念が形成されている。

我々は、入ってきた感覚情報をできるだけ多く記憶したいとする。そうしたら、情報をナマのまま丸ごと記憶するのではなく、他の情報と共有できる部分は共有して、圧縮して記憶したほうが、メモリの節約になる。余ったメモリには、また別の情報を詰め込むことができる。

情報圧縮は、すなわち抽象化であり、概念形成である。ここに、表のコマの分節の仕方のヒントがあろう。

□ 知覚とは辞書を引くようなことなのか

エージェントが内部に備えている同時確率分布 p(x,s) は辞書として機能する。感覚入力 s を手掛かりに、外界の状態 x を推測しようとして p(x,s) を参照するとき、これを辞書のように利用している。

また、行動によって外界の状態 x を変えたはずだと思うとき、その変化後の外界の状態 x’ の推測に基づいて、一瞬後にはどんな感覚 s’ が入ってくるだろうかと予測する際にも、p(x,s) を逆引き辞書として参照する。

ところで我々は、感覚入力から外界の状態を推測したり、その逆をしたりする際、頭の中で起きている推論とは、辞書を引くようなことだろうか。これでは「中国人の部屋」みたいではないか。もうちょっと高級な処理をしてそうな気がしないか。

まあ、ここは深追いしないことにしよう。

□ 問題設定、それでいいの?

知覚における問題設定とは、次のようなものであった。いま、エージェント内部には p(x,s) が格納されていて、これは既知であるという前提であった。さらに、ある感覚入力 s が得られた。このとき、エージェントは s が得られているという条件の下で、その原因は外界 x が起きたせいだったという条件つき確率 p(x|s) を求めたい。

これでよいのか、という疑問がまず第一にある。

エージェント内部に備わっている p(x,s) は先ほどみたように、N 行 × M 列のばかでかい表であった。この時点では、x も s も確率変数であって、どちらも確定しない。

ある感覚入力 s が入ってきた時点で、s は確率変数から定数へと切り替わり、可能性が M 個から 1 個へと収縮した。先ほどまで、p(x,s) は縦横に広がりをもつ広大な表だったが、s が確定したことにより、その s に応じた、縦 1 列だけを参照することで事足りるようになった。

先ほどの【数式 4】を再掲すると、こうであった。

  p(s) = Σ_x p(x,s)                ……【数式 4】

これは、確定した s について、表の縦一列の値を全部合計して p(s) を得る、ということである。この計算は x が N 個もあるのでたいへんだ、ということになっていたが、ここでは仮にこの合計が求まったとしよう。

先ほどの【数式 3】を再掲すると、求めたい p(x|s) はこうであった。

  p(x|s) = p(x,s) / p(s)              ……【数式 3】

これは何をしているかというと、表中のいま参照している縦一列だけについて、ひとつひとつのコマに書いてある数値を、今求めたばかりの合計で割り算していることに相当する。こうすることで、縦一列の合計が 1 になる。

ここで気づくべきことは、s は確率変数から定数へと収縮しているけれど、x は相変わらず確率変数のままであって、どれかに確定しているわけではないということである。つまり、p(x|s) とは、すべての x について、条件つき確率を列挙せよ、と言っているのだ。

いま、蝶か蛾か判然としない画像 s を眺めているとき、この下で、原因 x が蝶である条件つき確率、蛾である条件つき確率、クジラである条件つき確率、あぶったイカである条件つき確率、… と、神羅万象すべてにわたって、その条件つき確率を書き並べよ、と言っているのである。そんなにたくさん、情報が要るだろうか。問題設定、おかしくないですか?

先ほどの割り算をするまでもなく、生の数値の状態で、一列分だけ、上から下までざーーーっとなめていって、最大値を見つければ、そのコマの x が、いちばんありそうな x である。その x についてだけ、割り算を実行すれば、自信の度合いがパーセンテージで求まる。

これが、もし、99.9% ぐらいに達していれば、もう、それで終わりでよいではないか。もし 60% ぐらいと低ければ、第二位、第三位と順繰りにみていって、割り算してみればよい。累計の確率が 99.9% ぐらいになったところでやめれば、ありそうな候補 x のリストとそれぞれの自信の度合いが手に入っている。こんなもんで、よくないですか?

□ 計算、得しない。

第二の疑問は、先ほどの N 個の合計をとる計算を実行するのに比べて、変分自由エネルギー F を定義して、それを最小化するようにグラジエントの坂をソリソリソリソリ下っていく計算のほうが、計算量が軽くて済むという主張に対するものである。

N 個の数値の合計をとると言うが、p(x,s) の表はスカスカであって、ほとんどの値がほぼゼロである。ゼロはいくら足しても増えないので、ゼロでないところだけを足せばよい。あんなでかい表をそのままの形でメモリに保持しておくことはそもそもできない話であって、圧縮されているに決まっている。値がゼロのところは、最初っからメモリを割り付けないような方法で圧縮しておけば、非ゼロのコマはそんなに多くはなく、割と楽に計算できてしまうのではないか。

それは脇に置いておいて、真っ正直に計算したとして、計算量を比較してみよう。N 個の数値の合計をとるための足し算の回数は (N – 1) 回である。N 個の x すべてについて、合計 p(s) で割り算するので、N 回の割り算が追加される。

一方、変分自由エネルギーのグラジエントベクトルの計算はどうだろうか。未知変数 p(x|s) の個数は N 個あるが、全部足すと 1 になるという制約がついているので、実質的には (N – 1) 個である。

F をひとつの未知変数について偏微分した値を計算するのに、割り算を 1 回実行する上に、対数関数に値を代入して関数値を求める計算を実行しなくてはならない。

(N – 1) 個の未知変数について偏微分した値を書き並べて得られるグラジエントベクトルを算出するのに、割り算と対数関数の計算を (N – 1) 回実行しないとならない。これだけでもう、先ほどよりも計算量が超過している。これをさらに反復するのだから、ぜったいに損すると思う。

今は、知覚の計算について考えたが、視線を動かした場合も同様である。s が変化するということは、表において、別の列をみることに相当する。以下、同じ議論になるのだ。

変分自由エネルギー F を導入する意味を、計算量を軽くする効果に求めようとするのは、どうやら無理があるのではなかろうか。じゃあ、これを導入する意味は何なのか。答えを別の理論から拝借してくる手はあるかもしれない。

□ 変分ベイズの理論を借りてくる

実は、「ELBO (Evidence Lower BOund)」という概念がある。これの定義は、変分自由エネルギー F の頭にマイナスをつけただけ、つまり、符号反転しただけのものである。ELBO が登場するのは「変分ベイズ」の理論においてである。

変分ベイズにおいて、条件の設定も、解きたい問題の設定も、自由エネルギー原理とだいたい同じである。ただ、変数が離散値ではなく連続値をとるというところが異なる。なので、和をとるところは積分になる。

変分ベイズにおいても、同時確率分布 p(x,s) は分かっているという前提が出発点にある。その下で、p(x|s) を求めたいという点も同じ。ならば、確率の乗法定理を使えば簡単に求まっちゃうという点も同じ。

では、ELBO を持ち出してくる意味は何か。どうやら p(x,s) に関して、完全に素っ裸ではないという、実にきわどい制約がかかっている模様だ。x と s のところへ具体的な数値を代入すれば、確率 p の値を知ることはできる。しかし、s を固定して定数とみなした上で、x について積分することはできない。どうしてできないのかというと、数式の形からして不定積分できないとか、数値計算しようにも計算量が多すぎてできないとか、そういうことらしい。

こういうときに使える魔法が変分法である。一般的に、微分は易しくて、階段を下るような話であるのに対し、積分は難しくて、階段を上るような話である。上るのがたいへんだから、代わりに下ってみたら、なぜかちゃんと目的地へ行けちゃった、という魔法。

目的の条件つき確率分布が直接求まらないので、代用品として q(x) を持ち出してきて近づけていくのだが、無条件だとまだむずかしいので、個々のパラメタごとに独立な形をしているという仮定を導入する。これを「平均場近似」という。

変分ベイズの話なら、まあまあ納得できる。しかし、この手法は、あくまでも、p(x,s) が素っ裸ではないという制約条件の下での、計算の便法にすぎない。

計算の便法にすぎないものを借りてきて、原理と称してしまって、だいじょうぶだろうかという心配はある。それに、p(x,s) について、代入はできても積分はできないという制約条件が、自由エネルギー原理の設定においても有効なのだろうか、という疑問がある。

ここがだいじょうぶでない場合は、F を導入する意味について、別の方面からの説明を求めなくてはならない。

それとは別に、もうひとつ、心配事がある。暗い部屋、どうする?

□ 自由エネルギー原理の問題点と改良の可能性

カール・フリストンは、個体が外界を理解しにいく情報処理のメカニズムにおいて、変分自由エネルギー F の値を下げようとする指向が原理としてはたらいている、と主張している。この原理により、知覚も、行動も、学習も説明がつくという。

しかし、F の定義のしかたに問題がないわけではない。以前から言われているものとして「暗い部屋」問題というのがある。これを回避しようとするならば、F の定義に変更を加えなくてはならない。

変更のしかたにはいろいろあるかもしれないが、ひとつ、こんなのはどうか、というのを思いついたので、提案したい。

改良の結果、驚異的にすばらしい定義式が誕生するかと思いきや、得られたものは意に反して、驚異的につまらない。感覚入力 s の下での外界の状態 x についての条件つき確率 p(x|s) を近似する未知の確率分布 q(x) を求めたいのであるから、それらの交差エントロピーをあらためて F と定義しなおし、それを下げようとすればよい。あったりまえじゃん。

アニメ『天空の城ラピュタ』に「バルス!」という呪文が登場する。この呪文を唱えると、ラピュタの崩壊を引き起こす。自由エネルギー原理はこの呪文に耐えるだろうか。

□ 定義と数式変形

再掲すると、変分自由エネルギー F は、次のように定義されている。

  F = Σ_x q(x) ln( q(x) / p(x,s) )        ……【数式 6】

ただし、x は外界の状態、s は感覚入力、p(x,s) は x と s の同時確率、(数式には表れていないが) p(x|s) は s の下で x が起きる条件つき確率、q(x) は p(x|s) の近似をそれぞれ表す。また、ln() は自然対数関数を表す。

F は 3 つの方法で変形することができる。
(1) 対数関数の和の公式で展開
(2) 確率の乗法定理で x の下での条件つき確率の式に変換した上で、対数関数の和の公式で展開
(3) 確率の乗法定理で s の下での条件つき確率の式に変換した上で、対数関数の和の公式で展開

対数関数の和の公式とは、下記のものである。

  ln(u v) = ln(u) + ln(v)

確率の情報定理による 2 通りの変形については、再掲すると、下記のものである。

  p(x,s) = p(x) p(s|x)               ……【数式 1】

  p(x,s) = p(s) p(x|s)               ……【数式 2】

さて、(1) 〜 (3) による変形のうち、以下の文脈に関わるのは (3) だけであり、(1) と (2) は関係ない。なので、(3) による変形について述べておく。過程は省略して、結果だけ。

【数式 6】の p(x,s) のところへ【数式 2】を代入して変形すると、次が得られる。

  F = Σ_x q(x) ln( q(x) / p(x|s) ) – ln(p(s))   ……【数式 7】

【数式 6】と【数式 7】は、見かけが変わっただけで、数式の表す内容としては、まったく同一である。

個体は変分自由エネルギー F の値を最小化しようとする指向をもつという。これを「自由エネルギー原理」とよぶ。

□ 知覚の仕組みを自由エネルギー原理から説明する

知覚とは、個体が感覚入力 s に基づいて、外界の状態 x を推測することである。このメカニズムは、自由エネルギー原理から説明がつく。

これについて、私は問題視していない。しかし、その後で述べる行動の話につなげるために、述べておきたい。

【数式 7】には登場人物がいろいろ出てくるが、どれが固定された既知の値で、どれが可変な未知の値であるかの区別は重要である。個体がものを知覚する際には、下記のような条件設定になっている。
(1) 同時確率分布 p(x,s) は (あらゆる x と s にわたって) 既知で固定
(2) 感覚入力 s は既知で固定
(3) 求めたいのは、s の下での (あらゆる) x の生起する条件つき確率分布 p(x|s) であり、未知

ベイズ的な解として、次のように求まる。再掲。

  p(x|s) = p(x,s) / Σ_x p(x,s)          ……【数式 5】

これを自由エネルギー原理の観点から再解釈すると、次のようになる。x についての確率分布 q(x) は未知で可変とする。この q(x) を用いて変分自由エネルギー F を【数式 6】のように定義した上で、先ほどの条件の下で F の値を最小化しようとすると、何が起きるであろうか。

これを調べるのに、【数式 6】を【数式 7】に変形しておくと、答えが見えてくる。

【数式 7】の後半にちょこっとついている -ln(p(s)) の項は、s にしか依存していない。ここで、s は固定という設定になっている。なので、この項は定数項であって、変化させようがない。F の値を下げようとするならば、前半の項で何とかする以外にない。

ところで、前半の項は、q(x) から p(x|s) へのカルバック・ライブラー距離として知られている数式そのものである。すべての x にわたって両者の値が等しいとき、かつ、このときに限って、カルバック・ライブラー距離が最小値をとり、その値はゼロであることが知られている。

つまり、F の値を最小化するような未知の確率分布 q(x) を求めようとするのは、すなわち、p(x|s) を求めようとすることに相当する、というわけである。

F の値が最小値に到達したとき、前半の項の値はゼロになっているのであるから、後半の項しか残らない。

□ 行動の仕組みを自由エネルギー原理から説明する

知覚については説明がついたので、次は行動について考える。

行動をとるとはどういうことかというと、感覚入力 s を変化させることができるということである。感覚入力 s は、個体にとっては知ることのできない外界の状態 x に基づいて、物理法則に基づく生成過程 p(s|x) を経て個体に届く情報である。なので、個体は自分の都合のいいように s そのものを決めることはできない。しかし、行動をとることを通じて、s をあてずっぽうに変化させることならできる。

行動をとるに際して、知覚を停止させておかなくてはならないという法律はない。なので、条件設定として、q(x) を固定しないことにしておこう。

行動における条件設定は次のようになる。
(1) 同時確率分布 p(x,s) は (あらゆる x と s にわたって) 既知で固定
(2) 個体は行動を通じて感覚入力 s を間接的に選択することが可能
(3) 確率分布 q(x) は未知で可変。個体が選択した s に応じて、その都度、個体が選択可能
(4) 求めたいのは、s をどのような基準の下に選択するのがよいか

行動をとることによって、感覚入力が s からあらたな s’ へと変化した場合、この s’ に応じて確率分布 q(x) を選びなおすことができる。

変分自由エネルギー F については、定義式そのものである【数式 6】ではなく、これを変形してえられる【数式 7】のほうで考える。

s の変化に応じて選びなおした q(x) を用いれば、前半の項の値は最小値ゼロにすることができる。すると、後半の項しか残らない。この項は -ln(p(s)) である。

F の値を下げたいとしたら、p(s) の値を上げるべきである。つまり、この原理にしたがえば、「感覚入力 s が入ってくる確率 p(s) を最大化するように行動せよ」となる。

つまり、遭遇確率の最も高い、ありふれた景色を見に行けばよいことになる。そうすると、常に見慣れた景色ばかりを見て、じっとしたまま、それ以外の景色を見にいかないのが最良の選択ということになる。ハシビロコウですかいな。

極端な話、真っ暗な部屋に閉じこもって、ずっとじっとしていれば、真っ暗な感覚入力 s がずっと入ってきつづける。このとき、その遭遇確率は 1 であり、F は全体として最小値ゼロをとりつづける。

F の値を最小化したいならば、真っ暗な部屋に閉じこもって、ずっとじっとしてろ、ってことになる。これはおかしい。これを「暗い部屋」問題とよぶ。

暗い部屋問題は、F の定義のしかたに改良の余地があることを示唆している。

□ 後半の項を差し替えてみよう

では、【数式 7】の後半の項 -ln(p(s)) をどんな数式で置き換えるのが妥当であろうか。私は、p(x|s) のエントロピーを提案したい。

つまり、【数式 7】の後半の項

  - in( p(s) )

に替えて、

  - Σ_x p(x|s) ln( p(x|s) )

を採用するのである。

あらゆる x にわたって、それが起きる確率が均等であったら、この分布のエントロピーは最大になる。このとき、x について、まるで情報が得られていない。

一方、生起確率に凸凹があるとき、この確率分布のエントロピーは小さくなっていく。このとき、どんな x が起きていそうか、有益な情報が得られたことになる。つまり、エントロピーの低い確率分布のほうが、価値が高いのである。

なので、F の後半の項として、エントロピーを据えておけば、これを最小化しようとする原理とは、x について最大の情報が得られる確率分布を選択することに相当する。

行動をとることにより、感覚入力 s を選択しなおし、それに応じて得られる p(x|s) のエントロピーが元よりも小さくなっていれば、外界の状態 x に関して得られている情報が増えてことに相当する。

後半の項を上記のように差し替えて得られる F の定義式は、もはや元の変形ではなく、元とは別物になっている。

□ 前半の項も差し替えておこう

結末がきれいにキマるようにあらかじめ張っておく伏線のような作為的な印象を受けるかもしれないが、前半の項もついでにいじっておこう。

【数式 7】の前半の項

  Σ_x q(x) ln( q(x) / p(x|s) )

は、q(x) と p(x|s) のカルバック・ライブラー距離である。これは、2 つの確率分布の非類似度を表す指標である。「距離」と呼ぶからには、A 地点から B 地点までの距離と B 地点から A 地点までの距離とが等しくなるべきだと期待するのがふつうである。これを「対称律」とよぶ。

数学において、距離の公理にも対称律を満たすべしと書いてある。あらたな空間を自分で勝手に定義するのはいっこうに構わないけど、その空間に距離という概念を導入しようとするならば、対称律を満たすように定義しとけよ、と。

ところが、カルバック・ライブラー距離は対称律を満たさない。2 者の順番をひっくり返すだけで別物になってしまう。こういうのを距離と呼ぶのは公理に違反するので、「情報量」とか「ダイバージェンス」とか呼び換えたりする。まあ、分かってやっているなら、硬いこと言わず、距離でいいんじゃないかな。

さて、上記の項は、未知の確率分布 q(x) で平均をとるという形をしており、ここに違和感がある。感覚入力 s に応じて固定されている確率分布 p(x|s) を基準として、可変な確率分布 q(x) がどれだけそこへ迫っているかを評価するためには、カルバック・ライブラー距離の逆向きのほうを採用して、p(x|s) について平均をとるのがよいのではないか。

つまり、F の式において、前半の項

  Σ_x q(x) ln( q(x) / p(x|s) )

  Σ_x p(x|s) ln( p(x|s) / q(x) )

に差し替えるのがよいのではないか。

□ 差し替えてみる

さて、前述した 2 つの差し替えをいっぺんに適用すると、どんな数式が得られるか。これは、元の F とは別物になるので、これを F_K と表記することにする。途中の数式変形の過程を省略して、結論だけ言うと、こうなる。

  F_K = – Σ_x p(x|s) ln( q(x) )          ……【数式 8】

どうです? この数式は、元の F の定義式よりもいっそう簡潔な形をしている。原理と呼ぶからには簡潔に表現されているほうが美しい。

いま、F を改良するつもりで部品を差し替えて作った F_K が、よりいっそう簡潔な表現に落とし込めている。ということは、いよいよこっちのほうが原理っぽくないか。

さて、【数式 8】の形式で表される概念は、実はすでによく知られていて、「交差エントロピー」という名前がついている。これを H(・,・) で表せば、

  F_K = H( p(x|s), q(x) )             ……【数式 8’】

となる。

【数式 8】は、次の形に変形できる。

  F_K = – Σ_x p(x|s) ln( p(x|s) )
   + Σ_x p(x|s) ln( p(x|s) / q(x) )      ……【数式 9】

これは、単独のエントロピーとカルバック・ライブラー距離との和の形をしている。

  F_K = H( p(x|s) ) + D_KL( p(x|s) || q(x) )    ……【数式 9’】

交差エントロピーがこの形に変形できることは前々から知られており、Wikipedia の「交差エントロピー」の項にも書いてある。

これの前半の項が先ほどの後半の項に、後半の項が先ほどの前半の項に相当する。

さて、自由エネルギー最小化よりも交差エントロピー最小化のほうこそ原理にあたるでしょう、という主張を認めたとしても、言っている内容に新しみはまったくない。

q(x) を p(x|s) に近づけたいのだから、それは両者の間の交差エントロピーを下げようとすればそうなるでしょう、というのは、もうあたりまえすぎて、何も言っていないに等しい。原理を見出した、などと取り立てて自慢するほどのことではないのである。

この意味において、新旧どっちの原理も、価値が骨抜きになったのではないだろうか。

□ 交差エントロピー原理から外界理解の理論を再構築する

フリストンのもともとの主張は、「変分自由エネルギー F を定義し、F の値を最小化しようとするという原理を導入すれば、個体の知覚、行動、学習のメカニズムを説明づけることができる」というものであった。

自由エネルギー F を交差エントロピー F_K に置き換えたとしても、知覚、行動、学習を説明づける論理は、ほぼ、そっくりそのまま引っ越しできる。その意味において、フリストンの理論は崩壊してはいない。

交差エントロピー最小化原理を出発点としなおして、どのような理論が再構築できるかをなぞるのは、ここでは省略しておく。学習の説明づけは、もともとでも省略していたことだし。

ただし、行動については、少し議論しておきたい。行動原理の説明づけに効いてくるのは後半の項であった。この項は別のものに差し替えている。

もともとだと、遭遇確率の高い感覚入力 s を選択する、という動機しかはたらかなかったので、見慣れた景色をずっと見ていればよいという「暗い部屋」問題にハマっていた。新たな F_K の定義においては、エントロピーの低い確率分布 p(x|s) が得られるような s を選択しにいく、という動機に変更されているので、暗い部屋からは抜け出せると思う。

しかし、具体的にどのような行動を選択するかを一意に決定づけるメカニズムについては、説明が及んでいない。

たとえば、視界の隅っこに何かいるようだけど、ピントがボケているため、蝶だか蛾だか判別しきれない状況にあるとしよう。そこへ目を向けてピントを合わせれば分かりそうである。これは、エントロピーの低い確率分布を選択しにいくことに相当し、たしかに F_K の値を下げる行動ではある。

しかし、その行動をとらず、振り返って、背後に池があることが確実であると確認しにいくのはどうだろう。これでもエントロピーの低い確率分布を選択したことになり、池の存在の確実性から、こっちのほうが F_K の値をより小さくしているかもしれない。

F_K の値を下げようとするだけなら、見ている対象物が何であるか確実に分かっている、エントロピーがゼロの確率分布を呈するような s を見にいけばよいことになる。

つまり、交差エントロピー最小化の原理からだけでは、具体的にどのような行動を選択すべきか、一意に定まるように説明づけするところまでは至っていない。せいぜい暗い部屋から明るいところへ出ていける程度である。

蝶か蛾か判別しづらい何かがそこにいるようであれば、それがもっとちゃんと分かるように行動を選択するその動機、すなわち好奇心のようなものを数理的に定式化できないだろうか。

好奇心ばかりだと、そこにいるものをより詳細に詳細に観察する方向へ入り込んでいって、抜け出せなくなってしまう。だいたい分かったと思えたところで飽きて、関心対象を別の方面へ移す、その動機は何なのだろう。

エサを探しに行くという目的がある場合、好奇心をあまり優先しすぎて道草ばかり食っていてはいけない。目的対好奇心のバランスをどうとるのか。

可能な行動の候補から一意に絞り込むためには、他にどんな原理を導入すればよいのだろう。この疑問への答えは、もともと提示されていなかったが、改良版でもどうにもなっていない。抜けが解消しておらず、理論として整備しきれていないと言える。

この原理を組み込んだ機械を実際に試作してみようと企てても、行動を一意に選択する手法が確立していないため、まだ設計できるまでの段階に至っていない。

ひょっとすると、そこに意識が効いてくる、ってことなのか?

講演資料: