DeepMind創始者インタビュー:AGIアーキテクチャ、エージェントの現状と次の十年の科学的ブレイクスルー

原视频タイトル:Demis Hassabis: Agents, AGI & The Next Big Scientific Breakthrough

原视频来源:Y Combinator
原文編訳:深潮 TechFlow

編集導語

Google DeepMind CEO、ノーベル化学賞受賞者 Demis Hassabis が Y Combinator にゲスト出演し、AGI への重要な進展、起業家へのリードを保つためのアドバイス、次の大きな科学的ブレイクスルーがどこに現れるかについて語った。

深層技術の起業家にとって最も実用的な判断は、もしあなたが今日10年規模の深層技術プロジェクトを始めるなら、AGI の出現を計画に組み込む必要があるということだ。さらに、DeepMind から分離した AI 製薬企業 Isomorphic Labs から重大な発表が間もなくあることも明かした。

精選名言

AGI のロードマップとタイムライン

・「既存のこれらの技術コンポーネントは、ほぼ確実に最終的な AGI アーキテクチャの一部になるだろう。」

・「継続学習、長期推論、記憶のいくつかの側面の問題はまだ解決されていない。AGI にはすべてを解決する必要がある。」

・「もしあなたの AGI のタイムラインが私と同じく 2030 年頃で、今日深層技術のプロジェクトを始めたなら、途中で AGI が出現することも考慮しなければならない。」

記憶とコンテキストウィンドウ

・「コンテキストウィンドウはおおよそ作業記憶に相当する。人間の作業記憶は平均7つの数字しか保持できないが、我々は百万、さらには千万トークンのコンテキストウィンドウを持つことができる。しかし問題は、重要でない情報や誤った情報もすべて詰め込み、現在のやり方はかなり粗雑だということだ。」

・「リアルタイムのビデオストリームを処理し、すべてのトークンを保存しようとすると、100万トークンは実質約20分分しか持たない。」

推論の欠陥

・「私は Gemini でチェスをするのが好きだ。時々、これはひどい手だと気づくが、より良い手が見つからず、結局ぐるぐる回ってそのひどい手を打つことになる。でも、正確な推論システムならこんなことは起きるべきではない。」

・「一方で IMO の金メダル級の問題を解ける一方、質問の仕方を変えると小学生の算数の誤りを犯す。自己の思考過程の内省において、何かが欠けているようだ。」

エージェントと創造性

・「AGI に到達するには、自ら問題を解決できる能動的なシステムが必要だ。エージェントはその道筋だと考えている。私たちはまだ始まったばかりだ。」

・「私は、Vibe Coding を使ってトップクラスのアプリストアランキングに登る3Aゲームを作った人を見たことがない。現状の投入資源を考えれば可能だと思うが、まだ実現していない。ツールやプロセスに何かが欠けているのだろう。」

蒸留と小型モデル

・「私たちの仮説は、最先端の Pro モデルを半年から一年後にリリースすれば、その能力を非常に小さなモデルに圧縮でき、エッジデバイス上で動かせるようになるというものだ。理論的な情報密度の限界にはまだ到達していない。」

科学的発見と「アインシュタインテスト」

・「時々これを「アインシュタインテスト」と呼ぶ。1901年の知識だけでシステムを訓練し、アインシュタインが1905年に成し遂げた狭義相対性理論を含む成果を独立して導き出せるかどうかだ。これができれば、そのシステムは新しい発明に近い。」

・「ミレニアム賞問題を解くのは素晴らしいことだが、それ以上に難しいのは、新たなミレニアム賞問題を提起し、それがトップ数学者にとっても深遠で一生研究に値するものだと認められることだ。」

深層技術の起業アドバイス

・「難問を追うのと簡単な問題を追うのは、実はほとんど同じだ。ただし、その難しさのアプローチが異なるだけだ。人生は短い。やらないと誰もやらないことにエネルギーを注ぐのが良い。」

AGI 実現の道筋

Gary Tan:あなたは AGI についてほぼ全員より長く考えてきた。現在のパラダイムを見ると、私たちはどれくらいの AGI 最終アーキテクチャを持っていると思う?根本的に欠けているものは何?

Demis Hassabis:大規模事前学習、RLHF、思考の連鎖などは、最終的な AGI アーキテクチャの一部になると確信している。これらの技術は今日までに多くのことを証明してきた。2年後にこれらが行き詰まるとは想像できないし、そうは思えない。ただし、既存の技術の上に、あと1、2の要素が必要だと感じている。継続学習、長期推論、記憶の一部の側面には未解決の問題が残っている。

AGI にはすべてを解決しなければならない。既存の技術と漸進的な革新を組み合わせれば到達できるかもしれないが、重要なポイントはあと1、2個だと考えている。私個人の判断では、未解決の重要ポイントがある確率は五分五分だ。DeepMind では両方のラインを進めている。

Gary Tan:私はエージェントシステムと関わる中で、最も驚いたのは、基盤となる重みが底層で何度も繰り返されていることだ。継続学習の概念は非常に面白い。今は、まるでテープで貼り付けたような状態で、「夜間夢境サイクル」などのものを使っている。

Demis Hassabis:そうだね、その夢境サイクルは面白い。私たちは過去にシナリオ記憶の統合についても考えたことがある。私の博士研究は海馬が新しい知識を既存の知識体系に優雅に融合させる仕組みだった。脳はこの点で非常に優れている。

睡眠中にこのプロセスを完了させる。特にレム睡眠中に重要な経験を再生し、学習を促す。最初の Atari プログラム DQN(DeepMind が2013年に発表した深層Qネットワーク、深層強化学習を用いて Atari ゲームで人間レベルに到達)は、経験リプレイ(experience replay)を用いて Atari ゲームを習得した。これは神経科学から学んだもので、成功した経路を繰り返し再生する。

2013年の話で、AI 分野では古典的だが、その時点では非常に重要だった。

同意する。今は確かにテープで貼り付けている状態だ。すべてをコンテキストウィンドウに詰め込む。これはあまり良いやり方ではない。生物の脳ではなくても、理論上百万、千万のコンテキストウィンドウを持ち、記憶も完璧にできるはずだが、検索や取り出しのコストは依然として存在する。今の決定を下す瞬間に、真に関連する情報を見つけるのは簡単ではない。すべてを保存できても、だ。だから記憶の分野にはまだ大きな革新の余地があると感じている。

Gary Tan:正直、百万トークンのコンテキストウィンドウは私の予想よりもずっと大きく、多くのことができそうだ。

Demis Hassabis:多くの場面では十分に大きい。ただ、コンテキストウィンドウは作業記憶に相当する。人間の作業記憶は平均7つの数字しか保持できないが、我々は百万、さらには千万トークンのコンテキストを持てる。問題は、何でも詰め込みすぎていることだ。重要でない情報や誤情報も含めてだ。今のやり方はかなり粗雑だ。リアルタイムのビデオストリームを処理し、すべてのトークンを記録しようとすると、100万トークンは実質約20分分しか持たない。だが、1〜2ヶ月の生活状況を理解させたいなら、まだ遠い。

Gary Tan:DeepMind は長年にわたり強化学習と探索に深く投資してきたが、その哲学は Gemini の構築過程にどれほど浸透している?強化学習はまだ過小評価されているのか?

Demis Hassabis:確かに過小評価されているかもしれない。関心は波がある。DeepMind 設立当初からエージェントシステムに取り組んできた。すべての Atari や AlphaGo の研究は本質的に強化学習エージェントに属し、自律的に目標を達成し、意思決定や計画を行うシステムだ。もちろん、当時はゲームの分野を選んだ。複雑さが制御できる範囲だったからだ。その後、AlphaGo の後に AlphaStar を作り、ほぼすべてのゲームを網羅した。

次の課題は、これらのモデルを世界モデルや言語モデルに一般化できるかどうかだ。過去数年、私たちはこれに取り組んできた。今日の最先端モデルの思考パターンや推論の思考連鎖は、基本的に AlphaGo の時代に始まったことの再帰だ。

私たちが当時やった多くのことは、今と非常に関連している。より大きなスケールで、より汎用的に、モンテカルロ木探索(Monte Carlo tree search)などの強化学習手法を用いて再検討している。AlphaGo や AlphaZero の思想は、今の基盤モデルと非常に密接に関係している。今後数年の進歩の多くはそこから来ると考えている。

蒸留と小型モデル

Gary Tan:今や賢くなるにはより大きなモデルが必要だが、蒸留技術も進歩しており、小型モデルもかなり高速化できる。あなたたちの Flash モデルは非常に強力で、最先端モデルの95%の性能をほぼ再現できるが、価格は10分の1だ。正しい?

Demis Hassabis:これが私たちのコアな強みの一つだと思う。まず最大のモデルを作り、その能力を獲得する。次に、その能力を素早く蒸留・圧縮して、より小さなモデルに落とし込むことができる。蒸留の手法は私たちが発明したもので、今も世界トップクラスだ。しかも、これをやるためのビジネスインセンティブも強い。私たちは世界最大の AI 応用プラットフォームの一つだ。

AI Overviews や AI Mode、Gemini を持ち、Google のすべての製品(マップ、YouTube など)に統合されている。これには数十億のユーザーと、十数の十億規模のサービスが関わる。これらは超高速、超効率的、コストも低く、遅延も最小限に抑える必要がある。これが私たちにとって大きな動機付けとなり、Flash や小型の Flash-Lite モデルを極限まで効率化したいと考えている。最終的にはこれらがユーザーの多様な作業に役立つことを願っている。

Gary Tan:これらの小型モデルはどれほど賢くなるのか興味深い。蒸留には限界があるのか?50Bや400Bのモデルは、今日の最大最先端モデルと同じくらい賢くなれるのか?

Demis Hassabis:情報理論上の限界にはまだ到達していないと思う。少なくとも今のところ、到達したかどうかは誰もわからない。いつか情報密度の天井にぶつかるかもしれないが、今の仮説は、最先端の Pro モデルを半年から一年以内に非常に小さなモデルに圧縮できるというものだ。

Gemma モデルでもこれが見て取れる。Gemma 4 は同じ規模で非常に高性能だ。これらは大量の蒸留技術と小型モデルの効率化技術を駆使している。だから、理論的な限界にはまだ遠いと考えている。

Gary Tan:今や、エンジニアが6ヶ月前の500倍から1000倍の作業量をこなせるという、非常に驚くべき現象が起きている。部屋の中には、2000年代の Google エンジニアの1000倍の仕事をしている人もいる。Steve Yegge もこのことを語った。

Demis Hassabis:とてもワクワクしている。小型モデルには多くの用途がある。コストが低く、速度も速い。コードを書いたり他のタスクをこなす際に、より早く反復できる。システムと協働する場合、たとえ最先端から少し外れていても(例えば90〜95%の性能でも)十分役立つし、その反復速度の向上は、その差額を遥かに超える価値をもたらす。

もう一つの大きな方向性は、これらのモデルをエッジデバイス上で動かすことだ。効率性だけでなく、プライバシーやセキュリティの観点からも重要だ。個人情報を扱うさまざまなデバイスやロボットを想像してみてほしい。家庭用ロボットには、高効率で強力なモデルをローカルで動かし、特定のシナリオだけクラウドの大規模モデルに任せる。音声や映像もローカル処理し、データもローカルに留める。これが究極の状態になると想像できる。

記憶と推論

Gary Tan:コンテキストと記憶に戻る。モデルは現在無状態だが、継続学習能力があれば、開発者の体験はどう変わる?こうしたモデルをどう導く?

Demis Hassabis:非常に興味深い問題だ。継続学習の欠如は、現行のエージェントが完全なタスクを完遂できない重要なボトルネックだ。今のエージェントは局所的な部分には役立つが、環境に適応できない。これが「発射後も放置」できない理由だ。具体的なシナリオに適応できる学習能力が必要だ。これを解決しなければ、真の汎用知能には到達できない。

Gary Tan:推論の進展はどこまで来ている?思考連鎖は強力だが、いくつかの基本的な誤りを犯すこともある。何を改善すれば良い?推論の未来はどうなる?

Demis Hassabis:思考のパラダイムにはまだ大きな革新の余地がある。私たちのやっていることは、まだかなり粗雑で暴力的だ。改善点は多い。例えば、思考過程を監視し、途中で介入する仕組みだ。しばしば、私たちのシステムや競合のシステムは過度に考えすぎてループに陥る。

Gemini での対局を観察するのが好きだ。すべての先端モデルは実はチェスに関してはかなり弱い。これは非常に面白い。

彼らの思考軌跡を見るのは価値がある。チェスは理解された分野だからだ。偏りやすいかどうか、すぐに判断できる。時には、一手を考え、臭い手だと気づくが、より良い手が見つからず、ぐるぐる回ってその臭い手を打つ。正確な推論システムなら、こんなことは起きるべきではない。

この大きなギャップは依然として存在するが、修正は一、二の調整だけで済むかもしれない。いわゆる「ギザギザ知能」(jagged intelligence)と呼ばれる現象だ。ある面では IMO の金メダル級の問題を解き、別の質問には小学算数の誤りを犯す。自己の思考過程の内省において、何かが欠けている。

エージェントの真の能力

Gary Tan:エージェントは大きなテーマだ。誇張だという意見もあるが、私はまだ始まったばかりだと感じている。DeepMind 内部のエージェント能力の評価はどうか?外部の宣伝とのギャップは?

Demis Hassabis:同意する。私たちは本当に始まったばかりだ。AGI に到達するには、自ら問題を解決できる能動的なシステムが必要だ。これはずっと明確だった。エージェントはその道だと考えている。私たちはまだ始まったばかりだ。

皆、エージェントをより良く仕事に組み込む方法を模索している。多くの実験を行い、多くの人もそうだろう。エージェントをどうやってワークフローに融合させ、単なる付加価値ではなく根本的なことをさせるか。今はまだ実験段階だ。ほんの最近2、3ヶ月で価値あるシナリオを見つけ始めたところだ。技術もちょうどその段階にある。おもちゃのデモではなく、実際に時間と効率を向上させるものだ。

多くの人が何十のエージェントを起動し、何十時間も動かしているのを見るが、その投入に見合う成果が出ているかはまだわからない。

Vibe Coding を使ったトップクラスの AAA ゲームも見たことがない。自分もいくつかの良いデモを作ったことがある。今なら30分で「Theme Park」のプロトタイプを作れる。17歳の時は6ヶ月かかった。

夏休み一つ丸ごと使えば、驚くべきものが作れる気がする。ただし、工芸や人間の魂、品位も必要だ。これらを製品に取り入れることが重要だ。実際、今のツールで1千万本売れるヒットゲームを作った子供はいないが、現状のツールと投入資源なら可能だと思う。何かが欠けているのだろう。多分、プロセスやツールに関係している。今後6〜12ヶ月でそうした成果を見ることになるだろう。

Gary Tan:それはどの程度まで完全自動化されるのか?最初から全自動は考えにくい。より現実的なのは、まず1000倍の効率を達成し、その後、これらのツールを使ったヒット作やゲームが出てきて、次第に多くの工程が自動化される流れだ。

Demis Hassabis:その通り。まずそれを見たい。

Gary Tan:また、一部の人はすでにそうしているが、エージェントがどれだけ役立ったかを公に語りたがらない。

Demis Hassabis:そうかもしれない。でも、創造性の話をしよう。私はよく AlphaGo の例を挙げる。第2局の37手目だ。あの瞬間を待っていた。あれが出たことで、私は AlphaFold などの科学プロジェクトを始めた。韓国から帰った翌日に AlphaFold の研究を始めたのは10年前のことだ。今回韓国に行ったのは、AlphaGo の10周年を祝うためだ。

しかし、Move 37 を超えるだけでは不十分だ。それはクールで役立つが、そのシステムが囲碁そのものを発明できるか?もし高レベルの説明、「5分でルールを覚え、しかし一生かかっても極められない、エレガントな美学を持つゲームで、1時間で一局打てる」といった内容を与え、その結果が囲碁だったら?今日のシステムはそれを実現できていない。なぜだと思う?

Gary Tan:座っている人の中には、それを実現できる人もいるかもしれない。

Demis Hassabis:もしそれができたら、答えはシステムの欠点ではなく、我々の使い方に問題があるということだ。もしかしたら、今のシステムにはその能力がすでに備わっているのかもしれない。ただ、それを引き出すには、天才的なクリエイターが必要だ。その人はプロジェクトに魂を吹き込み、ツールと高度に融合し、ほとんど一体化している状態だ。その人が日夜これらのツールに浸り、深い創造力を持てば、想像を超えるものを作り出せるかもしれない。

オープンソースとマルチモーダルモデル

Gary Tan:話題を変えてオープンソースについて。最近 Gemma のリリースにより、非常に強力なモデルをローカルで動かせるようになった。どう思う?AIはユーザー自身が管理するものになり、クラウドに主に残るものではなくなるのか?これが誰が何を作るかを変えるのか?

Demis Hassabis:私たちはオープンソースとオープンサイエンスの強力な支持者だ。あなたが言った AlphaFold は完全に無料で公開した。私たちの科学的研究は今もトップジャーナルに発表している。Gemma については、同等の規模で世界をリードするモデルを作ることを目指している。現在のダウンロード数は約4000万回で、リリースからわずか2週間半だ。

また、オープンソースの分野では、西洋の技術スタックの存在が重要だ。中国のオープンソースモデルは非常に優れており、現在リードしているが、Gemma は同規模で非常に競争力があると考えている。

私たちにはリソースの問題もある。誰も余分な計算資源を持っていないため、2つのフルサイズ最先端モデルを同時に作ることはできない。だから、今の決定は、エッジデバイス向けのモデルをAndroidや眼鏡、ロボットに使うことだ。最もオープンなモデルにしておくのが良い。デバイスに展開したら、それ自体が露出しているため、完全に公開した方が良いと考えている。戦略的にも一貫している。

Gary Tan:台上で見せてもらった私のAI操作システムは、Gemini と音声で直接やりとりできる。デモを見せるのは緊張したが、なんとか動いた。Gemini は最初からマルチモーダルで構築されている。いろいろモデルを使った経験があるが、音声からのインタラクションとツール呼び出し、コンテキスト理解の深さは、今のところ Gemini に勝るものはない。

Demis Hassabis:その通り。Gemini シリーズの大きな強みの一つは、最初からマルチモーダルを意識して構築したことだ。これにより、スタート段階ではテキストだけのモデルよりも難易度は高いが、長期的には大きな恩恵を受けると信じている。すでにその恩恵は実現し始めている。

例えば、世界モデルの構築では、Gemini の上に Genie(DeepMind が開発した生成的インタラクション環境モデル)を構築している。ロボット分野も同様で、Gemini Robotics はマルチモーダル基盤モデルに基づいており、これが競争優位の一つになる。Waymo(Alphabet の自動運転子会社)でも Gemini をますます多用している。

想像してほしい。あなたの周囲の物理世界や環境を理解できるデジタルアシスタントが、あなたのスマホや眼鏡にいるとしたら。私たちのシステムはこの点で非常に強力だ。今後もこの方向に投資を続ける。これらの問題において、私たちのリードは大きいと考えている。

Gary Tan:推論コストが急速に下がっている。推論がほぼ無料になったとき、何が可能になる?あなたたちの最適化の方向性は変わる?

Demis Hassabis:推論が本当に無料になるかはわからない。ジェヴォンズの逆説(Jevons’ Paradox、効率化が逆に総消費を増やす現象)もある。最終的には、誰もが持てる計算資源をすべて使い切るだろう。

何百万ものエージェントが協調して働く、あるいは複数のエージェントが多方向に同時に考え、統合する、といったことも考えられる。私たちもこれらの方向性を実験している。これらはすべて推論リソースを消費する。

エネルギー面では、核融合や常温超伝導、最適バッテリーなどの問題を解決できれば、材料科学を通じてエネルギーコストはほぼゼロに近づくと考えている。ただし、チップの物理的製造などには依然としてボトルネックがあり、少なくとも今後数十年は続く。したがって、推論の割り当てには制限があり、効率的な利用が必要だ。

次の科学的ブレイクスルー

Gary Tan:小型モデルがますます賢くなっているのは良いことだ。多くのバイオやバイオテクノロジーの創業者もいる。AlphaFold 3 はすでにタンパク質を超え、より広範な生物分子に拡大している。完全な細胞システムのモデリングにはどれくらいかかる?これは全く異なる難易度の問題なのか?

Demis Hassabis:Isomorphic Labs の進展は非常に良い。AlphaFold は薬物発見の一段階に過ぎない。私たちは隣接する生化学研究、適切な性質を持つ化合物の設計なども進めており、間もなく大きな発表ができる。

最終的な目標は、完全な仮想細胞を作ることだ。干渉可能な全機能の細胞シミュレーターで、その出力は実験結果に十分近く、実用的な価値も持つ。大量の探索ステップをスキップし、合成データを大量に生成して他のモデルを訓練し、実細胞の挙動を予測させる。

完全な仮想細胞の実現には約10年かかると見ている。私たちは DeepMind の科学側面で、細胞核から始めている。細胞核は比較的自己完結的なシステムだからだ。この問題の鍵は、複雑さの適切な断面を切り出せるかどうかだ。それが自己包含的で、入力と出力を合理的に近似できるなら、そのサブシステムに集中できる。細胞核はその点で適している。

もう一つの課題はデータ不足だ。電子顕微鏡や他のイメージング技術のトップ科学者と話したことがある。生きた細胞を殺さずにイメージングできれば、革命的だ。そうすれば、それは視覚の問題に変換でき、我々は解き方を知っている。

しかし、ナノレベルの解像度で生きた動的細胞を破壊せずにイメージングできる技術は、現状存在しない。静止画像は非常に高精細だが、それを直接視覚問題に変換するにはまだ不十分だ。

二つの道がある。一つはハードウェアとデータ駆動のアプローチ。もう一つは、より良い学習可能なシミュレーターを構築し、これらの動力学系を模倣することだ。

Gary Tan:生物だけでなく、材料科学、薬物発見、気候モデル、数学も含めて、未来の5年で最も根本的に変わる科学分野はどれか?

Demis Hassabis:どの分野も魅力的だ。これが私の最大の情熱の源であり、30年以上 AI に携わってきた理由だ。AI は究極の科学ツールになると信じている。科学理解や発見、医学、宇宙の認識を推進するために。

最初のミッションは二段階だ。第一に、知能を解決し、AGI を構築すること。第二に、それを使って他のすべての問題を解決することだ。後に表現を調整したのは、「すべての問題を解決する」と言うと誤解される可能性があったからだ。

私たちの意図はそうだ。今やその意味を理解し始めている。具体的には、「根幹問題」と呼ぶ科学分野を解決することだ。これらの突破は、新たな発見の枝を解き放つ。AlphaFold はその原型だ。

世界中の研究者の三百万人以上が、ほぼすべての生物学研究者が AlphaFold を使っている。製薬会社の幹部からも、今後ほぼすべての薬物発見に AlphaFold が使われると聞いている。私たちは誇りに思うし、AI がもたらす影響の一端だと考えている。だが、これは始まりに過ぎない。

どの科学や工学の分野も、AI の助けなしには進まないと思う。あなたが挙げた分野は、「AlphaFold 1 の瞬間」にあると感じる。結果は非常に有望だが、まだ大きな課題を解決していない。今後2年で、材料科学から数学まで、多くの進展が見込まれる。

Gary Tan:まるでプロメテウスの神話のように、人類に新たな能力をもたらす。

Demis Hassabis:その通り。もちろん、プロメテウスの物語の教訓のように、その能力の使い方や濫用のリスクには注意が必要だ。

成功の経験

Gary Tan:座っている多くの人が、AI を科学に応用した会社を創ろうとしている。最先端を推進するスタートアップと、基盤モデルに API を重ねて「AI for Science」と称するだけの会社の違いは何か?

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし