良い命名のツールは、20個の凡庸なツールよりも5~10個の優れたツールの方が良い。ツール名は自然な英語の動詞句のようにすべきだ。説明はいつ使うべきか、使わないべきかを明確に記す。エラー情報は、モデルが行動を決めるためのフィードバックとなる。「500トークン超過、要約して再試行」などのメッセージは、「Error: 400 Bad Request」よりも遥かに効果的だ。公開研究では、エラー情報を書き換えるだけでリトライループが40%減少した例もある。
Anthropicの『Writing tools for agents』は良い出発点だ。読了後、自分のツールに観測を付け加え、実際の呼び出しパターンを確認しよう。エージェントの信頼性向上は、ほぼ常にツール側で起きる。多くの人はプロンプト調整に集中しすぎて、真のレバレッジポイントを見落としている。
2026年AI学習マニュアル:何を学ぶか、何を使うか、何に触れないか
編集者メモ:AIエージェントの分野は、ツールの爆発的増加と合意不足の段階に入っている。
毎週、新しいフレームワーク、新モデル、新しいベンチマーク、そして「10倍効率」製品が登場しているが、真に重要な問題は、「すべての変化についていく方法」ではなく、「どの変化に本当に投資すべきか」になってきている。
著者は、技術スタックが絶えず書き換えられる今、長期的に複利をもたらすのは最新のフレームワークを追いかけることではなく、より底層の能力だと考えている:コンテキストエンジニアリング、ツール設計、評価体系、オーケストレーターとサブエージェントの模式、サンドボックスとハーネス思考。これらの能力は、モデルの世代交代とともに急速に失効することなく、信頼できるAIエージェントの構築基盤となる。
さらに、記事は、AIエージェントが「資歴」の意味さえも変えつつあることを指摘している。かつては、学歴、職位、年数が業界入りの証だったが、巨大企業も公開試行錯誤を続けるこの分野では、履歴書だけが唯一の証明ではなくなっている。何を成し遂げたか、何を提供したかがより重要になってきている。
したがって、この記事は、2026年に何を学び、何を使い、何をスキップすべきかを議論するだけでなく、ノイズが増え続ける時代において、最も希少な能力は、「何を学ぶ価値があるか」を判断し、真に役立つものを継続的に作り出すことだと警鐘を鳴らしている。
以下は原文:
毎日、新しいフレームワーク、新しいベンチマーク、新しい「10倍効率」製品が登場する。問題は「どうやって追いつくか」ではなく、これらの中で何が本当の信号で、何が緊急感を装ったノイズなのか、ということだ。
各ロードマップは、リリース後一ヶ月で陳腐化する可能性がある。あなたが前期に習得したフレームワークは、すでに古くなっている。最適化したベンチマークも、誰かに破られた後すぐに新しいものに取って代わられる。かつては、伝統的なルートをたどる訓練を受けていた:一つの技術スタックに対して一つのテーマと階層、経験年数と役職、ゆっくりと階段を登る。しかし、AIはこのキャンバスを書き換えた。今日では、プロンプトの使い方と審美判断さえ良ければ、一人の人間が、かつてエンジニア二年分のスプリントを要した仕事を一人で完遂できる。
専門的な能力は依然として重要だ。システムの崩壊を自分の目で見たこと、深夜にメモリリークを調整した経験、無難だが正しいと判断して周囲の反対を押し切った決断、それらは代替不可能だ。こうした判断力は複利的に増大する。しかし、過去のように複利的に増えなくなったのは、「今週のホットなフレームワークAPI表面」への馴染みだ。六ヶ月後にはまた変わっているだろう。二年後に勝者となるのは、耐久性のある基礎能力を早期に選び、ノイズを通り過ぎさせる人たちだ。
過去二年間、私はこの分野で製品を構築し、年収25万ドル超のオファーを複数獲得し、現在は非公開企業で技術責任者を務めている。もし誰かに「今何に注目すべきか」と尋ねられたら、これが私の答えだ。
これはロードマップではない。エージェント分野にはまだ明確な目的地はない。大手研究所も公開でイテレーションを続け、問題をユーザーに直接返し、振り返りやオンライン修正を行っている。Claude Codeの背後のチームが性能を47%低下させるバージョンをリリースし、ユーザーコミュニティが気づくまで放置したとしたら、「安定した地図が底に存在する」という考えは虚構だ。皆まだ模索中だ。スタートアップがチャンスを掴めるのは、巨大企業も答えを知らないからだ。コードを書けない人たちがエージェントと協働し、火曜日に学習博士も不可能と考えたものを金曜日に納品している。
この瞬間で最も面白いのは、「資歴」の理解を変えた点だ。従来は、学位、初級・中級・上級ポジション、職位の積み重ねが資歴だったが、今やそれは変わりつつある。22歳でエージェントデモを公開した若者と、35歳の経験豊富なエンジニアの差は、もはや十年分の技術スタック熟練度の差だけではない。彼らは同じ白紙のキャンバスに向き合っている。彼らにとって、複利的に成長するのは、継続的に成果を出す意欲と、数ヶ月や一季を超えた耐久性のある基礎能力だけだ。
これがこの記事の核心的再構築だ。次に、私が提案する判断基準を示す:どの基礎能力に投資すべきか、どのリリースをスキップすべきか。自分に合うものを選び、合わないものは手放す。
真に効果的なフィルター
毎週の新リリースを追うことは不可能だし、やるべきでもない。必要なのは情報の流れではなく、フィルターだ。
過去18ヶ月間、5つのテストは常に有効だった。新しい技術を取り入れる前に、これらの質問を一通り当てはめてみる。
二年後も重要か?
もしそれが、最先端モデルの外側にある単なるラッパー、CLIパラメータ、または「Devinの某バージョン」なら、ほぼ間違いなく否定的だ。もしそれが、プロトコルや記憶パターン、サンドボックス手法のような基礎原語なら、肯定的な答えもあり得る。ラッパー製品の半減期は短いが、基礎原語は年単位で持つ。
尊敬する人物が、それに基づいた実際の製品を作り、経験を正直に書いているか?
マーケティング記事は除外。振り返り記事こそ価値がある。「私たちはXを本番環境で試し、問題点を見つけた」などのブログは、プレスリリースよりも価値が高い。この分野で本当に役立つ信号は、実際に週末を費やした人からしか得られない。
それを採用すると、既存のトレーシング、リトライ、設定、認証システムを捨てることになるか?
もしそうなら、それはプラットフォーム化を狙ったフレームワークだ。プラットフォームを目指すフレームワークの死亡率は約90%。良い基礎原語は、既存システムに埋め込めるものであり、移行を強いるべきではない。
それを6ヶ月スキップした場合のコストは?
ほとんどのリリースでは、何も問題にならない。6ヶ月後にはより多くの情報と、より明確な勝者が見えている。これを試すことで、90%のリリースを無理なくスキップできる。ただし、多くの人はこれを拒否しがちだ。なぜなら、何かをスキップすると遅れていると感じるからだ。実際はそうではない。
それが本当にエージェントを良くしているか測れるか?
測れなければ、ただの推測だ。評価体系のないチームは感覚だけで動き、最終的に回帰問題をオンラインに持ち込む。評価体系のあるチームは、データに基づき、「今週の特定の負荷に対して、GPT-5.5の方が良いのか、Opus 4.7の方が良いのか」を判断できる。
この文章から一つだけ習慣にすべきことは、「新しいものがリリースされたら、6ヶ月後に何を見れば本当に重要だと判断できるかを書き留めること」だ。そして6ヶ月後に振り返る。多くの場合、答えはすでに自明であり、あなたの注意は、複利的に成長できる本当に価値あることに向かう。
これらのテストの背後にある真の能力は、名前をつけるのが難しい。これは、「流行に流されない」能力だ。今週Hacker Newsで話題のフレームワークは、14日以内にファンを獲得し、賢そうに見える。しかし、半年も経てば半分はメンテナンスされず、ファンも次のホットトピックに移る。関わらない人は、その熱狂の後に残る「退屈さ」に耐えることができるものに注意を向けるべきだ。抑制、観察、「6ヶ月後にわかるだろう」という言葉こそ、この分野の真の職業スキルだ。誰もがリリースのアナウンスを読むが、それに反応しないのが本当の熟練だ。
何を学ぶべきか
概念、パターン、事物の形状。これらがもたらす複利的なリターンだ。これらはモデルの置き換え、フレームワークの変遷、パラダイムシフトを超えて持続する。深く理解すれば、週末で新しいツールを使いこなせる。スキップすれば、表層の仕組みを何度も学び直すことになる。
コンテキストエンジニアリング
過去2年で最も重要な名称変更は、「Prompt Engineering」から「Context Engineering」への変化だ。これは単なる言い換えではなく、実質的な変化だ。
モデルはもはや、賢い指示を与える対象ではない。むしろ、各ステップで適切なコンテキストを組み立てる必要があるものだ。システム指示、ツールスキーマ、検索したドキュメント、過去の出力、スクラッチパッドの状態、圧縮された履歴を含む。エージェントの行動は、これらすべてがウィンドウ内に収まったときに共同で生じる結果だ。
これを内面化すべき:コンテキスト=状態だ。不要なトークンは推論の質を低下させる。コンテキストの劣化は、実際の運用障害だ。10ステップのタスクの8段階目では、最初の目標はツール出力に埋もれているかもしれない。信頼できるエージェントを提供できるチームは、積極的に要約・圧縮・裁断を行う。ツールの記述にバージョン管理を施し、静的部分をキャッシュし、変動する部分はキャッシュしない。彼らのコンテキストウィンドウの扱いは、経験豊富なエンジニアがメモリを扱うのと似ている。
具体的な感覚としては、実運用環境のエージェントの完全なトレースログを開き、最初のステップと7番目のステップのコンテキストを比較し、どれだけのトークンが有効に働いているかを数えることだ。最初は恥ずかしいと感じるかもしれないが、その後修正し、同じエージェントがモデルやプロンプトを変えずに、より信頼性を高めていく。
関連資料として、Anthropicの『Effective Context Engineering for AI Agents』を読むと良い。彼らのマルチエージェント研究システムの振り返りも併せて読むと、システム規模拡大後のコンテキスト隔離の重要性が数字で示されている。
ツール設計
ツールはエージェントとビジネスの接点だ。モデルはツール名と説明からツールを選び、エラー情報に基づいてリトライを決定する。ツールの契約が、LLMが得意とする表現方式に合致しているかどうかが成功の鍵だ。
良い命名のツールは、20個の凡庸なツールよりも5~10個の優れたツールの方が良い。ツール名は自然な英語の動詞句のようにすべきだ。説明はいつ使うべきか、使わないべきかを明確に記す。エラー情報は、モデルが行動を決めるためのフィードバックとなる。「500トークン超過、要約して再試行」などのメッセージは、「Error: 400 Bad Request」よりも遥かに効果的だ。公開研究では、エラー情報を書き換えるだけでリトライループが40%減少した例もある。
Anthropicの『Writing tools for agents』は良い出発点だ。読了後、自分のツールに観測を付け加え、実際の呼び出しパターンを確認しよう。エージェントの信頼性向上は、ほぼ常にツール側で起きる。多くの人はプロンプト調整に集中しすぎて、真のレバレッジポイントを見落としている。
オーケストレーターとサブエージェントの模式
2024年と2025年のマルチエージェントに関する議論は、最終的に今や広く採用されている統合モデルに収束した。単純なマルチエージェントシステム、すなわち複数のエージェントが並列で共有状態に書き込みながら動作するシステムは、エラーが連鎖しやすいため、破綻する。エージェントのループは、想像以上に拡張可能だ。本当に実運用できるマルチエージェントの形態は一つだけ:オーケストレーターエージェントが、狭い範囲のタスクを隔離されたサブエージェントに委任し、その結果を統合する方式だ。
Anthropicの研究システムも、Claude Codeのサブエージェントも、この方式で動いている。Spring AIや多くの実運用フレームワークも、この模式を標準化している。サブエージェントは、小さく焦点を絞ったコンテキストを持ち、共有状態の変更は行わない。書き込みはオーケストレーターが管理する。
Cognitionの『Don’t Build Multi-Agents』や、Anthropicの『How we built our multi-agent research system』は、一見対立する意見のようだが、実は同じことを異なる用語で語っているだけだ。両者とも読む価値がある。
基本的にはシングルエージェントを使う。真の限界に達したときにのみ、オーケストレーターとサブエージェントを検討すべきだ。例えば、コンテキストウィンドウの制約、ツール呼び出しの遅延、タスクの異質性が焦点となる場合だ。痛みを感じる前にこれらを導入すると、不要な複雑さを招く。
Evalsとゴールデンデータセット
信頼できるエージェントを提供できるチームは、必ずevalを持つ。evalのないチームは、信頼性のあるエージェントを作れない。これはこの分野で最も高いレバレッジを持つ習慣であり、私がどの会社でも最も過小評価している点だ。
効果的な方法は、運用環境のトレースを収集し、失敗例にラベルを付けてリグレッションセットとすることだ。新たな失敗が発生したら、それを追加する。主観的な部分はLLMを判定者として使い、他は正確な一致やプログラムによる検査を行う。すべてのプロンプト、モデル、ツールの変更前にテストスイートを実行する。Spotifyのエンジニアブログによると、彼らの判定層は、出力の約25%を事前に止めている。これがなければ、4つの悪い結果のうち1つはユーザーに届いてしまう。
このことを根付かせる心のモデルは、「evalは、他のすべてが変化し続ける中で、エージェントが責務から逸脱していないかを保証するユニットテストだ」というものだ。モデルは新バージョンを出し、フレームワークは破壊的な変更を行い、ベンダーはエンドポイントを廃止する。あなたのevalだけが、エージェントが正常に動作しているかを教えてくれる唯一のものだ。evalがなければ、移動目標に善意で正しさを依存したシステムを書いていることになる。
BraintrustやLangfuse evals、LangSmithなどのevalフレームワークは良いが、それらはボトルネックではない。真のボトルネックは、まずラベル付けされたデータセットを持っているかどうかだ。最初から始めて、拡張前にやるべきだ。最初の50サンプルは、数時間で手作業でラベル付けできる。言い訳はない。
ファイルシステムを状態として扱い、Think-Act-Observeループを回す
実際に多段階の作業を行うエージェントにとって、堅牢なアーキテクチャは、「思考、行動、観察、繰り返し」だ。ファイルシステムや構造化ストレージは、事実の源泉だ。各アクションは記録され、再生可能である必要がある。Claude Code、Cursor、Devin、Aider、OpenHands、gooseは、これに収束しているのは偶然ではない。
モデル自体はステートレスだ。実行フレームワークはステートフルでなければならない。ファイルシステムは、すでに理解されているステートフルな基本原語だ。この枠組みを受け入れると、ハーネスの規律は自然に展開される:チェックポイント、リカバリー、サブエージェントの検証、サンドボックス実行。
より深い洞察は、実運用のエージェントにおいて、ハーネスの役割はモデルよりも多いということだ。モデルは次の行動を選び、ハーネスはそれを検証し、サンドボックスで実行し、出力を捕捉し、フィードバックを決定し、停止タイミングやチェックポイント、サブエージェント生成を決める。モデルを別の同等の品質のものに置き換えても、良いハーネスなら製品を提供できる。逆に、劣るハーネスに変えると、最良のモデルでも、何をしているのか忘れてしまうエージェントになる。
もしあなたが構築しているものが、一回きりのツール呼び出し以上の複雑さを持つなら、真に投資すべきはハーネスだ。モデルはその一部にすぎない。
概念的に理解するMCP
ただMCPサーバーの呼び出し方を学ぶだけでは不十分だ。モデルの仕組みを理解すべきだ。エージェントの能力、ツール、リソースの間に明確な分離を設け、認証と伝送の拡張性を底層に持つ。これを理解すれば、他の「エージェント統合フレームワーク」は、MCPの低機能版に見えるだろう。時間を節約できる。
Linux Foundationが現在MCPのホスティングを担当している。主要なモデル提供者はすべてサポートしている。これを「AIのUSB-C」と例えると、皮肉ではなく現実に近づいている。
サンドボックス化は基本原語の一つだ
すべての本番用コーディングエージェントはサンドボックス内で動作している。ブラウザエージェントは間接的なプロンプトインジェクションを経験している。マルチテナントエージェントは、ある段階で権限範囲のバグに遭遇する。サンドボックス化は、インフラの基本原語として捉えるべきであり、顧客からの要求を待ってから追加するものではない。
学ぶべき基本は:プロセス隔離、ネットワーク出口制御、キー範囲管理、エージェントとツール間の認証境界。顧客のセキュリティ審査後に臨時に追加するチームは、取引を失うことが多い。最初からこれを組み込むチームだけが、企業の調達プロセスをスムーズに通過できる。
何を使って構築すべきか
2026年4月時点の具体的な選択肢を示す。これらは変わるが、あまり急激には変わらない。この層では、「地味だが堅実」なものを選ぶのが良い。
オーケストレーション層
LangGraphは、運用環境のデフォルト選択だ。大規模なエージェント運用企業の約三分の一が使っている。タイプ化された状態、条件境界、永続化されたワークフロー、ヒューマンインザループのチェックポイントなど、エージェントシステムの実態に合った抽象化だ。欠点は記述が冗長なことだが、実運用に入ったエージェントにはこれらの制御が必要であり、その冗長さは制御ニーズに対応している。
TypeScriptを主に使うなら、Mastraが事実上の選択肢だ。エコシステム内で最も明確な設計思想を持つ。
もしPydanticを好み、型安全性を重視するなら、Pydantic AIも良い選択肢だ。2025年末にv1.0をリリースし、勢いがある。
プロバイダー固有の作業、例えばコンピュータ利用、音声、リアルタイムインタラクションには、Claude Agent SDKやOpenAI Agents SDKをLangGraphのノード内で使う。異種システムのトップレベルのオーケストレーターにはしないこと。各々の得意なシナリオに最適化されている。
プロトコル層
MCP一択。
ツールの統合はMCPサーバーとして行う。外部連携も同じ方式で消費。現在、MCPレジストリは臨界点を超え、多くの場合、自前でサーバーを構築する必要はなくなっている。2026年も手書きのツール連携はほぼ無意味だ。
記憶層
記憶システムの選択は、流行ではなくエージェントの自主性に基づいて行う。
Mem0はチャット型のパーソナライズに適し、ユーザープリファレンスや軽量履歴を管理。Zepは、状態が継続的に進化し、実体追跡が必要な本番用対話システムに適している。Lettaは、数日から数週間の作業サイクルで一貫性を保つ必要があるエージェントに最適。多くのチームは不要だが、必要なチームには必須だ。
よくある誤りは、記憶の問題が未解決の段階で記憶フレームを導入しようとすることだ。まずはコンテキストウィンドウに収まる範囲の内容から始め、次にベクトルデータベースを追加。失敗パターンが明確になったときにだけ、記憶システムを導入すべきだ。
可観測性とevals
Langfuseはオープンソースのデフォルト選択だ。自己ホスティング可能でMITライセンス。トレース、プロンプトバージョン管理、LLM判定のevalsをカバー。すでにLangChainを使っているなら、LangSmithとの連携も密だ。Braintrustは研究用evalワークフローに適し、厳密な比較が必要なシナリオに向く。OpenLLMetryやTraceloopは、多言語のOpenTelemetryインストルメンテーションに適している。
トレースとevalは両方必要だ。トレースは「エージェントが何をしたか」を答え、evalは「昨日より良くなったか悪くなったか」を答える。これらがなければ本番投入は避けるべきだ。最初からこれらを整備すれば、後から修正するコストは格段に低い。
ランタイムとサンドボックス
E2Bは汎用のコード実行サンドボックス。BrowserbaseはStagehandと組み合わせてブラウザ自動化に適する。AnthropicのComputer Useは、実OSレベルのデスクトップ操作が必要なシナリオに最適。Modalは短期突発タスクに向く。
未サンドボックスのコード実行は絶対避けるべきだ。プロンプトインジェクションに破られたエージェントを本番環境で動かすと、その爆発範囲は想像を絶するものになる。
モデル
ベンチマーク追跡は疲れるし、多くの場合あまり役に立たない。2026年4月時点の実用的な見解は以下の通り:
·Claude Opus 4.7とSonnet 4.6は、信頼性の高いツール呼び出し、多段階の一貫性、エラー復旧に適している。多くの負荷には、Sonnetがコストと性能のバランスが良い。
·GPT-5.4とGPT-5.5は、CLIやターミナル推論能力が最も必要なシナリオ、またはOpenAIインフラに依存している場合に適している。
·Gemini 2.5と3は、長いコンテキストやマルチモーダルタスクに適している。
·コスト優先で、明確な境界や狭い定義のタスクには、DeepSeek-V3.2やQwen 3.6も選択肢だ。
モデルは交換可能なコンポーネントとみなすべきだ。特定のモデルだけで動作するエージェントは、護城河ではなく、むしろ悪い兆候だ。evalsでデプロイするモデルを決め、四半期ごとに再評価し、頻繁に乗り換えない。
何をスキップすべきか
しばしば推奨されるが、実際には不要なものもある。スキップのコストは低く、時間も節約できる。
AutoGenとAG2は、プロダクションには使わない。
Microsoftのこのフレームワークは、コミュニティに移行し、リリースも停滞、抽象化も実運用には適さない。学術的な探索には良いが、製品に頼るべきではない。
CrewAIは、新規の本番構築には使わない。
デモには便利だが、実運用のエンジニアはすでに移行を始めている。プロトタイプなら使えるが、長期的なバインドは避ける。
Microsoft Semantic Kernelは、Microsoftの企業技術スタックに深くロックインしている場合を除き、使わない方が良い。
エコシステムの方向性ではない。
DSPyは、大規模なpromptプログラム最適化に特化している場合のみ検討。
哲学的価値はあるが、対象は狭い。汎用エージェントフレームワークではなく、選択肢としても適さない。
独立したコード記述エージェントをアーキテクチャの選択肢としない。
Code-as-actionは面白い研究分野だが、現状の本番環境の標準ではない。ツールチェーンやセキュリティの問題に直面し、競合はこれらを気にしない。
「Autonomous agent」的な売り込みは避ける。
AutoGPTやBabyAGIのような製品路線は終わった。業界の正直な表現は「agentic engineering」:監督、境界設定、評価があること。2026年でも「デプロイ後は放置」的な自律エージェントを売る人は、2023年の遺物を売っているに過ぎない。
エージェントアプリストアやマーケットプレイス
2023年から約束されているが、実際の企業の採用は進んでいない。
企業は、特定の結果に結びついた垂直型エージェントを買うか、自分たちで構築する。汎用のプリメイドエージェントを中心としたアプリストアのビジネス設計は避けるべきだ。
横断的な「何でも作れるエージェント」企業プラットフォームは慎重に。
例:Google Agentspace、AWS Bedrock Agents、Microsoft Copilot Studio。将来的には役立つかもしれないが、現状は混乱と遅れが目立つ。買うか作るかの二択が基本。Salesforce AgentforceやServiceNow Now Assistは例外で、既存のワークフローシステムに埋め込まれている。
SWE-benchやOSWorldのランキング追跡は避ける。
2025年のBerkeleyの調査によると、ほぼすべての公開ベンチマークは、実質的なタスク解決を伴わずにスコアを稼ぐことができる。今は、Terminal-Bench 2.0や内部evalをより信頼できる信号とみなす傾向が強い。単一の数字のベンチマークの飛躍には懐疑的であるべきだ。
ナイーブな並列マルチエージェント構造。
5つのエージェントが共有記憶をもとにチャットしている様子は、デモでは魅力的に見えるが、実運用では崩壊する。オーケストレーターとサブエージェントの明確な図と読書きの境界を描けないなら、公開は避けるべきだ。
新しいエージェント製品にper-seat SaaS価格を採用しない。
市場は結果志向と利用量にシフトしている。席数に基づく料金は、収益を減らすだけでなく、買い手に「この製品は結果を出せると信じていない」というメッセージを送る。
今週Hacker Newsで見かけた次のフレームワーク。
6ヶ月待て。それが重要なら、はっきりわかるだろう。そうでなければ、移行の手間を省ける。
具体的な進め方
「エージェントについて追いかけたい」だけでなく、実際に採用したいなら、次の順序が効果的だ。地味だが有用だ。
まず、重要な