Databricksによると上位AIモデルは日常的な企業タスクで遅れ、小型の専門モデルが上回る

Gate Newsメッセージ、4月20日――DatabricksのDavid Meyerによると、トップクラスのAIモデルはオリンピアード数学のような複雑な問題の解決に優れる一方で、日常的な企業業務では苦戦します。あるモデルはエラーとしてフラグを立てる代わりに、誤った請求書番号を修正してしまうことがあります。また、Claudeのようなコーディングツールでも、データエンジニアリングのタスクで期待ほどの性能を発揮できない場合があります。

そのギャップは、大規模モデルの学習に使われる公開Webテキストと、企業データとの間にある基本的な違いに起因します。企業データには、曖昧な列ラベルが含まれていることが多く、空欄が多数あり、コードがそのままテキストとして保存されていることもあります。ある学術研究では、適合率と再現率の両方のバランスを取るAIモデルのF1スコアが、公開データで0.94だったのに対し、データエンジニアリングのタスクにおける企業データでは0.07まで低下しました。さらに、大規模モデルは学習時に馴染んだパターンへデフォルトで寄りがちで、企業の独自のクエリ言語に関する指示とドキュメントを受け取った後でも、Structured Query Language (SQL)にデフォルト設定してしまった例がありました。

強化学習で調整された小型のオープンソースモデルは、大規模な汎用モデルよりも大幅に低い学習コストで、特定の仕事をより効率的に処理できます。Databricksは、会社の文書を用いたマルチステップ推論に強化学習を使うKARLのように、特定のワークフロー向けの小型AIエージェントを構築しています。業界では、巨大モデルへの依存から脱し、ハイブリッドなアーキテクチャへとシフトが進んでいます。すなわち、小型で効率的なモデルが日常的な量を処理し、不明確または複雑なケースだけを、より大きくコストの高いシステムへエスカレーションするのです。

Databricksは最近、巨大企業がAIエージェントをより確実に運用できるようにするため、Quotient AIを買収しました。AIビジネスにおける競争の中心は、AIの全ライフサイクルを回すことにあります。そこには、エラーを追跡するためのフィードバックシステムや、時間の経過に伴ってモデルを継続的に改善する取り組みが含まれます。そのため、デプロイ後に評価・調整のためのツールがこれまで以上に価値を持つようになっています。

免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。

関連記事

シリコンバレーのAIエージェントの現実:トークンが大量に浪費され、システム統合は「極めて混沌」としており、黄仁勳は「次のChatGPT」を予測しているが、検証は未了

最近のシリコンバレー会議で、複数のAI新興企業のCEOが、現在のAIエージェントの利用に関する問題について見解を述べており、tokenの浪費とシステムの混乱という2つの大きな困難に直面していると考えています。専門家は、企業は大型言語モデルをいつ使うべきかをより慎重に判断し、不必要な資源の浪費を避ける必要があると指摘しています。さらに、複数のAIエージェントの協調が、メッセージ伝達や状態の一貫性の問題を引き起こすことが多く、現在の標準化にはまだ改善の余地があることを示しています。黄仁勳がtokenの給与指標に関する見解に触れた一方で、フィードバックでは、それが生産性に直結するわけではなく、実際の価値は効果的なタスク設計にあると示されています。

ChainNewsAbmedia13時間前

AIが世界のベンチャーキャピタルを80%飲み込む、2026年Q1に2,420億ドルが吸い上げられる:資金の再配分に対して暗号資産業者はどう対応するか

報道によると、2026年の第1四半期における世界のベンチャーキャピタルの総額は約3,000億米ドルに達しており、そのうちAI関連企業が約2,420億米ドルを占め、ベンチャーキャピタル全体の80%を占めています。これはAIがベンチャーキャピタルの主要な焦点になっていることを示しています。資金がAIに集中するにつれて、他の領域であるcryptoは圧迫されており、事業者は戦略を調整し、AIを業務により深く統合する必要があり、さらにインフラの統合が進む傾向が現れることが見込まれています。

ChainNewsAbmedia17時間前

名誉(Honor)の人型ロボットが50分26秒で2026年北京亦庄ハーフマラソン優勝

2026年北京亦庄ハーフマラソンでは、人型ロボットが21.0975 kmを競走した。自律チーム「Qitian Dasheng(七天大勝)」が50:26で優勝し、一方で遠隔操作チーム「Jueying Chitu(決影馳途)」はネットタイムで1位になったが、ペナルティにより順位が下がった。

GateNews19時間前

香港警察、「AIクオンツ取引」仮想通貨詐欺に警鐘、女性はHK$7.7百万を損失

香港警察は、仮想通貨の詐欺を明らかにした。女性が投資の専門家を名乗る詐欺師にだまされ、Telegramを通じてAI取引による高い利回りを約束され、HK$7.7百万を失った。警察は、仮想通貨投資に伴うリスクについて一般の人々に警告した。

GateNews19時間前

イーサリアム共同創業者ルービン:AIは暗号資産の重要な転換点になるが、テック大手の独占はシステム上のリスクをもたらす

イーサリアムの共同創業者ジョセフ・ルービンは、暗号資産分野におけるAIの変革的な可能性を強調する一方、ハイテク大手による中央集権化のリスクに注意を促しました。彼はブロックチェーン上でAI主導の自律的な取引が行われることを想定しており、従来の金融とDeFiの収束を指摘しています。

GateNews04-18 14:01

Luffaがデジタル資産プラットフォームと提携し、AIによる暗号取引を統合

LuffaはWeb3のソーシャルエコシステムで、デジタル資産の取引プラットフォームと提携し、AI駆動の取引機能を統合することで、分散化とリスク低減を維持しつつ、統一されたインターフェース内での安全なコミュニケーションと取引を強化します。

GateNews04-18 06:31
コメント
0/400
コメントなし