Googleの Vision Banana:統合型ビジョンモデルが、セグメンテーションと3Dジオメトリにおいてタスク特化モデルを上回る

ゲートニュースのメッセージ、4月23日 — Googleの研究者、He Kaiming と Xie Saining を含むが、Vision Banana を紹介する論文を発表した。Vision Banana は、同社の Nano Banana Pro (Gemini 3 Pro Image) の画像生成モデルを対象に、軽量な指示(インストラクション)のファインチューニングを行って作られた汎用の視覚理解モデル。主な革新は、すべての視覚タスクの出力をRGB画像として統一し、タスク固有のアーキテクチャや損失関数を使わずに画像生成によってセグメンテーション、奥行き推定、表面法線の予測を可能にする点にある。

意味セグメンテーションでは、Vision Banana は Cityscapes で専門モデル SAM 3 を 4.7 パーセントポイント上回った。指示表現セグメンテーションでは、SAM 3 Agent を上回った。だが、インスタンスセグメンテーションでは SAM 3 に遅れをとった。3D タスクでは、指標となる奥行き推定で、4つの標準データセット全体にわたり平均精度 0.929 を達成し、推論時に実際の奥行き情報やカメラパラメータを使わず、合成データのみで Depth Anything V3 の 0.918 を上回った。表面法線推定は、3つの屋内ベンチマークで最先端の結果を達成した。

ファインチューニングでは、元の画像生成学習に最小限の視覚タスクデータを混ぜるだけで、モデルの生成能力を維持した。生成品質テストでは、性能は元の Nano Banana Pro と一致した。論文は、視覚における画像生成の事前学習は、言語におけるテキスト生成の事前学習と並行していると提案する。つまり、モデルは生成中に画像理解に必要な内部表現を学び、指示のファインチューニングはその能力を解放するだけだという。

免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。

関連記事

Claw IntelligenceがBlock Sec Arenaと提携し、BNB Chainのセキュリティを強化

Block Sec Arenaの4月30日の公式発表によると、BNB Chain上に構築されたAI駆動のWeb3プラットフォームであるClaw Intelligenceが、エコシステムに高度なサイバーセキュリティ基盤を統合するためにBlock Sec Arenaとの戦略的パートナーシップを発表した。この共同事業は、強化を目指しているp

GateNews4時間前

NTT、AI × OWNイニシアチブを発表、日本の電力供給能力を2033年までに10億ワット(1 GW)に3倍増やす計画

4月27日、NTTの社長・島田明氏は、AI x OWNイニシアチブを発表しました。これは、同社がリアルタイムAI活用のためにインターネット基盤を再設計しようとする取り組みです。NTTは、電気通信大手として、国内の電力供給能力を現在の約300MWから、2033年度までに約1ギガワットへと3倍にする計画です。

GateNews5時間前

AIプラットフォームCertifydeが5月1日に実施された200万ドルのシードラウンドを完了、Ripple CEOのBrad Garlinghouseが支援

TechfundingNewsによると、AIアプリケーションプラットフォームのCertifydeは5月1日に200万ドルのシード資金調達ラウンドを完了した。投資家にはK5 Global、Flamingo Capitalが含まれ、またHoneyの共同創業者であるGeorge Ruan、RippleのCEOであるBrad Garlinghouse、そしてNutraの共同創業者であるRolandを含むエンジェル投資家がいる

GateNews6時間前

ペンタゴンの技術担当:Anthropic は引き続きブラックリスト、Mythos は例外対応

米国国防総省の技術責任者(ペンタゴンの技術責任者)5月1日に議会へ、「Anthropicは依然としてブラックリスト上にあるが、Mythos Previewは別の話だ」と述べ、国防総省がAnthropicの主力ブランドと新モデルのMythosに対して区別して対応していることを正式に認めた。このような表明は、4月19日にAxiosが明らかにした、NSA(国家安全保障局)が実際にMythosを使っているという情報と呼応しており、さらに「Mythosの例外ルート」の政策方針を正式に確立するものでもある——同時に、国防総省が法廷で、Anthropicのツールの使用は国安を脅かすと主張していたことと、現在の実際の運用との間に、法律上の論理矛盾があることも意味している。 Anthropic vs Pentagon

ChainNewsAbmedia7時間前

137 Venturesは新たな資金で$700M を閉鎖し、運用資産(AUM)が150億ドルに到達

ChainCatcherによると、SpaceXの初期投資家である137 Venturesは、最近2つの新ファンドの資金調達を完了し、合計で7億ドル超となりました。その結果、運用資産は150億ドル超に達しています。新たな資金は、AIエージェント、ロボティクス、そして宇宙推進の分野への投資を支える予定です。

GateNews7時間前

Redditは好調な第2四半期見通しを受けて16%急騰;AppleはAI需要が供給を上回りMacの品不足に直面

金曜の取引開始前に、同社が来四半期の売上見通しを予想以上に引き上げたことを受けて、Redditの株価は16%上昇した。日次アクティブ訪問者数は17%増えて1.27億人、ユーザー1人当たりの平均収益は世界的に44%増加し、AIによる

GateNews7時間前
コメント
0/400
コメントなし