NVIDIA 發表 Nemotron 3 Nano Omni 開源多模態

鏈新聞abmedia

根據 NVIDIA 官方部落格 4 月 28 日公告(作者 Kari Briski),NVIDIA 發表 Nemotron 3 Nano Omni — 開源多模態模型,把視覺、語音與語言能力整合進單一模型,目標是為 AI agent 系統提供更低延遲、更省成本的「感知層」。

核心規格:30B-A3B MoE、256K context、9 倍吞吐量、登 6 個排行榜首位

關鍵架構:

30B-A3B hybrid mixture-of-experts(總參數 30B、活化 3B)

整合 Conv3D 與 EVS 編碼

256K context 長度

輸入:文字、影像、音訊、影片、文件、圖表、GUI 螢幕

輸出:文字

性能訊號:較其他開源 omni 模型在同等互動性下達 9 倍吞吐量;於文件智慧、影片理解、音訊理解三大類共 6 個基準排行榜取得首位(NVIDIA 公告未列出具體分數,引導讀者前往開發者部落格查看詳細資料)。

NVIDIA 把 Nemotron 3 Nano Omni 定位為 agent 系統中的「眼睛與耳朵」,可與 Nemotron 3 Super(高頻執行)、Nemotron 3 Ultra(複雜規劃)等同家族模型分工,亦可與第三方雲端模型互通。三個典型 agent 應用場景:

電腦操作代理(Computer Use Agent):原生 1920×1080 解析度視覺推理

文件智慧:跨圖、表、截圖與混合媒體輸入推理

音訊/影片理解:把講話、畫面、紀錄整合為單一推理串

採用方陣容:鴻海、Palantir 入列、H Company CEO 具名表態

NVIDIA 公告中明確區分「生產採用」與「正在評估」:

已生產採用:Aible、Applied Scientific Intelligence(ASI)、Eka Care、鴻海(Foxconn)、H Company、Palantir、Pyler

正在評估:Amdocs、Dell、Docusign、Infosys、IQVIA、Lila、Oracle、Quantiphi、TCS、Zefr 等

H Company 執行長 Gautier Cloix 在公告中具名表態:「To build useful agents, you can’t wait seconds for a model to interpret a screen. By building on Nemotron 3 Nano Omni, our agents can rapidly interpret full HD screen recordings — something that wasn’t practical before.」翻譯:「打造實用代理時,你不能等模型秒級解讀螢幕。建立在 Nemotron 3 Nano Omni 之上,我們的代理可快速解讀完整 HD 螢幕錄影 — 這在之前並不實際可行。」

開源策略與布署:weights / datasets / 訓練方法全公開

NVIDIA 在發布同時公開:

模型權重

訓練資料集

訓練技術/方法論

布署管道涵蓋三層:

本地工作站:NVIDIA DGX Spark、DGX Station

NIM 微服務:build.nvidia.com

第三方平台:Hugging Face、OpenRouter,並透過 25 個以上 NVIDIA Cloud Partners、推理平台與雲端服務商提供

客製化工具則使用 NVIDIA NeMo。Nemotron 3 家族(Nano/Super/Ultra)過去一年在 Hugging Face 累積下載超過 5,000 萬次,本次 Omni 將該家族能力延伸至多模態與 agentic 領域。

這篇文章 NVIDIA 發表 Nemotron 3 Nano Omni 開源多模態 最早出現於 鏈新聞 ABMedia。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明

相關文章

OpenClaw 於 2026.4.29 版本在 4 月 29 日發布,將記憶體升級為具備關係追蹤的個人化 Wiki

根據 Beating,開源 AI 助手 OpenClaw(GitHub 367K 星)於 4 月 29 日發布了 v2026.4.29,標誌著其在兩天內的第二次更新。其記憶系統已從單純的檢索式回憶演進為個人化維基,使代理能夠自動建立角色檔案並追蹤 r

GateNews7小時前

谷歌執行長皮查伊透露利用 Gemini AI 洞悉人性建立更真誠的溝通

皮查伊表示在重要會議前,他用 Gemini 的觀點分析預測對方心理,藉此增進同理心與更真誠的溝通。AI 代理也能自動整理郵件、排程與摘要,使日常瑣事更高效。另以開放共創為核心的AI平台正在興起,Gemini 4 等開源技術降低門檻;同時強調建立 AI 治理框架,政界與社會需參與以解決網安、深偽與永續等挑戰。

鏈新聞abmedia9小時前

Oobit 將於週四推出支援 Visa 的 AI 代理卡,讓使用者在不進行法幣轉換的情況下消費 USDT

根據 The Block,獲 Tether 支援的錢包新創 Oobit 於週四推出 AI Agent Cards,讓自主機器人能直接使用 USDT 餘額進行採購,而無需轉換為法幣或直接存取公司的信用卡憑證。這些由 Visa 支援的卡片可在任何 Visa 可用的線上場景中使用,並且可用於線上。

GateNews10小時前

ChimpX AI 由 Waterdrip Capital 與 MetaLabs Ventures 領投的種子輪募資 280 萬美元

ChimpX AI 今(今日)宣布完成一輪 280 萬美元的種子輪融資,以加速開發 Mojo AI,這是一個執行代理,能將純英文意圖轉換為在 Solana 上的鏈上 DeFi 交易。該輪由 Waterdrip 領投

GateNews12小時前

主要 CEX 於 4 月 29 日推出代理支付協議,支援由 AI 驅動的跨鏈交易

根據近期公告,領先的加密貨幣交易所於 4 月 29 日揭露 Agent Payments Protocol(代理付款協定),這是一項開放標準,讓人工智慧代理能夠在多個區塊鏈網路上執行完整的商業交易,而不需要人工介入。該協定

GateNews12小時前

海象(Walrus)推出 MemWal SDK 供 AI 代理使用之記憶體

Walrus 已推出 MemWal,一款 SDK,旨在透過將可驗證性、可用性、可移植性和可共享性帶入 AI 代理用於儲存與存取資訊的方式,以解決代理式記憶的限制,根據 Mysten Labs Group 產品經理 Abinhav Garg 表示。 可驗證且可移植的記憶

Crypto Frontier13小時前
留言
0/400
暫無留言