2026-06-18 08:57:27
DeepSeek 推出視覺模式,並以視覺基本元件框架(Visual Primitives Framework)支援空間推理
根據 Beating 監控,DeepSeek 已正式在網頁與應用程式平台推出 Vision Mode(視覺模式),提供深度場景分析、空間推理能力,並可將介面截圖直接轉換為具 HTML 結構的程式碼。 這項新的視覺能力建立在 DeepSeek 的研究框架「Thinking with Visual Primitives」,該框架由北大與清華大學的研究人員共同開發。底層方法透過將座標點與邊界框視為核心思考單位,來彌補既有視覺語言模型在空間推理上的不足,使模型能在推論過程中整合空間參照進行視覺推理。基礎學術論文曾在 4 月 30 日短暫發布,但在 5 月 1 日被 DeepSeek 撤回。目前,Vision Mode 僅支援影像輸入,不支援影片或音訊,且不具備影像生成能力。