Маск похвалил: впечатляюще! В чем секретное оружие китайской AI модели Kimi?

ChainNewsAbmedia

中國 AI 新創 Moonshot AI 旗下模型 Kimi 近日發布一篇技術報告,提出名為「Attention Residuals」的新架構,試圖改寫 Transformer 長期沿用的殘差設計。
報告發布後不久,Elon Musk 也在社群上表示「Impressive work from Kimi (Kimi 的作品令人印象深刻)」,讓這項技術迅速受到關注。

中國 AI 模型 Kimi 將 attention 延伸到模型之間

這次 Kimi 的重點,其實是在處理 Transformer 裡一個很核心、但很少被重新思考的機制:Residual Connection。
自 ResNet 以來,大多數模型都是把每一層的輸出「直接加回去」,而且權重都一樣。
這樣做簡單又穩定,但當模型變得很深時,問題也開始出現:前面累積的資訊會越來越多,新的訊號反而很難發揮作用,甚至會被淹沒,讓模型訓練變得更困難。

Kimi 的做法,是把 attention 機制從原本用在「token 之間」,延伸到「模型層與層之間」。
在 Attention Residuals 中,每一層不再平均接收所有過去層的資訊,而是透過 attention 去「選擇」哪些層比較重要。
也就是說,模型不再只是一直累加,而是會根據當下的輸入,主動挑選有用的資訊來用。

Kimi 成功在不增加推論延遲下,提升 1.25 倍效率

但如果每一層都去看所有歷史層,成本會太高。
因此 Kimi 又提出一個折衷做法,叫做 Block Attention Residuals:先把模型切成幾個區塊,區塊內維持原本的加總方式,但在區塊之間才用 attention 做選擇。
這樣既能保留「選擇資訊」的能力,又能大幅降低記憶體和運算負擔,實際上可以直接套用在現有模型上。

從結果來看,Kimi 在一個大型模型上,幾乎沒有增加推論延遲(不到 2%),卻換來約 1.25 倍的效率提升,並且在多個測試指標上都有進步。
這代表這種改法不只是理論漂亮,也具備實際落地的價值。
過去 attention 解決的是「字與字之間的關係」,而 Kimi 進一步讓模型開始思考「不同層之間該用哪些資訊」。

簡單來說,模型不只是讀資料,還開始學會怎麼回頭找自己過去算過的內容。

這篇文章 馬斯克稱讚:令人印象深刻!中國 AI 模型 Kimi 的秘密武器是什麼? 最早出現於 鏈新聞 ABMedia。

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.
комментарий
0/400
Нет комментариев