Маск похвалил: впечатляюще! В чем секретное оружие китайской AI модели Kimi?

ChainNewsAbmedia

2026-03-27 09:54:17

中國 AI 新創 Moonshot AI 旗下模型 Kimi 近日發布一篇技術報告，提出名為「Attention Residuals」的新架構，試圖改寫 Transformer 長期沿用的殘差設計。
報告發布後不久，Elon Musk 也在社群上表示「Impressive work from Kimi (Kimi 的作品令人印象深刻)」，讓這項技術迅速受到關注。

中國 AI 模型 Kimi 將 attention 延伸到模型之間

這次 Kimi 的重點，其實是在處理 Transformer 裡一個很核心、但很少被重新思考的機制：Residual Connection。
自 ResNet 以來，大多數模型都是把每一層的輸出「直接加回去」，而且權重都一樣。
這樣做簡單又穩定，但當模型變得很深時，問題也開始出現：前面累積的資訊會越來越多，新的訊號反而很難發揮作用，甚至會被淹沒，讓模型訓練變得更困難。

Kimi 的做法，是把 attention 機制從原本用在「token 之間」，延伸到「模型層與層之間」。
在 Attention Residuals 中，每一層不再平均接收所有過去層的資訊，而是透過 attention 去「選擇」哪些層比較重要。
也就是說，模型不再只是一直累加，而是會根據當下的輸入，主動挑選有用的資訊來用。

Kimi 成功在不增加推論延遲下，提升 1.25 倍效率

但如果每一層都去看所有歷史層，成本會太高。
因此 Kimi 又提出一個折衷做法，叫做 Block Attention Residuals：先把模型切成幾個區塊，區塊內維持原本的加總方式，但在區塊之間才用 attention 做選擇。
這樣既能保留「選擇資訊」的能力，又能大幅降低記憶體和運算負擔，實際上可以直接套用在現有模型上。

從結果來看，Kimi 在一個大型模型上，幾乎沒有增加推論延遲（不到 2%），卻換來約 1.25 倍的效率提升，並且在多個測試指標上都有進步。
這代表這種改法不只是理論漂亮，也具備實際落地的價值。
過去 attention 解決的是「字與字之間的關係」，而 Kimi 進一步讓模型開始思考「不同層之間該用哪些資訊」。

簡單來說，模型不只是讀資料，還開始學會怎麼回頭找自己過去算過的內容。

這篇文章馬斯克稱讚：令人印象深刻！中國 AI 模型 Kimi 的秘密武器是什麼? 最早出現於鏈新聞 ABMedia。

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

комментарий

0/400

Нет комментариев