Model AI baru dari China, Moonshot AI, baru-baru ini merilis sebuah laporan teknis yang memperkenalkan arsitektur baru bernama “Attention Residuals”, yang berusaha mengubah desain residual yang telah lama digunakan dalam Transformer. Tidak lama setelah laporan tersebut dirilis, Elon Musk juga menyatakan di media sosial bahwa “Kerja yang mengesankan dari Kimi (Kimi’s work is impressive)”, sehingga teknologi ini segera mendapatkan perhatian luas.
Model AI dari China, Kimi, memperluas attention ke antar model
Fokus utama Kimi kali ini sebenarnya adalah pada mekanisme inti dalam Transformer yang jarang dipikirkan ulang: Residual Connection. Sejak ResNet, sebagian besar model hanya menambahkan output setiap lapisan secara langsung kembali ke inputnya, dan bobotnya sama. Pendekatan ini sederhana dan stabil, tetapi ketika model menjadi sangat dalam, masalah mulai muncul: informasi yang terkumpul di awal akan semakin banyak, dan sinyal baru malah sulit berfungsi secara efektif, bahkan bisa tertelan, sehingga pelatihan model menjadi lebih sulit.
Pendekatan Kimi adalah memperluas mekanisme attention dari yang awalnya digunakan untuk “antar token”, menjadi “antar lapisan model”. Dalam Attention Residuals, setiap lapisan tidak lagi secara rata menerima semua informasi dari lapisan sebelumnya, melainkan melalui attention untuk “memilih” lapisan mana yang lebih penting. Dengan kata lain, model tidak lagi hanya terus menambah, tetapi secara aktif memilih informasi yang berguna berdasarkan input saat ini.
Kimi berhasil meningkatkan efisiensi sebesar 1,25 kali tanpa menambah latensi inferensi
Namun, jika setiap lapisan harus melihat semua lapisan sejarah, biayanya akan terlalu tinggi. Oleh karena itu, Kimi mengusulkan solusi kompromi yang disebut Block Attention Residuals: pertama-tama membagi model menjadi beberapa blok, di mana dalam masing-masing blok tetap mempertahankan metode penjumlahan seperti sebelumnya, tetapi antar blok digunakan attention untuk memilih. Dengan cara ini, kemampuan untuk “memilih” informasi tetap terjaga, sekaligus secara signifikan mengurangi beban memori dan komputasi, dan secara praktis dapat langsung diterapkan pada model yang sudah ada.
Dari hasilnya, Kimi pada sebuah model besar hampir tidak menambah latensi inferensi (kurang dari 2%), tetapi mampu meningkatkan efisiensi sekitar 1,25 kali, dan menunjukkan peningkatan pada berbagai metrik pengujian. Ini menunjukkan bahwa pendekatan ini tidak hanya bagus secara teori, tetapi juga memiliki nilai praktis. Sebelumnya, attention menyelesaikan masalah “hubungan antar kata”, tetapi Kimi lebih jauh lagi, membuat model mulai memikirkan “informasi mana yang harus digunakan antar lapisan”.
Singkatnya, model tidak hanya membaca data, tetapi juga mulai belajar bagaimana meninjau kembali dan mencari informasi yang telah dihitung sebelumnya.
Artikel ini mendapatkan pujian dari Musk: “Mengagumkan!” Apa rahasia dari model AI Kimi dari China? Artikel ini pertama kali muncul di Chain News ABMedia.