Gate News tin tức, ngày 17 tháng 3, Moonshot đã phát hành báo cáo kỹ thuật Attention Residuals, đề xuất sử dụng cơ chế chú ý để thay thế kết nối residual cố định trong Transformer, có thể tương đương với việc sử dụng thêm 25% công suất tính toán trên mô hình Kimi Linear 48B, độ trễ suy luận tăng chưa đến 2%. Elon Musk tối qua đã đăng trên X rằng “Công việc ấn tượng từ Kimi”, và chính thức của Moonshot hôm nay đã phản hồi trên Weibo rằng “Chuyến bay của bạn cũng khá đấy!”.
Bài đăng này cũng dẫn đến cuộc thảo luận về một trong những tác giả đồng tác giả của bài báo: Chen Guangyu (tên tiếng Anh Nathan), 17 tuổi, hiện vẫn đang học trung học phổ thông. Hai đồng tác giả khác của bài báo là người đề xuất RoPE (mã hóa vị trí xoay) là Su Jianlin và Zhang Yu, tác giả chính của Kimi Linear. Chen Guangyu gia nhập Moonshot vào tháng 11 năm 2025, dự án mã nguồn mở Flash Linear Attention trên GitHub là bước đầu của anh trong lĩnh vực học máy.
Chen Guangyu cũng đã phản hồi trên X về các cuộc thảo luận bên ngoài, nói rằng “một bài báo kết hợp thuật toán và thiết kế hạ tầng, đồng thời bổ sung cả thực nghiệm và lý thuyết, thì không thể do một người viết ra”, đội ngũ Kimi đều có đóng góp, Yu Zhang và Su Jianlin đều là cộng tác viên bình đẳng, nhắc nhở mọi người “đừng tin vào tin đồn”.
Trang LinkedIn của Chen Guangyu cho thấy anh đang học tại trường Huizhou Basis International Park Lane Harbour. Moonshot Academy là tổ chức tổ chức cuộc thi hackathon dành cho học sinh trung học “Moonshot 48” vào tháng 3 năm 2025, và Chen Guangyu đã giành chiến thắng trong cuộc thi này.