Meituan mở nguồn LongCat-Next: Hiểu Biết Thị Giác, Tạo Sinh và Giọng Nói Đồng Nhất với 3B Tham Số

BlockBeatNews

Theo theo dõi của 1M AI News, nhóm Meituan Longmao đã mở mã nguồn LongCat-Next, một mô hình đa phương thức nguyên bản dựa trên kiến trúc MoE, với 3 tỷ tham số kích hoạt, tích hợp năm khả năng: hiểu văn bản, thị giác, tạo hình ảnh, hiểu và tổng hợp giọng nói trong một khung tự hồi quy duy nhất. Mô hình và bộ phân tách từ điển đi kèm đã được mở mã nguồn theo giấy phép MIT, trọng số đã có trên HuggingFace.

Thiết kế cốt lõi của LongCat-Next là phương pháp DiNA (tự hồi quy nguyên bản rời rạc): bằng cách thiết kế bộ phân tách từ điển và bộ giải mã phù hợp cho từng phương thức, chuyển đổi tín hiệu hình ảnh và âm thanh thành token rời rạc, chia sẻ cùng không gian nhúng với văn bản, sử dụng dự đoán token tiếp theo thống nhất để hoàn thành tất cả các nhiệm vụ. Thành phần chính của thị giác, dNaViT (Vision Transformer độ phân giải nguyên bản rời rạc), trích xuất đặc trưng hình ảnh thành “từ thị giác”, hỗ trợ phân tách từ và giải mã động, duy trì chất lượng tạo hình ảnh tốt ngay cả khi nén 28 lần, đặc biệt nổi bật trong việc hiển thị chữ.

Trong so sánh mô hình cùng mức tham số kích hoạt (A3B), các kết quả chính của LongCat-Next là:

  1. Hiểu thị giác: MMMU-Pro 60.3 (Qwen3-Omni 57.0, GPT5-minimal 62.7), MathVista 83.1 (Qwen3-Omni 75.9, GPT5-minimal 50.9), MathVision 64.7 (vượt tất cả các mô hình so sánh), DocVQA 94.2
  2. Tạo hình ảnh: GenEval 84.44, LongText-EN 93.15 (FLUX.1-dev 60.70, Emu-3.5 97.60)
  3. Lập trình: SWE-Bench 43.0 (Kimi-Linear-48B 32.8, Qwen3-Next-80B 37.6)
  4. Gọi công cụ Agent: Tau2-Retail 73.68 (Qwen3-Next 57.3), Tau2-Telecom 62.06 (Qwen3-Next 13.2)

Trong so sánh ngang về khả năng hiểu và sinh ra mô hình thống nhất, điểm MMMU của LongCat-Next đạt 70.6, vượt xa NEO-unify (68.9), và rõ rệt hơn BAGEL (55.3) cùng Ovis-U1 (51.1), các phương án mô hình thống nhất trước đó. Hiệu suất của SWE-Bench 43.0 và bộ chuẩn gọi công cụ của dòng Tau2 cũng cho thấy kiến trúc đa phương thức thống nhất này không làm giảm khả năng xử lý văn bản thuần túy hay của Agent.

Xem bản gốc
Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận