Nvidia Giới Thiệu Nemotron 3 Super Giữa Cuộc Cược $26 Tỷ Mô Hình AI Mở—Trả Lời Của Mỹ Cho Qwen?

Decrypt

2026-03-12 18:51:02

Tóm tắt ngắn gọn

Nvidia ra mắt Nemotron 3 Super, một mô hình AI mở trọng số 120B tối ưu cho các tác vụ agent tự động và ngữ cảnh cực dài.
Kiến trúc hybrid Mamba-Transformer MoE mang lại khả năng suy luận nhanh hơn và gấp hơn 5 lần thông lượng khi chạy ở độ chính xác 4-bit.
Khoản đầu tư 26 tỷ USD của Nvidia vào AI mã nguồn mở nhằm đối phó với sự trỗi dậy của Trung Quốc trong lĩnh vực này.

Nvidia vừa ra mắt Nemotron 3 Super, một mô hình mở trọng số 120 tỷ tham số được xây dựng để làm một việc tốt nhất: vận hành các agent AI tự động mà không làm cạn kiệt ngân sách tính toán của bạn. Đây không phải là một vấn đề nhỏ. Các hệ thống đa agent tạo ra nhiều token hơn so với trò chuyện thông thường—mỗi lần gọi công cụ, bước suy luận, và đoạn ngữ cảnh đều được gửi lại từ đầu. Kết quả là, chi phí tăng vọt, mô hình có xu hướng lệch hướng, và các agent dần quên mất mục đích ban đầu… hoặc ít nhất là giảm độ chính xác. Nemotron 3 Super là câu trả lời của Nvidia cho tất cả những điều đó. Mô hình chạy 12 tỷ tham số hoạt động trong tổng số 120 tỷ, sử dụng kiến trúc mixture-of-experts (MoE) giúp inference rẻ hơn trong khi vẫn giữ được độ sâu suy luận cần thiết cho các quy trình phức tạp. Nó có khung ngữ cảnh 1 triệu token, cho phép agent giữ toàn bộ mã nguồn hoặc gần 750.000 từ trong bộ nhớ trước khi sụp đổ.

Để xây dựng mô hình này, Nvidia kết hợp ba thành phần hiếm khi xuất hiện cùng nhau trong cùng một kiến trúc: các lớp trạng thái Mamba-2—một phương pháp thay thế nhanh hơn, tiết kiệm bộ nhớ cho attention để xử lý luồng token dài—cùng với các lớp attention Transformer để ghi nhớ chính xác, và một thiết kế “Latent MoE” mới giúp nén embedding token trước khi phân phối đến các chuyên gia. Điều này cho phép mô hình kích hoạt gấp bốn lần số chuyên gia cùng mức chi phí tính toán.

Giới thiệu NVIDIA Nemotron 3 Super 🎉

Mô hình hybrid Mamba-Transformer MoE mở trọng số 120B (12B hoạt động)

Ngữ cảnh 1 triệu token gốc

Được xây dựng cho các ứng dụng đa agent hiệu quả về tính toán, độ chính xác cao

Thêm vào đó, trọng số, bộ dữ liệu và công thức mở hoàn toàn để tùy chỉnh dễ dàng và… pic.twitter.com/kMFI23noFc

— NVIDIA AI Developer (@NVIDIAAIDev) 11 tháng 3, 2026

Mô hình còn được huấn luyện trước một cách tự nhiên trong định dạng NVFP4 của Nvidia, định dạng số thực 4-bit. Trong thực tế, điều này có nghĩa là hệ thống đã học cách hoạt động chính xác trong phép tính 4-bit ngay từ lần cập nhật gradient đầu tiên, thay vì được huấn luyện ở độ chính xác cao rồi nén lại sau đó, điều này thường làm mất độ chính xác của mô hình. Về mặt ngữ cảnh, độ chính xác của mô hình được đo bằng bits. Độ chính xác đầy đủ, gọi là FP32, là tiêu chuẩn vàng—nhưng cũng rất tốn kém để vận hành quy mô lớn. Các nhà phát triển thường giảm độ chính xác để tiết kiệm tính toán trong khi cố gắng duy trì hiệu suất hữu ích.

Hãy tưởng tượng như thu nhỏ một hình ảnh 4K xuống còn 1080p: Trông vẫn giống như ban đầu, chỉ ít chi tiết hơn. Thông thường, giảm từ độ chính xác 32-bit xuống 4-bit sẽ làm giảm khả năng suy luận của mô hình. Nemotron tránh vấn đề này bằng cách học hoạt động ở độ chính xác thấp từ đầu, thay vì bị ép vào đó sau này. So với người tiền nhiệm của nó, Nemotron 3 Super mang lại hơn năm lần thông lượng. So với các đối thủ bên ngoài, nó nhanh hơn GPT-OSS 120B của OpenAI 2.2 lần về khả năng suy luận, và nhanh hơn Qwen3.5-122B của Alibaba 7.5 lần. Chúng tôi đã thực hiện một thử nghiệm nhanh của riêng mình. Khả năng suy luận hoạt động tốt, kể cả với các đề bài cố ý mơ hồ, diễn đạt kém hoặc dựa trên thông tin sai lệch. Mô hình phát hiện lỗi nhỏ trong ngữ cảnh mà không cần được yêu cầu, xử lý các bài toán toán học và logic rõ ràng, và không bị rối khi câu hỏi hơi lệch lạc.

Toàn bộ quy trình huấn luyện công khai: trọng số trên Hugging Face, 10 nghìn tỷ token tiền huấn luyện được chọn lọc trong tổng số 25 nghìn tỷ trong quá trình huấn luyện, 40 triệu mẫu sau huấn luyện, và các công thức reinforcement learning qua 21 cấu hình môi trường. Perplexity, Palantir, Cadence, và Siemens đã tích hợp mô hình vào quy trình làm việc của họ. Khoản đầu tư 26 tỷ USD Mô hình này có thể chỉ là một phần trong chiến lược lớn hơn. Một hồ sơ tài chính năm 2025 cho thấy Nvidia dự định chi 26 tỷ USD trong năm năm tới để xây dựng các mô hình AI mở trọng số. Các giám đốc điều hành cũng xác nhận điều này. Bryan Catanzaro, phó chủ tịch nghiên cứu học sâu ứng dụng, nói với Wired rằng công ty gần đây đã hoàn thành huấn luyện trước một mô hình 550 tỷ tham số. Nvidia đã phát hành mô hình Nemotron đầu tiên vào tháng 11 năm 2023, nhưng hồ sơ này cho thấy đây không còn là một dự án phụ nữa.

Khoản đầu tư này mang tính chiến lược khi xem xét rằng các chip của Nvidia vẫn là hạ tầng mặc định để huấn luyện và vận hành các mô hình tiên phong. Các mô hình tối ưu hóa cho phần cứng của Nvidia mang lại lý do tích hợp để khách hàng tiếp tục sử dụng Nvidia bất chấp nỗ lực của các đối thủ dùng phần cứng khác. Nhưng còn một áp lực cấp bách hơn phía sau: Mỹ đang mất dần cuộc đua AI mã nguồn mở, và mất rất nhanh. Các mô hình mở của Trung Quốc từ cuối năm 2024 đã chiếm khoảng 1,2% thị phần mô hình mở toàn cầu, đến cuối năm 2025 đã tăng lên khoảng 30%, theo nghiên cứu của OpenRouter và Andreessen Horowitz. Qwen của Alibaba vượt qua Llama của Meta để trở thành mô hình mã nguồn mở tự lưu trữ được sử dụng nhiều nhất, theo Runpod. Các công ty Mỹ như Airbnb đã áp dụng nó cho dịch vụ khách hàng. Các startup toàn cầu đang xây dựng dựa trên nền tảng này. Ngoài thị phần, việc áp dụng như vậy tạo ra các phụ thuộc hạ tầng khó đảo ngược. Trong khi các ông lớn Mỹ như OpenAI, Anthropic, và Google giữ các mô hình tốt nhất của họ kín trong API, các phòng thí nghiệm Trung Quốc từ DeepSeek đến Alibaba đã tràn ngập hệ sinh thái mở. Meta là một trong số ít các đối thủ Mỹ cạnh tranh trong lĩnh vực mã nguồn mở với Llama, nhưng Zuckerberg gần đây đã ngầm báo hiệu rằng công ty có thể không mở hoàn toàn các mô hình tương lai. Khoảng cách giữa “mô hình sở hữu tốt nhất” và “mô hình mở tốt nhất” từng rất lớn—và nghiêng về phía Mỹ. Nhưng giờ đây, khoảng cách đó rất nhỏ, và phần mở rộng ngày càng thuộc về Trung Quốc.

Đồ thị tuyệt vời. Trong chỉ một năm, Trung Quốc hoàn toàn vượt qua Mỹ về các mô hình AI miễn phí.

Không còn mô hình Mỹ nào trong top 5 hôm nay, trong khi năm ngoái top 3 đều là của Mỹ. pic.twitter.com/34ErpBv8rg

— Arnaud Bertrand (@RnaudBertrand) 14 tháng 10, 2025

Cũng có một mối đe dọa về phần cứng phía dưới tất cả những điều này. Một mô hình DeepSeek mới dự kiến sẽ ra mắt sớm, và đồn đoán rằng nó đã được huấn luyện hoàn toàn trên các chip do Huawei sản xuất—một công ty Trung Quốc bị cấm vận. Nếu điều này được xác nhận, sẽ tạo ra lý do rõ ràng cho các nhà phát triển trên toàn thế giới, đặc biệt là ở Trung Quốc, bắt đầu thử nghiệm phần cứng của Huawei. Ziphu AI của Trung Quốc đã bắt đầu làm điều đó rồi. Đây chính là kịch bản Nvidia cần ngăn chặn nhất: các mô hình mở của Trung Quốc và các chip của Trung Quốc xây dựng một hệ sinh thái không cần Nvidia chút nào.

Xem bản gốc

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.

Bình luận

0/400

Không có bình luận