Vào ngày 01 tháng 06 năm 2026, NVIDIA đã công bố tại hội nghị GTC Taipei rằng nền tảng Vera Rubin đã bước vào giai đoạn sản xuất hàng loạt quy mô lớn. Cùng ngày, nhà cung cấp dịch vụ AI cloud CoreWeave trở thành đơn vị đầu tiên trong ngành hoàn tất triển khai và xác thực Vera Rubin NVL72 trên nền tảng cloud, với cổ phiếu đóng cửa ở mức 124,82 USD—tăng 13,96%—và khối lượng giao dịch cao hơn khoảng 90% so với mức trung bình ba tháng gần nhất. Việc hai thông báo này được phát hành đồng thời không phải là sự trùng hợp; đây là dấu mốc cho bước nhảy vọt thế hệ tiếp theo trong nguồn cung tính toán AI, chuyển từ các thử nghiệm phòng lab sang môi trường sản xuất thực tế.
Nếu chỉ xem Vera Rubin NVL72 là một bản nâng cấp chip thì sẽ đánh giá thấp đáng kể ý nghĩa của nó đối với ngành. Vấn đề cốt lõi mà sự chuyển đổi thế hệ này giải quyết là: Khi số lượng tham số mô hình vượt mốc một nghìn tỷ, khối lượng công việc suy luận vượt qua đào tạo, và Agentic AI đòi hỏi phản hồi ở cấp độ mili giây, thì năng lực tính toán nên được tổ chức, triển khai, tiêu thụ và định giá như thế nào? Blackwell đã giới thiệu khái niệm tính toán ở cấp rack; Vera Rubin đẩy khái niệm này lên cực điểm—với sáu chip được phát triển đồng thời, rack nhỏ gọn sử dụng làm mát hoàn toàn bằng chất lỏng, và chi phí suy luận giảm theo cấp số nhân—tái định nghĩa giới hạn hiệu suất của hạ tầng AI.
Từ Chu kỳ Chip đến Tích hợp Hệ thống: Vera Rubin Tái Định Nghĩa Các Khía Cạnh Cạnh Tranh
Câu chuyện truyền thống về nâng cấp GPU theo thế hệ thường diễn ra theo chuỗi tuyến tính: cải tiến quy trình → nhiều transistor hơn → tăng năng lực tính toán → giảm tiêu thụ điện. Vera Rubin NVL72 phá vỡ mô hình này. Sản phẩm không còn lấy GPU đơn lẻ làm điểm bán hàng chính, mà xác định cả rack là đơn vị giao hàng nhỏ nhất cho siêu máy tính AI.
Mỗi rack Vera Rubin NVL72 tích hợp 72 GPU Rubin và 36 CPU Vera, cung cấp băng thông mở rộng lên tới 260 TB/s ở cấp rack nhờ NVLink thế hệ thứ sáu. NVIDIA tuyên bố băng thông này vượt cả tổng lưu lượng internet toàn cầu. Hệ thống sử dụng giải pháp làm mát hoàn toàn bằng chất lỏng, rút ngắn thời gian lắp đặt từ hai giờ ở kiến trúc truyền thống xuống chỉ còn năm phút. Sự thay đổi thực sự phía sau các thông số này là chỉ số cạnh tranh tính toán đang chuyển từ "TFLOPS trên card đơn" sang "hiệu suất hệ thống cấp rack".
Blackwell NVL72 đã chứng minh tiềm năng của tính toán cấp rack—1,44 EFLOPS năng lực suy luận, 130 TB/s băng thông nội bộ, làm mát một phần bằng chất lỏng. Vera Rubin NVL72 nâng tầm khái niệm này: năng lực suy luận tăng lên 3,6 EFLOPS (gấp 2,5 lần), năng lực đào tạo nhảy vọt từ 10 PFLOPS lên 35 PFLOPS (gấp 3,5 lần), bộ nhớ GPU nâng cấp từ HBM3e lên HBM4, tăng gấp đôi dung lượng từ 141 GB lên 288 GB, và băng thông tăng từ khoảng 8 TB/s lên xấp xỉ 22 TB/s. Những con số này không chỉ đơn giản là "gấp đôi hiệu suất", mà còn là cuộc đại tu về hiệu quả hệ thống. Đáng chú ý, mức tăng năng lực suy luận (gấp 5 lần) vượt xa mức tăng năng lực đào tạo (gấp 3,5 lần). Thiết kế phân biệt này phản ánh nhận định rõ ràng của ngành: suy luận đang thay thế đào tạo trở thành chiến trường tiêu thụ tính toán AI chính.
Đồng Bộ Sáu Chip và Làm Mát Hoàn Toàn Bằng Chất Lỏng: Logic Chuỗi Cung Ứng và Chi Phí Đằng Sau Các Lựa Chọn Kỹ Thuật
Đổi mới ở cấp chip của Vera Rubin NVL72 không chỉ là nâng cấp GPU đơn lẻ—mà gồm sáu chip được thiết kế mới: CPU Vera, GPU Rubin, switch NVLink 6, SuperNIC ConnectX-9, DPU BlueField-4, và switch Ethernet Spectrum-6. Các chip này được phát triển và xác thực đồng bộ, không phải ghép nối sau khi thiết kế riêng biệt. Chiến lược "đồng bộ toàn bộ stack" nhằm loại bỏ khoảng cách hiệu suất lâu dài giữa tính toán, lưu trữ và mạng ở cấp kỹ thuật, đồng thời xây dựng rào cản gia nhập sâu hơn so với thời Blackwell ở cấp thương mại—các đối thủ tiềm năng không chỉ phải làm chủ thiết kế GPU, mà còn phải theo kịp về CPU, interconnect, NIC, DPU và chip switch.
Giải pháp làm mát hoàn toàn bằng chất lỏng là lựa chọn kỹ thuật nổi bật khác. Mỗi rack Vera Rubin NVL72 tiêu thụ khoảng 440 kW, hoạt động với PUE xấp xỉ 1,1, và có thể nhận nước vào ở nhiệt độ lên tới 45°C. So sánh, Blackwell NVL72 chỉ làm mát một phần bằng chất lỏng với PUE khoảng 1,25. Dù sự khác biệt này có vẻ nhỏ ở cấp rack, nhưng khi nhân lên hàng nghìn rack, việc giảm PUE từ 1,25 xuống 1,1 sẽ tiết kiệm đáng kể chi phí điện và hạ tầng làm mát. Đây là lý do CoreWeave phát triển Valvey (mô-đun van làm mát chất lỏng lập trình cấp rack) và Racky (thiết bị điều khiển rack hợp nhất) chuyên biệt cho Vera Rubin—làm mát bằng chất lỏng đang chuyển từ "giải pháp tùy chọn" sang "hạ tầng thiết yếu".
Một rào cản chuỗi cung ứng quan trọng là việc làm mát hoàn toàn bằng chất lỏng và đồng bộ sáu chip của Vera Rubin tạo ra nhiều nút thắt sản xuất. Bộ nhớ HBM4 hiện chủ yếu do Samsung Electronics và SK Hynix cung cấp. Tốc độ tăng sản xuất linh kiện làm mát và khả năng giao hàng đồng bộ các thành phần hệ thống đều có thể giới hạn tốc độ thâm nhập thị trường của Vera Rubin.
Chi Phí Suy Luận Giảm Chỉ Còn Một Phần Mười: Tái Định Nghĩa Kinh Tế Ứng Dụng AI
Trong tất cả các thông số kỹ thuật của Vera Rubin NVL72, yếu tố kinh tế nổi bật nhất là: So với Blackwell, chi phí suy luận trên mỗi triệu token giảm xuống chỉ còn khoảng một phần mười, hiệu suất suy luận trên mỗi watt tăng tới 10 lần, và số lượng GPU cần thiết cho cùng khối lượng suy luận có thể giảm tới ba phần tư.
Những con số này là kết quả của ba tiến bộ kỹ thuật: quy trình 3nm tăng mật độ transistor (33,6 tỷ transistor, cao hơn khoảng 60% so với Blackwell), HBM4 tăng gấp đôi băng thông bộ nhớ, và NVLink thế hệ thứ sáu giảm thêm nút thắt giao tiếp giữa GPU. Quan trọng hơn, chi phí suy luận giảm đang thúc đẩy các kịch bản ứng dụng trước đây không khả thi về kinh tế trở thành khả thi.
Lấy ví dụ về các agent tự động thời gian thực: Khi AI trở thành dịch vụ vận hành liên tục, chủ động ra quyết định thay vì chỉ là suy luận một lần do người dùng kích hoạt, chi phí trên mỗi triệu token quyết định trực tiếp tính khả thi của mô hình kinh doanh. Cùng logic này áp dụng cho suy luận bối cảnh dài với hàng triệu token—phân tích toàn bộ sách, biên bản họp dài, hoặc hiểu toàn bộ codebase, nơi một yêu cầu tiêu thụ lượng token lớn. Việc giảm chi phí gấp mười lần chuyển các sản phẩm này từ "chỉ để demo" sang "có thể mở rộng".
Dữ liệu từ TrendForce cho thấy năm 2026, năm CSP lớn nhất Bắc Mỹ dự kiến tăng năng lực tính toán suy luận AI lên 122%, trong khi năng lực đào tạo chỉ tăng 56%. Suy luận tăng trưởng nhanh gấp đôi đào tạo. Sự chuyển đổi cấu trúc này đồng nghĩa tối ưu hóa hiệu suất suy luận của Vera Rubin có ý nghĩa thương mại mạnh mẽ, không chỉ là màn trình diễn kỹ thuật.
Tín Hiệu Sớm từ Triển Khai Cloud: CoreWeave Ra Mắt và Hiệu Ứng Chuỗi Ngành
CoreWeave công bố triển khai thành công Vera Rubin trên cloud đúng ngày sản xuất hàng loạt bắt đầu—thời điểm đáng để phân tích. Điều này phản ánh một số thực tế đồng thời: chuỗi cung ứng phần cứng giao hàng sớm, stack phần mềm và vận hành đã sẵn sàng, và sự đồng bộ chiến lược sâu sắc giữa CoreWeave và NVIDIA.
Một vấn đề quan trọng về tính xác thực câu chuyện là tuyên bố "đầu tiên" của CoreWeave có phần gây tranh cãi. Microsoft cho biết vào tháng 03 năm 2026 họ là nhà cung cấp cloud hyperscale đầu tiên xác thực Vera Rubin NVL72 trên cloud (cho mục đích xác thực). Sự khác biệt giữa "triển khai đầu tiên" và "xác thực đầu tiên" phản ánh sự phức tạp của các tuyên bố "đi đầu" trong cạnh tranh hạ tầng AI. Tiêu chí cho các tuyên bố này còn mở và có thể được các bên diễn giải khác nhau.
Về chuỗi ngành, việc triển khai Vera Rubin của CoreWeave dựa trên máy chủ PowerEdge XE9812 làm mát bằng chất lỏng của Dell Technologies, với kiến trúc mạng hỗ trợ cả NVIDIA Quantum-X800 InfiniBand và Spectrum-X Ethernet. Kiến trúc RoCE đa luồng, đa mặt phẳng cung cấp băng thông backend 1,6 Tb/s cho mỗi GPU. Điều này cho thấy hệ sinh thái Vera Rubin đã sẵn sàng vượt ra ngoài một nhà cung cấp, hình thành hợp tác đa tầng từ OEM máy chủ đến thiết bị mạng.
CoreWeave sẽ chính thức được đưa vào chỉ số Russell 3000 vào ngày 27 tháng 06 năm 2026. Tính đến ngày 31 tháng 03 năm 2026, NVIDIA nắm giữ khoảng 11% cổ phần của CoreWeave. Theo FactSet, dự báo doanh thu trung vị của 31 nhà phân tích cho CoreWeave năm 2026 là 12,589 tỷ USD, với dự báo trung hạn năm 2029 là 50,458 tỷ USD. Triển vọng tăng trưởng doanh thu này có mối tương quan cao với nguồn cung tính toán của Vera Rubin—tiến độ triển khai kiến trúc mới sẽ tác động trực tiếp đến khả năng mở rộng và hiện thực hóa doanh thu của CoreWeave.
Tác Động Đa Kịch Bản: Từ Chi Phí Suy Luận Thấp đến Tái Tổ Chức Năng Lực Tính Toán
Đặt việc ra mắt Vera Rubin NVL72 vào bối cảnh ngành rộng hơn cho thấy ba lộ trình tiến hóa liên kết đang diễn ra đồng thời.
Đầu tiên là sự tiến hóa cung-cầu tính toán. Đường tăng trưởng đang chuyển từ "dựa vào đào tạo" sang "dựa vào suy luận". Nhu cầu vận hành liên tục, độ trễ thấp và thông lượng cao của Agentic AI mở rộng nhu cầu tính toán từ vài cụm đào tạo siêu lớn sang mạng lưới hạ tầng suy luận phân tán. Bản thiết kế trung tâm dữ liệu Vera Rubin của Supermicro (mở rộng từ 5 MW lên 1 GW) phản ứng với sự chuyển đổi này—nguồn cung tính toán không còn bị độc quyền bởi các trung tâm dữ liệu khổng lồ; các nhà máy AI quy mô vừa có thể triển khai kinh tế năng lực tính toán hàng đầu.
Thứ hai là tái cấu trúc cạnh tranh ngành. Việc đồng bộ sáu chip đồng nghĩa với việc NVIDIA đang xây dựng rào cản gia nhập một cách hệ thống. Với các đối thủ tiềm năng, giải mã thiết kế GPU chỉ là bước đầu; họ còn phải giải quyết tối ưu hóa phối hợp giữa CPU, interconnect, DPU, NIC và chip switch. Độ phức tạp và chiều sâu của stack công nghệ này tăng theo cấp số nhân, tạo áp lực bắt kịp lớn hơn cho các bên hiện tại.
Thứ ba là điều kiện thương mại thay đổi cho ứng dụng AI. Chi phí suy luận thấp hơn có thể khiến các kịch bản trước đây không khả thi về kinh tế trở nên khả thi, đặc biệt là những kịch bản đòi hỏi AI vận hành liên tục dài hạn. Tuy nhiên, chuỗi truyền tải này không tự động—việc thích ứng stack phần mềm, kiến trúc mô hình tương thích với phần cứng mới, và chiến lược giá dịch vụ cloud sẽ quyết định lợi ích chi phí suy luận thấp có được hấp thụ đầy đủ ở tầng ứng dụng hay không.
Trong phân tích kịch bản, kịch bản cơ sở (xác suất cao nhất) là chi phí suy luận giảm tuyến tính theo lộ trình dự đoán, thúc đẩy tối ưu hóa liên tục cấu trúc chi phí ứng dụng AI, với cải thiện hệ thống từ năm 2027 đến 2028. Kịch bản tích cực (xác suất vừa phải) là thị trường định giá sớm xu hướng giảm, chuyển tiêu chuẩn mua tính toán từ "hiệu suất cực đại" sang "thông lượng token trên mỗi watt" và "chi phí trên mỗi triệu token", với rack thay thế server làm đơn vị tính toán nhỏ nhất và các nhà cung cấp cloud thích ứng hệ thống sớm nhất sẽ có lợi thế đi đầu rõ rệt. Kịch bản rủi ro (xác suất thấp hơn nhưng không thể bỏ qua) là thách thức trong sản xuất hàng loạt hoặc ổn định chuỗi cung ứng—nguồn cung HBM4, năng lực linh kiện làm mát, và giao hàng đồng bộ sáu chip; trì hoãn ở bất kỳ mắt xích nào đều có thể làm chậm tốc độ thâm nhập thị trường.
Kết Luận
Việc ra mắt Vera Rubin NVL72 đang chuyển đổi logic cạnh tranh tính toán AI từ "chu kỳ chip" sang "tích hợp hệ thống". Đồng bộ sáu chip, thiết kế rack như máy tính, và chi phí suy luận giảm theo cấp số nhân cùng thúc đẩy làn sóng cách mạng tính toán mới. Blackwell đã mở ra cửa sổ cho tính toán cấp rack; Vera Rubin đặt mục tiêu đẩy cửa sổ này lên cực điểm—không chỉ là GPU nhanh hơn, mà còn là tái định nghĩa cách tổ chức, triển khai và định giá năng lực tính toán AI.
Đối với các bên thị trường, biến số chủ chốt không còn là "GPU tiếp theo nhanh đến đâu", mà là "lợi ích chi phí suy luận thấp sẽ đến tầng ứng dụng nhanh thế nào", và "mức độ thay đổi tổ chức tính toán sẽ tái cấu trúc thiết kế trung tâm dữ liệu và cạnh tranh nhà cung cấp cloud ra sao". Việc xác thực hợp tác toàn ngành của Vera Rubin NVL72 đang cung cấp những câu trả lời ban đầu, nhưng hiệu quả thực tế sau triển khai quy mô lớn, ổn định chuỗi cung ứng và khả năng hấp thụ nhu cầu hạ nguồn vẫn cần tiếp tục quan sát.
FAQ
Những cải tiến cốt lõi của Vera Rubin NVL72 so với Blackwell là gì?
Vera Rubin NVL72 cung cấp năng lực suy luận cấp rack đạt 3,6 EFLOPS—gấp 2,5 lần Blackwell NVL72 (1,44 EFLOPS)—và giảm chi phí suy luận trên mỗi triệu token xuống khoảng một phần mười.
Vì sao mức tăng năng lực đào tạo của Vera Rubin (gấp 3,5 lần) lại thấp hơn mức tăng năng lực suy luận (gấp 5 lần)?
Sự khác biệt này phản ánh quan điểm chiến lược của NVIDIA về xu hướng ngành—khối lượng công việc suy luận hiện tăng nhanh hơn đào tạo, và kiến trúc mới được tối ưu hóa mạnh mẽ hơn cho kịch bản suy luận.
CoreWeave là nhà cung cấp cloud đầu tiên triển khai Vera Rubin có ý nghĩa gì?
Sự hợp tác kỹ thuật giữa CoreWeave và NVIDIA vượt xa quan hệ cung-cầu truyền thống; việc triển khai đầu tiên xác thực tính sẵn sàng của stack phần mềm và vận hành Vera Rubin.
Giải pháp làm mát hoàn toàn bằng chất lỏng có ý nghĩa gì cho trung tâm dữ liệu?
Làm mát hoàn toàn bằng chất lỏng của Vera Rubin NVL72 giúp giảm PUE từ khoảng 1,25 (Blackwell) xuống khoảng 1,1, tiết kiệm đáng kể chi phí điện và hạ tầng làm mát khi triển khai quy mô hàng nghìn rack.
Vera Rubin đối mặt với rủi ro chuỗi cung ứng nào khi sản xuất hàng loạt?
Bộ nhớ HBM4 chủ yếu do Samsung Electronics và SK Hynix cung cấp; tốc độ tăng sản xuất linh kiện làm mát và giao hàng đồng bộ sáu chip đều có thể giới hạn tốc độ thâm nhập thị trường.
Những kịch bản ứng dụng mới nào sẽ khả thi nhờ chi phí suy luận giảm gấp mười lần?
Vận hành liên tục các agent thời gian thực, suy luận bối cảnh dài hàng triệu token, và triển khai suy luận phân tán quy mô lớn—trước đây không khả thi do chi phí tích lũy token cao—sẽ trở nên kinh tế hơn.
Việc CoreWeave được đưa vào chỉ số Russell 3000 sẽ có tác động gì?
Việc đưa vào chỉ số Russell 3000 sẽ thúc đẩy phân bổ ETF thụ động, tăng khả năng tiếp cận và thanh khoản của CoreWeave đối với các nhà đầu tư tổ chức.
Kiến trúc Vera Rubin có thay đổi logic đầu tư cho hạ tầng AI không?
Logic đầu tư đang chuyển từ "cuộc đua hiệu suất card đơn" sang "cạnh tranh hiệu quả ở cấp hệ thống", với mật độ tính toán cấp rack, thông lượng token trên mỗi watt và chi phí trên mỗi triệu token trở thành chỉ số cốt lõi.




