Nhân viên nghiên cứu Meta tiết lộ năm phái phổ biến của World Model: AI mà Dương Lập昆và Lý Phi Phi đặt cược là gì?

ChainNewsAbmedia

Sau khi nhà khoa học đoạt giải Turing, cựu trưởng phòng khoa học của Meta AI Yann LeCun thành lập công ty khởi nghiệp Advanced Machine Intelligence (AMI) vừa hoàn thành vòng gọi vốn hạt giống siêu lớn trị giá 1,03 tỷ USD, thì “World Model” lại một lần nữa trở thành từ khóa nóng trong lĩnh vực trí tuệ nhân tạo. Tuy nhiên, dù cộng đồng AI thường xuyên bàn luận về world models, các khái niệm mà các nhà nghiên cứu khác nhau đề cập thực tế lại rất khác nhau.

(Phân tích sâu: LLM có tồn tại nhược điểm? Tại sao Yang LeKun lại đặt cược vào hướng đi World Model của AMI)

Gần đây, nhà khoa học nghiên cứu của Meta AI Zhuokai Zhao đã đăng bài dài trên mạng xã hội chỉ rõ rằng, các loại world model trong lĩnh vực AI hiện nay ít nhất có thể phân thành năm hướng công nghệ khác nhau. Ông cho rằng, những phương pháp này thực chất không cạnh tranh trực tiếp mà đang giải quyết các vấn đề ở các cấp độ khác nhau.

JEPA: Hiểu biết vật lý nén

Trí tuệ không gian: Tái tạo thế giới 3D

Học mô phỏng: Huấn luyện AI trong thế giới mô phỏng

NVIDIA Cosmos: Cung cấp hạ tầng

Active Inference: Đề xuất lý thuyết trí thông minh mới

Ông dự đoán rằng, ranh giới giữa chúng sẽ sớm trở nên mờ nhạt.

Hướng 1: JEPA của LeCun, hiểu thế giới trong không gian trừu tượng

Zhao cho rằng, loại world model đầu tiên là Joint Embedding Predictive Architecture (JEPA), nhân vật tiêu biểu chính là Yann LeCun.

Ý tưởng cốt lõi của JEPA là: AI không nên cố gắng dự đoán từng pixel một cách trực tiếp, mà nên dự đoán tương lai trong không gian biểu diễn trừu tượng.

Trong thế giới thực, nhiều chi tiết vốn dĩ không thể dự đoán trước, như biến đổi ánh sáng, vị trí cụ thể của lá cây, kết cấu bề mặt. Nếu mô hình phải sinh ra tất cả các pixel, sẽ bị buộc phải xử lý lượng lớn chi tiết vô nghĩa.

Cách làm của JEPA là trước tiên dùng bộ mã hóa để chuyển đổi hình ảnh hoặc video thành biểu diễn trừu tượng, rồi trong không gian biểu diễn đó dự đoán phần bị che khuất. Như vậy, mô hình có thể học được các câu như: “quả bóng sẽ rơi khỏi bàn”, mà không cần sinh ra từng khung hình.

Meta đã phát triển V-JEPA 2, là một trong những kết quả thử nghiệm tiêu biểu nhất hiện nay. Mô hình này sử dụng dữ liệu video 1 triệu giờ để huấn luyện tự giám sát, sau đó chỉ cần 62 giờ dữ liệu robot là đủ để tạo ra một mô hình thế giới hỗ trợ lập kế hoạch không mẫu mực. Robot sẽ sinh ra các chuỗi hành động ứng viên, đưa vào mô hình thế giới, rồi chọn ra chuỗi dự đoán phù hợp nhất với hình ảnh mục tiêu. Phương pháp này phù hợp để huấn luyện các vật thể và môi trường mà trong quá trình huấn luyện chưa từng gặp.

Hiệu quả dữ liệu cực cao này chính là lý do AMI đặt cược vào kiến trúc JEPA. Nếu biểu diễn của bạn đủ tốt, bạn không cần phải thử mọi nhiệm vụ từ đầu. Labs của LeCun đang cố gắng đưa công nghệ này từ nghiên cứu sang ứng dụng. Ban đầu họ nhắm vào lĩnh vực y tế và robot. Tuy nhiên, đây là một khoản đầu tư dài hạn, CEO của họ từng công khai nói rằng, các sản phẩm thương mại có thể còn phải mất vài năm nữa mới ra đời.

Hướng 2: Trí tuệ không gian của Fei-Fei Li

Hướng nổi tiếng thứ hai đến từ World Labs do Fei-Fei Li sáng lập.

(Ai là nữ thần AI Fei-Fei Li? Startup kỳ lân World Labs nhận vốn từ Nvidia, AMD)

Khác với “dự đoán tương lai” của JEPA, trọng tâm của Fei-Fei Li là: “Thế giới trông như thế nào trong không gian ba chiều?” Khái niệm cô đề xuất gọi là Spatial Intelligence (trí tuệ không gian). Quan điểm này cho rằng, để hiểu đúng đắn, cần có cấu trúc không gian rõ ràng: hình dạng hình học, độ sâu, tính bền vững, khả năng quan sát lại cảnh vật từ góc độ mới — chứ không chỉ dự đoán theo thời gian. Điều này khác biệt với JEPA: bạn không học động lực học trừu tượng, mà học biểu diễn 3D có cấu trúc của môi trường, có thể thao tác trực tiếp.

Sản phẩm Marble của World Labs có thể tạo ra thế giới 3D tồn tại liên tục từ hình ảnh, văn bản, video. Khác với các mô hình sinh video truyền thống, Marble tạo ra cảnh 3D thực sự. Bạn có thể tự do di chuyển góc nhìn, chỉnh sửa vật thể, xuất ra mô hình 3D. Điều này khiến nó gần như một công cụ sáng tạo 3D hơn là một mô hình sinh nội dung đơn thuần.

Hướng 3: Mô phỏng học của DeepMind

Loại thứ ba là world model dạng mô phỏng học (Learned Simulation).

Các nghiên cứu tiêu biểu gồm:

DeepMind Genie 3

Dòng Dreamer

Runway GWM-1

Các mô hình này cố gắng xây dựng thế giới mô phỏng có thể tương tác, để AI học trong đó.

Hướng 4: Hạ tầng AI vật lý của NVIDIA

Hướng thứ tư không trực tiếp xây dựng mô hình, mà tạo ra toàn bộ hệ sinh thái nền tảng. Công ty tiêu biểu là NVIDIA, với nền tảng Cosmos cung cấp hạ tầng hoàn chỉnh:

Xử lý dữ liệu video

Tokenizer thị giác

Huấn luyện mô hình

Triển khai dịch vụ

Các mô hình nền tảng thế giới (World foundation models) của Cosmos đã được huấn luyện trên 20 triệu giờ video thực tế, với tổng số token đạt 9 nghìn tỷ.

(Nền tảng AI tự lái Alpamayo của NVIDIA ra mắt: giúp xe tự lái có khả năng suy luận, còn có thể giải thích lý do quyết định)

Chiến lược của NVIDIA rất rõ ràng: không nhất thiết phải làm world model, mà cung cấp công cụ để mọi người xây dựng world model.

Hướng 5: Active Inference (thuyết thần kinh học)

Hướng cuối cùng xuất phát từ lý thuyết thần kinh học. Nhân vật tiêu biểu là nhà thần kinh học Karl Friston, đề xuất nguyên lý năng lượng tự do (Free Energy Principle). Khác với học tăng cường truyền thống, Active Inference xem AI như một sinh vật liên tục cố gắng hiểu thế giới. Nó sẽ hành động nhằm làm cho dự đoán về môi trường của mình chính xác hơn, giảm thiểu các trường hợp “sự việc không như dự đoán”.

Công ty VERSES AI với hệ thống AXIOM dùng mô hình hướng đối tượng, mỗi vật thể là thực thể độc lập, hệ thống dùng suy luận Bayes để cập nhật niềm tin, không dựa vào huấn luyện gradient mạng nơ-ron sâu. Kiến trúc này có khả năng giải thích, tổ hợp cao, cực kỳ hiệu quả về dữ liệu. Tháng 4 năm 2025, AXIOM đã ra mắt sản phẩm thương mại (Genius), kết quả thử nghiệm trên các nhiệm vụ kiểm soát tiêu chuẩn cho thấy cạnh tranh được với các phương pháp RL, trong khi lượng dữ liệu sử dụng ít hơn nhiều lần.

AI – chiến trường chính tiếp theo: Hiểu thế giới

Zhao cuối cùng nhấn mạnh rằng, năm hướng world model này thực ra không loại trừ lẫn nhau, mà mỗi hướng giải quyết các vấn đề khác nhau:

JEPA: Nén hiểu biết vật lý

Trí tuệ không gian: Tái tạo thế giới 3D

Học mô phỏng: Huấn luyện AI trong thế giới mô phỏng

NVIDIA Cosmos: Cung cấp hạ tầng

Active Inference: Đề xuất lý thuyết trí thông minh mới

Cùng với xu hướng AI ngày càng tiến tới robot, tự lái, và AI vật lý (Physical AI), các công nghệ này có khả năng sẽ nhanh chóng hội tụ trong tương lai.

Bài viết này của nhà nghiên cứu Meta tiết lộ về năm trường phái World Model: AI của Yang LeKun, Fei-Fei Li đặt cược là gì? Ban đầu xuất hiện trên trang ABMedia của Chain News.

Xem bản gốc
Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận