Cơ bản
Giao ngay
Giao dịch tiền điện tử một cách tự do
Giao dịch ký quỹ
Tăng lợi nhuận của bạn với đòn bẩy
Chuyển đổi và Đầu tư định kỳ
0 Fees
Giao dịch bất kể khối lượng không mất phí không trượt giá
ETF
Sản phẩm ETF có thuộc tính đòn bẩy giao dịch giao ngay không cần vay không cháy tải khoản
Giao dịch trước giờ mở cửa
Giao dịch token mới trước niêm yết
Futures
Truy cập hàng trăm hợp đồng vĩnh cửu
CFD
Vàng
Một nền tảng cho tài sản truyền thống
Quyền chọn
Hot
Giao dịch với các quyền chọn kiểu Châu Âu
Tài khoản hợp nhất
Tối đa hóa hiệu quả sử dụng vốn của bạn
Giao dịch demo
Giới thiệu về Giao dịch hợp đồng tương lai
Nắm vững kỹ năng giao dịch hợp đồng từ đầu
Sự kiện tương lai
Tham gia sự kiện để nhận phần thưởng
Giao dịch demo
Sử dụng tiền ảo để trải nghiệm giao dịch không rủi ro
Launch
CandyDrop
Sưu tập kẹo để kiếm airdrop
Launchpool
Thế chấp nhanh, kiếm token mới tiềm năng
HODLer Airdrop
Nắm giữ GT và nhận được airdrop lớn miễn phí
Pre-IPOs
Mở khóa quyền truy cập đầy đủ vào các IPO cổ phiếu toàn cầu
Điểm Alpha
Giao dịch trên chuỗi và nhận airdrop
Điểm Futures
Kiếm điểm futures và nhận phần thưởng airdrop
Đầu tư
Simple Earn
Kiếm lãi từ các token nhàn rỗi
Đầu tư tự động
Đầu tư tự động một cách thường xuyên.
Sản phẩm tiền kép
Kiếm lợi nhuận từ biến động thị trường
Soft Staking
Kiếm phần thưởng với staking linh hoạt
Vay Crypto
0 Fees
Thế chấp một loại tiền điện tử để vay một loại khác
Trung tâm cho vay
Trung tâm cho vay một cửa
Khuyến mãi
AI
Gate AI
Trợ lý AI đa năng đồng hành cùng bạn
Gate AI Bot
Sử dụng Gate AI trực tiếp trong ứng dụng xã hội của bạn
GateClaw
Gate Tôm hùm xanh, mở hộp là dùng ngay
Gate for AI Agent
Hạ tầng AI, Gate MCP, Skills và CLI
Gate Skills Hub
Hơn 10.000 kỹ năng
Từ văn phòng đến giao dịch, thư viện kỹ năng một cửa giúp AI tiện lợi hơn
GateRouter
Lựa chọn thông minh từ hơn 40 mô hình AI, với 0% phí bổ sung
Google tìm ra cách làm AI cục bộ nhanh gấp 3 lần—Không cần phần cứng mới
###Tóm tắt ngắn gọn
Chạy một mô hình AI trên máy tính của riêng bạn thật tuyệt—cho đến khi không còn nữa. Lời hứa là quyền riêng tư, không phí đăng ký, và không dữ liệu nào rời khỏi máy của bạn. Thực tế, đối với phần lớn mọi người, là xem con trỏ nhấp nháy trong năm giây giữa các câu. Nút thắt đó có tên: tốc độ suy luận. Và nó không liên quan gì đến mức độ thông minh của mô hình. Đó là một vấn đề phần cứng. Các mô hình AI tiêu chuẩn tạo ra văn bản từng mảnh một—gọi là token—một lần. Phần cứng phải chuyển hàng tỷ tham số từ bộ nhớ đến các đơn vị tính toán của nó chỉ để tạo ra mỗi token đơn lẻ. Nó chậm theo thiết kế. Trên phần cứng tiêu dùng, điều đó thật đau đớn.
Giải pháp tạm thời mà hầu hết mọi người chọn là chạy các mô hình nhỏ hơn, yếu hơn—hoặc các phiên bản nén chặt, gọi là mô hình lượng tử, hy sinh một phần chất lượng để tăng tốc. Cả hai giải pháp đều không lý tưởng. Bạn có thứ chạy được, nhưng không phải là mô hình bạn thực sự muốn. Giờ đây Google có một ý tưởng khác. Công ty vừa phát hành các bản nháp Dự đoán Đa Token (MTP) cho dòng mô hình mở Gemma 4—một kỹ thuật có thể mang lại tốc độ tăng gấp 3 lần mà không ảnh hưởng đến chất lượng hoặc khả năng suy luận của mô hình.
Phương pháp này gọi là giải mã dự đoán, và nó đã tồn tại như một khái niệm trong nhiều năm. Các nhà nghiên cứu của Google đã công bố bài báo nền tảng vào năm 2022. Ý tưởng này chưa phổ biến rộng rãi cho đến bây giờ vì nó đòi hỏi kiến trúc phù hợp để hoạt động quy mô lớn.
Dưới đây là phiên bản ngắn gọn về cách hoạt động của nó. Thay vì để mô hình lớn, mạnh mẽ làm tất cả công việc một mình, bạn kết hợp nó với một mô hình “nháp” nhỏ bé. Mô hình nháp nhanh và rẻ—nó dự đoán nhiều token cùng lúc trong ít thời gian hơn so với mô hình chính. Sau đó, mô hình lớn kiểm tra tất cả các dự đoán đó trong một lượt duy nhất. Nếu các dự đoán đúng, bạn có toàn bộ chuỗi với chi phí của một lượt chạy tiến tới. Theo Google, “nếu mô hình mục tiêu đồng ý với bản nháp, nó chấp nhận toàn bộ chuỗi trong một lượt tiến tới—và thậm chí tạo ra một token bổ sung của riêng nó trong quá trình đó.” Không có gì bị hy sinh: Mô hình lớn—ví dụ như phiên bản 31B của Gemma 4—vẫn xác minh từng token, và chất lượng đầu ra vẫn giữ nguyên. Bạn chỉ đang tận dụng sức mạnh tính toán thừa thãi đã bị bỏ phí trong các phần chậm. Google nói rằng các mô hình nháp chia sẻ bộ đệm KV của mô hình mục tiêu—một cấu trúc bộ nhớ lưu trữ ngữ cảnh đã xử lý—để chúng không lãng phí thời gian tính toán lại những thứ mô hình lớn đã biết. Đối với các mô hình nhỏ hơn dành cho điện thoại và Raspberry Pi, nhóm còn xây dựng một kỹ thuật phân cụm hiệu quả để rút ngắn thời gian sinh ra hơn nữa. Đây không phải là nỗ lực duy nhất của thế giới AI trong việc song song hóa quá trình tạo văn bản. Các mô hình ngôn ngữ dựa trên khuếch tán—như Mercury của Inception Labs—đã thử một cách tiếp cận hoàn toàn khác: Thay vì dự đoán một token một lần, chúng bắt đầu với nhiễu và lặp lại tinh chỉnh toàn bộ đầu ra. Điều này nhanh trên lý thuyết, nhưng các mô hình LLM dựa trên khuếch tán vẫn gặp khó khăn trong việc bắt kịp chất lượng của các mô hình transformer truyền thống, khiến chúng chủ yếu là một nghiên cứu hơn là một công cụ thực tế. Giải mã dự đoán khác biệt vì nó không thay đổi mô hình nền tảng. Đây là một tối ưu hóa dịch vụ, không phải thay thế kiến trúc. Cùng một Gemma 4 mà bạn đã chạy sẽ trở nên nhanh hơn. Lợi ích thực tế là rõ ràng. Một mô hình Gemma 4 26B chạy trên GPU bàn làm việc Nvidia RTX Pro 6000 đạt khoảng gấp đôi số token mỗi giây khi bật bản nháp MTP, theo các thử nghiệm của Google. Trên Apple Silicon, các lô yêu cầu từ 4 đến 8 yêu cầu mở khóa tốc độ tăng khoảng 2,2 lần. Không hoàn toàn đạt mức 3 lần tối đa trong mọi trường hợp, nhưng vẫn là một sự khác biệt đáng kể giữa “hầu như không thể sử dụng” và “thực sự đủ nhanh để làm việc.”
Ngữ cảnh ở đây rất quan trọng. Khi mô hình Trung Quốc DeepSeek gây sốc thị trường vào tháng 1 năm 2025—xóa sạch 600 tỷ đô la khỏi vốn hóa của Nvidia trong một ngày—bài học chính là các cải tiến về hiệu quả có thể tác động mạnh hơn cả sức mạnh tính toán thô. Chạy thông minh hơn tốt hơn là đổ nhiều phần cứng hơn vào vấn đề. Bản nháp MTP của Google là một bước đi khác trong hướng đó, nhưng hướng tới thị trường tiêu dùng. Toàn bộ ngành công nghiệp AI hiện nay là một tam giác xem xét suy luận, huấn luyện và bộ nhớ. Mỗi đột phá trong một lĩnh vực đều có xu hướng thúc đẩy hoặc gây sốc toàn bộ hệ sinh thái. Phương pháp huấn luyện của DeepSeek (đạt được các mô hình mạnh mẽ với phần cứng thấp hơn) là một ví dụ, trong khi bài báo của Google về TurboQuant (giảm kích thước bộ nhớ AI mà không mất chất lượng) là một ví dụ khác. Cả hai đều gây sốc thị trường khi các công ty cố gắng tìm cách thích nghi. Google nói rằng bản nháp mở khóa “tăng khả năng phản hồi: giảm đáng kể độ trễ cho trò chuyện gần như thời gian thực, các ứng dụng thoại nhập vai và quy trình làm việc có tính chất đại diện”—những nhiệm vụ yêu cầu độ trễ thấp để cảm thấy hữu ích. Các trường hợp sử dụng nhanh chóng trở nên rõ ràng: Một trợ lý lập trình cục bộ không bị lag; một giao diện thoại phản hồi trước khi bạn quên mình đã hỏi gì; một quy trình làm việc có tính đại diện không khiến bạn phải chờ ba giây giữa các bước. Tất cả những điều này, trên phần cứng bạn đã sở hữu. Các bản nháp MTP hiện có trên Hugging Face, Kaggle, và Ollama, dưới giấy phép Apache 2.0. Chúng hoạt động ngay với vLLM, MLX, SGLang, và Hugging Face Transformers.