Chi phí mã hóa token của ngôn ngữ tiếng Trung của Claude cao hơn 65% so với tiếng Anh, OpenAI chỉ cao hơn 15%

Tin tức Gate, 29 tháng 4 — Nhà nghiên cứu AI Aran Komatsuzaki đã tiến hành phân tích so sánh hiệu quả mã hóa token trên sáu mô hình AI lớn bằng cách dịch bài nghiên cứu mang tính nền tảng của Rich Sutton “The Bitter Lesson” sang chín ngôn ngữ và xử lý chúng qua bộ mã hóa của OpenAI, Gemini, Qwen, DeepSeek, Kimi và Claude. Dùng số lượng token của phiên bản tiếng Anh trên OpenAI làm mốc cơ sở (1x), nghiên cứu cho thấy sự chênh lệch đáng kể: khi xử lý cùng một nội dung bằng tiếng Trung, Claude cần 1.65x token, trong khi OpenAI chỉ cần 1.15x. Tiếng Hindi cho kết quả còn cực đoan hơn trên Claude, vượt mốc cơ sở hơn 3x. Anthropic xếp vị trí thấp nhất trong số sáu mô hình được thử nghiệm.

Điểm mấu chốt là, khi cùng một văn bản tiếng Trung được xử lý trên các mô hình khác nhau—tất cả đều được đo so với cùng một mốc nền tiếng Anh—kết quả lại phân kỳ mạnh mẽ: Kimi chỉ tiêu thụ 0.81x token (thậm chí ít hơn cả tiếng Anh), Qwen 0.85x, trong khi Claude cần 1.65x. Khoảng cách này cho thấy một vấn đề thuần túy về hiệu quả mã hóa token, chứ không phải vấn đề vốn có của ngôn ngữ. Các mô hình tiếng Trung thể hiện hiệu quả cao hơn khi xử lý tiếng Trung, gợi ý rằng sự chênh lệch bắt nguồn từ việc tối ưu hóa bộ mã hóa thay vì từ bản thân ngôn ngữ.

Ý nghĩa thực tiễn đối với người dùng là rất lớn: việc tiêu thụ token nhiều hơn trực tiếp làm tăng chi phí API, kéo dài độ trễ phản hồi của mô hình và làm cạn kiệt nhanh hơn các cửa sổ ngữ cảnh. Hiệu quả mã hóa token phụ thuộc vào thành phần ngôn ngữ trong dữ liệu huấn luyện của một mô hình—những mô hình được huấn luyện chủ yếu bằng tiếng Anh sẽ nén văn bản tiếng Anh hiệu quả hơn, trong khi các ngôn ngữ có mức độ dữ liệu thể hiện thấp hơn sẽ được mã hóa thành các mảnh nhỏ hơn, kém hiệu quả hơn.

Kết luận của Komatsuzaki nhấn mạnh một nguyên tắc cơ bản: quy mô thị trường quyết định hiệu quả mã hóa token. Thị trường càng lớn thì mức tối ưu càng tốt, còn các ngôn ngữ ít được đại diện sẽ phải chịu chi phí token cao hơn đáng kể.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.

Bài viết liên quan

PayPal công bố tái cơ cấu thành ba đơn vị, nhắm tới $900M tiết kiệm hằng năm vào cuối năm 2027

Vào ngày 30 tháng 4, PayPal đã công bố một kế hoạch tái cơ cấu toàn diện theo hướng tổ chức lại thành ba đơn vị kinh doanh riêng biệt—Consumer, Small Business và Enterprise—nhằm tinh gọn hoạt động và đẩy nhanh việc tích hợp trí tuệ nhân tạo. Công ty ước tính rằng việc tái cấu trúc sẽ mang lại

GateNews28phút trước

Kaisar Network hoàn tất $4 triệu USD tài trợ cho lớp 1 điện toán AI phi tập trung

Theo ChainCatcher, Kaisar Network, một mạng Lớp 1 điện toán AI phi tập trung, đã hoàn tất $4 triệu USD gọi vốn tính đến hiện tại, bao gồm 1 triệu USD trong vòng Pre-Seed chiến lược. Các nhà đầu tư bao gồm Merov Capital, StoneBlock, WM Capital, Arche Fund, Q42 và Unicorn Ventures. Mạng lưới

GateNews2giờ trước

Giám đốc tài chính của OpenAI bác bỏ tin đồn về mục tiêu doanh thu, cho biết công ty đang thực hiện ở mức cao nhất vào ngày 1 tháng 5

Theo Bloomberg, Giám đốc tài chính (CFO) của OpenAI, Sarah Friar, đã bác bỏ các tin đồn hôm 1/5 rằng công ty đã bỏ lỡ các mục tiêu doanh số và người dùng nội bộ. Friar cho biết công ty đang triển khai kế hoạch ở mức cao nhất, đồng thời mô tả nhu cầu sản phẩm như một “bức tường thẳng đứng”. Bà cũng lưu ý rằng việc thực thi

GateNews2giờ trước

Cố vấn của Musk tiết lộ $974B Bid của xAI cho tài sản phi lợi nhuận của OpenAI tại tòa án, làm dấy lên sự giám sát mới

Theo lời khai của Jared Birchall vào ngày 4 trong vụ kiện của Musk đối với OpenAI, đề nghị trị giá 974 tỷ USD của xAI nhằm ngăn Sam Altman định giá thấp hơn các tài sản trong quá trình tái cấu trúc của OpenAI. Tuy nhiên, thẩm phán Yvonne Gonzalez Rogers đã đặt câu hỏi về việc Birchall có thể đưa ra con số 974 tỷ USD như vậy

GateNews3giờ trước

Musk thừa nhận xAI đã dùng chưng cất trên các mô hình của OpenAI trong Ngày 4 của phiên tòa

Theo Beating và The Verge, vào Ngày 4 của phiên tòa giữa Musk và OpenAI, các luật sư của OpenAI đã đặt câu hỏi liệu xAI có sử dụng chắt lọc (distillation) để cải thiện các mô hình của mình dựa trên công nghệ của OpenAI hay không. Musk ban đầu nói rằng “hầu hết các công ty AI đều làm như vậy”, nhưng khi bị yêu cầu trả lời trực tiếp, ông thừa nhận rằng

GateNews4giờ trước

66,3% nhân viên Mỹ có thu nhập cao sử dụng công cụ AI tại nơi làm việc, khảo sát của Cục Dự trữ Liên bang cho thấy

Theo khảo sát của Cục Dự trữ Liên bang, 66,3% người lao động Mỹ có thu nhập hằng năm trên 200.000 USD đã sử dụng công cụ AI tại nơi làm việc trong 12 tháng qua tính đến ngày 1/5. Ở các nhóm thu nhập thấp hơn, tỷ lệ sử dụng giảm đáng kể: 51,6% đối với những người có thu nhập 100.000–200.000 USD, 40,2% đối với những người có thu nhập 50.000–100.000,

GateNews4giờ trước
Bình luận
0/400
Không có bình luận