Ramp Labs đề xuất một giải pháp mới để chia sẻ trí nhớ giữa nhiều tác nhân, mức tiêu thụ Token cao nhất giảm 65%

GateNews

2026-04-11 05:14:49

Tin Gate News, ngày 11 tháng 4, công ty cơ sở hạ tầng AI Ramp Labs công bố kết quả nghiên cứu “Latent Briefing”, đạt được chia sẻ bộ nhớ hiệu quả giữa các hệ đa tác tử thông qua việc nén trực tiếp bộ nhớ đệm KV của mô hình lớn, đồng thời giảm mạnh mức tiêu thụ Token mà không làm mất chính xác. Trong các kiến trúc đa tác tử phổ biến, bộ điều phối (Orchestrator) tách nhỏ nhiệm vụ và liên tục gọi đi gọi lại mô hình làm việc (Worker); khi chuỗi suy luận ngày càng kéo dài, lượng Token tăng theo cấp số nhân. Ý tưởng cốt lõi của Latent Briefing là sử dụng cơ chế chú ý để nhận diện phần thực sự quan trọng trong ngữ cảnh, rồi loại bỏ thông tin dư thừa ngay ở lớp biểu diễn, thay vì dựa vào bản tóm tắt của LLM vốn chậm hoặc truy xuất RAG kém ổn định. Trong bài kiểm thử chuẩn LongBench v2, phương pháp này thể hiện ấn tượng: lượng Token tiêu thụ của mô hình Worker giảm 65%, mức tiết kiệm Token cho các tài liệu độ dài trung bình (32k đến 100k) đạt trung vị 49%, độ chính xác tổng thể tăng khoảng 3 điểm phần trăm so với đường cơ sở, trong khi thời gian phát sinh cho mỗi lần nén chỉ khoảng 1,7 giây, nhanh hơn thuật toán gốc khoảng 20 lần. Thí nghiệm sử dụng Claude Sonnet 4 làm bộ điều phối và Qwen3-14B làm mô hình làm việc, bao phủ nhiều kịch bản tài liệu như bài báo học thuật, văn bản pháp lý, tiểu thuyết và báo cáo của chính phủ. Nghiên cứu cũng phát hiện rằng ngưỡng nén tối ưu thay đổi theo độ khó của nhiệm vụ và độ dài tài liệu—các bài toán khó phù hợp với nén mạnh để lọc nhiễu suy luận mang tính đầu cơ, còn tài liệu dài thì phù hợp hơn với nén nhẹ để lưu giữ các thông tin then chốt được phân tán.

Xem nguồn

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.

Bình luận

0/400

Không có bình luận