ME News tin tức, ngày 23 tháng 4 (UTC+8), theo giám sát của Beating, nhóm nghiên cứu Perplexity đã công bố bài báo kỹ thuật, tiết lộ quy trình hậu huấn luyện của agent tìm kiếm web của họ.
Quy trình này dựa trên các mô hình nguồn mở Qwen3.5-122B-A10B và Qwen3.5-397B-A17B, áp dụng kế hoạch hai giai đoạn: đầu tiên sử dụng tinh chỉnh có giám sát (SFT) để thiết lập các hành vi cần thiết cho triển khai như tuân thủ hướng dẫn và nhất quán ngôn ngữ, sau đó sử dụng học tăng cường chính sách trực tuyến (RL) để tối ưu hóa độ chính xác tìm kiếm và hiệu quả sử dụng công cụ.
Giai đoạn RL sử dụng thuật toán GRPO, dữ liệu huấn luyện bao gồm hai phần: một là bộ dữ liệu hỏi đáp tổng hợp nội bộ có thể xác minh nhiều bước nhảy, bắt đầu từ các truy vấn hạt giống nội bộ, xây dựng các câu hỏi yêu cầu suy luận từ 2 đến 4 bước nhảy thông qua chuỗi thực thể, và xác minh tính duy nhất của câu trả lời bằng nhiều bộ giải độc lập; hai là dữ liệu hội thoại tổng quát dựa trên tiêu chí (rubric), chuyển đổi các yêu cầu triển khai như tuân thủ hướng dẫn, ràng buộc định dạng thành các điều kiện nguyên tử có thể kiểm tra khách quan, được sử dụng để ngăn chặn sự suy thoái hành vi do SFT thiết lập trong giai đoạn RL.
Cốt lõi của thiết kế phần thưởng là tổng hợp có kiểm soát: chỉ khi đường cơ sở đúng (trả lời đúng câu hỏi hoặc đáp ứng tất cả tiêu chí) thì điểm ưu tiên mới được tham gia tính toán, ngăn chặn tín hiệu ưu tiên cao che lấp lỗi thực tế. Hình phạt hiệu suất sử dụng phương pháp neo trong nhóm, lấy các câu trả lời đúng trong cùng nhóm làm chuẩn, áp dụng hình phạt mượt mà cho số lần gọi công cụ và độ dài sinh vượt quá.
Đánh giá cho thấy Qwen3.5-397B-SFT-RL sau hậu huấn luyện hoạt động tốt nhất trên nhiều chuẩn tìm kiếm. Trên FRAMES, với một lần gọi công cụ duy nhất đạt 57.3%, cao hơn GPT-5.4 5.7 điểm phần trăm, cao hơn Sonnet 4.6 4.7 điểm phần trăm. Với ngân sách trung bình (4 lần gọi công cụ) đạt 73.9%, chi phí mỗi truy vấn 2.0 xu; trong cùng điều kiện, GPT-5.4 là 67.8% / 8.5 xu, Sonnet 4.6 là 62.4% / 15.3 xu. Dữ liệu chi phí được tính theo giá API công bố của các nhà cung cấp, chưa bao gồm tối ưu hóa bộ nhớ đệm. (Nguồn: BlockBeats)

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Đăng lại
Retweed

Bình luận

Thêm một bình luận

Không có bình luận

Chủ đề thịnh hành
Xem thêm
#
SKHynixTopsKOSPIByMarketCap
1,54M Phổ biến
#
MicronEarningsBeatExpectationsSharesRise
166,93K Phổ biến
#
IsraelStrikesIranBTCPlunges
63,49K Phổ biến
#
WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷
321,29K Phổ biến
#
USMayPCEInflationRisesTo4.1%HighestIn3Years
523,46K Phổ biến

Đã ghim

sơ đồ trang web

Perplexity công bố phương pháp huấn luyện sau cho tác nhân tìm kiếm, mô hình dựa trên Qwen3.5 vượt qua GPT-5.4 về độ chính xác và chi phí.

Chủ đề thịnh hành

SKHynixTopsKOSPIByMarketCap

MicronEarningsBeatExpectationsSharesRise

IsraelStrikesIranBTCPlunges

WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷

USMayPCEInflationRisesTo4.1%HighestIn3Years

Đã ghim