2026-03-18 04:28:38

Kể từ khi o1 phát hành đến nay, điểm yếu lớn nhất chính là "quá啰嗦" (l啰嗦quá nhiều).

Tôi chỉ muốn sửa một lỗi đơn giản, nó lại cho tôi ba đoạn bối cảnh, hai bộ giải pháp cộng xử lý lỗi, cuối cùng còn chúc tôi may mắn nữa.
Ban đầu chỉ muốn tìm lỗi chính tả ở dòng 12, kết quả bị buộc phải ôn lại toàn bộ quy tắc đặt tên trong Python.
Cái lỗi này phải đổ cho RLHF. Những người ghi nhãn có xu hướng cho các câu trả lời dài hơn điểm cao, nghĩ rằng nhiều chữ trông chuyên nghiệp hơn.
Vì vậy mô hình liên tục chất thêm "những điều trông có vẻ hữu ích", còn thông tin lõi thật sự lại bị pha loãng.
Nhìn sang bên kia, Claude trong khía cạnh này thông minh hơn nhiều, biết vấn đề nào cần độ dài như thế nào.
Điều đau đớn nhất vẫn là ví: o1 định giá ở đầu output $60/1M tokens, rõ ràng 100 token có thể nói xong chuyện, mà cứ phải thêm nước lên 500 token, chi phí tăng gấp năm lần.
Hiện nay hỏi câu hỏi còn phải thêm một câu "chỉ cần code", thậm chí cái này cũng không chắc có tác dụng.
Tình trạng hiện tại của mô hình là: chỉ số IQ cực cao, nhưng EQ mất điểm, hoàn toàn không biết khi nào nên giữ im lặng.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

2 thích