Anthropic Xác Định Ba Thay Đổi Ở Lớp Sản Phẩm Dẫn Tới Suy Giảm Chất Lượng Claude Code, Không Phải Lỗi Từ Mô Hình

Tin Cổng, ngày 23 tháng 4 — Nhóm kỹ thuật của Anthropic đã xác nhận rằng sự suy giảm chất lượng của Claude Code được người dùng báo cáo trong tháng qua bắt nguồn từ ba thay đổi độc lập ở lớp sản phẩm, không phải từ vấn đề API hay từ mô hình nền tảng. Ba vấn đề này đã được khắc phục lần lượt vào ngày 7 tháng 4, ngày 10 tháng 4 và ngày 20 tháng 4, với phiên bản cuối cùng hiện là v2.1.116.

Thay đổi đầu tiên diễn ra vào ngày 4 tháng 3, khi nhóm giảm mức độ nỗ lực suy luận mặc định cho Claude Code từ “high” xuống “medium” để xử lý các đỉnh độ trễ cực đoan thỉnh thoảng xảy ra ở Opus 4.6 khi cường độ suy luận cao. Sau khi nhận được nhiều phàn nàn từ người dùng về hiệu năng giảm, nhóm đã hoàn tác thay đổi vào ngày 7 tháng 4. Mặc định hiện tại bây giờ là “xhigh” cho Opus 4.7 và “high” cho các mô hình khác.

Vấn đề thứ hai là một lỗi được đưa vào ngày 26 tháng 3. Hệ thống được thiết kế để xóa các bản ghi suy luận cũ sau khi sự bất hoạt trong cuộc trò chuyện vượt quá một giờ nhằm giảm chi phí khôi phục phiên. Tuy nhiên, một sai sót trong quá trình triển khai khiến việc xóa được thực thi lặp lại ở mọi lượt tiếp theo thay vì chỉ chạy một lần, khiến mô hình dần dần mất đi ngữ cảnh suy luận trước đó. Điều này thể hiện qua sự hay quên ngày càng tăng, các thao tác lặp lại và việc gọi công cụ bất thường. Lỗi cũng dẫn đến bỏ sót cache ở mọi yêu cầu, làm tăng tốc việc tiêu hao hạn mức của người dùng. Hai thí nghiệm nội bộ không liên quan đã che giấu các điều kiện tái hiện, kéo dài quá trình gỡ lỗi lên hơn một tuần. Sau khi khắc phục vào ngày 10 tháng 4, nhóm đã xem xét mã gây vấn đề bằng Opus 4.7 và phát hiện rằng Opus 4.7 có thể nhận diện được lỗi trong khi Opus 4.6 thì không.

Thay đổi thứ ba được triển khai vào ngày 16 tháng 4 cùng với Opus 4.7. Nhóm đã thêm hướng dẫn vào system prompt để giảm đầu ra dư thừa. Kiểm thử nội bộ trong nhiều tuần cho thấy không có suy giảm, nhưng sau khi ra mắt, tương tác với các prompt khác đã làm chất lượng lập trình giảm đi. Đánh giá mở rộng cho thấy mức sụt giảm hiệu năng 3% ở cả Opus 4.6 và 4.7, dẫn đến việc quay lại vào ngày 20 tháng 4.

Ba thay đổi này đã tác động đến các nhóm người dùng khác nhau vào những thời điểm khác nhau, và tác động kết hợp của chúng tạo ra tình trạng suy giảm chất lượng rộng khắp và không nhất quán, làm cho việc chẩn đoán trở nên phức tạp. Anthropic cho biết hiện họ sẽ cần nhiều nhân viên nội bộ hơn để sử dụng cùng phiên bản bản dựng công khai như người dùng, chạy đầy đủ các bộ đánh giá mô hình cho mọi lần sửa đổi system prompt và triển khai các giai đoạn triển khai theo từng bước. Như một hình thức bù đắp, Anthropic đã đặt lại hạn mức sử dụng cho tất cả người dùng gói đăng ký.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.

Bài viết liên quan

Alibaba Cloud Giảm Giá Bộ Nhớ Đệm Ngầm DeepSeek-V4-Pro Còn 1 Nhân Dân Tệ Trên Một Triệu Token Vào Ngày 29 Tháng 4

Theo Alibaba Cloud, nền tảng Bailian của họ sẽ giảm giá cho bộ nhớ đệm ngầm (Implicit Cache) của mô hình DeepSeek-V4-Pro xuống còn 1 nhân dân tệ trên một triệu token hiệu lực từ 23:59:59 ngày 29 tháng 4 năm 2026 theo giờ Bắc Kinh. Bộ nhớ đệm ngầm chỉ áp dụng khi các yêu cầu truy cập vào bộ nhớ đệm; các token đầu vào đã được lưu trong bộ nhớ đệm được tính phí theo mức cached_token, trong khi các token đầu vào chưa được lưu trong bộ nhớ đệm được tính phí theo mức input_token tiêu chuẩn.

GateNews43phút trước

Nền tảng AI Certifyde huy động $2M triệu USD vốn hạt giống với CEO Ripple Brad Garlinghouse

Theo ChainCatcher, nền tảng ứng dụng AI Certifyde đã công bố hoàn tất vòng tài trợ hạt giống $2 triệu USD. Các nhà đầu tư bao gồm K5 Global, Flamingo Capital và các nhà đầu tư thiên thần như CEO của Ripple Brad Garlinghouse, đồng sáng lập Honey George Ruan và đồng sáng lập Nutra Roland Peralta.

GateNews2giờ trước

DeepSeek Ra Mắt Tính Năng Nhận Diện Hình Ảnh Trong Giai Đoạn Thử Nghiệm Beta

Theo PANews, DeepSeek đã ra mắt tính năng nhận diện hình ảnh của mình vào hôm nay (29 tháng 4), hiện đang trong giai đoạn thử nghiệm beta. Cả người dùng phiên bản web và ứng dụng di động đều có thể được chọn tham gia đợt triển khai beta.

GateNews3giờ trước

Anthropic Ra Mắt 8 Bộ Kết Nối Công Cụ Sáng Tạo Cho Claude, Bao Gồm Blender, Adobe, Autodesk

Anthropic đã công bố một bộ các bộ kết nối công cụ sáng tạo, cho phép Claude trực tiếp điều khiển phần mềm chuyên nghiệp được sử dụng bởi các nhà thiết kế và nhạc sĩ. Tám bộ kết nối ban đầu bao quát mô hình hóa 3D, thiết kế trực quan, sản xuất âm nhạc và biểu diễn trực tiếp, với các đối tác bao gồm Blender, Adobe,

GateNews3giờ trước

Nhà Trắng bỏ qua đánh giá rủi ro của Lầu Năm Góc để triển khai mô hình Mythos của Anthropic vào ngày 29 tháng 4

Theo Whale Factor, Nhà Trắng đang bỏ qua đánh giá rủi ro của Lầu Năm Góc để triển khai mô hình Mythos của Anthropic trên toàn các cơ quan liên bang vào ngày 29 tháng 4. Động thái này nhằm đẩy nhanh năng lực AI của liên bang và bắt kịp tốc độ của các mạng AI phi tập trung. Đây là một sự thay đổi đáng kể

GateNews3giờ trước

Cognizant sẽ mua lại Astreya với giá $600M để mở rộng hoạt động hạ tầng AI

Theo Reuters, vào ngày 29 tháng 4, Cognizant đã đồng ý mua lại Astreya với giá khoảng $600 triệu USD khi công ty mở rộng mảng kinh doanh hạ tầng AI. Astreya là nhà cung cấp dịch vụ CNTT chuyên về hạ tầng AI và dịch vụ trung tâm dữ liệu. Thương vụ dự kiến sẽ được hoàn tất trong quý II

GateNews4giờ trước
Bình luận
0/400
Không có bình luận