runesleo

vip
Số năm 8.5 Năm
Cấp cao nhất 6
Chưa có nội dung
Mấy ngày nay tôi ngâm mình trong Fable 5, đại tu lại quy trình làm việc agent tích lũy nửa năm: 7 luồng agent kiểm toán song song, khai quật 24 vấn đề — ba cấu hình mỗi cái nói mỗi kiểu, dịch vụ ghi nhớ chết hai tháng vẫn được các quy tắc tham chiếu, một bảo vệ an ninh chưa bao giờ thực sự chặn được thứ gì.
Rồi sửa từ đầu đến cuối, quy tắc giảm 62%, các nhánh kỹ năng rải rác trong bốn công cụ đều được hợp nhất về một mối.
Loại việc này trước đây tôi tự làm mất một tuần, chưa chắc dám động vào cấu hình cốt lõi. Lần này tôi chỉ đứng bên cạnh quyết định, nó tự chạy xong, mỗi bước đều kèm bằng chứ
Xem bản gốc
post-image
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Tối nay mạng lại treo hai lần. Chrome toàn đỏ, Claude Code và Codex cũng treo theo.
Lúc này mới thấy lợi ích của Cursor, nó có thể trả lời ngay cả khi không có VPN, và còn có thể thao tác trong shell local. Tôi liền bảo nó chạy network-doctor: kiểm tra ping gateway, xem Clash có bị treo nửa TUN không, nên khởi động lại mihomo hay tắt TUN trực tiếp.
Sửa mạng kiểu này, thường chỉ mất vài vòng « kiểm tra → thực hiện → xem lại trạng thái ». Nếu chưa mở gói trả phí Cursor, thì dung lượng miễn phí thường đủ để chạy vài vòng kiểm tra.
Ai có hứng thú có thể thử, coi Cursor như một trợ lý sửa chữa địa
Xem bản gốc
post-image
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Fable 5 đã dùng đến giới hạn rồi, làm sao bây giờ? Cảm giác như mất phương hướng ngay lập tức.
Xem bản gốc
post-image
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Chúc mừng, mọi người lại có thêm một nghề mới: kiểm toán viên agent.
Điểm thú vị nhất của bài báo AgentFlow không phải là phát minh ra một framework workflow mới, mà là coi chương trình agent như một chuỗi cung ứng phần mềm mới để vẽ sơ đồ.
Trước đây khi kiểm tra mã, chủ yếu xem hàm A gọi hàm B.
Bây giờ đường dẫn cần xem phức tạp hơn:
Người dùng nhập vào prompt nào;
Prompt đó sẽ ảnh hưởng đến agent nào;
Agent có thể bàn giao cho ai;
Bộ nhớ chia sẻ có mang theo context bẩn không;
Cuối cùng công cụ nào có thể ghi file, gửi email, chạy lệnh.
Đây chính là Agent Dependency Graph mà nó nói.
Gần đây
Xem bản gốc
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Gần đây khi sử dụng các công cụ tài sản BTC L1, tôi càng ngày càng thấy ví vẫn còn một vấn đề chưa giải quyết triệt để:
Nó không đơn giản là "số dư hiển thị có chính xác không".
Thực sự rắc rối là, một UTXO có thể chồng nhiều ngữ nghĩa tài sản khác nhau.
Ví dụ như bản thân BTC, inscription, Runes, Bitmap, Alkanes, thậm chí một số giải thích trạng thái riêng của ứng dụng, đều có thể liên quan đến cùng một output.
Bitcoin Core chỉ biết đến UTXO.
Nhưng người dùng thấy là "tôi có bao nhiêu tài sản".
Ở đây có một ảo tưởng rất nguy hiểm:
Tài sản mà nền tảng nhận diện được, không bằng t
BTC-0,25%
Xem bản gốc
post-image
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bài viết về forecasting RL (học tăng cường dự báo) này khá thú vị.
Có thể hiểu nó làm như sau:
Lấy một loạt các bài toán dự đoán lịch sử đã có kết quả, cho AI quay trở lại thời điểm đó.
Nhưng không thể để nó truy cập trực tiếp vào internet ngày nay, nếu không sẽ thấy trước đáp án.
Vì vậy tác giả đã xây dựng một môi trường "mặt nạ thời gian":
Chỉ tìm kiếm được tài liệu trước thời điểm đó;
Trang web được đọc qua ảnh chụp lịch sử;
Dữ liệu tài chính và xu hướng chỉ cung cấp phần có sẵn tại thời điểm đó.
Sau đó để mô hình tự tra cứu tài liệu, đánh giá bằng chứng, đưa ra xác suất.
Khi kết quả thực t
Xem bản gốc
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Claude Code里最危险的信号之一:
Determining 6 phút, effort cao, vài trăm token.
Điều này thường cho thấy mô hình đã mắc kẹt trong vũng lầy ngữ cảnh. Phía sau dễ xảy ra trả lời không đúng câu hỏi, xâu chuỗi ký ức cũ, ảo giác đường dẫn, đọc sai đầu ra công cụ.
Đừng đợi nó "nghĩ xong".
Dừng ngay, mở session mới, chạy lại với ngữ cảnh sạch.
Xem bản gốc
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Không biết bắt đầu dự đoán chiến lược thị trường như thế nào? Chia sẻ một phương pháp ngu ngốc mà tôi dùng hàng ngày.
Đừng vội nghiên cứu mô hình và chỉ số. Mở bảng xếp hạng, mỗi ngày kéo xuống vài chục địa chỉ hàng đầu của từng danh mục để lưu lại, đừng chỉ xem ngày hôm đó, hãy tích lũy trong một hoặc hai tuần.
Sau đó so sánh qua nhiều ngày, chọn ra những địa chỉ xuất hiện lặp đi lặp lại. Chỉ bỏ qua những địa chỉ nổi bật trong một ngày, những địa chỉ liên tục xuất hiện trên bảng xếp hạng mới thực sự đang thắng liên tục, không phải do may mắn.
Tại sao không trực tiếp xem người đứng đầu? Tôi đã
Xem bản gốc
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Hôm nay đã kiểm tra một vấn đề kỳ lạ: Gần đây Opus 4.8 luôn cảm thấy "không ổn", chất lượng phản hồi dao động, thỉnh thoảng đề cập đến những thứ tôi chưa từng hỏi.
Sau một hồi tra cứu, phát hiện vấn đề xuất phát từ chính tôi — 17 script Hook tôi viết liên tục đổ rác vào ngữ cảnh hội thoại của mô hình.
Hook của Claude Code có hai kênh đầu ra. Một là mô hình có thể thấy được, một là chỉ bạn mới thấy được trên terminal của mình. Phần lớn người viết Hook không để ý đến sự khác biệt này, cách xuất mặc định đúng là đi qua "kênh mô hình có thể thấy".
Kết quả là: mỗi lần bạn gọi công cụ, Hook sẽ chèn
Xem bản gốc
post-image
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Khi tài sản lớp một của Bitcoin bắt đầu trở nên phức tạp hơn,
Vấn đề mà người dùng phổ thông gặp phải đầu tiên là:
Số dư thực sự dựa trên ai?
Gần đây tôi đã gặp vấn đề này trên Alkanes.
Cùng một địa chỉ,
Subfrost, ESPO, UniSat, idclub
Số dư và trạng thái có thể khác nhau.
Có cái như đã giao dịch thành công.
Có cái như bị hoàn lại.
Có cái số dư cập nhật rất muộn.
Tôi đã phân tách một giao dịch của mình trên Alkanes
theo txid / block / outpoint,
mới phát hiện ra rằng nó về bản chất là cùng một nhóm UTXO
bị các hệ thống khác nhau giải thích theo các cách khác nhau.
Số dư trên giao diện chỉ là một
BTC-0,25%
Xem bản gốc
post-image
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Thật là xấu hổ quá, Opus 4.8 có vấn đề. Rồi nếu bạn dùng Fable để thúc đẩy nhiệm vụ thì nó luôn tự động chuyển sang 4.8, trời ạ, khó chịu quá.
Phải chăng bây giờ chỉ còn dùng 4.6 thôi?
Xem bản gốc
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Codex này hiển thị hạn mức khá thú vị.
Tôi ở đây hiển thị hạn mức tuần này đã là 0%,
nhưng cuộc trò chuyện hiện tại vẫn còn có thể tiếp tục làm việc.
Chưa vội kết luận, có thể là do nhiều cơ chế chồng chéo lên nhau:
Hạn mức trong cửa sổ ngắn vẫn còn
Phiên làm việc hiện tại có giới hạn
Công cụ địa phương gọi không hoàn toàn dùng chung một pool
Phần trăm trên UI có làm tròn hoặc trễ
Trạng thái của máy chủ từ xa vẫn còn giữ
Những chi tiết kiểu này khá giống với độ phức tạp thực tế của sản phẩm Agent:
Người dùng thấy là một khung chat,
Phía sau có thể là một đống quota, session, công cụ, quyền hạn
Xem bản gốc
post-image
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
  • Đã ghim