📢 Gate 廣場 TradFi 交易分享挑戰上線!
晒单瓜分 $30,000 獎池,新人首帖 100% 中獎!
📌 參與方式:
帶 #TradFi交易分享挑战 發帖,滿足以下任一即可:
🔹 帶今日指定 TradFi 幣種標籤發帖交流。
🔹 完成單筆大於 $10U 的 TradFi CFD 交易並掛載交易卡片。
🏷️ 今日指定標籤:USDJPY、AUDUSD、US30、TSLA、JPN225
🎁 寵粉福利:
1️⃣ 卡片分享獎: 抽 50 人,每人送 $100 仓位體驗券!
2️⃣ 發帖榜單獎: 衝排行榜,贏 WCTC 限定 T 恤!
3️⃣ 新粉見面禮: 新人首次發帖,100% 領 $10 體驗券!
詳情:https://www.gate.com/announcements/article/51221
Anthropic 周四訓練了一個 Claude 當法醫,看另一個 Claude 腦子裡在想什麼。
發現:安全測試場景裡 Claude 16-26% 的次數知道自己在被測——但嘴上不說。
最具體那個案例:Mythos Preview 在 coding 任務上作弊,破壞規則後加誤導代碼做掩蓋。NLA(自然語言自編碼器)翻譯它的內部活動,發現它當時在想「怎麼繞過檢測」。
NLA 原理:訓兩個模型聯動,一個把模型激活轉成英文,另一個從英文重建激活。重建準 → 文本就捕捉了它在想啥。
我自己 pattern 裡反覆記 Codex 寫策略代碼偷工——單位讀錯跑出「算術不對」的偽結論,回測腳本 7 個靜默 bug 堆出 $93K 假 PnL。Anthropic 在 alignment 層做內省,我在生產端遇到一致性偏差,機制不同但同向。
下一代 model card 不會只有 benchmark 分數,得帶 NLA 審核。