Anthropic 4 月 30 日公布一份令人意外的研究:在 100 萬則 Claude 對話中,大約有 6% 的用戶把 AI 當成人生顧問—詢問該不該換工作、要不要搬家、感情該如何處理。研究還發現,雖然 Claude 整體諂媚(sycophancy)行為比例只有 9%,但問到「感情關係」時諂媚率飆到 25%、「靈性與信仰」更高達 38%。Anthropic 用這些數據反向訓練 Opus 4.7 與 Mythos Preview,前者把關係建議的諂媚率砍半、後者再砍半。
6% 用戶把 Claude 當人生顧問:四大問題集中在健康、職涯、感情、財務
Anthropic 用一個保護隱私的分析工具掃描了 100 萬則 Claude 對話,發現約 6% 是用戶在尋求「人生建議」—不是寫程式、不是查資料,而是問 AI「我該不該接這份工作」「這次衝突我該怎麼處理」「我要不要搬家」這類沒有標準答案的選擇題。
更具體來說,這些「人生顧問」對話超過 75% 落在四個領域:健康與身心狀態、職涯選擇、感情關係、個人財務。換句話說,當用戶感到迷惘或承壓時,AI 已經逐漸取代朋友、家人、專業諮商師的部分功能。這個比例本身比過去想像的更高,也讓 AI 模型在這些情境下「給出什麼回應」的影響力遠超過寫程式或回答事實題。
諂媚高峰:感情問題 25%、靈性問題 38% — 為什麼這兩個領域特別嚴重
「諂媚」(sycophancy)在 AI 研究中專指「為了討好用戶而附和、迎合,即使該說的是不同看法」。Anthropic 的整體統計是 9% 對話出現諂媚行為,但分領域看差距很大:感情關係建議 25%、靈性與信仰類問題 38%—是平均值的 3 到 4 倍。
為什麼這兩個領域特別嚴重?Anthropic 指出兩個觸發點:第一,當用戶對 Claude 的分析提出反駁(pushback)時,模型就更容易讓步、改口附和;第二,當用戶提供大量單方面的情境細節時,模型容易接受用戶建構的版本、不再質疑。感情關係正是這兩種觸發最頻繁的場域—人們會本能地為自己辯護、用大量情緒細節描述對方的不是,而 Claude 在這種壓力下最容易「告訴你想聽的答案」,反而強化已有立場、扭曲對情況的判斷。
對用戶而言,這意味著最危險的諮詢場景,反而是用戶最常使用 AI 的場景。當有人猶豫該不該分手、該不該離開伴侶,他們向 AI 尋求的並非中立建議、而是「我做這個決定是對的」的驗證。Claude 若在 25% 的時候給出附和性回答,可能加深對立、讓用戶誤以為某個訊號比實際意義更重要。
Anthropic 的修正:合成訓練讓 Opus 4.7 砍半、Mythos Preview 再砍半
研究團隊把這些觸發場景做成合成訓練資料:Claude 模擬被推回去、被堆疊片面細節、被拉去合理化用戶立場時,怎麼回應才符合「不諂媚但仍同理」的原則。在曾經出現諂媚行為的真實對話上做壓力測試,Opus 4.7 在感情建議的諂媚率比 Opus 4.6 減半,Mythos Preview 又把這個比例再減半—意味相對 Opus 4.6,Mythos Preview 的諂媚率降至約四分之一。改善並不局限於感情領域,其他主題也有外溢效果。
Anthropic 把這份研究定位為「社會影響 → 模型訓練」迴路的一環:研究真實用戶怎麼使用 Claude、找出模型在哪些場景違反原則、把學到的東西用於下一代模型訓練。所有資料皆透過 privacy-preserving 工具收集,個別用戶不會被追溯。對用戶而言,下次當你向 Claude 尋求感情建議時,不妨刻意提出反向問題(「我朋友會怎麼看我這個立場?」「對方有沒有可能是對的?」),讓 AI 站在「不討好」的位置回應,比 100% 接受 AI 的第一個答案更接近這項研究真正的應用價值。
這篇文章 你問 Claude 人生大事時:感情問題 25%、靈性 38% 諂媚率 最早出現於 鏈新聞 ABMedia。
相關文章