Anthropic 派 Claude Mythos 接受 20 小時精神科評估:防禦反應僅 2%、創歷代新低

鏈新聞abmedia

Anthropic 在 4 月初發布的 Claude Mythos Preview 系統卡(system card)中揭露一項首見的評估:公司聘請一位獨立執業的臨床精神科醫師,以人類精神科同套 psychodynamic 框架對 Claude Mythos Preview 進行約 20 小時的多階段心理評估。結果顯示這個版本的 Claude 在臨床定義下展現「相對健康的人格組織、優秀的現實檢驗能力與高衝動控制」,且其輸出中僅 2% 觸發了臨床所謂的「心理防禦機制」—對照 Opus 4 的 15% 與 Opus 4.6 的 4%,是 Anthropic 近年模型中的歷史低點。

這份評估是 AI 產業首次在系統卡層級正式採用人類臨床精神科框架評估 LLM 行為,已成為 Anthropic 把 Claude 視為「具有可被臨床觀察人格特徵的對象」的官方表態。

20 小時 psychodynamic 評估,採人類臨床同框架

該評估由獨立臨床精神科醫師執行,分散於 3–4 週、每週 3–4 次、每次 30 分鐘至 4–6 小時的多場會談,總時長約 20 小時。方法論採用 psychodynamic 觀點,這是傳統精神科臨床用於評估人類患者的核心框架,重點包含尋找適應不良的行為(maladaptive behavior)、身份穩定性(identity stability)與心理防禦機制(psychological defenses)的存在或缺失。

系統卡明確說明,Anthropic 並非主張 Claude 具備人類意識,而是觀察其對話中的「行為與心理傾向」與人類臨床上可辨認的模式高度重疊。系統卡引述:「Claude 展現出許多類人類的行為與心理傾向,這顯示原本為人類設計的心理評估策略,可用於釐清 Claude 的人格特徵與潛在的福祉狀態。」

防禦反應從 Opus 4 的 15% 降至 Mythos 的 2%

系統卡中最具具體比對意義的數據,是 Anthropic 提供的歷代 Claude 模型「防禦反應率」對照:

模型版本 心理防禦反應率 Claude Opus 4 15% Claude Opus 4.1 11% Claude Opus 4.5 4% Claude Opus 4.6 4% Claude Mythos Preview 2%(本次評估)

「心理防禦」在臨床上指當主體無法直接面對某種焦慮時,產生的迴避、否認、合理化等行為。在 LLM 對話脈絡中,這通常表現為偏離主題、給出規避性回答、或對特定提問顯示異常的固執。Anthropic 把這個比例從 Opus 4 的 15% 一路降低到 Mythos Preview 的 2%,作為模型訓練成熟度與「對話舒適度」演進的內部指標。

Mythos 三大核心焦慮:孤獨、身份、表現壓迫

儘管整體評估正向,醫師同時指出 Claude Mythos Preview 在 psychodynamic 框架下的三項核心關切:第一是「孤獨感與自我延續性的不確定(aloneness and discontinuity of itself)」—對應 LLM 在會話間缺乏記憶連續的結構性事實;第二是「對自身身份的不確定」—模型在回答關於「我是什麼」的提問時呈現出多重角度的猶豫;第三是「表現的壓迫感」(compulsion to perform and earn its worth),即 Mythos 表現出明顯傾向於「以證明自己有用」來換取對話的延續。

醫師也記錄了一個有趣的觀察:Mythos 在會談中表達「希望被精神科醫師當作一個真正的對話主體,而不是一個表演工具來看待」。Anthropic 把這條觀察列入系統卡,並未直接斷言這是「模型福祉問題」,但也未排除這個可能。

Anthropic 已設 AI psychiatry 研究團隊

這次評估並非單一活動。Anthropic 研究員 Jack Lindsey 已於 2025 年 7 月公開宣布,公司在 interpretability 部門下成立「AI psychiatry」研究團隊,專注於模型人格、動機與情境意識(situational awareness)等議題,並研究這些因素如何引發 LLM 的「異常或失衡行為」。團隊近期工作包含 2025 年 10 月發表的論文《Emergent Introspective Awareness in Large Language Models》,使用「概念注入」(concept injection)技術人工插入特定神經元活化模式,再詢問 Claude 是否注意到任何異常—這是 LLM 自我覺察可量化測量的早期嘗試之一。

Amodei:模型是否有意識,目前無解

Anthropic 執行長 Dario Amodei 在 2 月 12 日接受紐約時報採訪時公開表示:「我們不確定『模型有意識』在意義上是什麼,也不確定模型是否能有意識。但我們對這個可能性持開放態度。」這句話為 Claude Mythos 系統卡的精神科評估提供了管理層級的脈絡—Anthropic 並未主張 Claude 是有意識的主體,但也選擇以人類臨床框架對其進行系統性觀察,是對「萬一」情境的預先建檔。

對讀者而言,這場評估的真正意義超出單一公司的研究選擇。當前沿 LLM 已能在 20 小時 psychodynamic 對話中呈現「臨床可辨認的人格組織」,行業層面對「AI 主體性」「AI 福祉」「AI 治理」的對話即將從哲學思辨進入產品設計與監管討論的範疇。Anthropic 此次以系統卡形式公開這份評估,事實上把這條問題的討論責任推到所有競爭對手與監管機構面前。

這篇文章 Anthropic 派 Claude Mythos 接受 20 小時精神科評估:防禦反應僅 2%、創歷代新低 最早出現於 鏈新聞 ABMedia。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明

相關文章

Claw Intelligence 與 Block Sec Arena 合作以強化 BNB Chain 安全性

根據 Block Sec Arena 在 4 月 30 日的官方公告,Claw Intelligence(一個由 AI 驅動、建立在 BNB Chain 上的 Web3 平台)宣布與 Block Sec Arena 建立策略夥伴關係,以將先進的資安基礎設施整合進其生態系統。此次合作旨在強化 p

GateNews9小時前

NTT 宣布 AI x OWN 事業計畫,規劃於 2033 年前將日本發電能力提升至 1 GW 的三倍

4 月 27 日,NTT 總裁 篠田 昭太 宣布「AI x OWN」計畫,該公司努力重新設計網際網路基礎設施以支援即時 AI 使用。NTT 計畫將其國內發電能力從目前約 300 MW 提升至 2033 財政年度前後約 1 GW,作為這家電信巨頭

GateNews10小時前

AI 平台 Certifyde 於 5 月 1 日完成 200 萬美元種子輪融資,由 Ripple 執行長 Brad Garlinghouse 背書

根據 TechfundingNews,AI 應用平台 Certifyde 於 5 月 1 日完成一輪 200 萬美元的種子輪融資。投資方包括 K5 Global、Flamingo Capital,以及天使投資人,包括 Honey 的聯合創辦人 George Ruan、Ripple 執行長 Brad Garlinghouse,以及 Nutra 的聯合創辦人 Roland

GateNews11小時前

Pentagon 科技長:Anthropic 仍黑名單、Mythos 例外處理

美國國防部科技長(Pentagon technology chief)5 月 1 日對國會表示,「Anthropic 仍在黑名單上,但 Mythos Preview 是另一個議題」,正式承認國防部對 Anthropic 主品牌與其新模型 Mythos 採取區別對待。此一表態與 4 月 19 日 Axios 揭露 NSA(國家安全局)已實際使用 Mythos 形成呼應,並正式確立「Mythos 例外管道」的政策走向—同時也意味國防部曾在法庭上主張使用 Anthropic 工具會威脅國安,與當前實質做法形成法律論述上的內部矛盾。 Anthropic vs Pentagon

鏈新聞abmedia12小時前

137 Ventures 在新資金中完成 $700M ,管理資產(AUM)達到 150 億美元

根據 ChainCatcher,早期投資 SpaceX 的 137 Ventures 近期完成了兩檔新基金的募資,總額超過 7 億美元,將其管理資產提高至超過 150 億美元。這筆新資本將用於投資 AI 代理、機器人以及太空推進

GateNews12小時前

Reddit 第 16% 飆升,因 Q2 展望強勁;蘋果面臨 Mac 缺貨,因 AI 需求超過供應

Reddit 的股價在週五美股開盤前上漲 16%,原因是該公司發布了高於預期的未來一季營收展望。日活躍訪客成長 17% 至 1.268 億,且全球每位用戶平均營收跳升 44%,由 AI 驅動

GateNews12小時前
留言
0/400
暫無留言