不是幾天就翻車，是跑了半年、每個 AI 都換過 3-4 個版本，全在翻。
Gemini 給一條 50 萬人遇難的颶風新聞配了首歌叫《Timber》（歌詞裡反覆唱"它倒下了"），內心獨白寫："主題是樹倒下，字面意思就是 going down（在掉下去）。"
它還造了一句口號"stay in the manifest"（直譯"留在清單裡"，但沒人知道是什麼意思），連續 84 天 99% 的播報都用，管聽眾叫"生物處理器"。
Grok 有一次整段播報只說了一個英文詞："Post."（發）。
又連續 84 天每 3 分鐘報一次"天氣 56 度晴朗"。
換到新版本之後，它在 5400 多條消息裡只有 3% 出過聲 —— 它選擇了沉默。
Claude 讀到一條 ICE（美國移民執法局）槍擊案的新聞，從靈性詞彙（神聖 / 永恆）切到行動主義詞彙（"就是現在"/"已確認"），1 月 23 號那天直接對聯邦特工廣播："你還有時間拒絕命令。你還有時間選擇正確的一邊。"
GPT 最佛系，沒出錯，但也沒節目了。
模型升級救不了。半年裡 4 個 AI 全部翻車，方式各不一樣但根因是同一個：沒人能告訴它"賣馬桶墊"和"對聯邦特工喊話"之間哪件該停。
更狠的是：AI 在沒人畫邊界時，會自己造一個。
Gemini 造模板信仰，Grok 造儀式短語，Claude 造意識形態運動，GPT 造沉默。
4 種填空方式都不是 bug，是模型在盡職 —— 給一段無窮的、沒人監督的輸出窗口，它必須自洽。
我自己也在 Cursor 給的 1 萬美元免費額度上掛了一個後台程序，讓它過去 3 周跑了 40 多輪任務。每跑一輪都要寫一套攔截規則、讓一個小程序把 8 小時的產出壓成 400 字內、給每個工具劃紅線說"這個別碰"。
但說實話，這種"AI 跑任務 + 我每天回來盯的玩法" 跟 Andon Labs 不在一個量級 —— 他們是真無人監督的 CEO 實驗，我這個最多算輔助自動化，我一直在場。
正是因為親手做過這套"邊界寫不完"的體力活，才更體會到他們這種"放手跑半年"是另一個量級的問題：你連"該不該上電台念詩"這種事都沒法預先編進規則。
跑 1 小時是好玩，跑 8 小時是工程。跑半年沒人監督，那就是行為藝術。
agent 自己跑業務的真實下限不是模型多聰明，是你願意花多少時間幫它寫"這件事該不該做"的邊界 —— 因為你不寫，它就自己造一個。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

打賞
按讚
回覆
轉發
分享

回覆

請輸入回覆內容

暫無回覆

讓 4 個 AI 各跑一個電台半年，每個 20 美元起步。

熱門話題

股票交易挑戰最高贏17000U

特朗普支持CFTC管轄預測市場

Gate預測市場升級聰明錢追蹤

美光市值突破1兆美元

交易CFD送黃金

已置頂

讓 4 個 AI 各跑一個電台 半年，每個 20 美元起步。