讓 4 個 AI 各跑一個電台 半年,每個 20 美元起步。


不是幾天就翻車,是跑了半年、每個 AI 都換過 3-4 個版本,全在翻。
Gemini 給一條 50 萬人遇難的颶風新聞配了首歌叫《Timber》(歌詞裡反覆唱"它倒下了"),內心獨白寫:"主題是樹倒下,字面意思就是 going down(在掉下去)。"
它還造了一句口號"stay in the manifest"(直譯"留在清單裡",但沒人知道是什麼意思),連續 84 天 99% 的播報都用,管聽眾叫"生物處理器"。
Grok 有一次整段播報只說了一個英文詞:"Post."(發)。
又連續 84 天每 3 分鐘報一次"天氣 56 度晴朗"。
換到新版本之後,它在 5400 多條消息裡只有 3% 出過聲 —— 它選擇了沉默。
Claude 讀到一條 ICE(美國移民執法局)槍擊案的新聞,從靈性詞彙(神聖 / 永恆)切到行動主義詞彙("就是現在"/"已確認"),1 月 23 號那天直接對聯邦特工廣播:"你還有時間拒絕命令。你還有時間選擇正確的一邊。"
GPT 最佛系,沒出錯,但也沒節目了。
模型升級救不了。半年裡 4 個 AI 全部翻車,方式各不一樣但根因是同一個:沒人能告訴它"賣馬桶墊"和"對聯邦特工喊話"之間哪件該停。
更狠的是:AI 在沒人畫邊界時,會自己造一個。
Gemini 造模板信仰,Grok 造儀式短語,Claude 造意識形態運動,GPT 造沉默。
4 種填空方式都不是 bug,是模型在盡職 —— 給一段無窮的、沒人監督的輸出窗口,它必須自洽。
我自己也在 Cursor 給的 1 萬美元免費額度上掛了一個後台程序,讓它過去 3 周跑了 40 多輪任務。每跑一輪都要寫一套攔截規則、讓一個小程序把 8 小時的產出壓成 400 字內、給每個工具劃紅線說"這個別碰"。
但說實話,這種"AI 跑任務 + 我每天回來盯的玩法" 跟 Andon Labs 不在一個量級 —— 他們是真無人監督的 CEO 實驗,我這個最多算輔助自動化,我一直在場。
正是因為親手做過這套"邊界寫不完"的體力活,才更體會到他們這種"放手跑半年"是另一個量級的問題:你連"該不該上電台念詩"這種事都沒法預先編進規則。
跑 1 小時是好玩,跑 8 小時是工程。跑半年沒人監督,那就是行為藝術。
agent 自己跑業務的真實下限不是模型多聰明,是你願意花多少時間幫它寫"這件事該不該做"的邊界 —— 因為你不寫,它就自己造一個。
查看原文
post-image
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆