從 token maxing 到 token apocalypse,預示著 AI 行業真的發生了一種非常大的範式轉變。今年三四月份,大家還在炫耀自己用了多少 token,甚至把它當成一種排行榜。但使用 AI 並不自動意味著省錢,於是大家開始更強調單個 token 的成本。
更微妙的是,大模型還在擴大很多原本根本不需要用 AI 的工作。我們現在 PDF 不想自己讀了,長文不想自己看了,所有東西都要讓 AI 總結。或者把這些東西用 AI 轉成幻燈片,再丟給別人,對方可能再用 AI 讀這些幻燈片......AI 像是在給一些本來就很虛的工作再強行注入一層價值,同時也把帳單悄悄推高。
如今,成本失控已成常態。亞馬遜、Adobe、Atlassian、花旗集團等公司開始對 AI 使用實施嚴格管控:
限制模型等級:一些公司的員工被禁止使用 Claude Opus 等高端模型,被迫降級到更便宜的版本;
設定個人限額:Uber 為每位工程師每月設定了 1500 美元的 token 上限;
徹底停用權限:花旗銀行等機構已完全限制對高級 AI 工具的訪問,未達使用目標的員工甚至會被撤銷企業帳戶。在此之前,Uber 的 CTO 曾坦言,公司在幾個月內就用完了全年 AI 預算。Walmart 最近也停止了一些工具的使用。
Claude Code 80%的提示詞說刪就刪,Anthropic用Fable 5打了個樣:AI行業的「降本」才剛剛開始
這是正在發生的現實。根據最新數據顯示,Anthropic 自家公司花在算力上的錢,也已經達到其薪資支出的 2.3 倍。按照一名高級工程師 22.4 萬美元的完全成本來算,Anthropic 每位工程師每年對應的算力支出約為 51.5 萬美元。也就是說:人還沒模型貴。
在這種帳單面前,連 Claude 自己也不得不開始省 token 了。
Claude Code:燒 token 換「我很高產」的錯覺
最近,業界又有了一個新詞:Token Apocalypse(Token 末日)。
從 token maxing 到 token apocalypse,預示著 AI 行業真的發生了一種非常大的範式轉變。今年三四月份,大家還在炫耀自己用了多少 token,甚至把它當成一種排行榜。但使用 AI 並不自動意味著省錢,於是大家開始更強調單個 token 的成本。
更微妙的是,大模型還在擴大很多原本根本不需要用 AI 的工作。我們現在 PDF 不想自己讀了,長文不想自己看了,所有東西都要讓 AI 總結。或者把這些東西用 AI 轉成幻燈片,再丟給別人,對方可能再用 AI 讀這些幻燈片......AI 像是在給一些本來就很虛的工作再強行注入一層價值,同時也把帳單悄悄推高。
如今,成本失控已成常態。亞馬遜、Adobe、Atlassian、花旗集團等公司開始對 AI 使用實施嚴格管控:
限制模型等級:一些公司的員工被禁止使用 Claude Opus 等高端模型,被迫降級到更便宜的版本;
設定個人限額:Uber 為每位工程師每月設定了 1500 美元的 token 上限;
徹底停用權限:花旗銀行等機構已完全限制對高級 AI 工具的訪問,未達使用目標的員工甚至會被撤銷企業帳戶。在此之前,Uber 的 CTO 曾坦言,公司在幾個月內就用完了全年 AI 預算。Walmart 最近也停止了一些工具的使用。
大公司要嘛在四處找省錢辦法,要嘛直接給 token 浪費踩急煞車。因此員工收到的信息極其矛盾:一邊是「AI 能讓你效率翻 100 倍,必須用」,一邊是「別再把公司用破產了」。
這也是 AI 工具第一輪普及裡最典型的問題:工具被推出時,並沒有足夠護欄來阻止公司在大語言模型上花掉數百萬美元,也沒有機制提醒團隊 token 正在迅速燒光。不管是聊天機器人還是編碼工具,很多產品先把「能用起來」擺在第一位,成本治理、使用配額、模型分級和上下文管理都被放到了後面。
但 Claude Code 本質上不是效率工具,而是一個行銷工具。
它的設計目標很明確:讓你感覺自己在高產。Boris,Claude Code 的項目負責人,在做這個產品時最初的思考是: 「如果模型變得足夠聰明,程式碼會變成什麼樣?我希望如何使用這些東西?」——出發點不是「如何幫開發者省 token」,而是「如何展示模型的聰明」。
Anthropic 願意為這種「感覺」燒掉大量 token——不管是你的錢,還是它們自己的錢。五分鐘花掉 200 美元,對 Claude Code 來說不是事故,是設計。它的底層邏輯是:能多燒 token 解決的問題,絕不找更省 token 的辦法。 所有 sub-agent、所有花俏的 UI 動畫、所有冗長的 reasoning trace,都不是為了效率,而是為了讓你盯著螢幕時,覺得「這模型真聰明,真能幹」。
這背後是一個精心設計的行銷閉環:你燒掉大量 token,換來「高產」的感覺,於是覺得 Claude 好用,然後繼續用它。 Anthropic 甚至願意自己承擔大量 token 成本,來換取這種情緒上的認同。這也是為什麼它們的桌面應用明顯投入不足——Claude Code 的目標從來不是做一個好工具,而是成為 Anthropic 模型能力的「最佳展示窗口」。
而恰恰是這種「燒 token 換體驗」的設計哲學,讓 Claude 在 token 效率上被 OpenAI 甩開了。
OpenAI 一直在拼命壓 token。從 reasoning trace 的壓縮,到模型本身的效率優化,它們的哲學是:用更少的 token,幹同樣的活。Codex 5.5 就是最好的例子。
儘管像 Fable 5 這樣的模型很智能,但與其他模型相比,它的效率不算高,Deep SWE 的這張圖很能說明問題。如果將同批模型放一起對比,則更明顯:GPT-5.5 medium 只用了 2 萬個 token,就拿到了驚人的分數;而 Opus 4.8 用了 5 萬個 token,得分反而更低。
這就是兩條路線最直接的寫照:行業在恐慌,Claude 在燒,OpenAI 在省。而接下來的問題就是——既然要降本,第一個該砍的是什麼?答案是:那些堆了太久的提示詞。
Claude Code 的 Prompt 債:堆得越多,欠得越多
在最新的演講中,Anthropic 表示,他們已經刪掉了 Claude Code 80% 的系統提示詞。
Anthropic 技術團隊成員 Tariq Shihipar 解釋說,這反映出 AI 模型引導方式正在發生一次根本變化——過去,人們認為指令越多、例子越多,模型表現就越好;但現在,這個邏輯不再成立。新模型 Fable 5 比它們自己給的示例更有想像力,示例反而成了限制。
這當然有行銷成分,他吹噓了一把 Fable 的能力:「示例反而容易限制模型,因為它實際上比我們給出的示例更有想像力」。但一個事實繞不過去:連 Anthropic 自己都開始對 system prompt 下刀了。
那麼,為什麼以前需要那麼多 prompt?
過去一兩年,AI Coding 圈形成了一套慣性思維:上下文越大越好,工具說明越多越好,system prompt 越完整越好。模型不知道項目怎麼組織?寫 Agents.md。模型不知道工具怎麼用?寫 tool descriptions。模型不夠主動?寫行為引導。模型不夠穩定?繼續往 system prompt 裡加約束。
不可否認,system prompt 曾經是 AI Coding 工具的核心競爭力。對 LLM 的 prompt 做一些小調整,就可能帶來顯著的性能提升。如果同一個模型在 Codex、Cursor、OpenCode 和 Copilot 裡的感覺不一樣,那幾乎肯定是因為 prompting 上存在細微差異。
這也是為什麼 Cursor 曾花大量時間測試 system prompt,做 A/B testing,針對不同模型微調提示方式。與在 Claude Code 裡使用 Opus 相比,Cursor 的 harness 能顯著提升模型表現,一些 benchmark 測到的提升甚至高達 10% 到 30%。 差別核心往往就是那幾段 prompt。
但問題是只要 prompt 有用,團隊就會不斷往裡加東西。某個模型喜歡亂用工具,就加一段規則;某個模型不夠主動,就加一段鼓勵;某個模型搜索太多,就補一段限制;某個模型不理解項目上下文,就再加一個 markdown 文件。每一次增加都有理由,但長期堆下來,system prompt 開始變成一個巨大的常駐上下文包袱。
問題在於:system prompt 不是免費的。 它每次調用都要被讀入、計費、佔上下文。
Claude Code 把所有工具和功能內置進去之後,system prompt 一度膨脹到 65,000 個 token;即便關閉大部分功能,也還有 12,000 個 token。 換句話說,模型還沒開始寫一行程式碼,就已經背上了一本說明書。對比來看,Pi 啟動時上下文不到一千個 token。
更麻煩的是,prompt 債比程式碼債更隱蔽。
程式碼老了,通常會在改功能、跑測試、處理 bug 時暴露出來。Prompt 老了,卻可能只是讓模型悄悄變差。用戶看到的是「Claude Code 最近好像不如以前聰明瞭」,或者「新模型沒有宣傳得那麼強」,但真實原因可能是舊的 system prompt 沒有跟上新模型。
當 prompt 從競爭力變成負擔時,Anthropic 選擇刪掉 80%,也能進一步提升 token 效率。
Claude 的「廢話稅」:多說一個字,多花一份錢
Claude Code 的廢話實在太多了。
今年有一個叫 Caveman 的插件迅速走紅,專門解決這個問題。它的名字直譯是「穴居人」,意思是像原始人一樣說話——不講禮貌,不加多餘語法,不放填充詞,只保留核心意思。
乍一看,它聽起來像個玩笑。但一旦理解,你會發現它解決的是 LLM 裡一個非常真實的問題:廢話太多、token 太多、成本也不必要地變高。
而它的起源,正是針對 Claude Code。
「我是在 4 月初做出 Caveman 的,因為那段時間我重度使用 Claude Code,並且注意到我的很多 token 花費都浪費在了不必要的文字上:寒暄、模糊措辭、過渡語,以及那些在 agent loop 裡其實並不重要的閒聊式表達。」Caveman 的創建者 Julius Brussee 說。
Brussee 的評測顯示,Caveman 相比預設輸出能減少 65% 到 75% 的輸出 token,效果仍然超過普通的「請簡潔」指令。 它主要壓縮的是周圍的語言,不影響程式碼、命令、路徑、URL、函數名這些需要精確性的部分。
據報導,OpenAI 的工程總監 Shayne Sweeney 也為該項目貢獻了程式碼,以支援 Codex。
更有意思的是,OpenAI 早就把這種語言模式應用到了思考環節。
一些洩露出來的 reasoning trace (不是對外顯示的 reasoning summary )讓外界看到了端倪。內容不像普通英語,更像壓縮過的工程速記:
這些句子看起來很好笑,甚至有點亂,但它們的重點不在可讀性,而在 token 效率。模型在內部推理時,不需要像對用戶說話那樣保持禮貌、完整和流暢。它只需要保留動作、對象、判斷和下一步。換句話說,只要最終答案是正常的,模型內部完全可以用一種更短、更粗糙、更省 token 的語言完成思考,以瘋狂追求 token 效率。
這甚至比在寫 Prompt 環節更有用。壓縮 reasoning token 的收益更大,因為 agent 是多步執行的,前一步的思考會變成後一步的輸入。模型每少「想」一段,省下來的不只是當下這幾個 token,而是後面整條執行鏈上的重複開銷。
這正是 OpenAI 和 Claude 路線上的一個明顯差異。
Claude 一直更好聊,也更像一個用完整語言思考和表達的助手。只要看看它的 reasoning trace 長很多,就能猜到它可能是在用普通英語。它的輸出和 reasoning 往往更長,所以更依賴大上下文視窗來容納這些內容。
這也是為什麼 Claude 預設使用 100 萬 token 的上下文視窗。很多人以為這是因為它想裝進更大的程式碼庫,但原因其實更簡單:Claude 生成的東西太長了,沒有這麼大的視窗裝不下。 它們甚至在 compaction 上也很差,當你恢復舊線程時,Claude 會建議你不要保留完整上下文,而是嘗試 compact。因為它們不會保留 reasoning trace——事實上,它們會在 10 到 20 分鐘後清掉這些東西,因為 reasoning token 效率太低,不值得一直保留,否則成本會荒謬到不可接受。
而 OpenAI 模型的 token 上下文視窗大概是 20 萬或更少,因為它們一開始就通過這種簡短語言做到了壓縮。
一個值得品味的細節:如果 Anthropic 修復了「廢話太多」這個問題,它們的收入會明顯下降。如果開發者可以用模型完成同樣的工作,但生成的 token 更少,那就是它們賺不到的錢。
來源:InfoQ
風險提示及免責條款