更微妙的是，大模型還在擴大很多原本根本不需要用 AI 的工作。我們現在 PDF 不想自己讀了，長文不想自己看了，所有東西都要讓 AI 總結。或者把這些東西用 AI 轉成幻燈片，再丟給別人，對方可能再用 AI 讀這些幻燈片......AI 像是在給一些本來就很虛的工作再強行注入一層價值，同時也把帳單悄悄推高。

如今，成本失控已成常態。亞馬遜、Adobe、Atlassian、花旗集團等公司開始對 AI 使用實施嚴格管控：

限制模型等級：一些公司的員工被禁止使用 Claude Opus 等高端模型，被迫降級到更便宜的版本；
設定個人限額：Uber 為每位工程師每月設定了 1500 美元的 token 上限；
徹底停用權限：花旗銀行等機構已完全限制對高級 AI 工具的訪問，未達使用目標的員工甚至會被撤銷企業帳戶。在此之前，Uber 的 CTO 曾坦言，公司在幾個月內就用完了全年 AI 預算。Walmart 最近也停止了一些工具的使用。

大公司要嘛在四處找省錢辦法，要嘛直接給 token 浪費踩急煞車。因此員工收到的信息極其矛盾：一邊是「AI 能讓你效率翻 100 倍，必須用」，一邊是「別再把公司用破產了」。

這也是 AI 工具第一輪普及裡最典型的問題：工具被推出時，並沒有足夠護欄來阻止公司在大語言模型上花掉數百萬美元，也沒有機制提醒團隊 token 正在迅速燒光。不管是聊天機器人還是編碼工具，很多產品先把「能用起來」擺在第一位，成本治理、使用配額、模型分級和上下文管理都被放到了後面。

但 Claude Code 本質上不是效率工具，而是一個行銷工具。

它的設計目標很明確：讓你感覺自己在高產。Boris，Claude Code 的項目負責人，在做這個產品時最初的思考是：「如果模型變得足夠聰明，程式碼會變成什麼樣？我希望如何使用這些東西？」——出發點不是「如何幫開發者省 token」，而是「如何展示模型的聰明」。

Anthropic 願意為這種「感覺」燒掉大量 token——不管是你的錢，還是它們自己的錢。五分鐘花掉 200 美元，對 Claude Code 來說不是事故，是設計。它的底層邏輯是：能多燒 token 解決的問題，絕不找更省 token 的辦法。所有 sub-agent、所有花俏的 UI 動畫、所有冗長的 reasoning trace，都不是為了效率，而是為了讓你盯著螢幕時，覺得「這模型真聰明，真能幹」。

這背後是一個精心設計的行銷閉環：你燒掉大量 token，換來「高產」的感覺，於是覺得 Claude 好用，然後繼續用它。 Anthropic 甚至願意自己承擔大量 token 成本，來換取這種情緒上的認同。這也是為什麼它們的桌面應用明顯投入不足——Claude Code 的目標從來不是做一個好工具，而是成為 Anthropic 模型能力的「最佳展示窗口」。

而恰恰是這種「燒 token 換體驗」的設計哲學，讓 Claude 在 token 效率上被 OpenAI 甩開了。

OpenAI 一直在拼命壓 token。從 reasoning trace 的壓縮，到模型本身的效率優化，它們的哲學是：用更少的 token，幹同樣的活。Codex 5.5 就是最好的例子。

儘管像 Fable 5 這樣的模型很智能，但與其他模型相比，它的效率不算高，Deep SWE 的這張圖很能說明問題。如果將同批模型放一起對比，則更明顯：GPT-5.5 medium 只用了 2 萬個 token，就拿到了驚人的分數；而 Opus 4.8 用了 5 萬個 token，得分反而更低。

這就是兩條路線最直接的寫照：行業在恐慌，Claude 在燒，OpenAI 在省。而接下來的問題就是——既然要降本，第一個該砍的是什麼？答案是：那些堆了太久的提示詞。

Claude Code 的 Prompt 債：堆得越多，欠得越多

在最新的演講中，Anthropic 表示，他們已經刪掉了 Claude Code 80% 的系統提示詞。

Anthropic 技術團隊成員 Tariq Shihipar 解釋說，這反映出 AI 模型引導方式正在發生一次根本變化——過去，人們認為指令越多、例子越多，模型表現就越好；但現在，這個邏輯不再成立。新模型 Fable 5 比它們自己給的示例更有想像力，示例反而成了限制。

這當然有行銷成分，他吹噓了一把 Fable 的能力：「示例反而容易限制模型，因為它實際上比我們給出的示例更有想像力」。但一個事實繞不過去：連 Anthropic 自己都開始對 system prompt 下刀了。

那麼，為什麼以前需要那麼多 prompt？

過去一兩年，AI Coding 圈形成了一套慣性思維：上下文越大越好，工具說明越多越好，system prompt 越完整越好。模型不知道項目怎麼組織？寫 Agents.md。模型不知道工具怎麼用？寫 tool descriptions。模型不夠主動？寫行為引導。模型不夠穩定？繼續往 system prompt 裡加約束。

不可否認，system prompt 曾經是 AI Coding 工具的核心競爭力。對 LLM 的 prompt 做一些小調整，就可能帶來顯著的性能提升。如果同一個模型在 Codex、Cursor、OpenCode 和 Copilot 裡的感覺不一樣，那幾乎肯定是因為 prompting 上存在細微差異。

這也是為什麼 Cursor 曾花大量時間測試 system prompt，做 A/B testing，針對不同模型微調提示方式。與在 Claude Code 裡使用 Opus 相比，Cursor 的 harness 能顯著提升模型表現，一些 benchmark 測到的提升甚至高達 10% 到 30%。差別核心往往就是那幾段 prompt。

但問題是只要 prompt 有用，團隊就會不斷往裡加東西。某個模型喜歡亂用工具，就加一段規則；某個模型不夠主動，就加一段鼓勵；某個模型搜索太多，就補一段限制；某個模型不理解項目上下文，就再加一個 markdown 文件。每一次增加都有理由，但長期堆下來，system prompt 開始變成一個巨大的常駐上下文包袱。

問題在於：system prompt 不是免費的。它每次調用都要被讀入、計費、佔上下文。

Claude Code 把所有工具和功能內置進去之後，system prompt 一度膨脹到 65,000 個 token；即便關閉大部分功能，也還有 12,000 個 token。換句話說，模型還沒開始寫一行程式碼，就已經背上了一本說明書。對比來看，Pi 啟動時上下文不到一千個 token。

更麻煩的是，prompt 債比程式碼債更隱蔽。

程式碼老了，通常會在改功能、跑測試、處理 bug 時暴露出來。Prompt 老了，卻可能只是讓模型悄悄變差。用戶看到的是「Claude Code 最近好像不如以前聰明瞭」，或者「新模型沒有宣傳得那麼強」，但真實原因可能是舊的 system prompt 沒有跟上新模型。

當 prompt 從競爭力變成負擔時，Anthropic 選擇刪掉 80%，也能進一步提升 token 效率。

Claude 的「廢話稅」：多說一個字，多花一份錢

Claude Code 的廢話實在太多了。

今年有一個叫 Caveman 的插件迅速走紅，專門解決這個問題。它的名字直譯是「穴居人」，意思是像原始人一樣說話——不講禮貌，不加多餘語法，不放填充詞，只保留核心意思。

乍一看，它聽起來像個玩笑。但一旦理解，你會發現它解決的是 LLM 裡一個非常真實的問題：廢話太多、token 太多、成本也不必要地變高。

而它的起源，正是針對 Claude Code。

「我是在 4 月初做出 Caveman 的，因為那段時間我重度使用 Claude Code，並且注意到我的很多 token 花費都浪費在了不必要的文字上：寒暄、模糊措辭、過渡語，以及那些在 agent loop 裡其實並不重要的閒聊式表達。」Caveman 的創建者 Julius Brussee 說。

Brussee 的評測顯示，Caveman 相比預設輸出能減少 65% 到 75% 的輸出 token，效果仍然超過普通的「請簡潔」指令。它主要壓縮的是周圍的語言，不影響程式碼、命令、路徑、URL、函數名這些需要精確性的部分。

據報導，OpenAI 的工程總監 Shayne Sweeney 也為該項目貢獻了程式碼，以支援 Codex。

更有意思的是，OpenAI 早就把這種語言模式應用到了思考環節。

一些洩露出來的 reasoning trace （不是對外顯示的 reasoning summary ）讓外界看到了端倪。內容不像普通英語，更像壓縮過的工程速記：

「Use core new nodes. Need infer. Need add VAE encode for images. Try. Try period.」

這些句子看起來很好笑，甚至有點亂，但它們的重點不在可讀性，而在 token 效率。模型在內部推理時，不需要像對用戶說話那樣保持禮貌、完整和流暢。它只需要保留動作、對象、判斷和下一步。換句話說，只要最終答案是正常的，模型內部完全可以用一種更短、更粗糙、更省 token 的語言完成思考，以瘋狂追求 token 效率。

這甚至比在寫 Prompt 環節更有用。壓縮 reasoning token 的收益更大，因為 agent 是多步執行的，前一步的思考會變成後一步的輸入。模型每少「想」一段，省下來的不只是當下這幾個 token，而是後面整條執行鏈上的重複開銷。

這正是 OpenAI 和 Claude 路線上的一個明顯差異。

Claude 一直更好聊，也更像一個用完整語言思考和表達的助手。只要看看它的 reasoning trace 長很多，就能猜到它可能是在用普通英語。它的輸出和 reasoning 往往更長，所以更依賴大上下文視窗來容納這些內容。

這也是為什麼 Claude 預設使用 100 萬 token 的上下文視窗。很多人以為這是因為它想裝進更大的程式碼庫，但原因其實更簡單：Claude 生成的東西太長了，沒有這麼大的視窗裝不下。它們甚至在 compaction 上也很差，當你恢復舊線程時，Claude 會建議你不要保留完整上下文，而是嘗試 compact。因為它們不會保留 reasoning trace——事實上，它們會在 10 到 20 分鐘後清掉這些東西，因為 reasoning token 效率太低，不值得一直保留，否則成本會荒謬到不可接受。

而 OpenAI 模型的 token 上下文視窗大概是 20 萬或更少，因為它們一開始就通過這種簡短語言做到了壓縮。

一個值得品味的細節：如果 Anthropic 修復了「廢話太多」這個問題，它們的收入會明顯下降。如果開發者可以用模型完成同樣的工作，但生成的 token 更少，那就是它們賺不到的錢。

來源：InfoQ

風險提示及免責條款

        市場有風險，投資需謹慎。本文不構成個人投資建議，也未考慮到個別用戶特殊的投資目標、財務狀況或需要。用戶應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資，責任自負。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

打賞
按讚
回覆
轉發
分享

回覆

請輸入回覆內容

暫無回覆

熱門話題
查看更多
#
gStocks代幣化股票上線
106.41萬熱度
#
非農爆冷打壓加息預期
103.67萬熱度
#
預測世界盃葡萄牙VS克羅地亞
19.15萬熱度
#
ETH突破1700
1.2億熱度
#
Meta賣算力引發存儲股大跌
139.23萬熱度

已置頂

Claude Code 80%的提示詞說刪就刪，Anthropic用Fable 5打了個樣：AI行業的「降本」才剛剛開始

Claude Code：燒 token 換「我很高產」的錯覺

Claude Code 的 Prompt 債：堆得越多，欠得越多

Claude 的「廢話稅」：多說一個字，多花一份錢

熱門話題

gStocks代幣化股票上線

非農爆冷打壓加息預期

預測世界盃葡萄牙VS克羅地亞

ETH突破1700

Meta賣算力引發存儲股大跌

已置頂