一篇在 Reddit 的 r/ClaudeAI 社群引發超過 400 則留言的貼文,標題只有一句話:「教 Claude 像山頂洞人一樣說話,省了 75% 的 token。」
貼文底下,有人笑到不行,有人認真拆帳算錢,最高票留言直接引用美劇《辦公室》(The Office)的經典台詞:「Why waste time say lot word when few word do trick?」(能用少字幹嘛用多字?)
這不只是搞笑。
所有用過 AI 的人都有同一個痛點:你問一句話,AI 回你一整面牆的文字。「讓我為你解釋一下……」、「以下是我的分析……」、「總結來說……。」這些廢話每一個字都在燒錢,至少對按量付費的 API 用戶來說是這樣。
這篇文章拆解這個「山頂洞人Prompt」到底在做什麼、真的能省多少錢,以及你不用裝山頂洞人也能達到同樣效果的正經做法。
山頂洞人 Prompt 在幹嘛?
原理很簡單:在 Claude Code 的系統指令(System Prompt)裡加入一組規則,強制 AI 用最短的句子回覆。
原始 Prompt 長這樣:
Rules:
# In caveman voice: "Me tool first. Me result first. Me no explain. Me stop."
- Use very short phrases for meta messages, e.g. "Tool work", "Result ready"
- Prefer 2–4 word phrases whenever possible.
- No explanations unless I explicitly ask for details.
- After tools return, give the result first in the shortest possible form. Then stop.
- Only natural language should be "caveman style". Code, data, and commands must remain precise and normal.
效果是這樣的:
| 情境 | 正常回覆 | 山頂洞人回覆 |
|---|---|---|
| 搜尋完成 | 「我已經執行了網頁搜尋工具,以下是找到的結果……」 | 「搜了。結果:」 |
| 修好 bug | 「我發現問題出在第 42 行,缺少了一個 null check,我已經加上修正……」 | 「L42 少 null check。修了。」 |
| 讀取失敗 | 「很抱歉,我無法讀取這個網頁,因為它被付費牆擋住了……」 | 「讀不了。付費牆。貼原文。」 |
每次對話省下 6 到 10 個 token 的廢話,累積 8 到 10 輪,一個任務就省下 50 到 100 個 token。
真的能省 75% 嗎?拆開來算
要理解這招的實際效益,得先知道 AI 怎麼計費。API 費用分兩種:輸入 token(你傳給 AI 的內容)和輸出 token(AI 回覆你的內容)。關鍵在於,輸出比輸入貴非常多:
| 模型 | 輸入(每百萬 token) | 輸出(每百萬 token) | 輸出 ÷ 輸入 |
|---|---|---|---|
| Claude Sonnet 4.6 | 3 美元 | 15 美元 | 5 倍 |
| Claude Opus 4.6 | 5 美元 | 25 美元 | 5 倍 |
| GPT-4o | 2.5 美元 | 10 美元 | 4 倍 |
| Gemini 2.5 Pro | 1.25 美元 | 10 美元 | 8 倍 |
輸出 token 貴 4 到 8 倍,壓縮輸出長度確實能省錢。但 Reddit 討論裡被頂上去的反對意見也點出了盲點:每一輪對話,AI 都會重新讀取整段聊天記錄,這個「輸入」才是真正的成本大頭。
簡單來說,對話越長,輸入成本越高,你省下的那幾十個輸出 token 佔比就越小。
結論是:單看輸出,確實能省 50% 到 75%。但算進輸入成本,實際總帳單大概只降 10% 到 20%。不是零,但也不是標題寫的那麼誇張。
小心!裝笨可能真的變笨
Reddit 討論裡最值得注意的一則留言指出:你叫 AI 扮演一個比較不聰明的角色,它的推理品質可能會跟著下降。
這不是玩笑話。在 prompt 工程的實務中,persona(角色設定)會影響模型的推理行為。你告訴它「你是一位資深工程師」,它的回答會比「你是一個山頂洞人」更結構化、更嚴謹。山頂洞人 prompt 壓縮了表達,但也可能連帶壓縮了思考。
對於簡單任務(查檔案、跑指令、回報結果),影響微乎其微。但如果你需要 AI 做複雜推理、架構設計、或多步驟分析,過度壓縮回覆可能讓它跳過關鍵的中間步驟。
不用當山頂洞人,也能達到同樣效果
好消息是,你不需要真的用山頂洞人語氣。以下是一個正經版本的精簡指令,效果相同但不會觸發「裝笨」風險:
回覆規則:
- 直接給結果,不要前言、不要總結
- 使用工具後,只回報結果,不描述過程
- 除非我主動問,否則不解釋你在做什麼
- 程式碼和資料維持完整精確,只壓縮自然語言
把這段放進你的 System Prompt(API 用戶)或 CLAUDE.md(Claude Code 用戶)就會生效。
這招適合誰?
不是所有人都需要省 token。以下是快速判斷:
- API 按量付費的開發者:有感,尤其是高頻呼叫的自動化場景,長期累積省下的金額可觀
- Claude Code 重度使用者:Pro 或 Max 方案有用量上限,精簡回覆代表同樣額度內能多做幾件事
- 一般 ChatGPT / Claude 網頁版訂閱用戶:幾乎無感。訂閱方案是固定月費,省 token 不會讓你少付錢
如 Reddit 上 400 則留言的共識:這是一個 A+ 的搞笑帖,同時也是一個真正聰明的 output token 優化技巧,但它不是魔法。
真正想認真省錢的 API 開發者,更該優先研究的是 prompt caching(快取命中可省 90% 輸入成本)和 Batch API(非即時任務一律五折),這兩招對總帳單的影響遠大於壓縮回覆長度。
山頂洞人教會我們的,與其說是一個具體技巧,不如說是一個正確的直覺:你付最多錢的地方,就是最值得優化的地方。
資料來源:Reddit r/ClaudeAI 討論串、Anthropic API 定價頁、OpenAI API 定價頁、Google Gemini API 定價頁
本文初稿為AI編撰,整理.編輯/ 李先泰
