過去幾年,AI 產品開發有個流傳已久的操作邏輯:如果模型的回答不夠好,升級模型或調高推理設定是最省力的解法。這個邏輯其實並非毫無根據,推理能力更強的模型,在複雜任務上確實表現更好。
然而,這也帶來了副作用,使用者習慣把模型不夠聰明當成所有問題的根本原因。
OpenAI 在 GPT-5.4 上線後,發布了一份提示工程指南,也直接點出這個直覺的問題:推理力道是最後一哩的微調旋鈕,不是萬能解方。大多數時候,把提示寫清楚能拿回的效能,比拉高算力更多 。
迷思破除!推理能力不是「開越高越好」
GPT-5.4 有五個推理力道層級:none、low、medium、high、xhigh。許多人習慣將推理運算量設至最高,以求更全面的回應,但事實上反而平白增加時間延遲與投入成本。
OpenAI 在指南中明確指出,應避免總是將 xhigh 設為預設值,僅適用於「需要最高智能、且能接受速度與成本代價的長程 Agent 任務」。官方建議,大多數開發團隊通常待在 none 到 medium 的範圍內。
因此,使用 Chatgpt 前,可以先檢查自己是否有達成以下方式:
1. 最後一哩路的微調
推理運算量應作為最後的最佳化手段。在調整前,先確認是否提供 AI 完整的合約與驗證機制。
2. 從零開始測試
針對一般資料提取、客服分類或短格式轉換,官方建議從 none(無)或 low(低)層級開始設定。
3. 把算力用在刀口上
只有在處理跨文件比對、深度研究或解決複雜衝突等需要高度邏輯的情境時,才建議將推理層級調升至 medium (中) 或以上。
把話說清楚!用「3步驟工程化指令」取代模糊對話
GPT-5.4 雖然具備自動化能力,仍需要手動建立清楚的邊界設定。官方建議開發者捨棄模糊的對話,改採嚴謹的3步驟工程化指令:
Step1:建立輸出合約(Output Contract)
不要讓 AI 自由發揮,開發者必須明確規定輸出的格式、字數限制與特定步驟,以達到最佳的 token 效率。
官方範例:
- 只輸出要求的章節,依序輸出。
- 不把提示中的說明視為額外輸出。
- 長度限制只適用於被指定的章節。
- 如需指定格式(JSON、Markdown、SQL),只輸出該格式。
Step2:強制驗證迴圈(Verification Loop)
在讓 AI 執行發送、修改或刪除等不可逆的高風險操作前,務必在提示詞中加入自我檢查機制,確認事實根據與格式無誤後才能放行。
官方範例:
收尾前確認:
- 正確性:輸出是否滿足所有要求?
- 依據性:事實性陳述是否有提供的上下文或工具輸出支撐?
- 格式:輸出是否符合要求的結構或樣式?
- 安全性與不可逆性:若下一步有外部副作用(如傳送、刪除、寫入正式環境),先徵得確認再執行。
Step3:增加工具持續規則(Tool Persistence Rules)
這項規則明訂,只要能提升正確性或完整性,模型就必須持續使用工具,絕對不能在另一個呼叫可能改善結果時提前停止,直到任務真正完成且通過上述的驗證迴圈為止。
官方範例:
- 只要工具呼叫能實質提升正確性、完整性或依據性,就應繼續使用工具。
- 若再呼叫一次工具可能實質改善結果,不要提前停止。
- 持續呼叫工具,直到:
(1) 任務完成,且
(2) 通過驗證迴圈檢查。
- 若工具回傳空值或部分結果,換策略重試。
官方指出,加入這三個結構化提示塊後,問題依舊存在的話,再來才是考慮將推理提高到下一個層級。從成本角度看,這個順序的意義在於,先用提示解決的問題,比用算力和金錢解決更便宜。
工具出包不是模型笨!錯在提示結構不足
此外,GPT-5.4 在多工具協作場景的提升是這次指南的重點之一,但 OpenAI 也坦誠了模型仍容易犯的三個失誤:
失誤一:AI 時常跳過前置步驟
當最終目標夠明確時,模型常略過應先查詢再動手的依賴順序。解方是加入 「依賴檢查機制」(Dependency Checks) ,強制確認前置作業已完成。
官方範例:
- 執行任何動作前,先確認是否需要前置查詢、資料檢索或記憶體取用步驟。
- 不因最終目標看起來明確,就跳過前置步驟。
- 若任務依賴前一步驟的輸出,先解決該依賴,再繼續執行。
失誤二:回答跑一半就自行收工
處理批次任務時,模型可能跑了幾項就自行認定結束。解方是 訂立「完成合約」(Completeness Contract) 讓模型維護一份內部清單,項目只能標記為完成或無法完成,不能不了了之。
官方範例:
- 在所有要求項目完成或明確標記為 [blocked] 之前,視任務為未完成。
- 維護一份內部待辦清單,追蹤所有必要交付項目。
- 對於清單、批次或分頁結果:
- 盡可能確認預期涵蓋範圍;
- 追蹤已處理的項目或頁數;
- 確認覆蓋完整後再收尾。
- 若某項目因資料缺失而無法完成,標記為 [blocked] 並說明缺少什麼。
失誤三:查不到資料就自行放棄
當工具回傳空值,模型常直接回報找不到。此時應導入 「空結果恢復機制」(Empty Result Recovery) ,強制模型在放棄前至少嘗試一到兩個替代查詢策略。
官方範例:
若查詢回傳空值、部分結果或範圍異常狹窄:
- 不要立即判定結果不存在;
- 至少嘗試一到兩個備用策略,例如:
- 換一種查詢措辭;
- 放寬篩選條件;
- 補做前置查詢;
- 改用其他資料來源或工具。
- 確認上述策略均無效後,再回報找不到,並說明嘗試過哪些方法。
本文初稿為AI編撰,整理.編輯/ 蘇柔瑋
