提示工程是什麼？一次掌握「神級咒語」背後邏輯：如何將指令化為可重現的SOP？|數位時代 BusinessNext

自 ChatGPT、Claude 到 Gemini 紛紛開放訂閱以來，與 AI 對話已成為多數人的工作日常。然而，許多人發現，同樣的問題，不同人問出來的答案品質卻天差地遠。

這其中的關鍵，在於「提示工程（Prompt Engineering）」。這不僅僅是學會幾個「咒語（範本）」就好，更是一門包含邏輯拆解、角色扮演與反覆測試的藝術。

以下 Q 為《數位時代》創新長黃亮崢提問，A 為 GenAI 年會策展人、專精於協助企業優化 AI 提示語的李慕約的回答，他將深入解析如何精準駕馭 AI，讓提示工程成為你職涯中最具投資報酬率的技能。

Q1：什麼叫做「提示工程」？為什麼撰寫提示語在 AI 時代這麼重要？

A：AI 可以做的事情非常多，但實際使用時，往往會發現自己下的指令不夠精確，導致成果不受控。在寫程式的領域有個術語叫「十倍工程師」，意思是厲害的工程師效率是其他人的十倍。在 AI 時代也是如此，懂得如何下指令、如何「奴役」AI 做事的人，效率可能比一般人高出十倍。

提示工程主要分為兩個層次：

1. 單字與片語：

就像學語言要背單字，AI 也有它的關鍵字。例如 "Let's think step by step"（讓我們一步步思考），這類指令能讓 AI 更有邏輯地拆解問題，產出更聰明的回答。

2. 深層理解：

你需要知道 AI 的底層運作原理，知道它「知道什麼」以及「不知道什麼」。舉例來說，如果你請 AI「改錯字」，它其實不是幫你改「最正確」的字，而是改成 AI 資料庫中「最常見」的字。如果你的文章中有特殊人名或罕見用法，AI 很可能會把它們「修正」成大眾常見的詞彙。

因此，理解 AI 的侷限與邏輯，才能寫出好的提示。

Q2：為什麼這項技能被稱為「工程」？不會寫程式的人也需要學嗎？

A：「工程」這個詞用得很好，因為它代表了「可重現性」與「結構化」，而不僅僅是隨性的藝術。提示工程有幾個非常像工程的地方：

首先是，比較與測試（AB Testing）。

我們在工作中常會開一個試算表，列出各種不同的指令來做比較。例如要改寫一篇文章，我們可以測試兩種角色設定：

• 指令 A：「想像你是一位《數位時代》的專業編輯……」

• 指令 B：「想像你是大學指考國文科第一名的學生……」

可以試想：「哪一個指令的表現會比較好？」

然而，答案卻是，我們無法憑空猜測哪種效果好，必須實際測試並比較成果。

其次是，堆積木般的結構。

AI 的智慧是有限的，與其一次給它一個超長指令，不如把任務拆解成很多小步驟。這就像堆積木，先測試第一個步驟（積木）穩固了，再疊加上去。把大任務拆解成小任務，並依次將小任務丟給 AI，不僅品質更穩定，也更容易除錯。

Q3：網路上有很多提示詞範本（Prompt Templates），我們該如何分辨好壞？又該如何寫出適合自己的提示？

A：我觀察到網路上確實有很多免費或付費的提示詞範本，但我比較傾向於建立一套 SOP。以下三個實用的秘訣分享給大家：

1. 拆解神級提示詞：

當我看到別人寫的很厲害的 Prompt（例如網路上流傳的「去去武器走」這類魔法指令），我不會直接複製貼上；反之，我會拆解它，測試其中每一個關鍵字對 AI 的影響。只有當我完全理解每個字的作用，讓結果變得「可預測」時，我才會把它納入我的工具箱。

2. Meta Prompting（元提示）：

這是一個非常好用的技巧。當你不確定怎麼下指令時，可以先跟 AI 說：「我想做這件事，但我不確定我有沒有講清楚的地方。請先不要回答我，先問我幾個問題來釐清我的需求。」透過與 AI 來回對話（釐清需求），最後再請它：「根據我們剛剛的討論，請幫我寫一個最適合給 ChatGPT 的指令。」通常這樣產出的指令會非常精準且完整。

3. AB Testing：

我常會開兩個不同的 AI 視窗（例如用 Gemini 來幫忙寫給 ChatGPT 的指令），或是同時開兩個 ChatGPT 視窗生成兩次結果。因為 AI 具有隨機性，比較兩次的產出，你可以挑選比較好的那個，或是發現哪裡不穩定。

（延伸閱讀｜微軟免費課程來了！AI 代理、提示工程、雲端服務...課程介紹、報名連結一次整理）

Q4：現在市面上有 ChatGPT、Claude、Gemini、Grok 還有 DeepSeek 等這麼多模型，我們該如何選擇？提示語在不同模型間通用嗎？

A：現在確實進入了一個「百家爭鳴」且 AI 模型演進極快的時代。每個 AI 模型都有它的「特殊能力」，我們應該針對需求選擇工具，如：

• ChatGPT 與 DeepSeek：這類模型具備強大的「網路搜尋」功能。 如果你需要結合購物、查找商品資訊等需要即時聯網的情境，這兩個模型會非常有幫助，能有效補足資料庫的時效性問題。

• Gemini (Google)：它與 Google 生態系深度綁定。 我最近常用的功能是直接把 YouTube 長影片連結丟給 Gemini，請它幫我做摘要，甚至針對特定細節提問，這能節省大量時間。

• Grok（X.AI）：它的強項是搜尋 X（推特）上的即時資訊。 如果你想知道為什麼今天某支股票大跌，或是網路上正在熱議什麼，Grok 能給出很棒的即時社群反饋。

不過說實話，光是要搞清楚這些不同 AI 模型背後到底有什麼特殊能力，其實就會花費蠻多心力。而且這個領域變化極快，現在的強項可能過幾個月就變了。所以我的建議是，大家不用太焦慮，不管你訂閱哪一個服務，只要稍微知道它背後的「特殊能力」是什麼（例如是擅長社群搜尋、影音摘要，還是網購比價），善用那個特點就很不錯了。

此外，重點在於「測試」。同一個 Prompt 在不同模型、甚至同一模型的不同版本（如 GPT-4 vs. GPT-4o）表現都可能不同。建立自己的測試流程，比死記某個指令更重要。

Q5：隨著 OpenAI 推出了 o1、o3 等具備推理能力的模型，提示工程的未來會怎麼變？

A：我們正處於從「大型語言模型（LLM）」轉向「推理模型（Reasoning Models）」的轉折點。

• 傳統語言模型（如 GPT-4、GPT-5）：像是一個聽話的初階員工，你需要清楚告訴它「要做什麼」以及「怎麼做（Step by step）」。

• 推理模型（如 o1）：更像是一個資深員工。它會自己先思考，規劃解決路徑。因此，跟推理模型溝通時，你不需要鉅細靡遺地指導步驟，反而要更專注於「把需求定義清楚」。

未來還有一個趨勢是 Agentic Workflow（代理工作流程）。這不是一次性地請 AI 生成答案，而是讓它執行「執行 → 反思 → 修改」的迴圈。例如翻譯任務，不是只叫它翻一次，而是請它先翻譯，接著「反思」剛剛哪裡翻得不好，最後再根據反思結果「重翻一次」。這種自我修正的工作流，將是未來提升 AI 產出品質的關鍵。

Q6：常聽到一個詞叫系統提示語（System Prompt），它指什麼？對一般使用者、企業應用有什麼影響？

A：如果把 AI 的運作規則想像成一個國家的法律體系，那麼「系統提示語」就像是「憲法」，而一般使用者的指令則是普通的「法律」。在位階上，憲法高於法律；當你的指令（法律）與系統提示語（憲法）衝突時，AI 會優先遵守系統提示語的規範。

從運作層級來看，我們可以將 AI 的控制權分為三層：

1. 最上層（模型供應商層）： 例如 OpenAI 為了防止 AI 被用於詐騙、產生色情內容或違反倫理，會寫入最底層的 System Prompt 中。這也是為什麼有時候不管你怎麼問，某些敏感內容 AI 就是拒絕回答，因為它被最高的「憲法」擋住了。

2. 中間層（應用開發者層）： 這是企業或服務提供商可以控制的區域。例如之前發生的「捷運 AI」被網友引導說出不當言論，問題就出在開發者沒有把這層 System Prompt 寫好，沒有嚴格限制 AI 的回應範圍，導致它輕易被使用者「越獄」。

3. 最下層（使用者層）： 也就是我們日常與 AI 對話時輸入的指令。

對於企業來說，System Prompt 是確保 AI 產出品質與風格的關鍵。當企業串接 API 開發內部工具時，可以針對不同部門設定不同的「人設」。例如，給行銷部門的 AI，系統提示語會設定為「語氣具說服力、熱情」；而給客服部門的 AI，則設定為「語氣同理、耐心、禁止激進用語」。透過設定良好的 System Prompt，企業才能確保 AI 在不同場景下，都能準確扮演好職務角色，不僅提升專業度，更能避免公關風險。

本文授權轉載自：FC未來商務

延伸閱讀：含金量最高、最願意掏錢的用戶都在X！行銷人怎麼在「最陌生的平台」中挖金？

（本文初稿為 AI 編撰）