自 ChatGPT、Claude 到 Gemini 紛紛開放訂閱以來,與 AI 對話已成為多數人的工作日常。然而,許多人發現,同樣的問題,不同人問出來的答案品質卻天差地遠。
這其中的關鍵,在於「提示工程(Prompt Engineering)」。這不僅僅是學會幾個「咒語(範本)」就好,更是一門包含邏輯拆解、角色扮演與反覆測試的藝術。
以下 Q 為《數位時代》黃亮崢創新長提問,A 為 GenAI 年會策展人、專精於協助企業優化 AI 提示語的李慕約的回答,他將深入解析如何精準駕馭 AI,讓提示工程成為你職涯中最具投資報酬率的技能。
Q1:什麼叫做「提示工程」?為什麼撰寫提示語在 AI 時代這麼重要?
A:AI 可以做的事情非常多,但實際使用時,往往會發現自己下的指令不夠精確,導致成果不受控。在寫程式的領域有個術語叫「十倍工程師」,意思是厲害的工程師效率是其他人的十倍。在 AI 時代也是如此,懂得如何下指令、如何「奴役」AI 做事的人,效率可能比一般人高出十倍。
提示工程主要分為兩個層次:
1. 單字與片語:
就像學語言要背單字,AI 也有它的關鍵字。例如 "Let's think step by step"(讓我們一步步思考),這類指令能讓 AI 更有邏輯地拆解問題,產出更聰明的回答。
2. 深層理解:
你需要知道 AI 的底層運作原理,知道它「知道什麼」以及「不知道什麼」。舉例來說,如果你請 AI「改錯字」,它其實不是幫你改「最正確」的字,而是改成 AI 資料庫中「最常見」的字。如果你的文章中有特殊人名或罕見用法,AI 很可能會把它們「修正」成大眾常見的詞彙。
因此,理解 AI 的侷限與邏輯,才能寫出好的提示。
Q2:為什麼這項技能被稱為「工程」?不會寫程式的人也需要學嗎?
A:「工程」這個詞用得很好,因為它代表了「可重現性」與「結構化」,而不僅僅是隨性的藝術。提示工程有幾個非常像工程的地方:
首先是,比較與測試(AB Testing)。
我們在工作中常會開一個試算表,列出各種不同的指令來做比較。例如要改寫一篇文章,我們可以測試兩種角色設定:
• 指令 A:「想像你是一位《數位時代》的專業編輯……」
• 指令 B:「想像你是大學指考國文科第一名的學生……」
可以試想:「哪一個指令的表現會比較好?」
然而,答案卻是,我們無法憑空猜測哪種效果好,必須實際測試並比較成果。
其次是,堆積木般的結構。
AI 的智慧是有限的,與其一次給它一個超長指令,不如把任務拆解成很多小步驟。這就像堆積木,先測試第一個步驟(積木)穩固了,再疊加上去。把大任務拆解成小任務,並依次將小任務丟給 AI,不僅品質更穩定,也更容易除錯。
Q3:網路上有很多提示詞範本(Prompt Templates),我們該如何分辨好壞?又該如何寫出適合自己的提示?
A:我觀察到網路上確實有很多免費或付費的提示詞範本,但我比較傾向於建立一套 SOP。以下三個實用的秘訣分享給大家:
1. 拆解神級提示詞:
當我看到別人寫的很厲害的 Prompt(例如網路上流傳的「去去武器走」這類魔法指令),我不會直接複製貼上;反之,我會拆解它,測試其中每一個關鍵字對 AI 的影響。只有當我完全理解每個字的作用,讓結果變得「可預測」時,我才會把它納入我的工具箱。
2. Meta Prompting(元提示):
這是一個非常好用的技巧。當你不確定怎麼下指令時,可以先跟 AI 說:「我想做這件事,但我不確定我有沒有講清楚的地方。請先不要回答我,先問我幾個問題來釐清我的需求。」 透過與 AI 來回對話(釐清需求),最後再請它:「根據我們剛剛的討論,請幫我寫一個最適合給 ChatGPT 的指令。」通常這樣產出的指令會非常精準且完整。
3. AB Testing:
我常會開兩個不同的 AI 視窗(例如用 Gemini 來幫忙寫給 ChatGPT 的指令),或是同時開兩個 ChatGPT 視窗生成兩次結果。因為 AI 具有隨機性,比較兩次的產出,你可以挑選比較好的那個,或是發現哪裡不穩定。
(延伸閱讀|微軟免費課程來了!AI 代理、提示工程、雲端服務...課程介紹、報名連結一次整理)
Q4:現在市面上有 ChatGPT、Claude、Gemini、Grok 還有 DeepSeek 等這麼多模型,我們該如何選擇?提示語在不同模型間通用嗎?
A:現在確實進入了一個「百家爭鳴」且 AI 模型演進極快的時代。每個 AI 模型都有它的「特殊能力」,我們應該針對需求選擇工具,如:
• ChatGPT 與 DeepSeek:這類模型具備強大的「網路搜尋」功能。 如果你需要結合購物、查找商品資訊等需要即時聯網的情境,這兩個模型會非常有幫助,能有效補足資料庫的時效性問題。
• Gemini (Google):它與 Google 生態系深度綁定。 我最近常用的功能是直接把 YouTube 長影片連結丟給 Gemini,請它幫我做摘要,甚至針對特定細節提問,這能節省大量時間。
• Grok(X.AI):它的強項是搜尋 X(推特)上的即時資訊。 如果你想知道為什麼今天某支股票大跌,或是網路上正在熱議什麼,Grok 能給出很棒的即時社群反饋。
不過說實話,光是要搞清楚這些不同 AI 模型背後到底有什麼特殊能力,其實就會花費蠻多心力。而且這個領域變化極快,現在的強項可能過幾個月就變了。所以我的建議是,大家不用太焦慮,不管你訂閱哪一個服務,只要稍微知道它背後的「特殊能力」是什麼(例如是擅長社群搜尋、影音摘要,還是網購比價),善用那個特點就很不錯了。
此外,重點在於「測試」。同一個 Prompt 在不同模型、甚至同一模型的不同版本(如 GPT-4 vs. GPT-4o)表現都可能不同。建立自己的測試流程,比死記某個指令更重要。
Q5:隨著 OpenAI 推出了 o1、o3 等具備推理能力的模型,提示工程的未來會怎麼變?
A:我們正處於從「大型語言模型(LLM)」轉向「推理模型(Reasoning Models)」的轉折點。
• 傳統語言模型(如 GPT-4、GPT-5):像是一個聽話的初階員工,你需要清楚告訴它「要做什麼」以及「怎麼做(Step by step)」。
• 推理模型(如 o1):更像是一個資深員工。它會自己先思考,規劃解決路徑。因此,跟推理模型溝通時,你不需要鉅細靡遺地指導步驟,反而要更專注於「把需求定義清楚」。
未來還有一個趨勢是 Agentic Workflow(代理工作流程)。這不是一次性地請 AI 生成答案,而是讓它執行「執行 → 反思 → 修改」的迴圈。例如翻譯任務,不是只叫它翻一次,而是請它先翻譯,接著「反思」剛剛哪裡翻得不好,最後再根據反思結果「重翻一次」。這種自我修正的工作流,將是未來提升 AI 產出品質的關鍵。
Q6:常聽到一個詞叫系統提示語(System Prompt),它指什麼?對一般使用者、企業應用有什麼影響?
A:如果把 AI 的運作規則想像成一個國家的法律體系,那麼「系統提示語」就像是「憲法」,而一般使用者的指令則是普通的「法律」。在位階上,憲法高於法律;當你的指令(法律)與系統提示語(憲法)衝突時,AI 會優先遵守系統提示語的規範。
從運作層級來看,我們可以將 AI 的控制權分為三層:
1. 最上層(模型供應商層): 例如 OpenAI 為了防止 AI 被用於詐騙、產生色情內容或違反倫理,會寫入最底層的 System Prompt 中。這也是為什麼有時候不管你怎麼問,某些敏感內容 AI 就是拒絕回答,因為它被最高的「憲法」擋住了。
2. 中間層(應用開發者層): 這是企業或服務提供商可以控制的區域。例如之前發生的「捷運 AI」被網友引導說出不當言論,問題就出在開發者沒有把這層 System Prompt 寫好,沒有嚴格限制 AI 的回應範圍,導致它輕易被使用者「越獄」。
3. 最下層(使用者層): 也就是我們日常與 AI 對話時輸入的指令。
對於企業來說,System Prompt 是確保 AI 產出品質與風格的關鍵。當企業串接 API 開發內部工具時,可以針對不同部門設定不同的「人設」。例如,給行銷部門的 AI,系統提示語會設定為「語氣具說服力、熱情」;而給客服部門的 AI,則設定為「語氣同理、耐心、禁止激進用語」。透過設定良好的 System Prompt,企業才能確保 AI 在不同場景下,都能準確扮演好職務角色,不僅提升專業度,更能避免公關風險。
本文授權轉載自:FC未來商務
(本文初稿為 AI 編撰)
