AI是當下最炙手可熱的職場技能,但該從哪裡開始,才有辦法進入這個多金的領域呢?一位AI工程專家分享了一份AI工程師學習路線圖,告訴希望進軍AI工程領域的工作者,如何跟著步驟加強自身實力,取得AI領域所需技能。
這份AI工程師學習路線圖,是由AI工程專家奧里瑪斯.格里西納斯(Aurimas Griciūnas)所撰寫。他是一位立陶宛的工程師,在資料領域有著10多年經歷,曾是模型訓練分析工具公司Neptune產品長。該公司在今年12月被OpenAI收購。
格里西納斯指出,雖然很多人都對如何進入AI領域感到不知道所措,但一切都還來得及,AI工程師的角色出現不算久,仍在快速發展變化當中,不過要想在這個競爭激烈的領域中脫穎而出,則需要清晰的發展路徑,並專注在需要的技能上。
第一步:建立基礎能力,實戰邊做邊學(Fundamentals - learn as you go)
在成為AI工程師之前,先要是一名工程師。格里西納斯強調,雖然他堅信基礎能力是職涯發展的關鍵,但變化快速的時代裡,打好基礎再學習進階知識的作法已經行不通了,必須邊做邊學建立基礎能力。
他建議讀者需要熟悉程式語言Python和Bash,並提到建議掌握的多項工具,包括:
●FastAPI(後端快速開發)
●Pydantic(型別驗證與結構化輸入/輸出)
●uv(現代 Python 套件管理)
●git(版本控制)
●非同步程式設計(在多個 LLM API 呼叫很重要)
●CLI 工具包裝與執行FastAPI
並且他還建議學習統計學及機器學習知識,AI工程需要涉及數學及統計學知識,這些能力能夠幫助人們理解統計模型的概念,有助於評估大型語言模型系統。
第二步:學會使用大型語言模型API(LLM and GenAI APIs.)
在學會如何呼叫API的同時,也要理解不同模型之間的差異,例如:
●基礎版跟升級版有什麼差別
●各個模型專精的面向
●推理模型、多模態模型等不同類型模型的特色與差異
同時還要理解如何運用各個模型進行結構化輸出,以及提示詞快取(Prompt Caching)。提示詞快取是一種AI技術,透過儲存過去傳送給模型提示詞與模型的回應,加快AI的回應速度並降低成本。
第三步:讓模型按照你想的運作(Model Adaptation)
在這一步,核心目標是讓大型語言模型執行我們期望的行為。這不是訓練一個新模型,而是學會怎麼調整、設計Prompt與工具使用方式,讓模型在實際任務中表現穩定且可控,格里西納斯稱為之模型適配。
提示工程被作者認為是最核心的技能,包括:
●學習正確的 prompt 結構,不同的模型與任務需要不一樣的 prompt 書寫方式,格式、語序、上下文都會影響結果。
●理解上下文大小限制,LLM 的輸入長度是有限的,理解這個限制並調整 prompt 及資料分片是重要技能。
●學習各種提示技巧,例如:
- Chain of Thought:引導模型一步步推理
- Tree of Thought:讓模型探索多條推理路徑
- Few‑shot:給模型範例來定義任務格式
●進階技巧如Self‑consistency、Reflection、ReAct,這些技巧都有助於提升模型在特定任務上的表現。
以及懂得如何使用工具。不過格里西納斯提醒,工具並不是魔法,要學會如何透過調整上下文來實現,並建議新人可以先從較簡單的框架開始,有助於理解工具與模型的互動方式。
而在更進階的層面,還可以透過微調針對性提昇模型表現,不過他強調,不要一開始就衝動投入微調,大多數情況下微調並不值得投入大量時間與資源。如果真要開始微調,可以從Unsloth之類簡便的工具開始練習。
第四步:學會「幫模型記住資料」,而不是每次都重問(Storage and Retrieval)
這一步是從用API走向做系統的分水嶺,AI工程師在能呼叫API之餘,還要能幫模型接上「外部記憶」。
●使用向量資料庫存資料:需要了解向量相似性搜尋的優缺點,認識不同類型的向向資料庫索引方式。
●學習圖形資料庫:建立對圖形資料庫的深入認識,不過格里西納斯指出,目前圖形資料庫的應用仍有限,並且成本較高。
●運用混合檢索(Hybrid retrieval):學會如何結合關鍵字檢索及語意檢索的優點,獲得更準確的結果。
第五步:學會讓AI查資料與回答(RAG and Agentic RAG)
這一步的核心是讓模型能使用外部資料,而不只是依賴內建知識。文章稱它為 RAG(Retrieval-Augmented Generation)思維,重點在於資料如何被存、如何被檢索,並提供模型生成答案的依據。
●準備資料:需要先將資料分段或切塊(Chunking),並試著給每個段落加上標籤、來源、類別等後設資料。透過這種作法,能讓資料更精準地被檢索。
●用向量檢索:而要讓模型能夠快速找到重要資料,可以將文字轉為向量儲存,並用向量資料庫進行相似性搜尋,
●結合資料生成答案:將檢索到的片段加入提示詞,或者引導模型只根據提供的資料回答,讓模型生成答案時可以結合檢索到的資料,而不是單靠記憶。
第六步:讓AI自動執行任務(AI Agent)
這一步的核心是讓 AI不只是回答問題,而能自主規劃、決策和執行任務,成為AI代理,有多種常見的設計模式:
●ReAct:邊思考邊行動
●Task Decomposition:把大問題拆成小步驟
●Reflexion:讓 Agent 自我反思與修正
●Planner‑Executor / Critic‑Actor:規劃者 vs 評價者角色分工
●Hierarchical / Collaborative:分層或合作式團隊運作模式
接下來則需要學習AI代理的短期記憶及長期記憶,短期記憶一般會暫時保存當前對話或任務的歷史,目的是讓AI代理在當下流程裡不忘記前面說過的內容;而長期記憶則是包括跨越多個對話、任務的資訊,例如用戶的偏好等。
並且要確保AI代理做出的決策安全可靠,並在無法解決時將任務交給人類,可以透過在關鍵步驟加入人類確認或步驟等方式來實現。
第七步:懂得基礎設施與部署(Infrastructure)
這一步重點是把前面所有模型、資料、代理等能力整合起來,構建可運行、可維護的 AI 系統。文章中提到,這部分主要是學習部署、維護、監控AI系統的基礎設施,並需要具備對Docker和Kubernetes的知識。
●選擇計算資源:了解雲端服務(AWS、GCP、Azure)提供的 GPU / CPU 方案,並根據模型大小和請求量選擇適合資源,讓你的 AI 系統有足夠運算力,支援大型語言模型推理和代理運作。
●持續整合與持續部署:重點在於怎麼被持續更新、不靠人工操作,進行自動化測試及自動化部署,且更新後能夠快速,安全上線。
●制定模型路由策略:模型路由能將任務分配給最合適的特定模型,以及在模型無法順利運作時,切換到備用模型,作者推薦可以從liteLLM、Orq或Martian等工具進行嘗試。
第八步:觀察與評估AI系統的表現(Observability and Evaluation)
這一步指的是系統內部是否足夠透明,讓你能理解它的行為,不只是有沒有報錯,並且要能夠衡量AI的表現。倘若沒有評估,便沒辦法優化,也無法知道是否該部署新版本。
作者提到,市面上有許多現成的可觀測平台,重點是學習大型語言模型可觀測性的基礎知識,以及在成本限制下,知道如何評估、在哪個步驟進行評估才能獲得最大效益,並了解各種評估方法。
第九步:確保AI系統不會被濫用或攻擊(Security)
在完成AI系統搭建,並能評估表現持續優化後,接著要關心的是這個系統會不會被惡意利用,或在現實世界造成風險。
在這個階段需要學習如何對大型語言模型的輸出與輸入進行防護,並測試大型語言模型模型驅動的應用程式,嘗試越獄或突破防護。
第十步:未來發展(Looking Forward)
這一步不是具體的教學步驟,而是點出在快速發展的AI領域中,值得關注的方向或技術。
●語音、視覺與機器人:代理式AI能將多種功能融合,讓機器與現實世界互動,格里西納看好設備端代理技術發展,能幫助壓縮模型的極端量化技術,以及專為機器人應用而優化的基礎模型出現。
●自動提示工程:未來提示詞可能不再是工程師寫死的,系統可以自動生成或調整提示詞,只需要準備好測試資料集來評估效果。
完整教學請見:SwirlAI
本文初稿為AI編撰,整理.編輯/陳建鈞
