重點一:台灣使用者以 AI 完成任務的中位時間僅需 12 分鐘,較純人工的 105 分鐘節省約 89%。
重點二:黃意植博士的七階段工作流程最核心的發現,不是 AI 能做什麼,而是它在哪四個環節完全無法取代人類判斷,包括「值得研究什麼」這個最根本的問題。
重點三:AI 幻覺引用文獻的風險極高,在實驗中,格式完整、作者真實的「假論文」混入清單,若不逐一驗證 DOI 根本無從分辨;這是當前 Agentic Workflow 進入學術場域最嚴重的品質漏洞。
2026 年 2 月,國家實驗研究院科技政策研究與資訊中心副研究員黃意植博士,在 Claude Code 環境中完成了一篇不尋常的學術論文。
論文的主題是「如何用 AI Agent 做學術研究」,而這篇論文本身,就是用他設計的那套方法完成的。
這個「方法即結論」的雙層結構,讓這篇預印本論文(From Labor to Collaboration: A Methodological Experiment Using AI Agents to Augment Research Perspectives in Taiwan's Humanities and Social Sciences)從一開始就有別於一般 AI 應用研究。
它不只在主張 AI 有用,同時也在示範 AI「如何被有紀律地使用」,以及「在哪裡不能被使用」。
用「台灣數據」做實驗材料
研究的實證素材來自 Anthropic 公開發布的「Anthropic 經濟指數」(AEI)第四版報告,聚焦於 2025 年 11 月 13 日至 20 日的台灣用戶資料,共 7,729 筆對話紀錄,佔全球總量約 0.77%。
這批資料的結構並不簡單。AEI 採用「多面向長格式」設計,同一筆對話在不同分析維度下會重複出現,新手研究者若直接加總各維度的筆數,得出的數字會是實際對話量的數倍。這個陷阱,在黃意植博士的操作紀錄中有完整記載。他必須親自介入,告知 AI「不同 facet 是獨立分析維度,不能跨維度加總」,才讓後續分析回到正軌。
這個細節本身就是論文的論點之一:AI 擅長語法層次的資料讀取,但在「長格式資料的語意邏輯」這種需要學科背景才能理解的問題上,判斷權必須回到人類手中。
數據描繪出的台灣 AI 使用圖像如下:學術研究與寫作相關任務合計佔 17.3%,若納入翻譯需求(8.5%),超過四分之一(25.8%)的使用場景與學術工作直接相關。
軟體開發以單一類別 14.7% 居首,其餘學術子類別各自落在 8%–9% 區間,顯示 AI 在學術場域的滲透率已具規模,但距離大眾化仍有距離,符合 Everett Rogers(2003)創新擴散理論中「早期大眾」的特徵。
七階段工作流程:不是工具清單,是一套邏輯架構
黃意植博士提出的框架核心,是將一個完整研究過程拆解成七個模組,每個模組都明確劃定人類與 AI 各自的職責:
| 階段 | 名稱 | 人類負責 | AI Agent 負責 | 產出 |
|---|---|---|---|---|
| 0 | 研究規劃與 Agent 設定 | 定義研究問題、決定資料來源 | 協助結構化思考、建立文件架構 | 研究提案、專案架構 |
| 1 | 文獻蒐集 | 定義搜尋範疇、驗證相關性 | 執行搜尋、整理文獻清單 | 結構化文獻資料庫 |
| 2 | 文獻分析 | 理論詮釋、驗證分析結論 | 主題分析、研究缺口辨識 | 文獻分析報告 |
| 3 | 資料理解與探索 | 理解資料語意、定義分析方向 | 讀取資料、描述統計 | 資料結構文件 |
| 4 | 資料分析與視覺化 | 定義分析問題、詮釋結果 | 執行分析、產生圖表 | 分析結果與圖表 |
| 5 | 論文寫作 | 審閱內容、理論詮釋 | 草擬各章節 | 論文草稿 |
| 6 | 文獻管理 | 補充缺漏資訊、確認格式 | 擷取引用、格式化參考文獻 | 參考文獻清單 |
這個設計的關鍵不在七個數字,而在三個底層原則:任務模組化(每個節點有明確的輸入、處理程序與輸出)、人機分工(人類負責「判斷型」任務,AI 負責「執行型」任務)、可驗證性(所有 AI 輸出必須經人類審查,Git 版本控制追蹤所有修改歷程)。
這三個原則直接對應了現有流程的弱點。過去研究者使用 AI 的方式,多半是「單點介入」:在某個節點問 AI 一個問題,得到答案,繼續往下走。黃意植博士的設計則把 AI 嵌入整個研究過程的骨架,讓每個階段的輸出成為下一階段的輸入,並在每個連結節點設置人類審查關卡。
前者把 AI 當計算機使用;後者把 AI 納入生產線設計。這個差距,決定了研究品質能否被有效管控。
在實際操作中,黃意植博士歸納出三種人機協作的運作模式,分布於不同階段與任務類型:
| 操作模式 | 特徵 | 人類認知投入 | 常見於 |
|---|---|---|---|
| 直接執行 | Agent 根據明確指令獨立完成任務,人類僅需確認輸出 | 低 | 資料讀取、圖表生成、文獻格式整理 |
| 迭代精煉 | Agent 初步輸出後,經人類多輪審查與修改 | 中 | 圖表呈現調整、資料結構釐清 |
| 人主導 | 分析方向與判斷邏輯由人類決定,Agent 僅負責執行 | 高 | 研究問題定義、理論詮釋、文獻真偽驗證 |
三種模式並非優劣之分,而是對應不同任務性質的合理配置。值得注意的是,「人主導」模式貫穿全部七個階段,即便在結構最清楚的資料分析階段,關鍵的語意判斷仍無法省略。
89% 的時間節省,背後藏著一個反直覺的數字
據黃意植博士對 AEI 台灣子樣本的分析,研究中最搶眼的數據,是台灣用戶在 AI 輔助下的任務完成時間。中位數從純人工的 105 分鐘壓縮至 12 分鐘,時間節省率約 89%。以均值估算,則從 3.55 小時降至 18.7 分鐘。
這個數字的實務含義是:假設一位人文社科研究員每日有三項可被 AI 輔助的結構性任務(文獻翻譯、資料整理、格式編排),以中位數估算,每天可以釋放約 4.65 小時的認知資源。
同一批資料也揭示了另一個較少被引用的數字:82.9% 的任務「人類可以獨立完成」。這個數字與 89% 的時間節省率之間存在明確張力:AI 大幅壓縮時間,但絕大多數任務人類根本不需要 AI 也能完成。
這組對比是黃意植博士論文中最值得細讀的部分。他引用 Brynjolfsson 和 McAfee(2014)「第二次機器時代」的「增強」視角來詮釋:AI 的核心價值不是替代能力,而是擴展研究者的分析半徑,讓有能力做到的人用更少時間做到,從而把節省下來的認知資源導向 AI 目前仍無法觸及的工作:理論建構、田野觀察、跨學科對話。
AI 幻覺:格式完整的假論文,才是最危險的假論文
整篇研究中,最具操作警示意義的是「文獻蒐集階段的失敗案例紀錄」。
在階段 1,黃意植博士要求 AI 蒐集近三年相關學術文獻,列出作者、年份、期刊與摘要。AI 回傳了 15 筆文獻,格式完整,作者名稱是真實活躍的學者,期刊名稱真實存在,但其中兩篇論文從未被發表過。
這是 AI 幻覺最難偵測的類型。不是語言邏輯錯誤,不是數字捏造,而是「高度擬真的組合式虛構」:AI 用統計規律把真實作者、真實期刊、相關主題組合成一篇「應該存在但不存在」的論文。
黃意植博士在論文中完整記錄了四步驟回收流程:發現異常 → 診斷詢問(明確要求 AI 承認而非補充其他文獻)→ 設定驗證約束(要求 AI 提供 DOI 連結)→ 實時核驗 DOI。研究確認:要求 AI 提供可驗證錨點(例如 DOI),是目前降低幻覺風險最有效的操作機制。
這個案例的方法論含意很清楚:Agentic Workflow 進入學術場域,文獻清單不能抽樣驗證,必須逐一核查,因為幻覺引用的外觀可信度遠超過隨機錯誤。
判斷無法外包:四個人類不可替代的節點
黃意植博士根據七個階段的操作紀錄,歸納出四類人類判斷功能。
首先是研究問題定義方面,「什麼值得研究」是價值判斷,而非技術操作。決定聚焦台灣學術場域的 AI 使用模式,需要研究者對台灣學術生態與研究缺口的理解,這種判斷無法被委託。
第二,在理論詮釋方面,把 82.9% 的人類獨立完成率詮釋為「增強而非替代」的證據,需要研究者深度理解人機協作理論與技術採用理論。AI 可以把文字組合得像理論分析,但它不知道自己引用的框架是否適用。
第三,脈絡化判斷方面,AEI 資料呈現全球標準化指標,但台灣學術環境的特殊性(評鑑制度、資源配置、中英雙語需求)需要本地化脈絡理解。翻譯需求佔台灣用量的 8.5%,這個數字本身就需要對跨語言學術生產的理解才能詮釋。
最後,研究倫理反思方面,坦誠揭露研究限制、透明說明 AI 使用範圍、對資料詮釋保持謙遜態度,這些學術倫理實踐取決於研究者的專業判斷與道德責任感,AI 無法代為承擔。
黃意植博士的這個實驗,留下了一個值得整個學術社群持續追問的問題:當 AI 可以將資料處理效率提升九倍,研究者省下來的時間,是真的投入到更難、更重要的問題裡,還是只是用來生產更多論文?
延伸閱讀:XXXXX
資料來源:From Labor to Collaboration: A Methodological Experiment Using AI Agents to Augment Research Perspectives in Taiwan's Humanities and Social Sciences(黃意植,2026,arXiv:2602.17221)
本文初稿為AI編撰,整理.編輯/ 李先泰
