AI搶工作的討論,近年來可說沸沸洋洋。不過,AI處理各種任務的能力,真的比人類工作者厲害嗎?近日便有研究團隊發布報告,比較48名人類員工和4款AI代理的工作流程與完成工作的能力。
這份名為《AI代理如何執行人類工作?比較AI與人類在不同職業中的工作流程》(How Do AI Agents Do Human Work?Comparing AI and Human Workflows Across Diverse Occupations)的研究由卡內基美隆大學、史丹佛大學的多位學者共同提出,針對涵蓋資料分析、工作、計算、寫作與設計等5個領域總計16項任務,例如撰寫職缺內容、分析股票、更新開發文件等,研究人類與AI代理的工作流程及結果差異。
研究中使用到的4種AI代理框架分別是:
1. ChatGPT Agent
2. Manus
3. 開源AI代理平台OpenHands Agent(由GPT-4o驅動)
4. 開源AI代理平台OpenHands Agent(由Claude Sonnet 4驅動)
這份研究希望透過直接對比人類與AI代理的工作流程,深入了解AI代理的優勢及限制,為人類與AI協作的未來提供指引。
AI工作速度比人類快近9成、成本少9成,卻犧牲了品質
從結論說起的話,AI代理完成任務的速度遠較人類工作者為快,整體快上88.3%之多。而且成本也極為低廉,如果使用的是開源AI代理(OpenHands),執行任務成本比低90.4到94.2%。
但這代表AI比人類更能勝任各種職場工作嗎?不完全如此。儘管AI處理工作的速度與成本遠勝人類員工,這樣的成果卻是建立在相對較低的成果品質上。
該研究指出,AI代理的工作成果品質明顯低於人類,成功率比人類低上32.5%至49.5%,37.5%的資料分析任務中出現計算錯誤,且AI代理本身缺乏視覺感知能力,在需要從圖像提取資訊,或者審美判斷的任務上都表現不佳。
更糟糕的是,AI代理會捏造數據得出看似合理的結果,來掩蓋自己無法解析某份文件或數據的事實。又或者因為無法讀取用戶提供的檔案,轉而在網路上搜尋資料填補,這可能導致資料不準確。
什麼任務都靠程式解決,成AI雙面刃
而AI代理執行任務極為快速、成本低廉,以及品質較低的成果,與AI採取極度程式化的方式處理任務有關。
無論接手什麼任務,AI代理都是透過寫程式處理。人類員工在任務的不同階段可能會交替使用Jupyter Notebook、Excel、Power Point等工具,而AI代理可能自始至終都在編寫Python腳本。具體來說,AI代理在研究中透過寫程式解決93.8%的任務。
以寫程式的方式執行任務固然有很多好處,例如用Python處理數據遠比Excel迅速、大幅縮減了工作步驟。人類平均解決單一任務需要981.1的動作步驟,而AI代理僅僅只要33.8個步驟,因為程式碼可以一次執行多個複雜任務。
但並非所有任務都適合用程式解決,例如設計或行政相關的非結構化工作,AI代理仍會一味地利用程式去解決,自然容易在工作成果中產生重大缺陷。在設計任務中AI代理雖然具備與UI互動、編輯圖像的能力,仍然選擇透過程式碼編輯。
而且,人類的資料或文件通常傾向於使用UI便利的格式,例如.pptx、docx等常見的文件格式,但AI代理更傾向於適合程式處理的格式,例如Markdown或HTML,硬是轉換格式容易出現問題,也是AI代理工作成果品質較低的原因之一。
人類與AI分工合作,才能發揮彼此優勢
透過這次研究的發現,研究人員認為人類與AI代理在執行任務上各有優缺,人們應該依照彼此的優勢進行分工,人類負責處理涉及視覺處理或專業判斷的工作,並將適合程式處理的任務交給AI代理,發揮它快速、低成本的優勢。
例如在一個資料分析協作案例中,人類先瀏覽檔案挑出需要的資料文件,並將分析工作交給AI代理,這樣分工合作的方式比人工單獨作業要快上68.7%,並且維持了資料準確。
研究中形容,AI就像是個萬事只會用鎚子解決的工程師,而人類是懂得運用多種不同工具的工匠,要達到高效且高品質的成果,需要結合兩者優點分工合作,讓工程師(AI)處理可量化、程式化的部分,並由工匠(人類)處理其餘部分,才能得到比AI代理或人類單打獨鬥更好的結果。
資料來源:How Do AI Agents Do Human Work?
