重點一:2025年初AI工具讓資深開源開發者生產力下降19%,顛覆普遍預期。
重點二:研究採用嚴謹隨機對照試驗(RCT),直接測量AI在真實軟體開發情境的影響。
重點三:研究結果與AI基準測試及開發者主觀經驗存在顯著差異,凸顯評估AI效益需多元視角。
生成式AI近年有越來越「聰明」的趨勢,不少企業甚至因為導入AI而縮減組織人員規模。但對於公司行號來說,真的只要「無腦導入AI」,就可以讓生產力大躍升嗎?答案可能沒這麼簡單。
7月10日,一項由非營利研究機構METR(Model Evaluation & Threat Research)主導的研究顯示,2025年初問世的AI工具,包括Cursor Pro與Claude 3.5/3.7 Sonnet等前沿模型,實際應用於資深開源開發者日常開發工作時,非但未能提升生產力,反而導致效率平均下降19%。
這份研究的隨機對照試驗(Randomized Controlled Trial, RCT)結果,狠狠打臉產業普遍認為「AI將大幅加速軟體開發」的主流觀點。白話來說,就是強制相對資深的老手工程師使用AI,反而可能拖累他們的工作速度。
問題是,為什麼有如此反直覺的結果?是在使用AI的過程中,出了什麼差錯嗎?
拖累老手工程師的5大潛在原因
為深入分析AI工具對軟體開發生產力的實際影響,研究團隊招募了16位長期參與大型開源專案(平均22,000顆GitHub星、百萬行程式碼)的資深開發者,針對246個專案真實議題(如錯誤修復、功能開發、程式碼重構),隨機分配為「允許使用AI」與「禁止使用AI」兩組。
若被分配到「允許使用AI」的組別,開發者可自由選擇AI工具(主要為Cursor Pro搭配Claude 3.5/3.7 Sonnet)。同時,開發者在執行任務時全程錄影,並自行回報所需的總實作時間,並比較同一批開發者在「無AI輔助」下完成任務的時間差異,並排除潛在實驗偏誤。
受試者在實驗前普遍認為,AI能讓他們加快24%進度,即使在實驗過後,仍普遍認為允許使用AI可讓實作時間縮短20%。但研究數據卻顯示,實際上允許使用AI反而讓完成時間增加了19%。 也就是說,這些軟體工程老手在使用AI工具時,反而變慢了。
根據研究結果,這些老手「被AI拖累」的原因有以下五點:
- AI工具使用流程增加額外步驟 :開發者在與AI互動、理解AI回應、驗證建議內容時,會花費額外時間。
- AI建議需反覆修正 :AI產生的程式碼或建議往往不完全符合專案需求,開發者需多次修改、整合或重寫。
- 高品質標準下AI表現有限 :在大型、成熟的開源專案中,對程式碼品質、測試、文件等要求高,AI生成內容較難一次達標,需人工補足。
- 隱含需求難以明確傳達給AI :專案中有許多隱性規範或背景知識,AI難以完全掌握,導致開發者需花時間解釋或修正。
- 學習與適應成本 :即使開發者已有AI工具經驗,仍需適應新工具或新工作流程,短期內可能降低效率。
要說明的是,參與者雖有AI經驗,但其實多數僅使用Cursor數十小時經驗而已。 因此可以說,有經驗老手若還不太熟悉使用AI編程工具如Cursor,在他們熟悉的領域內,其實不用AI的效率反而更好。
因此可以說,現在企業普遍認為「導入AI必能提升生產力」的假設,其實有待商榷。
結論:無腦導入AI可能弊大於利
總結來說,這項研究的最大發現是,即使已經是程式開發老手,光是嘗試使用所謂Vibe Coding工具本身就一種全新的技能,這種與AI協作進行軟體開發的實作,相較以往是具顛覆性的,企業主在導入相關AI工具時仍需考量團隊及專案得適切性,否則很可能只是搞的團隊人仰馬翻,甚至錯估導入AI的成效,最可怕的是誤殺忠良,讓有能力的工程師被誤會「不懂AI」。
但不要誤會了。這份研究是針對「老手工程師」對於「使用AI工具」的評估,因此無法代表所有開發者或不同類型專案。同時,研究僅針對開發者在自己熟悉的專案中處理真實議題,故結果也不適用於新手、跨領域協作或陌生專案等情境。
另外值得注意的是,部分開發者獲知實驗結果後反映,使用AI工具讓開發過程更有趣或更具互動性,即使未提升效率,仍願意持續嘗試,為未來更強大的AI系統做準備。
看到這邊,還認為AI是效率萬靈藥嗎?如果是,你可能需要好好想想。
責任編輯:李先泰