如果你是會計、律師、行銷、PM,過去想做一件「需要寫點程式」的事,標準答案是:找工程師,或自己學。
現在 Anthropic 用 40 萬次真實對話的資料告訴你,這個前提可能正在鬆動,而鬆動的方式跟多數人想的不太一樣。
6 月 16 日,Anthropic 發表研究報告《Agentic coding and persistent returns to expertise》(agentic coding 指「交辦式寫程式」,你下指令、AI 自己讀檔案跑指令把事做完)。
報告分析 2025 年 10 月到 2026 年 4 月、約 23.5 萬名使用者、約 40 萬次 Claude Code 互動對話,它想回答一個很多人焦慮的問題:沒受過正式程式訓練的人,真的能指揮 AI 完成複雜技術工作嗎?
報告給的答案是肯定的,但真正值得注意的,是報告的結論:會不會寫程式沒那麼重要,而「懂不懂你手上那件事」反而更重要了。
「人人都能寫程式」,這句話只對了一半
過去一年,「vibe coding」(憑感覺寫程式,你用自然語言描述想要什麼,AI 直接生出能跑的程式碼,你不必真的看懂每一行)紅遍開發圈。順著這股風潮,最常見的敘事是:寫程式的門檻被夷平了,人人都是工程師。
這個敘事對誰最有利?對 AI 工具廠商、對「不必再請工程師」的老闆,都是好故事。但報告的資料把它修正成一個更務實的版本。
Anthropic 替每次對話的使用者,依據逐字稿在「新手到專家」五個等級上評分。要注意,這個專業度跟職稱、跟一個人聰不聰明是兩回事,而且是任務特定的。
報告舉了一個關鍵例子:一個從沒用過 Python 的會計,只要能明確告訴 Claude 對帳規則該怎麼設、還能在月結時抓出 AI 漏掉的邊界錯誤,他在那個任務上就是專家;反過來,一個資深工程師第一次問 Rust 語言的問題,他就是新手。
換句話說,這裡講的「專業」不是會不會 coding,而是你對「要解決的問題本身」懂多少。這也是為什麼把報告滑坡成「人人都能取代工程師」會讀錯,領域知識本身就是一種需要長年累積的專業判斷,它沒有消失,只是換了個位置變成瓶頸。
分工長什麼樣:你出題,AI 答題
報告最清楚的一張圖,是人與 AI 的決策分工。Anthropic 把每個決策拆成「規劃」(做什麼、用哪種方法、怎樣算完成)和「執行」(改哪個檔、寫什麼程式、用哪種語言)。結果是:平均而言,人做了約 70% 的規劃決策,Claude 做了約 80% 的執行決策。
白話說,人負責出題與驗收,AI 負責動手。而且使用者愈內行,這個分工愈傾向「放手」:報告發現,新手的每一句指令平均觸發 Claude 約 5 個動作、產出約 600 字;專家的每句指令則觸發約 12 個動作、約 3,200 字。內行人敢一次把更大塊的事交出去,因為他知道怎麼描述、也知道怎麼驗收。
這是這份報告第一個反直覺的地方:AI 愈強,內行人的槓桿不是縮小,而是放大。
真正拉開差距的數字,藏在成功率裡
Anthropic 用兩種方式衡量「這次對話成功了沒」。最寬鬆的是「至少部分成功」;最嚴格的叫 verified success(核實成功,意思是不只 AI 自己判斷有完成,還要有 git 提交、測試通過、或使用者明確認可這類看得到的硬證據)。
照最嚴格的標準看:新手對話的核實成功率只有 15%,中階到專家則跳到 28% 到 33%。寬鬆標準下,新手 77%、中階以上 91% 到 92%。
但這裡有個細節,報告特別強調:大部分增益集中在「新手變中階」這一段,從中階再爬到專家,曲線就平掉了。用報告的原話,只要對一個領域有基本掌握、能上手的程度,就能拿到大多數好處,深度精通只多一點點。
差距還體現在「卡關時誰撐得住」。當對話遇到麻煩(報錯、測試失敗、反覆嘗試),新手有 19% 直接放棄、一行程式都沒寫;其他人放棄率只有 5% 到 7%。報告的詮釋是:把 AI 導回正軌的能力,本身就是專業的一部分。
一個被低估的發現:職業差異,比你以為的小很多
如果寫程式背景真的那麼關鍵,那軟體工程師應該大幅領先才對。資料不是這樣。
在會產生程式碼的對話裡,軟體相關職業的核實成功率約 34%,其他職業約 29%,只差 5 個百分點,而且這個差距七個月來沒有擴大也沒有縮小。
報告統計了資料中前十大職業,每一個的成功率都落在軟體工程師的 7 個百分點以內。更反直覺的是,管理職的核實成功率甚至略高於軟體工程師。
報告自己給了兩個可能解釋:一是管理者「指揮、交辦、定義任務」的技能本來就能轉移到指揮 AI 上;二是衡量方式的偏誤,因為核實成功部分仰賴使用者在對話裡明講「對,就是這樣」,而管理者可能比較習慣把話講清楚。
這七個月還有一組變化值得看:花在 debug(抓蟲、修壞掉的程式)的對話占比,從 33% 一路掉到 19%,幾乎砍半;相對地,operating software(部署、設定、實際把軟體跑起來)從 14% 升到 21%,寫作與資料分析從約 10% 翻倍到約 20%。
報告用「對照接案市場行情」的方式估算每次任務的價值(它特別聲明這只是相對比較,不該被當成精確金額),結果是平均任務價值在這段期間上升約 27%(報告摘要另寫約 25%)。
這份報告沒說、但更該想的事
這份報告有它老實承認的限制:它看不到真實世界的結果,無法得知一次對話寫出來的程式碼後來到底有沒有被用;它也排除了「非互動式」用法(例如把 Claude Code 嵌進自動化流程),而那是相當大一塊。所有分類都來自模型讀逐字稿的判斷。所以這是一張「早期快照」,不是定論。
更值得知識工作者放在心上的,是報告結尾埋的那個提問。Anthropic 說,他們會持續追蹤一件事:如果「領域知識的回報」哪天開始下降,那就代表模型開始能自己供應使用者目前還得自己帶進來的那種判斷力。
這份報告的啟示是:你不必為了「不會寫程式」而焦慮著去補一門程式課,更划算的投資,是把你本來就在做的那個領域弄得更透、把「什麼叫做對」說得更清楚。
先把問題想清楚,再交給 AI 加速;先能驗收,再敢放手。
資料來源:Anthropic — Agentic coding and persistent returns to expertise
本文初稿為 AI 編撰,整理.編輯/李先泰
