一年前,商業寫作平台 Every 創辦人 Dan Shipper 在 Lenny's Podcast 上丟出一個當時聽起來有點怪的判斷:大家低估了 Claude Code 用在「非寫程式」工作上的潛力。
一年後回看,這個方向確實被更多人討論,編碼代理不只拿來寫程式,也開始被拿來整理文件、處理資料、協助日常工作。於是他又回到同一個節目,這次帶來的預測,其中好幾個都站在當前主流敘事的對立面。
最反骨的一個是:AI 失業末日不會發生。
這個判斷的份量,要先放回它的脈絡才看得懂。當下產業圈、資本市場,確實有不少人用「benchmark 分數快速上升」推導出「人類工作即將被大規模取代」。
Shipper 在訪談中提到一個常被引用的數字:模型評估機構 METR(Model Evaluation and Threat Research,專門測 AI 自主能力的研究單位)的測驗顯示,最受關注的大型模型已能以 50% 的準確率,自主執行長達 17 小時的任務。
乍看之下,人類被晾在一旁似乎只是時間問題,但其實不然。
Shipper憑什麼樂觀?
Shipper 的反證,來自他自己搭的一個測驗。
他用 AI「vibe code」(憑感覺、全程靠 AI 寫)做了一個叫 Proof 的線上編輯器,結果上線後伺服器每隔十分鐘就當機,他怎麼修都修不好,還因為連續熬夜操作得了「vibe coder 手肘滑囊炎」。最後他找了兩位資深工程師,各自獨立把程式碼重寫一次。
這兩份人類重寫的版本,成了他的標準答案。此後每出一個新模型,他就丟同一道題:「這是 vibe code 出來的爛東西,如果要你從第一原理重寫,你會怎麼寫?去做。」
他在訪談中說,GPT-5.5 之前的所有模型都只拿到大約 30 分(滿分 100),而人類資深工程師約落在高 80 到低 90 分。直到 GPT-5.5 才跳到約 62 分,而且還是搭配 Anthropic Opus 4.7 擬的計畫才達到的成績。
差別不在聰明,在「敢不敢」。Shipper 觀察,GPT-5.5 是第一個有足夠決斷力、敢直接「撕掉舊程式碼、從頭重寫」的模型;其他模型接到「這裡有幾個 bug,去修」的指令,就真的只乖乖去修那幾個 bug,在邊緣補丁,不會跳出來說「這整套架構爛掉了,得重來」。
他由此推出一個更難被 benchmark 衡量的觀點:benchmark 只能在「人類已經把問題定義好、能打分」的題目上爬升。但「察覺這裡有問題、想到該怎麼把它寫成一道題去問 AI」 這個動作本身,無法被測量,卻是真正的人類工作。
換句話說,就算 benchmark 全部飽和,也不等於資深工程師被取代,這也是他至今仍持續聘工程師的原因。
「自動化是個謊言」:每個代理都需要一個在乎它的人類
這套邏輯延伸出他第二個反共識判斷:自動化是個謊言。
Shipper 的意思不是自動化沒用,而是 「每次你自動化一件事,為了確保它運作良好,你就需要一個人類在上頭盯著」。
他援引自己幾年前提出的「配置經濟(allocation economy)」概念:人與 AI 共事的方式像當經理,而真正的經理並不是躺在海灘上,他們花大量時間在盯進度、修問題、確認方向。
這個「人類連結」的需求,直接改寫了他對 AI 代理架構的看法。OpenClaw(一種人人可用的開源代理平台)剛紅時,Every 全員採用,Shipper 一度深信未來是「每人一個代理」的平行影子組織,他甚至用《黃金羅盤》裡的守護精靈來比喻這種「代理是你靈魂的延伸」。
但他後來完全翻轉:實際上能運作的是「一家公司一個超級代理」,Shopify 有一個叫 River 的代理,Ramp 也有一個。
原因很實際:個人代理維護太麻煩,常壞、要自己 SSH 進伺服器排錯,多數人根本不想花這時間。一旦沒人照顧,代理立刻失效。所以企業的解法變成:設一個「前進部署工程師(forward deployed engineer)」類型的人,專門負責讓那個公司級代理為全員運作。
Shipper 認為這是 AI 時代最關鍵的新角色,諷刺的是,「自動化本該消滅工作,結果卻創造了一種、甚至很多種新工作」。
為什麼他看好 PM 和設計師
來到最受用的部分:誰會是贏家?Shipper 的答案是 PM 和全端設計師,理由值得拆開看。
他用 Every 內部一位叫 Marcus 的人當例子。Marcus 是 PM 出身,曾在 Axios 負責寫作產品、做到數千萬美元營收,後來休息一年、變得極度擁抱 AI,學會了用 Cursor(現在改用 Claude Code)。
Shipper 形容他「輕度技術」,知道什麼是資料庫遷移、看得懂程式碼,但不是工程師。一年前,Every 根本不可能雇他來做現在這份工作;但編碼模型夠好之後,他得以把有限的技術底子,和他真正的強項:「尖銳的產品直覺、對寫作和使用者的敏銳度」結合起來,出貨速度比團隊幾乎所有人都快,而且不必再去組一整支團隊。
這裡的邏輯是:AI 把「建造」這件苦工做完了,剩下的價值落在「決定要建什麼、判斷好不好、要解決哪個問題」。而這恰恰是 PM 的本職。
全端設計師同理。過去設計師做出漂亮的互動,常卡在工程師不想做或做不對;現在他們能自己把想法直接建出來、直接發 pull request,不必再交接。
Shipper 點出一個關鍵差異:用 AI 隨手生成的東西全都長一個樣(業界戲稱 slop),而設計師能做出「長得很不一樣」的東西。當預設選項被商品化,創意就更值錢。
這正是他整套樂觀論的核心機制:模型做的事,是「讓昨天的人類能力變便宜」。人人都能做 landing page,於是到處都是長得一樣的 landing page;人人都能寫,於是到處是 slop 推文。
簡單來說,因為大家用同一批模型、用最預設的方式,產出全部趨同、被商品化、不再值錢。人類的工作,就是拿這些「冷凍的昨日能力」去做出新的、有趣的、還沒被做過的東西。
冷靜潑一盆水
Shipper 的預測讀起來很提神,但有一道張力他自己也沒完全迴避:他的許多觀察,來自一個極端不具代表性的樣本。
Every 是一家約 30 人、全員都是 AI 早期採用者的公司,從編輯到客服都在用 Codex、Claude Code 工作,內部跑著六個軟體產品,而且因為扮演「AI 評測者」角色,能比別人更早拿到內測模型。
Shipper 自己也承認,很多公司「限制員工使用最新模型」,員工可能得用下班時間偷偷試。一個由布魯克林 30 個 AI 狂熱者構成的實驗室裡成立的規律,能不能外推到一家有上萬員工、IT 部門層層審批的傳統企業,是這套預測最大的問號。
連他看多的角色也帶著但書。他做就業市場研究時發現,設計師職缺數其實一直沒成長,他自己都在等,「看這會不會變成趨勢」。也就是說,「設計師是大贏家」目前還是一個基於內部觀察的判斷,尚未在公開的人力市場數據上得到印證。
不過,他結尾收束的那個畫面,仍值得焦慮於 AI 的工作者參考。他把人對 AI 未來的想像,比作中世紀人對地平線盡頭的恐懼:那裡有龍嗎?會掉進虛無嗎?而真正走到那裡的人會發現,「有些很酷的東西,有些不酷的東西,然後又是另一條地平線」。
同時,一切都變了,也什麼都沒變。SaaS 還在、email 還在、Slack 還在,但每個角色的內容都被翻新了一遍。
如果他是對的,那麼在這條地平線上活下來的方法,簡單到近乎樸素:駕馭模型(ride the models)。新模型出來就拿來試,把它用在你真正在乎的事情上,找到那個「哇,它居然幫我做到了」的瞬間。
先別急著怕被取代,先去找到跟它一起工作的樂趣。
資料來源:Lenny's Podcast — The AI paradox: Dan Shipper、YouTube 訪談影片
本文初稿為AI編撰,整理.編輯/ 李先泰
