#19 AI 正在衝擊各種白領工作,但發展極不平均
AI 最擅長做哪些事情?哪些又最有經濟價值?
過去這三年多來,「AI 將如何取代人類的工作?」始終是個熱門的大哉問。近期,a16z 發佈了一篇「AI Adoption by the Numbers」文章,我個人覺得頗有參考價值。a16z 在文章中,從「AI 比人類擅長做哪些事」(AI vs. 人類專家的勝率),以及「AI 做什麼最有經濟價值」(企業願意投資哪些 AI 應用)兩個面向來拆解。
我的這篇「閱讀(超譯)筆記」分為兩部分。第一部分,是 a16z 文章中,關於 AI 在各個職業中與人類的比較,我的個人想法分享。在我開始工作、媒體原生的履歷中,自認「編輯性格」是內建在我體內的作業系統,而在 a16z 的分析架構下,「編輯」是 AI 比人類做得最好的職業?!第二部分,就附上原文的繁中翻譯,因為原文作者有十分精要且嚴謹的推論與思考脈絡,實在就不用我的「超譯」了。
a16z 整理的 GDPval 評測,對比 2025 年 9 月與 2026 年 4 月 AI 模型在 43 個白領與服務業職業上,排名最高的 AI 模型相對於人類專家的勝率。
我覺得這張圖表,可以從以下五個角度來看待:
1. 整體速度——半年內的大躍進是常態
中位數進步約 12%~15%,幾乎所有職業都在往右移。半年前 30%~40% 區間的職業,現在多半站上 50%~60%。
爆發型案例:證券與金融服務銷售員 42%→73%(+31%)、工業工程師 17%→44%(+27%)、社工 42%→69%(+27%)、警察基層主管 49%→76%(+27%)、房仲業務 36%→60%(+24%)。
這不是線性微調,而是低基期職業一次跨過可用門檻,代表模型在半年內補齊了大量領域知識與流程推理。
2. 產業分類——同一個產業內部落差極大
房地產:第一線的櫃檯(81%→82%,+1%)已到天花板,但需要談判與文件整合的經紀人(54%→67%,+13%)和業務(+24%)仍在高速追趕。
製造業:工程師類大漲(工業 +27%、機械 +19%),但第一線生產主管 58%→58% 完全停滯,採購(+12%)居中。代表模型擅長計算與設計優化,不擅長現場人員調度。
專業服務:會計師(+18%)、專案管理(+22%)、軟體開發(+12%)齊漲,唯獨律師從 46%→36%(-10%)。法律是唯一在知識工作者中倒退的,暗示評測加重了判例推理與責任歸屬,而非單純檢索。
3. 天花板效應 vs 低基期紅利
已經超過 70% 的職業,進步幾乎停滯:櫃檯租賃員 +1%、出貨庫存員 +2%、法遵人員 +2%、銷售經理 +1%、私家偵探 -1%。代表模型在結構化、重複性任務上早已飽和。
相反,起點低於 30% 的職業漲幅最兇:工業工程師、影視剪輯(17%→33%,+16%)、藥師(26%→38%,+12%)、訂單文員(28%→40%,+12%)。這是典型的「補課效應」,模型剛學會該領域的語言和工作流程。
4. 退步的七個職業透露評測在變難。負成長不是隨機,集中在「管理判斷」與「受監管決策」:
醫療與健康服務主管 65%→38%(-27%)——全表最大跌幅。
律師 -10%、批發非技術銷售代表 66%→56%(-10%)。
綜合營運經理 67%→62%(-5%)、辦公室行政主管 41%→38%(-3%)、理財顧問 64%→62%(-2%)、私家偵探 -1%。
這很可能反映 GDPval 在 2026 年版本加入了更多真實世界 Trade-off、倫理與法規情境。模型可以寫文件,但當題目變成「誰要負責」、「風險如何分配」,分數就掉下來。
5. 對工作部署的實務意涵
可自動化的前線:編輯(93%)、批發非零售主管(87%)、軟體開發(82%)、櫃檯租賃(82%)已進入「AI 優先,人類覆核」區間。企業會先在這裡省人力。
正在跨越門檻的中段:房仲、專案管理、社工、警察主管都在 60%~70% 區間,代表 AI 可做 6 成標準作業,剩下 3~4 成需要人類判斷與關係管理。這是 2026 年最值得投資「人機協作流程」的戰場。
仍需人類背書的後段:律師、醫療主管、藥師、影視剪輯都還在 40% 以下。不是模型笨,而是人們對這幾個職業的錯誤容忍度極低。下一階段重點不會是準確率再 +10%,而是可解釋性、責任追溯與合規工具。
以下是 a16z 的文章全文翻譯。
AI 應用數據概覽:企業 AI 的實際應用領域
作者:Kimberly Tan(a16z Partner)
關於 AI 是否真正在大型企業中取得進展,市場上存在許多猜測。然而,現有的大多數資訊僅止於使用者自述或針對買家情緒的定性調查,而非硬性數據。此外,少數現有的研究甚至主張 AI 在企業端的表現不盡理想,最著名的是麻省理工學院(MIT)的一項研究,該研究聲稱 95% 的生成式 AI 試點計畫(Pilots)未能成功轉化為正式應用。
根據我們的內部數據以及與企業高管的對話,我們認為這個統計數字令人難以置信。我們一直在密切追蹤 AI 採用率最高、投資報酬率(ROI)最明確的領域,並彙整了關於企業 AI 實際運作情況的硬數據。
AI 在企業中的滲透率
根據我們的分析,名列 Fortune 500 強的企業中有 29%,以及全球 2000 強(Global 2000)中有約 19% 的企業,已經成為領先 AI 新創公司的正式付費客戶。
要符合這項統計標準,這些企業必須與 AI 新創公司簽署由上而下的正式合約、成功完成試點轉化,並在其組織中正式上線該產品。
在如此短的時間內達到這種滲透程度是非常驚人的,因為 Fortune 500 強企業通常不被視為技術的早期採用者。歷史上,許多新創公司最初必須賣給其他新創公司以獲取早期動能,往往需要數年時間才能拿到第一份企業合約,且需花費更多收入與時間,才可能最終贏得 Fortune 500 強等級的客戶。
AI 顛覆了這個常態。OpenAI 於 2022 年 11 月推出的 ChatGPT,立即向消費者和企業展示了 AI 的潛力。此舉引發了一股前所未有的 AI 興趣熱潮,大型企業比以往任何時候都更願意在早期階段嘗試新產品。結果是:僅僅 3 年多後,將近三分之一的Fortune 500 強和五分之一的全球 2000 強企業已在組織內實施了真正的企業 AI 部署。
企業 AI 的有效應用領域
這些採用行為在哪些領域發生得最快?它又是如何對應到模型本質上更擅長處理的工作?
我們發現,最有效的評估方式是將「各個使用場景的收入動能」與「模型的理論能力」進行疊加。模型能力是根據 OpenAI 的 GDPval 基準定義的,該基準評估模型在現實世界中具備經濟價值的任務處理能力。這兩個因素共同封裝了模型「可能達到的高度」以及「目前正在交付的價值」,清楚說明了 AI 採用的現況、趨勢,以及即便模型能力成熟但採用率仍落後的「AI 滯後」領域。
企業 AI 目前在哪裡交付最多價值?
在收入動能方面,企業對 AI 的採用主要集中在一組明確的使用場景和產業中。程式開發(Coding)、客戶支援(Support)和搜尋(Search)佔據了絕大部分的使用場景(其中程式開發更是高出一個數量級),而科技、法律和醫療保健則是對 AI 採用最積極的產業。
1. 程式開發(Coding)
程式開發是目前 AI 領先的使用場景,規模較其他場景高出近一個數量級。從 Cursor 等公司的爆發式成長,以及 Claude Code 和 Codex 等工具的超高速成長中可以清楚看到這一點。這些成長速度超出了幾乎所有人的最樂觀預測,且 Fortune 500 強與全球 2000 強採用的 AI 工具中,絕大多數都集中在程式開發領域。
在許多方面,程式開發代表了 AI 的理想使用場景。程式碼是數據密集的,這意味著網路上有大量高品質的程式碼供模型訓練。它是基於文本的,便於模型解析;它精確且無歧義,具有嚴格的語法和可預測的結果。最關鍵的是它是「可驗證的」:任何人都可以運行它並知道其是否有效,這為模型提供了緊密的互動回饋,使其能不斷學習與改進。
從商業角度來看,這也是一個極佳的應用。我們一直從投資組合公司那裡聽到,其優秀工程師在使用 AI 程式開發工具後,生產力提高了 10 到 20 倍。招聘工程師一向困難且昂貴,因此任何能提高其生產力的工具都有明確的 ROI,而 AI 帶來的巨大提升創造了強大的採用動機。工程師通常也是要求頂級工具的早期採用者,且由於程式開發比大多數企業任務更具獨立性,他們更容易直接採用最佳工具,而不會陷入許多其他企業職能所面臨的協作與官僚體系泥淖。
此外,程式開發工具不需要 100% 完成任務就能產生價值,任何加速(如尋找漏洞、生成樣板程式碼)都能節省時間。由於程式開發具有緊密的人機協作工作流,開發者目前仍負責監督過程,這些工具在加速產出的同時,也保留了人類判斷進行審查、編輯和迭代的空間,既增加了企業信心,也讓採用路徑更加順暢。
2. 客戶支援(Support)
客戶支援位於與程式開發相對的天秤另一端。雖然軟體工程在組織中往往獲得最多的投資與關注,但客戶支援卻常被忽視。支援部門的工作通常屬於後勤、入門級別,且由於企業認為其管理過於繁瑣複雜,往往外包給離岸公司或業務流程外包(BPO)服務商。
AI 已被證明非常擅長處理這類工作,原因有幾點。首先,大多數支援互動是時間受限的,且具有明確意圖(例如:退款),能為代理程式輸出一個定義明確的問題。客戶支援也是少數職能任務被清晰定義的領域之一。支援團隊具有高業務量與高流動率,因此需要以快速且標準化的方式培訓新員工。為此,他們擁有明確的標準作業程序(SOP),這些 SOP 為 AI 代理程式提供了完美的建模規則。
客戶支援也是最容易證明 ROI 的職能之一。它基於可量化的指標運作:回覆工單量、客戶滿意度(CSAT)和解決率。任何將現狀與 AI 代理程式進行的 A/B 測試都會顯示對 AI 有利的結果:它能處理更多工單、提高解決率並改善客戶滿意度,且成本更低。
3. 搜尋(Search)
最後一個具有明顯企業市場需求的橫向類別是搜尋。ChatGPT 的主要使用場景本身就是搜尋,因此搜尋的影響可能已深度嵌入 ChatGPT 的收入與使用中,且在這裡可能被大幅低估。
AI 搜尋是一個極其廣泛的類別,已促使許多獨立的大型新創公司湧現。企業內部的主要痛點之一,是讓員工能在分散的系統中定位並提取相關資訊。Glean 已成為此類用途的主要供應商。許多大型產業也基於特定的行業資訊(包括內部與外部)運行,像 Harvey(始於法律搜尋)和 OpenEvidence(始於醫療搜尋)等公司,已圍繞該核心功能成功建立業務。
重點產業分析
科技業(Technology): 到目前為止,科技業是採用 AI 最普遍的產業。ChatGPT 報告其 27% 的商務用戶來自科技業,而 Cursor、Decagon 和 Glean 等公司的早期客戶多為科技公司。這並不令人驚訝,因為科技業向來是早期採用者,也是催生這一波 AI 浪潮的產業。
法律業(Legal): 法律業令人驚訝地成為 AI 的第一批行動者。傳統上,法律市場被認為軟體銷售難度高、週期長,且買家較不親近技術。這是因為傳統軟體對律師價值有限,但 AI 在解析密集文本、對大量文本進行推理以及起草回應方面的卓越能力,與律師的日常工作高度契合。Harvey 在成立 3 年內即報告了約 2 億美元的年經常性收入(ARR),而 Eve 等公司已擁有超過 450 家客戶,並在去年秋季達到了 10 億美元的估值。
醫療保健業(Healthcare): 醫療保健是另一個對 AI 反應熱烈的市場。Abridge、Ambience Healthcare、OpenEvidence 和 Tennr 等公司在醫療轉錄(Scribing)、醫療搜尋或後勤自動化等特定場景中,收入成長極快。
關於分析的幾點說明
這些估算值僅為最佳估算值。它可能低估了各類別產生的收入金額,並高估了模型的性能。
我們可能低估了收入,因為:
收入分析完全基於哪些行業和用例已經足夠成功,能夠產生大型的、獨立的企業 AI 業務,而不包括其他新創公司正在解決的眾多用例。
這些市場中有許多規模較大的非新創公司也創造了可觀的收入(例如,程式碼領域的 Codex/Claude Code,法律領域的 Thomson Reuters 旗下的 CoCounsel),但我們的分析重點是獨立的新創公司。
我們的分析中闡述的許多工作任務可能已融入模型公司的核心產品中(例如 ChatGPT 和 OpenAI 的搜尋功能),但並未單獨列出並納入本次分析。
本次分析著重於企業級應用,而非消費者或專業消費者型應用。一些成功的企業(例如, 分別在應用程式生成和設計領域領先的 Replit 和 Gamma )擁有相當數量的企業用戶,但它們目前主要面向消費者或專業消費者。鑑於本次分析的重點是企業級 AI 及其價值所在,我們排除了以消費者為主導的應用。
在能力方面,衡量 AI 對不同經濟領域的影響極為困難,儘管許多經濟學家都在嘗試。工作本身就具有定義模糊和長尾效應的特點,這使得完全自動化變得極為困難。而且,目前尚不清楚企業能從部分自動化中獲得多少價值——如果 AI 只能完成人類 50%的工作,那麼那些無法自動化的任務的重要性可能會上升,因為它們會成為瓶頸,從而提升其相對價值。因此,我們可能高估了當前的能力水平,因為每提升 1% 的能力並不意味著就能轉化為 1% 的經濟價值,但了解相對能力以及它們如何隨著每個新模型的發布而改進仍然具有啟發意義。
AI 正在走向所有市場
這項分析衡量了頂級模型在 GDPval 基準下相對於人類專家的勝率。顯而易見,自 2025 年秋季以來,模型在具備經濟價值的任務處理上已顯著提升。
那麼,為什麼我們沒有看到所有在這項評估中排名靠前的行業,都擁有與其他行業相同的營收成長勢頭呢?
到目前為止,那些積極採用 AI 的行業有一些共同點:它們以文字為基礎,涉及重複性工作,自然需要人為干預以注入人類判斷,監管有限,並且最終輸出結果清晰可驗證 (例如,可運行的程式碼、已解決的支援工單)。許多行業並不具備這些特質。它們要嘛與現實世界打交道,要嘛嚴重依賴人際關係,要嘛需要與眾多利益相關者進行協調,存在監管或合規方面的障礙,要嘛缺乏可驗證的結果。雖然收入成長動能與模型能力之間存在明顯的相關性,但在模型能力理論上與人類相比勝率低於 50%的領域(例如法律領域),像 Harvey 這樣的公司,仍然能夠透過輔助法律工作的產品,迅速獲得市場份額,並隨著模型的演進不斷改進其核心產品 。
值得注意的是,模型能力正在快速提升。 在過去四個月中,多個領域的提升尤其顯著——會計和審計領域的 GDPval 值提升了近 20%,甚至像警務/偵查工作這樣的領域也提升了近 30%。我們預計這些飛躍將在相關領域催生出引人注目的新產品和公司。此外,模型公司已明確表示,它們有意提昇在具有經濟價值的核心工作中的能力,這些核心工作包括電子表格和財務工作流程、利用電腦解決遺留系統和行業中棘手的問題,以及對長期任務的顯著改進 ,這些改進開闢了全新的工作類別,而這些工作難以被分解成簡短易懂的小塊。
給開發者的啟示
了解企業從哪裡獲得價值以及他們如何看待投資回報率,以及哪些行業明顯受到吸引,哪些行業即將受到吸引,可以讓我們更清楚地思考 AI 開發者的機會在哪裡。
目前,服務科技、法律和醫療保健行業的買家顯然是一個充滿機會的領域,但我們認為每個領域都不會只有一個「贏家」。例如,在法律領域,律師的類型多種多樣——公司內部法律顧問、律師事務所、專利律師、原告律師等等——他們的工作流程和需求各不相同,而企業可以滿足這些不同的需求。醫療保健領域的情況也類似,因為該領域也存在著不同類型的醫生、醫療機構等等。
除了上述領域之外,另一個有成效的思考方式是關注那些能力日趨強大,但尚未出現營收突破性公司的領域。許多現有企業成立於模型能力真正解鎖產品之前,但它們已經建立了足夠的技術基礎設施和客戶/市場認知,因此在模型解鎖到來時,它們佔據了最大的優勢。
最後,關注各實驗室最新研究工作在經濟價值上的投入也至關重要。隨著長跨度代理程式(Long-horizon Agents)的快速進步、對電腦操作能力(Computer Use)的大量投入,以及針對文字以外模態(例如:試算表、簡報)可靠介面的研究,將會湧現一整類全新的新創公司,它們很快就能獲得所需的基礎設施,進而產出具實質意義的企業價值。
【以上內容,僅為個人閱讀心得與資訊分享,絕非任何投資、法律、職涯建議】








