#6（長文）網站聲明禁止使用網路爬蟲，仍要爬就一定違法嗎？

Lawsnote 與創辦人被重判四年刑期、罰金超過一億新台幣的另一個觀察角度⋯⋯

Jun 30, 2025

這幾天，有「法律界 Google」之稱的法律科技（LegalTech）新創 Lawsnote，因與老牌法學資料庫法源的官司一審宣判：Lawsnote 創辦人與公司被重判四年、合併罰金超過一億新台幣。引發新創圈、法律圈的高度關注與各個面向的討論。

什麼是網站爬蟲？幫助快速讀取資料的小程式／機器人

想像一下，如果要抄寫／閱讀上萬本數百頁的大頭書，以人工的方式，很可能一輩子都看不完。但如果有一個超級勤勞的小助手，可以 24 小時不停地幫忙抄寫／閱讀，而且速度比人快上數百、數千倍。網路爬蟲（Web Scraping）技術，大概就是這樣的概念。

簡單來說，網路爬蟲就是一種自動化程式，專門從網站上「搬運」資料。為什麼叫「爬蟲」？因為它就像蜘蛛一樣，在網路上四處爬行，可把遇到的資訊收集起來。

在數位產業中，這個可算是活化石等級的技術，從 Internet 進入商業化初期，就應用至今。第一隻網路爬蟲 WebCrawler 出現，可追溯至 1994 年。那時候整個 Internet 世界，大概還處於盤古開天的狀態，總共只有 2.5TB 的資料（現在光是訂購 Google One 進階版的方案，就提供 2TB 的空間），但就是這些簡單的小程式，奠定了現代搜尋引擎的基礎。

如果沒有爬蟲，就沒有搜尋引擎

可以這麼說，Google（母公司 Alphabet）如今市值超過 2 兆美元的商業版圖，或是我們經常使用的網路搜尋服務，就是建立在爬蟲技術上。搜尋引擎的運作，依賴三個關鍵階段：爬行（Crawling）、索引（Indexing）和排名（Ranking），而爬蟲正是第一階段的核心技術，Google 則是立足在這三個關鍵階段的基礎上，逐步建立起關鍵字搜尋廣告的業務，不斷壯大成今日的地位。

你能想像過去 20 幾年，當我們上網時，沒有 Google Search 或是其他任何數位內容搜尋的服務嗎？我無法。

各種網站或延伸而出的商業模式，有些非常歡迎大家用爬蟲來爬，也有些非常不歡迎。除了網站上的文字說明使用原則外，也會寫成 robots.txt 技術文件，用來規範如何爬。

robots.txt：網站掛上「請勿打擾」告示牌

網站其實有一個很簡單的方式來告訴爬蟲：「拜託，某些內容／空間請不要來！」，或甚至是「滾！這裡不歡迎你」。這就是 robots.txt 檔案的概念，但在多數爬蟲行為與網站使用情境上，這只能算是「君子之約」，並不具備法律約束力。

就好像，我們在住家門口掛上「謝絕推銷」、「請勿停車」這類的牌子。但如果某位很執著的業務員，硬要按門鈴推銷，或是某位趕時間的駕駛，把車停在我們家門口，這行為對我們來說，可能確實感覺很討厭、很沒禮貌、很沒公德心，但多數情境，這並不犯法。

網站通常也會在 robots.txt 文件中，寫下幾個清楚的規則：

1. 哪些爬蟲可以進來？

2. 哪些地方不能去？

3. 爬的時候請慢一點，不要太急造成我的負擔。

4. 通通不準爬。

但同樣的，這些都只能算是「建議」，並沒有法律約束力。

爬蟲怎樣算合法？怎樣算違法？

回到這篇文章的標題：網站聲明禁止使用網路爬蟲，仍要爬就一定違法嗎？

站在網站屬於開放空間的概念，使用爬蟲技術爬取網站的公開內容，並不違法。包括美國、歐洲、亞洲或任何國家，我目前沒有找到明確禁止使用的法條（若有，歡迎補充）。除非在以下幾種條件下，才「有可能」造成違法：

1. 爬取非公開內容：例如，爬媒體網站付費牆後的內容，或是網站上，需要帳號密碼登入才看得到的內容。

2. 網站「明確函告 + 技術手段阻斷」後仍要爬：例如，網站有發出律師存證信函，並已經明確有在使用防堵爬蟲的技術。

3. 違反簽訂的使用／授權合約：例如，網站可能會跳出一份使用合約，具體規範禁止爬蟲行為，使用者勾選／簽署同意，這才有可能產生法律責任。

4. 超過著作權「合理使用」範圍：如果是把爬下來具有著作權保障的內容，整篇複製貼上到其他地方，當然違法。

5. 惡意爬蟲行為：竊取個資，或是爬得太快太猛，造成網站負擔過大或甚至掛掉癱瘓⋯⋯等事實。

經典案例之一：X（前 Twitter）VS. Bright Data 的判決大逆轉

美國在著作權法框架下，對搜尋引擎或其他數位商業應用的爬蟲行為，通常受到「合理使用」（Fair Use）原則的保護，並透過一連串案例來確立了這個原則。

舉一個近期具有重大意義、影響深遠的判決。2024 年 5 月，北加州地方法院駁回 X 公司（前身為 Twitter）對以色列資料爬取公司 Bright Data 的指控。

備受科技業敬重的法官 William Alsup，在這次的判決中，非常犀利且毫不留情。根據 CNBC 的報導內容：

…在駁回訴訟時，法官 William Alsup 寫道：「X 公司想要兩全其美，既要保持其（社群平台的）安全港保護，又要行使版權所有者的排他權利，向那些希望提取和複製 X 用戶內容的人收取費用。」
賦予社群網路對公共網路數據收集和使用的完全控制權，「有可能創造資訊壟斷，這將損害公共利益，」法官寫道。他補充說，X 並非「尋求保護 X 用戶的隱私」，而是「只要能獲得報酬，就樂於允許提取和複製 X 用戶的內容」。...

這項判決的重要性，在於 William Alsup 法官認為，資料爬取與保障著作權之間，並不存在衝突。單純就資料爬取這個行為，並不違法，至於爬了什麼、怎麼爬是否違法的問題，則最好回到是否侵犯著作權來解決。在此之前，Meta 也曾對 Bright Data 提起訴訟，但同樣未獲成功。

AI 時代下，爬蟲與著作權合理使用如何演變？

過去這兩年多，在 ChatGPT 等生成式 AI 急速普及下，不論是網路爬蟲技術，或是在 LLM 上將受著作權保護的內容，作為 Pre-training 的資料，在科技與法律上的辯論與攻防，同樣十分激烈。

又是 William Alsup 法官。就在幾天前，他做出了一項頗具指標意義的判決。針對三位書籍作者對 AI 模型 Claude 的開發商 Anthropic，提起了版權侵權集體訴訟，William Alsup 明確做出判決，簡單說，用合法購買的書籍內容來訓練 AI 合法，若用盜版取得的書籍則違法。根據 France24 的報導內容：

…William Alsup 在判決中寫道：「使用書籍來訓練 Claude 及其前身版本具有極高的轉化性（Transformative），屬於合理使用。」
「爭議中的技術是我們許多人一生中，將會看到的最具轉化性的技術之一，」他在這份 32 頁的判決中補充道，將 AI 訓練比作人類通過閱讀書籍來學習。
…
然而，William Alsup 也駁回了 Anthropic 尋求全面保護的請求，裁定該公司下載數百萬本盜版書籍以建立永久數位圖書館的做法，不能以合理使用保護為理由。...

關於 William Alsup 法官，若有興趣多了解一點，非常推薦 fox 蕭上農這篇好文：從美國 AI 合理使用看台灣法律資料庫的困境，一位懂程式碼的 79 歲法官，如何為數位創新劃出理性邊界？

另一個關於網路爬蟲最新的科技攻防第一線，則發生在（網路）媒體產業。由於生成式 AI 出現，人們直接透過 ChatGPT 等 AI 服務提供的內容，就可滿足多數的資訊查詢／知識閱讀需求，直接使得過往透過 SEO 等網路搜尋點擊連結的方式，將讀者與流量引導到媒體／內容網站，已經是近乎雪崩式下跌。

在媒體網站行之多年，透過流量變現廣告營收的商業模式下，這樣的狀況直接威脅生存。我當然支持創作者、出版商、媒體因為製作好內容，而獲得合理且有尊嚴的收入，但也期待創作者經濟或 AI 發展，兩者之間，都能有更健康、更雙贏的進步。

這場攻防戰的正在進行式，是越來越多媒體開始採用技術手段阻擋 AI 爬蟲。從修改 robots.txt 檔案、部署反爬蟲偵測系統，到更激進的完全封鎖來自 AI 公司的 IP 位址。同時，部分媒體也開始與 AI 公司談判授權協議，希望能建立更公平的合作模式。

然而，這種技術軍備競賽也衍生出新的問題：一方面，過度的反爬蟲措施，可能影響正常用戶體驗和搜尋引擎索引；另一方面，AI 公司也在不斷更新爬蟲技術，試圖繞過這些限制。更複雜的是，許多優質內容仍需要透過搜尋引擎、AI 答案引擎的能見度來觸及讀者，這直接讓媒體陷入「既要防範又要開放」的兩難處境。

這個月，在坎城國際創意節（Cannes Lions）的 Axios X Human Ventures 活動上，大型雲端服務商 Cloudflare 執行長 Matthew Prince 就提到，Cloudflare 正在開發一種阻斷爬蟲的技術，協助媒體因應生成式 AI 帶來的衝擊。根據 Axios 的報導：

…Matthew Prince 表示，Cloudflare 正在開發一個阻止內容抓取的新工具。「這是簡單的步驟，而且很快就會推出，每個你聽過的出版商都支持這個做法，」他說。
Cloudflare 提供包括網路安全和內容分發網絡在內的多項技術服務，最近推出了一個工具，可以阻擋忽略「禁止爬取」指令的機器人。
Matthew Prince 對 Cloudflare 能夠實現這一目標持樂觀態度。他指出：「我每天都在與中國政府、俄羅斯政府、伊朗人、北韓人，可能還有美國人、以色列人作戰，他們都試圖入侵我們客戶的網站。你告訴我，我不能阻止 Palo Alto 某個 C 咖企業的書呆子嗎？」...

Palo Alto 是矽谷的 AI 重鎮之一，我無法確定 Matthew Prince 這段話，是否帶有銷售話術的成分。但這可具體反映出，生成式 AI 對內容產業造成嚴厲的生存威脅，而網路爬蟲的技術仍在持續演化。

對我個人來說，比較感嘆的，是因為這次 Lawsnote 的案例，讓我非常意外發現，台灣法律實務上，對於網路爬蟲技術的理解十分貧乏，對著作權合理使用的規範，仍留在 Internet 出現前的類比時代（本文內容歡迎「合理使用」）。