這幾天,有「法律界 Google」之稱的法律科技(LegalTech)新創 Lawsnote,因與老牌法學資料庫法源的官司一審宣判:Lawsnote 創辦人與公司被重判四年、合併罰金超過一億新台幣。引發新創圈、法律圈的高度關注與各個面向的討論。
延伸閱讀:
創業小聚 MEET:Lawsnote 判刑 4 年、罰款破億:創辦人認為爭議判決在哪?對台灣新創圈帶來哪些影響?
先拋下對這次判決的個人情緒。某種程度上,這次的事件,確實促使更多人關注科技與新創的發展,以及各個面向關於「台灣到底是否能夠打造出對創業友善的環境」的討論與辯論。
正好最近在美國,也有出版商/媒體網站對於 AI 時代下,如何因應網路爬蟲的激烈討論。基於個人興趣,這幾天對於網路爬蟲有更多一點的 Study,就趁此機會,透過這篇文章,來跟較少法律、數位科技背景的朋友們,分享一下:網站聲明禁止使用網路爬蟲,仍要爬就一定違法嗎?這問題的資訊。
先說答案:不一定。但通常要在特定的條件下,才會造成違法。目前全球趨勢,大多數是朝著對爬蟲技術較友善/開放的方向發展。
什麼是網站爬蟲?幫助快速讀取資料的小程式/機器人
想像一下,如果要抄寫/閱讀上萬本數百頁的大頭書,以人工的方式,很可能一輩子都看不完。但如果有一個超級勤勞的小助手,可以 24 小時不停地幫忙抄寫/閱讀,而且速度比人快上數百、數千倍。網路爬蟲(Web Scraping)技術,大概就是這樣的概念。
簡單來說,網路爬蟲就是一種自動化程式,專門從網站上「搬運」資料。為什麼叫「爬蟲」?因為它就像蜘蛛一樣,在網路上四處爬行,可把遇到的資訊收集起來。
在數位產業中,這個可算是活化石等級的技術,從 Internet 進入商業化初期,就應用至今。第一隻網路爬蟲 WebCrawler 出現,可追溯至 1994 年。那時候整個 Internet 世界,大概還處於盤古開天的狀態,總共只有 2.5TB 的資料(現在光是訂購 Google One 進階版的方案,就提供 2TB 的空間),但就是這些簡單的小程式,奠定了現代搜尋引擎的基礎。
如果沒有爬蟲,就沒有搜尋引擎
可以這麼說,Google(母公司 Alphabet)如今市值超過 2 兆美元的商業版圖,或是我們經常使用的網路搜尋服務,就是建立在爬蟲技術上。搜尋引擎的運作,依賴三個關鍵階段:爬行(Crawling)、索引(Indexing)和排名(Ranking),而爬蟲正是第一階段的核心技術,Google 則是立足在這三個關鍵階段的基礎上,逐步建立起關鍵字搜尋廣告的業務,不斷壯大成今日的地位。
你能想像過去 20 幾年,當我們上網時,沒有 Google Search 或是其他任何數位內容搜尋的服務嗎?我無法。
各種網站或延伸而出的商業模式,有些非常歡迎大家用爬蟲來爬,也有些非常不歡迎。除了網站上的文字說明使用原則外,也會寫成 robots.txt 技術文件,用來規範如何爬。
robots.txt:網站掛上「請勿打擾」告示牌
網站其實有一個很簡單的方式來告訴爬蟲:「拜託,某些內容/空間請不要來!」,或甚至是「滾!這裡不歡迎你」。這就是 robots.txt 檔案的概念,但在多數爬蟲行為與網站使用情境上,這只能算是「君子之約」,並不具備法律約束力。
就好像,我們在住家門口掛上「謝絕推銷」、「請勿停車」這類的牌子。但如果某位很執著的業務員,硬要按門鈴推銷,或是某位趕時間的駕駛,把車停在我們家門口,這行為對我們來說,可能確實感覺很討厭、很沒禮貌、很沒公德心,但多數情境,這並不犯法。
網站通常也會在 robots.txt 文件中,寫下幾個清楚的規則:
1. 哪些爬蟲可以進來?
2. 哪些地方不能去?
3. 爬的時候請慢一點,不要太急造成我的負擔。
4. 通通不準爬。
但同樣的,這些都只能算是「建議」,並沒有法律約束力。
爬蟲怎樣算合法?怎樣算違法?
回到這篇文章的標題:網站聲明禁止使用網路爬蟲,仍要爬就一定違法嗎?
站在網站屬於開放空間的概念,使用爬蟲技術爬取網站的公開內容,並不違法。包括美國、歐洲、亞洲或任何國家,我目前沒有找到明確禁止使用的法條(若有,歡迎補充)。除非在以下幾種條件下,才「有可能」造成違法:
1. 爬取非公開內容:例如,爬媒體網站付費牆後的內容,或是網站上,需要帳號密碼登入才看得到的內容。
2. 網站「明確函告 + 技術手段阻斷」後仍要爬:例如,網站有發出律師存證信函,並已經明確有在使用防堵爬蟲的技術。
3. 違反簽訂的使用/授權合約:例如,網站可能會跳出一份使用合約,具體規範禁止爬蟲行為,使用者勾選/簽署同意,這才有可能產生法律責任。
4. 超過著作權「合理使用」範圍:如果是把爬下來具有著作權保障的內容,整篇複製貼上到其他地方,當然違法。
5. 惡意爬蟲行為:竊取個資,或是爬得太快太猛,造成網站負擔過大或甚至掛掉癱瘓⋯⋯等事實。
經典案例之一:X(前 Twitter)VS. Bright Data 的判決大逆轉
美國在著作權法框架下,對搜尋引擎或其他數位商業應用的爬蟲行為,通常受到「合理使用」(Fair Use)原則的保護,並透過一連串案例來確立了這個原則。
舉一個近期具有重大意義、影響深遠的判決。2024 年 5 月,北加州地方法院駁回 X 公司(前身為 Twitter)對以色列資料爬取公司 Bright Data 的指控。
備受科技業敬重的法官 William Alsup,在這次的判決中,非常犀利且毫不留情。根據 CNBC 的報導內容:
…在駁回訴訟時,法官 William Alsup 寫道:「X 公司想要兩全其美,既要保持其(社群平台的)安全港保護,又要行使版權所有者的排他權利,向那些希望提取和複製 X 用戶內容的人收取費用。」
賦予社群網路對公共網路數據收集和使用的完全控制權,「有可能創造資訊壟斷,這將損害公共利益,」法官寫道。他補充說,X 並非「尋求保護 X 用戶的隱私」,而是「只要能獲得報酬,就樂於允許提取和複製 X 用戶的內容」。...
這項判決的重要性,在於 William Alsup 法官認為,資料爬取與保障著作權之間,並不存在衝突。單純就資料爬取這個行為,並不違法,至於爬了什麼、怎麼爬是否違法的問題,則最好回到是否侵犯著作權來解決。在此之前,Meta 也曾對 Bright Data 提起訴訟,但同樣未獲成功。
AI 時代下,爬蟲與著作權合理使用如何演變?
過去這兩年多,在 ChatGPT 等生成式 AI 急速普及下,不論是網路爬蟲技術,或是在 LLM 上將受著作權保護的內容,作為 Pre-training 的資料,在科技與法律上的辯論與攻防,同樣十分激烈。
又是 William Alsup 法官。就在幾天前,他做出了一項頗具指標意義的判決。針對三位書籍作者對 AI 模型 Claude 的開發商 Anthropic,提起了版權侵權集體訴訟,William Alsup 明確做出判決,簡單說,用合法購買的書籍內容來訓練 AI 合法,若用盜版取得的書籍則違法。 根據 France24 的報導內容:
…William Alsup 在判決中寫道:「使用書籍來訓練 Claude 及其前身版本具有極高的轉化性(Transformative),屬於合理使用。」
「爭議中的技術是我們許多人一生中,將會看到的最具轉化性的技術之一,」他在這份 32 頁的判決中補充道,將 AI 訓練比作人類通過閱讀書籍來學習。
…
然而,William Alsup 也駁回了 Anthropic 尋求全面保護的請求,裁定該公司下載數百萬本盜版書籍以建立永久數位圖書館的做法,不能以合理使用保護為理由。...
關於 William Alsup 法官,若有興趣多了解一點,非常推薦 fox 蕭上農這篇好文:從美國 AI 合理使用看台灣法律資料庫的困境,一位懂程式碼的 79 歲法官,如何為數位創新劃出理性邊界?
另一個關於網路爬蟲最新的科技攻防第一線,則發生在(網路)媒體產業。由於生成式 AI 出現,人們直接透過 ChatGPT 等 AI 服務提供的內容,就可滿足多數的資訊查詢/知識閱讀需求,直接使得過往透過 SEO 等網路搜尋點擊連結的方式,將讀者與流量引導到媒體/內容網站,已經是近乎雪崩式下跌。
在媒體網站行之多年,透過流量變現廣告營收的商業模式下,這樣的狀況直接威脅生存。我當然支持創作者、出版商、媒體因為製作好內容,而獲得合理且有尊嚴的收入,但也期待創作者經濟或 AI 發展,兩者之間,都能有更健康、更雙贏的進步。
這場攻防戰的正在進行式,是越來越多媒體開始採用技術手段阻擋 AI 爬蟲。從修改 robots.txt 檔案、部署反爬蟲偵測系統,到更激進的完全封鎖來自 AI 公司的 IP 位址。同時,部分媒體也開始與 AI 公司談判授權協議,希望能建立更公平的合作模式。
然而,這種技術軍備競賽也衍生出新的問題:一方面,過度的反爬蟲措施,可能影響正常用戶體驗和搜尋引擎索引;另一方面,AI 公司也在不斷更新爬蟲技術,試圖繞過這些限制。更複雜的是,許多優質內容仍需要透過搜尋引擎、AI 答案引擎的能見度來觸及讀者,這直接讓媒體陷入「既要防範又要開放」的兩難處境。
這個月,在坎城國際創意節(Cannes Lions)的 Axios X Human Ventures 活動上,大型雲端服務商 Cloudflare 執行長 Matthew Prince 就提到,Cloudflare 正在開發一種阻斷爬蟲的技術,協助媒體因應生成式 AI 帶來的衝擊。根據 Axios 的報導:
…Matthew Prince 表示,Cloudflare 正在開發一個阻止內容抓取的新工具。「這是簡單的步驟,而且很快就會推出,每個你聽過的出版商都支持這個做法,」他說。
Cloudflare 提供包括網路安全和內容分發網絡在內的多項技術服務,最近推出了一個工具,可以阻擋忽略「禁止爬取」指令的機器人。
Matthew Prince 對 Cloudflare 能夠實現這一目標持樂觀態度。他指出:「我每天都在與中國政府、俄羅斯政府、伊朗人、北韓人,可能還有美國人、以色列人作戰,他們都試圖入侵我們客戶的網站。你告訴我,我不能阻止 Palo Alto 某個 C 咖企業的書呆子嗎?」...
Palo Alto 是矽谷的 AI 重鎮之一,我無法確定 Matthew Prince 這段話,是否帶有銷售話術的成分。但這可具體反映出,生成式 AI 對內容產業造成嚴厲的生存威脅,而網路爬蟲的技術仍在持續演化。
對我個人來說,比較感嘆的,是因為這次 Lawsnote 的案例,讓我非常意外發現,台灣法律實務上,對於網路爬蟲技術的理解十分貧乏,對著作權合理使用的規範,仍留在 Internet 出現前的類比時代(本文內容歡迎「合理使用」)。