posts / Science

AI爬虫蚕食我的服务器:从robots.txt到数据投毒的全方位防御指南

phoue

3 min read --

过去三十多年,支撑我们所认识的互联网的,不仅仅是巨大的海底光缆。

其背后,是看不见的巨大社会资本——“信任”。

网站运营者(Publisher)和搜索引擎(Search Engine)之间,曾存在着一份古老的默契

“请抓取我的内容,并将其告知世界。作为回报,请将流量(Traffic)带给我。”

协调这种互惠关系的唯一约定,是一个名为 robots.txt 的极其简单的文本文件。

具有法律强制性?完全没有。

这个被认为是数字生态系统成员应遵循的“绅士协议”,曾如同宪法一般,维护着网络的和平。

但坦率地说,那个时代已经结束了。

2023年开始的生成式人工智能(Generative AI)的爆炸式增长,已将这份古老的和平条约撕成了碎片。

对于AI公司而言,网络数据不再是“指引用户前往目的地的地图”。

它变成了为了提升大型语言模型(LLM)智能而必须燃烧的“燃料”。

我们正在目睹一场“数字公地的悲剧(Tragedy of the Digital Commons)”实时、且以极其破坏性的规模上演。

Tragedy of the Digital Commons
Tragedy of the Digital Commons

本文将深入分析AI爬虫如何扼杀开源社区的生命,并进一步探讨从robots.txt的初步防御线,到利用Anubis和Cloudflare实现主动防御的场景,为基础设施的生存提供切实可行的解决方案。

1. 基础设施的悲鸣:成本外部化与公地的破坏

AI公司无差别的 डेटा 收集竞赛,表面上看是技术创新,对吧?

但从经济学角度冷酷地剖析,这是典型的**“成本外部化(Externalization of Costs)”**。

External Cost
External Cost

模型训练带来的巨大利益被AI公司独占,而处理和传输数据的基础设施成本却由非营利组织或开源项目全部承担,形成一种畸形结构

让我们通过实际案例来剖析其严重性。

1.1 SourceHut事件:窃取计算资源的盗贼

开源软件开发平台SourceHut的创始人Drew DeVault所遭遇的事件令人震惊。

这是AI爬虫已超越“数据收集器”而成为“计算资源寄生虫”的决定性例证。

攻击目标从I/O转向CPU

通常,Googlebot等常规搜索引擎爬虫只会抓取静态页面(HTML)。

对服务器而言,只需读取并发送文件,负载不大(I/O Bound)。

然而,侵袭SourceHut的AI爬虫却极其恶意且巧妙地瞄准了高成本端点

攻击类型 详细内容 技术负载的本质
Git Blame攻击 频繁调用不仅是源代码文件,还有git blame页面 为了追踪每行代码的修改历史,需要回溯整个提交记录
Git Log攻击 无差别抓取变更日志页面 在排序和过滤海量日志数据的过程中,CPU资源消耗达到极致(CPU Bound)
结论 计算窃取(Compute Theft) 不仅仅是占用带宽,而是AI公司为净化数据而无权占用服务器的计算能力(Computing Power)

与僵尸网络(Botnet)难以区分的隐匿术

更棘手的是攻击的来源。

攻击并非来自单一数据中心的IP,而是通过数万个家庭IP(Residential IP)

这意味着使用了被黑客入侵的普通家庭PC或路由器的僵尸网络,或者通过付费家庭代理服务(Residential Proxy Service)洗白了身份

这使得传统的IP封锁方法失效。

1.2 Read the Docs与73TB账单:无能酿成的灾难

技术文档托管服务“Read the Docs”的案例,赤裸裸地揭示了AI公司技术上的疏忽(Negligence)如何导致经济损失。

  • 成本可视化: 2024年5月,一个爬虫一天抓取10TB,一个月竟高达73TB。由此产生的仅带宽超额费用就约为5,000美元(约700万韩元)
  • 技术缺陷: 更令人恼火的是,该爬虫完全无视了HTTP基本的缓存机制

\[ AI爬虫技术缺陷分析 \]

检查项 正常爬虫(Googlebot等) 问题AI爬虫 结果
If-None-Match 通过Etag确认,仅请求已更改的文件 未使用 即使是已下载的文件,也每次重新获取
If-Modified-Since 仅请求自最后修改日期起有更改的部分 未使用 即使是3年前的文件,也每天重新下载
QA执行情况 部署前进行彻底的逻辑验证 未执行 在没有基本质量管理的情况下部署

1.3 地缘政治封锁:巴西消失之谜 (Geo-blocking)

Linux发行版Fedora项目的IP段,因巴西境内涌现的抓取攻击而濒临基础设施瘫痪。

调查发现,巴西国内安全防护薄弱的IoT设备感染了**“Aisuru”僵尸网络**,并被用作AI数据收集的僵尸军团。

Aisuru botnet
Aisuru botnet

最终,Fedora团队采取了**“封锁巴西全部流量(Geo-blocking)”**的极端措施。

Geo-blocking
Geo-blocking

数字空间的技能问题导致物理国界关闭,仿佛电影《末日启示录》中的一幕,真实上演。

2. 实战防御策略I:robots.txt优化与局限性突破

仍有许多网站管理员试图用一个User-agent: *来解决一切。

但在AI爬虫盛行的今天,这无异于敞开大门喊“大盗,请进”。

最基本却又至关重要的第一道防线,robots.txt,必须进行现代化重构。

2.1 针对AI防御的robots.txt核心屏蔽列表

AI爬虫通常会使用独立的User-Agent名称进行活动。

下表列出了必须屏蔽的主要AI爬虫列表。

User-Agent 名称 所属公司/服务 屏蔽原因及特点
GPTBot OpenAI (ChatGPT) 最常见的LLM训练数据收集爬虫。
ChatGPT-User OpenAI ChatGPT“浏览”功能使用时工作的爬虫。
CCBot Common Crawl 大多数LLM的基础数据集使用的规模化爬虫。
anthropic-ai Anthropic (Claude) Claude模型训练的数据收集。
Google-Extended Google (Gemini等) 维持搜索曝光,但选择性屏蔽AI训练时使用。
Bytespider ByteDance (TikTok/Doubao) 攻击性极强。 是服务器负载的主要原因之一。
FacebookBot Meta (Llama等) Llama系列等Meta AI模型的训练。
Amazonbot Amazon Alexa及Bedrock模型训练。

2.2 推荐robots.txt设置代码

基于上述分析,我们提供可以直接应用于您服务器的优化设置。请复制并使用。

Plaintext

User-agent: GPTBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: FacebookBot
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: Amazonbot
Disallow: /

# [중요] 모든 봇에 대해 고비용 연산 페이지 원천 차단
User-agent: *
Disallow: /git/blame/       # 리소스 소모가 큰 경로 (CPU 부하 방지)
Disallow: /search/          # 내부 검색 결과 페이지
Disallow: /admin/           # 관리자 페이지
Crawl-delay: 10             # (참고) 일부 '착한' 봇만 준수하지만 설정 권장

2.3 robots.txt的致命局限

上述设置是必需的,但遗憾的是,它并不完美。

  1. 自愿遵守: robots.txt只是一个“请求”,并非法律。恶意AI初创公司或黑客编写的抓取器会完全无视它。
  2. User-Agent欺骗: 恶意爬虫会伪装成普通Chrome浏览器,如Mozilla/5.0 (Windows NT 10.0...),进行访问。

最终,robots.txt仅仅是“门牌”,要实际阻止入侵者,需要“锁(技术防御)”

3. 实战防御策略II:技术防御引入场景

超越简单的屏蔽,我们根据规模整理了具体的场景,以保护系统资源并使爬虫失效。

3.1 场景별技术防御解决方案对比

区分 场景A:中小型/开源 场景B:企业级/媒体
推荐解决方案 Anubis (劳动证明中间件) Cloudflare WAF & AI Labyrinth
主要对象 个人博客,开源社区 新闻社,大型购物中心,平台企业
核心技术 Proof-of-Work (PoW) Honey Pot & Data Poisoning
工作原理 向试图连接的客户端提出加密谜题(寻找SHA-256哈希),必须解开才能连接。 检测到爬虫时,将其重定向到包含假数据的“迷宫”中,使其陷入无限循环。
防御效果 强制消耗爬虫的CPU资源,降低其盈利性,使其放弃。 污染训练数据,导致AI模型产生幻觉(Hallucination),提供强大的抑制力。
成本 低廉(可利用开源) 产生费用(需要企业级套餐)

场景A详述:Anubis的难度调整策略

Anubis根据流量情况调整谜题的难度。

  • 普通模式: 哈希前4位必须是0(对人类而言0.5秒,对爬虫而言开始有压力)。
  • 防御模式: 流量激增时,哈希前5~6位必须是0。爬虫的计算负担呈指数级增长,使其无法持续攻击。(但必须将Google等主要搜索引擎IP列入白名单)

场景B详述:Cloudflare的AI迷宫与数据污染

利用Cloudflare Workers,当检测到非授权爬虫时,将其重定向到AI实时生成的假页面,而非真实内容。

  • 隐形链接(Invisible Links): 植入只有爬虫才能看到的链接,使其在其中无限循环。
  • 数据污染(Data Poisoning): 混入与事实微妙不同的虚假信息。学习了这些信息的AI模型性能下降,成为AI公司最忌惮的反击手段。

4. 协议重塑:许可式Web(Permissioned Web)的到来

经过这场激烈的技术对抗,互联网的根本结构正在发生改变。

从“任何人可访问的开放Web”向**“只有身份已验证者才能访问的契约式Web”**的巨大转变。

4.1 “忘记IP吧”:加密身份验证(Web Bot Auth)

Cloudflare最近宣称“IP基准屏蔽的时代已经结束”,并提议了**“Web Bot Auth”**标准。

Web Bot Auth
Web Bot Auth

  • 工作原理: 爬虫开发者用其身份证明的私钥对HTTP请求头进行签名(Signature-Input)。网站通过公钥验证。
  • 意义: IP欺骗不再奏效。现在可以数学上验证“这真的是OpenAI的爬虫吗?”。这是互联网从**“匿名信任”向“零信任(Zero Trust)”**移动的信号。

4.2 Pay-Per-Crawl:数据资产化
Pay-Per-Crawl
Pay-Per-Crawl

2025年7月,Cloudflare推出的**“Pay-Per-Crawl”**模型,开启了Time、Fortune等大型媒体向AI公司收取费用出售数据的时代。

最终,互联网正在分裂成两部分。

只有付费AI才能访问的“高级Web”,以及爬虫和虚假数据混杂的**“垃圾Web”**。

这虽然令人씁쓸,但已是不可避免的现实。

5. 结论:是时候加固你的数字城墙了

SourceHut和Read the Docs的案例清楚地表明,依赖robots.txt这张纸盾,已无法保护基础设施。

AI公司的贪婪数据抓取不会停止。

现在的防御,已不是选择,而是生存问题

网站运营者们,我建议您立即采取以下措施:

  1. 立即检查: 打开robots.txt,添加上面提到的明确的AI爬虫屏蔽规则。
  2. 日志分析: 分析您的流量日志,检查是否存在异常用户代理和对高成本端点(如git blame等)的访问。
  3. 引入防御: 认真考虑引入适合您规模的技术防御解决方案(Anubis或Cloudflare WAF)。

我们正目睹互联网的重构过程。

IP地址已失去信任,数据已成为付费资产。

在这场剧烈变革的浪潮中,只有构建起强大的技术防御壁垒的人,才能完整地守护自己的数字领土。

参考资料
  1. DeVault, D. (2025). “Please stop externalizing your costs directly into my face.” Drew DeVault’s Blog.
  2. The Register. (2025). “AI crawlers haven’t learned to play nice with websites.”
  3. Search Engine Journal. (2025). “AI Crawlers Are Reportedly Draining Site Resources & Skewing Analytics.”
  4. Read the Docs. (2024). “AI crawlers need to be more respectful.”
  5. Cloudflare Blog. (2025). “Trapping misbehaving bots in an AI Labyrinth.”
  6. Cloudflare Docs. (2025). “Web Bot Auth Reference & Pay-Per-Crawl Implementation.”
  7. GitHub (TecharoHQ). (2025). “Anubis: Weighs the soul of incoming HTTP requests to stop AI crawlers.”
  8. Stytch Blog. (2025). “Browser fingerprinting: Implementing fraud detection.”
  9. Fedora Community Blog. (2025). “Council Policy Proposal: Policy on AI-Assisted Contributions.”
  10. Slashdot. (2025). “Open Source Devs Say AI Crawlers Dominate Traffic, Forcing Blocks On Entire Countries.”
</details>
#AI爬虫拦截#robots.txt设置方法#网络抓取防御策略#Cloudflare WAF设置#Anubis中间件#开源基础设施保护#数据污染攻击#GPTBot拦截#流量成本节约#服务器负载管理

Recommended for You

40% 的数据中心电力未用于计算 — 钱去哪儿了?

40% 的数据中心电力未用于计算 — 钱去哪儿了?

5 min read
智能的热力学:AI引发的电力瓶颈与全球能源霸权战争(美、中、韩的生存战略)

智能的热力学:AI引发的电力瓶颈与全球能源霸权战争(美、中、韩的生存战略)

2 min read
2025年数据大灾难:您的隐私还好吗?(数字社会的生存契约)

2025年数据大灾难:您的隐私还好吗?(数字社会的生存契约)

2 min read

Advertisement

评论