posts / Science

免费互联网的终结:与AI的战争和HTTP 402的复兴

phoue

2 min read --

2025年7月1日。历史或许会这样记载这一天:“互联网之门关闭日”。

我们来坦诚一点吧。

在过去近30年的时间里,我们一直认为互联网是一个理所当然的空间,就像空气和水一样,是一种免费的公共资源。

我们在搜索栏输入几个字,0.1秒内信息就倾泻而出;我们在博客上写下文字,会有人来阅读,这是一个多么平和的世界。但我要断言,那个**“免费互联网”的时代已经结束了。**

死因明确。

那就是“信任的彻底崩溃”。

过去的互联网是建立在一种心照不宣的物物交换协议上的:“你发布优质信息,我们为你带来流量(访客)。”

Webscraping
Webscraping

然而,随着ChatGPT、Gemini等生成式AI的出现,这个约定变成了一纸空文。因为AI只会读取信息,却不给原始作者带来哪怕一个访客,开启了**“零点击(Zero-click)”**的时代。

Zero Click
Zero Click

如今,为了阻止寄生虫蚕食宿主,网络的守护者们开始筑起巨大的城墙。

接下来要讲述的故事,不仅仅是简单的技术趋势。

这是围绕着你无意中写下的一句话、一张照片所展开的**“第一次数字资产战争”**的生动记录。

1. 看不见的战争:基础设施成为武器

此刻,互联网看不见的后台(Back-end)正进行着激烈的矛与盾的战斗。

因为作为全球网络流量看门人的Cloudflare,已经向AI机器人宣战。

cloudflare edge
cloudflare edge

一个“礼貌请求”不再奏效的严峻时代已经到来。

1.1. 机器人禁区:绅士协议的破裂

互联网的早期,网络秩序依赖于一个极其简单的文本文件:robots.txt

网站主人写下“请勿进入此处”,搜索引擎机器人就会礼貌地遵守。

这就是支撑网络生态的绅士协议(Gentlemen’s Agreement)

cloudflare defence
cloudflare defence

然而,饥渴于数据的AI公司无视了这些老旧的标示,开始翻墙而入。

因为训练数据的获取直接关系到它们的生存。

于是,Cloudflare拔剑了。

现在,一旦检测到未经授权的AI机器人?它们甚至还没能靠近网站服务器,就会在网络边缘(Edge)被立即物理驱逐

1.2. 沉寂代码的复苏:HTTP 402

最令人震惊的变化并非技术上的封锁,而是“经济壁垒”的出现。

你可能熟悉“404 Not Found”(页面未找到)或“403 Forbidden”(禁止访问)。

但是,在互联网历史书中被遗忘、在开发者间仅作为传说流传的“幽灵代码”,却破墓而出。

那就是HTTP 402 Payment Required(需要付款)

HTTP 402 Payment Required
HTTP 402 Payment Required

Cloudflare提出的**“按次抓取付费(Pay Per Crawl)”**模式,残酷得近乎资本主义。

  1. AI机器人请求数据。
  2. 系统发送账单而非内容。 “402 Payment Required:获取此数据需支付0.05美元。” 只有用数字代币支付费用,大门才会真正打开。

现在,对AI来说,网络不再是免费图书馆。它变成了一个彻头彻尾的付费书店,必须支付入场费才能翻阅书籍。

1.3. 困住机器人的迷宫:AI Labyrinth

那么,那些试图不付费窃取信息的“盗贼机器人”会怎么样?

防御系统为它们启动了**“AI Labyrinth(迷宫)”**。

AI Labyrinth
AI Labyrinth

向机器人悄悄抛出一个虚假链接,机器人误以为是真实信息而上钩。

然而,那里是地狱。

因为AI实时生成的**“貌似有理却毫无意义的文本块”**会无限延续。

业内称之为**“Tar Pit(沥青坑,黏糊糊的沼泽)”**。

机器人会陷在这个泥潭中,耗费巨额的服务器成本和电费来收集毫无意义的垃圾数据。

2. 矛与盾:技术军备竞赛

防御者锁上门,窃贼就学会开锁。

超越简单的封锁,一场高度进化的技术军备竞赛已经开始。

2.1. 数字指纹的对决:JA4

现在,仅仅屏蔽IP地址已经毫无意义。

因为机器人每秒都在更换IP,戴上数百万个假面具。

因此,防御者使用了名为JA4指纹识别的技术。

ja4 fingerprint
ja4 fingerprint

打个简单的比方:有个窃贼每次都换衣服、乔装打扮潜入,但

他无法改变自己特有的**“走路姿势”“呼吸声”**。

JA4正是通过分析机器人的通信习惯(TLS握手模式)来提取指纹。

  • “你声称是Chrome浏览器,但从你的通信步幅来看,你分明是个Python脚本!”——它就是这样识破你的。

2.2. 僵尸化的冰箱和AI解决方案

攻击者的反击也不容小觑。

最令人不寒而栗的是,他们利用了我们日常生活中的设备。

  • 住宅代理(Residential Proxies): 机器人通过被黑客攻击的家用路由器、智能冰箱、CCTV等设备进行连接。对防御系统来说,这看起来就像来自普通家庭的访问,难以封锁。你的智能冰箱可能在这一刻,正充当着AI数据窃取的“僵尸”
  • AI验证码求解器(CAPTCHA Solver): 勾选“我不是机器人”的谜题现在已经失效。最新的AI比人类更擅长解谜,甚至完美学会了模仿人类“摇摇晃晃”的光标移动,进行“人类伪装”

2.3. 像素战争:Nightshade

数据本身也开始被“投毒”。

芝加哥大学开发的**“Nightshade”**,在图像中混合了人眼绝对无法察觉的微弱噪点。

Nightshade (Software)
Nightshade (Software)

当AI学习这些图像时,可怕的事情发生了。

AI会将“猫”的图像识别为“狗”,将“手提包”误认为是“烤面包机”。

这会引发**“模型中毒”**,导致训练数据被污染,整个模型崩溃。

艺术家们为了保护自己的作品,不得不自己给数据“下毒”——这就是2025年的景象。

3. 经济崩溃:柠檬市场和模型的失忆

为何要如此拼死一搏?

根本原因在于,AI数据市场正迅速转变为**“柠檬市场(Market for lemon)”**。

Market for lemon
Market for lemon

3.1. 垃圾产生垃圾

在经济学中,“柠檬”指的是外表光鲜亮丽,内里却腐烂的劣质品。

如今的网络充斥着AI撰写的、毫无灵魂的文章和图片。

最大的问题在于**“无法区分哪些是人类创作的”**。

最终,真正由人类撰写的高质量信息(论文、深度文章)将躲进付费墙(Paywall)之后,免费网络上只剩下AI倾泻而出的垃圾信息。

3.2. 模型崩溃(Model Collapse):AI的近亲繁殖

更可怕的是**“模型崩溃”**现象。用公式可以这样表示:

$$S\_{t+1} = \\alpha D\_0 + (1-\\alpha) D\_t$$

(其中 $D\_0$是纯人类数据,$D\_t$是AI生成的数据。)

虽然看起来复杂,但核心很简单。

model collapse
model collapse

当AI学习其他AI生成的数据会发生什么?

就像生物学上的近亲繁殖一样,遗传多样性消失了。

创造性和独特的表达方式灭绝,只剩下千篇一律、平均化的回答,变成**“愚蠢的AI”**。

研究表明,仅仅重复五代左右,AI就开始胡言乱语,与现实脱节。这也被称为**“AI失忆症”**。

正因如此,2023年之前,也就是生成式AI爆发之前,人类编写的**“古董数据(Vintage Data)”**价格飞涨。

就像未经核辐射污染的“核试验前的钢铁”一样。

4. 碎片化的世界:Splinternet的到来

这场战争已从企业层面蔓延到国家间的监管战,正在将互联网撕碎。

这被称为**“Splinternet(分裂的互联网)”**。

splintenet
splintenet

  • 美国(法律的战场): 《纽约时报》起诉OpenAI的案件具有象征意义。**“不要窃取我的文章来赚钱”的主张与“合理使用(Fair Use)”**的主张针锋相对。
  • 欧盟(监管堡垒): 以世界上最严格的**《AI法案》要求透明度**。“必须如实披露使用了哪些数据”的施压,对不遵守法规的AI公司甚至禁止其进入。
  • 日本(学习乐园): 情况完全相反。“放心大胆地学习,不必担心版权”,适用着世界上最宽松的法律。为了吸引全球AI企业,主动充当“数据避难所”。

5. 未来展望:从狩猎采集到农耕社会

我们正经历着信息革命的重大转折点

未来的网络将主要分为两种世界。

  1. 公共网络(Public Web): 任何人都可以访问,但充斥着AI生成的低质量信息和广告,如同垃圾场。
  2. 保险库(The Vault): 存放经过人类验证的高质量信息的地方。进入这里需要进行生物识别或付费(HTTP 402)。

public web vs the vault
public web vs the vault

新的权力:数据工会和人类证明

在这种变化中,新的组织形式将应运而生。

DataDAOs
DataDAOs

  • 数据工会(DataDAOs): 个人力量微弱,但团结起来则强大。将个人数据汇集起来与大型AI公司谈判,并将收益以加密货币形式分配的**“数字工会”**将出现。
  • 人类证明(Proof of Personhood): 未来最大的生意将是**“我是一个有血有肉的真正人类,而非机器人”的证明服务。CloudflareWorldcoin**等公司将掌握发放这种“数字身份证”的强大权力。

Proof of Personhood
Proof of Personhood

结论:免费午餐已结束

Cloudflare发出的信号弹,不仅仅是一次简单的安全更新。

它是一项宏大的宣言:“数据不再是公共财产,而是资产。”

我们曾是互联网森林里的“狩猎采集者”,随意采撷信息。

但现在,森林被围了起来。

我们正被强制进入一个**“农耕社会”**,需要耕耘、管理信息,并付出应有的代价。

这种变化可能令人不适,可能加剧信息鸿沟。

但或许,这也是在AI的无限复制中,保护**“人类创造力”**这一稀缺资源价值的必然过程。

现在,我最后想问你:

你今天在互联网上留下的一丝想法,其价值究竟几何?

参考资料 1 Cloudflare Blog: To build a better Internet in the age of AI, we need responsible AI bot principles (Easton & Zaheri, 2025) \[Link\]

2 Cloudflare Blog: Introducing pay per crawl: Enabling content owners to charge AI crawlers for access (Kresh & Vcelak, 2025)

\[Link\]

3 GBHackers: Cloudflare Reveals AI Labyrinth to Counter Automated AI Attacks (Gurumoorthy, 2025)

\[Link\]

4 DEV Community: Cloudflare’s JA4 Fingerprinting: Smarter Threat Detection Through TLS (Tech Analysis, 2025)

\[Link\]

5 University of Chicago: Protecting Copyright - Nightshade & Glaze Project (Sandwich et al., 2025)

\[Link\]

6 Nature: The AI Echo Chamber: Model Collapse & Synthetic Data Risks (Shumailov et al., 2024)

\[Link\]

7 New York Times: OpenAI resists court order to share ChatGPT logs with NYT (Legal Report, 2025)

\[Link\]

8 European Parliament: ‘Splinternets’: Addressing the renewed debate on internet fragmentation (Research Service, 2022)

\[Link\]
#免费互联网的终结#生成式AI数据抓取#Cloudflare机器人拦截#HTTP 402 Payment Required#模型崩溃现象#Model Collapse#Splinternet#互联网数据收费#JA4指纹识别#Nightshade#数据主权#网络未来

Recommended for You

40% 的数据中心电力未用于计算 — 钱去哪儿了?

40% 的数据中心电力未用于计算 — 钱去哪儿了?

5 min read
智能的热力学:AI引发的电力瓶颈与全球能源霸权战争(美、中、韩的生存战略)

智能的热力学:AI引发的电力瓶颈与全球能源霸权战争(美、中、韩的生存战略)

2 min read
2025年数据大灾难:您的隐私还好吗?(数字社会的生存契约)

2025年数据大灾难:您的隐私还好吗?(数字社会的生存契约)

2 min read

Advertisement

评论