AI Labyrinth ，用魔法打败魔法

tkk · 2025 年3 月 24 日 08:28

写一点学习记录，练练写作能力，不对之处请佬们指出，不过怎么看起来 AI 味儿那么浓，确实是手敲的啊

CloudFlare 推出 AI Labyrinth ，可引诱 AI 爬虫进入信息迷宫，避免重要数据被爬取。
什么是爬虫？
- 爬虫是一种自动化程序，用于访问目标网站并获取网页内容，我们使用的搜索引擎也是一种爬虫。
- 其工作流程大致为「访问网站——解析robots.txt确定爬取规则——解析站点地图sitemap.xml（如有）遍历页面——获取网页内容并进行清洗（文字、图片、超链接等），将超链接加入待抓取列表——遍历所有页面，完成数据抓取」。
  - robots.txt记录了网站所有者规定的爬取规则，限制了哪些能爬取哪些不能，存放在网站根目录。不过防君子不防小人，它并不能约束爬虫行为。AI 时代要更加重视robots.txt，更新不及时、User-agent包含不全都有可能造成严重的数据泄露和网站崩溃，OpenAI和Claude等都有自己的 AI 爬虫在网络上搜刮着数据。举例：https://www.cloudflare.com/robots.txt
  - sitemap.xml记录了网站页面结构，设定了页面的优先级和更新频率。清晰的页面结构、不重复的内容、高质量的内容有助于提高网站的SEO（搜索引擎优化），提高网站排名。小型网站可以手动编写，大型网站可以使用插件自动生成并更新。举例：https://www.cloudflare.com/sitemap.xml
AI Labyrinth 的原理
- 生成一系列 AI 生成的页面，并构成一整套网络链接，将 AI 爬虫引诱进去，浪费其算力。
- 特点
  - 生成的内容是真实的，符合科学事实，只是可能与目标网站不相关。
  - 生成的链接是隐藏的，但是由于爬虫是直接抓取html网页，这对爬虫来说就有很强的吸引力。
  - 通过分析哪些请求访问了这些隐藏链接，就能抵挡 AI 爬虫。并且这个过程也可以通过机器学习不断迭代，变得更加智能。
- 待改进点
  - 当前还不能根据具体的网站生成更符合其网站结构的内容，而是预先生成的，存储在 R2 中以加快检索速度。

话题		回复	浏览量
Cloudflare 宣布推出 AI Labyrinth 前沿快讯	9	618	2025 年3 月 23 日
Cloudflare 正在将网络爬虫引入“AI 迷宫” 前沿快讯人工智能 , 纯水	3	328	2025 年3 月 26 日
250325 三花 AI 日报：DeepSeek 低调推出 V3-0324；谷歌 AI Studio 可通过 ai.dev 访问；Cloudflare 推出 AI Labyrinth；Browser Use 获 1700 万美元融资；StarVector：专为图标优化的 AI 矢量转换工具前沿快讯人工智能	29	1090	2025 年3 月 28 日
寻求AI辅助网页逆向的最佳实践开发调优人工智能	2	312	2024 年11 月 27 日
网页知识库工具推荐资源荟萃人工智能	6	440	2025 年3 月 19 日

AI Labyrinth ，用魔法打败魔法

相关话题