想把整个网站的抓下来存档,推荐什么工具

存档任意单个页面可以用 singlepage

缓存语雀飞书贴吧之类的有专门的工具

但是对于文档网站有什么好的存档工具吗?不要求很完美,像idm那样批量下载下来也行。问问佬友们有没有啥经验

24 个赞

有一个docker项目可以

11 个赞

上古软件HTTrack,可以缓存整个网站。需要设置网站深度,太深速度慢并且占用容量较多。个人一般用于爬取网站获取网站资源。

1 个赞

可以用wget递归获取网页加JS
wget -r -p -np -k http: //xxx.com/xxx

然后用easychm做成chm离线看

5 个赞

简单粗暴解决问题(反正我是这么搞的)

2 个赞

如果只存html的话,我有一个之前写的项目可以爬整个站的数据。用python挺简单的,找个ai帮你写就行了。如果是没反爬的直接requests下载下来存,如果有反爬可以用playwright模拟浏览器访问然后下下来。

1 个赞

也是个好办法

确实可以这样写,好思路

记得之前有一个叫毛剪的项目

1 个赞

Cyotek WebCopy, 这个推荐你,挺好用的,能够爬得很细致

2 个赞

single file,一个浏览器插件也可以做到

1 个赞

好用 :+1:

chrome save all resources

真不错,====

1 个赞

谷歌为什么让你关闭啊

抓下来能分享一下嘛

老哥抓下来能分享一下嘛 :lark_102:

1 个赞

不是我的,网上搜到的

wget递归确实是一个简单的方法 :tieba_003:。如果wegt不行,可以试试采集器。采集器,比如火车头等等的。采集器是专业爬取的。

1 个赞