想把整个网站的抓下来存档，推荐什么工具

Nijika · 2024 年11 月 2 日 04:41

存档任意单个页面可以用 singlepage

缓存语雀飞书贴吧之类的有专门的工具

但是对于文档网站有什么好的存档工具吗？不要求很完美，像idm那样批量下载下来也行。问问佬友们有没有啥经验

banlan · 2024 年11 月 2 日 04:50

有一个docker项目可以

oswald522 · 2024 年11 月 2 日 04:51

上古软件HTTrack，可以缓存整个网站。需要设置网站深度，太深速度慢并且占用容量较多。个人一般用于爬取网站获取网站资源。

GavenF · 2024 年11 月 2 日 04:52

可以用wget递归获取网页加JS
wget -r -p -np -k http: //xxx.com/xxx

然后用easychm做成chm离线看

GavenF · 2024 年11 月 2 日 04:53

简单粗暴解决问题（反正我是这么搞的）

datehoer · 2024 年11 月 2 日 04:53

如果只存html的话，我有一个之前写的项目可以爬整个站的数据。用python挺简单的，找个ai帮你写就行了。如果是没反爬的直接requests下载下来存，如果有反爬可以用playwright模拟浏览器访问然后下下来。

Nijika · 2024 年11 月 2 日 05:16

也是个好办法

Nijika · 2024 年11 月 2 日 05:17

确实可以这样写，好思路

wadax · 2024 年11 月 2 日 05:20

记得之前有一个叫毛剪的项目

leonkuku · 2024 年11 月 2 日 06:15

Cyotek WebCopy, 这个推荐你，挺好用的，能够爬得很细致

chengtx · 2024 年11 月 2 日 06:16

single file，一个浏览器插件也可以做到

Allen0 · 2024 年11 月 2 日 07:23

好用

borland99 · 2024 年11 月 2 日 08:42

chrome save all resources

Drrrrrr · 2024 年11 月 2 日 08:42

真不错，====

ohayo · 2024 年11 月 2 日 09:36

aifeisheng · 2024 年11 月 2 日 09:40

谷歌为什么让你关闭啊

QAWS12g · 2024 年11 月 2 日 10:11

抓下来能分享一下嘛

lie · 2024 年11 月 2 日 10:13

老哥抓下来能分享一下嘛

Nijika · 2024 年11 月 3 日 05:12

不是我的，网上搜到的

riddleman · 2024 年11 月 3 日 05:15

wget递归确实是一个简单的方法。如果wegt不行，可以试试采集器。采集器，比如火车头等等的。采集器是专业爬取的。

话题		回复	浏览量
有什么方法把一个网站的所有文章一次性保存下来资源荟萃快问快答	21	940	2024 年12 月 20 日
网页离线保存工具资源荟萃	8	355	2024 年12 月 7 日
求一个好用的网页剪裁收藏插件搞七捻三快问快答	16	855	2024 年11 月 11 日
基于 Cloudflare 的网页归档工具Web Archive 资源荟萃	7	373	2024 年11 月 17 日
网页ppt文档怎么下载下来？搞七捻三快问快答	22	676	2024 年12 月 10 日