有什么方法把一个网站的所有文章一次性保存下来

peerlessfu · 2024 年9 月 9 日 06:24

最近在看一个网站的文章，还没看完，说要闭站了，有什么办法把文章都保存下来吗？
https://learn.lianglianglee.com/

eryuns · 2024 年9 月 9 日 06:26

全站抓取？但是别被站长抓住

LangYnn · 2024 年9 月 9 日 06:26

PY爬一下？

miza · 2024 年9 月 9 日 06:27

都是些md小文件,直接开抓。

https://learn.lianglianglee.com/专栏/目录/子目录.md
只需要目录和子目录

网页全都是<li> xxxxx <li>
网页目录扒下来就可以直接开下了,感觉挺简单

peerlessfu · 2024 年9 月 9 日 06:30

存下来自己看看应该没关系吧

peerlessfu · 2024 年9 月 9 日 06:31

搞！！！！！

MathGeoCloud · 2024 年9 月 9 日 06:31

这个不管啥用途，你只要去爬，只要触发了人家网站的某种机制，肯定会封你IP或者啥的，程序又分不清楚你是自用还是他用。

peerlessfu · 2024 年9 月 9 日 06:31

感谢大佬，我试一把

MathGeoCloud · 2024 年9 月 9 日 06:32

这个不管啥用途，只要触发了人家网站的某种机制，肯定会封你IP或者啥的，程序又分不清楚你是自用还是他用。

pama · 2024 年9 月 9 日 06:40

不用爬呀，这文章源码都在github，搜一下就出来了，想存档自己fork一个

handsome · 2024 年9 月 9 日 06:49

要关了那就直接爬吧

dhb · 2024 年9 月 9 日 06:49

试试 HTTrack

peerlessfu · 2024 年9 月 9 日 07:00

牛啊，感谢万能的网友

ticks · 2024 年9 月 9 日 08:26

一般上搜索引擎的都有 sitemap.xml，直接 py 开爬就行了

dhb · 2024 年9 月 9 日 10:25

试了一下，站点套了cf，并发高就被拦截了

isyifan · 2024 年9 月 9 日 15:17

老哥要是爬好了记得踢我一脚，我刚想说爬来着

banlan · 2024 年11 月 2 日 06:40

可docker部署

kevin95 · 2024 年11 月 2 日 06:41

网站克隆工具应该可以

GMYXDS · 2024 年11 月 2 日 08:36

牛啊，这都找出来了！！！

ToyotaLee · 2024 年12 月 13 日 08:30

不知真假

话题		回复	浏览量
失业在家，用cursor撸了一个网盘搜索网站资源荟萃	73	2630	2025 年1 月 21 日
兄弟们，求个爬虫。开发调优快问快答	37	620	2025 年1 月 7 日
分享下我个人常用的一些搜索技巧资源荟萃	67	2817	2024 年12 月 19 日
用cursor写了个网页内容提取器(第二版),支持文章/论坛/微信/知乎,支持输出文本/Markdown/HTML，从而让AI能够读网页链接开发调优人工智能 , 软件开发	72	1917	2025 年3 月 22 日
浏览器收藏夹太乱，码一下自己收藏的网站(bushi 资源荟萃	87	4950	2025 年2 月 23 日