有什么方法把一个网站的所有文章一次性保存下来

最近在看一个网站的文章,还没看完,说要闭站了,有什么办法把文章都保存下来吗?
https://learn.lianglianglee.com/

5 个赞

全站抓取?但是别被站长抓住

PY爬一下?

1 个赞

都是些md小文件,直接开抓。

https://learn.lianglianglee.com/专栏/目录/子目录.md
只需要目录和子目录

网页全都是<li> xxxxx <li>
网页目录扒下来就可以直接开下了,感觉挺简单

存下来自己看看应该没关系吧 :joy:

搞!!!!!

这个不管啥用途,你只要去爬,只要触发了人家网站的某种机制,肯定会封你IP或者啥的,程序又分不清楚你是自用还是他用。 :grinning:

感谢大佬,我试一把

这个不管啥用途,只要触发了人家网站的某种机制,肯定会封你IP或者啥的,程序又分不清楚你是自用还是他用。 :grinning:

不用爬呀,这文章源码都在github,搜一下就出来了,想存档自己fork一个


12 个赞

要关了那就直接爬吧

试试 HTTrack

牛啊,感谢万能的网友 :grinning:

一般上搜索引擎的都有 sitemap.xml,直接 py 开爬就行了

试了一下,站点套了cf,并发高就被拦截了 :melting_face:

老哥要是爬好了记得踢我一脚,我刚想说爬来着

可docker部署

1 个赞

网站克隆工具应该可以

牛啊,这都找出来了!!!

不知真假