最近在看一个网站的文章,还没看完,说要闭站了,有什么办法把文章都保存下来吗?
https://learn.lianglianglee.com/
5 个赞
全站抓取?但是别被站长抓住
都是些md小文件,直接开抓。
网页全都是<li> xxxxx <li>
网页目录扒下来就可以直接开下了,感觉挺简单
存下来自己看看应该没关系吧
搞!!!!!
这个不管啥用途,你只要去爬,只要触发了人家网站的某种机制,肯定会封你IP或者啥的,程序又分不清楚你是自用还是他用。
感谢大佬,我试一把
这个不管啥用途,只要触发了人家网站的某种机制,肯定会封你IP或者啥的,程序又分不清楚你是自用还是他用。
不用爬呀,这文章源码都在github,搜一下就出来了,想存档自己fork一个
12 个赞
要关了那就直接爬吧
试试 HTTrack
牛啊,感谢万能的网友
一般上搜索引擎的都有 sitemap.xml,直接 py 开爬就行了
试了一下,站点套了cf,并发高就被拦截了
老哥要是爬好了记得踢我一脚,我刚想说爬来着
可docker部署
1 个赞
网站克隆工具应该可以
牛啊,这都找出来了!!!