【爬虫|学习|副业|牢饭系列】论零基础爬虫到二十年无忧无虑。
1、基础学习
自己在下面或者自己在B站找找自己能看下去零基础
教程
B站-基础
B站-基础
2、框架
下面按需学习,建议优先研究DP(DrissionPage)毕竟舒服,爬取网页数据会很快,也能解决很多麻烦和坑,也会容易给自己带来满足感
、愉悦感
- 自动化框架
- selenium
- pyppeteer
- playwright
- splash
- DrissionPage
- appium
- airtest
- 爬虫框架
- scrapy
- feapder
- pyspider
- 接口编写
- FastAPI
- flask
- express
3、爬虫案例(实战)
下面是一些实战案例,网页+app,一关一关过了以后,你基本就到金丹期
但是距离元婴期
还有一段距离,
Python爬虫案例 | Scrape Center
猿人学-第二届Web攻防大赛-注册 (yuanrenxue.cn)
4、中高级爬虫
小伙子,之前的学习很简单吧?别急,下面才是你真正踏入修仙界的真正要学的!
1、JS逆向采集
- 1 补环境框架通杀与实战
- 2 TLS 原理与指纹高并发伪造
- 3 内存爆破 控制台拦截 性能监测等对抗
- 4 中间人攻击流量拦截与篡改
- 5 核心参数定位技巧与 STACK 跟值密文锁定
- 6 JSVMP 原理及处理方案
- 7 代码插桩方式与日志分析
- 8 主流打包器原理及模块暴露技巧
- 9 混淆原理与痕迹定位
- 10 混淆代码还原与中间人替换
- 11 伪造代码执行环境与密文传递
- 12 RPC 远程调用与鼠标轨迹识别检测绕过
2、安卓 APP 逆向(FRIDA XPOSED RATEL)
- 1 APP全场景抓包&反检测对抗
- 2 FRIDA HOOK ALL及其衍生工具基操+技巧
- 3 FRIDA 检测原理&魔改对抗实现
- 4 SO分析IDA分析OLLVM汇编及算法还原思路
- 5 魔改增强版脱壳机 & 实战
- 6 XPOSED 基操及进阶技巧、HOOKSO
- 7 注入+HOOK+ HIDE 核心原理
- 8 MAGISK之原理、ZYGISK、模块开发、HOOK 集成
- 9 从LSPOSED 原理到打造定制版 XPOSED
- 1 RATEL免ROOT 插件植入目标 APP
- 11 一键新机设备指纹切换对抗
- 12 免ROOT HOOK&调试快速还原算法
3、机器学习验证码
- 1 滑块验证码识别
- 2 点选验证码识别
- 3 图片缺口 坐标 检测与识别
- 4 手写 定长 不定长 图片识别
- 5 神经网络模型训练&标注
- 6 图像识别 API接口搭建
4、高可用爬虫框架设计 - 1 设计高可用异步爬虫
- 2 设计分布式爬虫,采集速度无上限
- 3 设计多下载器,直接绕过 TLS HTTP2
- 4 设计多层次管道,轻松处理数据清洗与数据转换
- 5 高融合页面解析器,大幅减轻业务代码
- 6 请求响应高度定制 轻松反反爬二次开发
5、尽量不吃牢饭系列
爬取数据须遵规_中华人民共和国最高人民检察院 (spp.gov.cn)
网络爬虫无处不在,侵权边界在哪_中华人民共和国最高人民检察院 (spp.gov.cn)
5、工具
工欲善其事,必先利与器!
SpiderAPI - 虫术 - 爬虫逆向常用 API
爬虫工具库-spidertools.cn
Ctool
爬虫工具-爬虫分析工具-猿人学爬虫工具 (yuanrenxue.cn)
记住一句话: