想要爬取企业数据,对比了下天眼查和企查查,感觉企查查的数据质量更好。
早上自己试了之后,发现一个 IP,没有登录的情况下只能爬到一个页面,这个页面包括(企业查询,企业信息页),也就是单查询一个企业就需要用到两个 IP
问过师傅,通过 APK 逆向可能可以获取到信息,但是难度很大,有私有 SSL 证书和难搞的壳
有大佬研究过相关的爬虫吗
@neo 请求关闭此话题
想要爬取企业数据,对比了下天眼查和企查查,感觉企查查的数据质量更好。
早上自己试了之后,发现一个 IP,没有登录的情况下只能爬到一个页面,这个页面包括(企业查询,企业信息页),也就是单查询一个企业就需要用到两个 IP
问过师傅,通过 APK 逆向可能可以获取到信息,但是难度很大,有私有 SSL 证书和难搞的壳
有大佬研究过相关的爬虫吗
@neo 请求关闭此话题
有点刑啊。。
直接按头
胆子这么大的吗
很刑
也不是大量爬取,只是写的一个 AI 工具的一个小功能
有判头
思路应该打开,他的来源无非也是从公开数据(照着写一个
是这样,但是要绕过的东西更多,涉及到的对抗姿势更复杂
国内的你都敢搞?胆儿挺肥
手动去每个gov下查么
是的,不仅如此,很多信息不在同一个网站上,这样的处理逻辑也会相对复杂
不C只有基本信息。这些信息国家工商网也有
工商登记、裁判文书等
是的,但是比如我想查询国内的使用国家工商网+绕过验证码的方式,可以获取到。
但是假如我想获取国外企业的相关信息,就没有办法了,通过企查查聚合到一起的数据,这样方便很多
以前项目有用到企查查的数据,当时是搞了4台云服务器,ip代理,正常的用户账号大概20多个,专门有台负责获取token和过校验,控制访问频率,整体项目规模很大,个人弄大概也是这个思路,就是数据获取速度会特别慢。
这个很刑,有时间研究这个不如直接投钱去找工商的接口……
From #develop:qa to 开发调优