有大佬研究过企查查爬虫吗

想要爬取企业数据,对比了下天眼查和企查查,感觉企查查的数据质量更好。

早上自己试了之后,发现一个 IP,没有登录的情况下只能爬到一个页面,这个页面包括(企业查询,企业信息页),也就是单查询一个企业就需要用到两个 IP

问过师傅,通过 APK 逆向可能可以获取到信息,但是难度很大,有私有 SSL 证书和难搞的壳

有大佬研究过相关的爬虫吗

@neo 请求关闭此话题

2 Likes

有点刑啊。。

8 Likes

直接按头

1 Like

胆子这么大的吗

3 Likes

很刑

1 Like

也不是大量爬取,只是写的一个 AI 工具的一个小功能

1 Like

有判头

1 Like

思路应该打开,他的来源无非也是从公开数据(照着写一个

1 Like

是这样,但是要绕过的东西更多,涉及到的对抗姿势更复杂

1 Like

国内的你都敢搞?胆儿挺肥

3 Likes

手动去每个gov下查么

是的,不仅如此,很多信息不在同一个网站上,这样的处理逻辑也会相对复杂

不C只有基本信息。这些信息国家工商网也有

1 Like

工商登记、裁判文书等

是的,但是比如我想查询国内的使用国家工商网+绕过验证码的方式,可以获取到。

但是假如我想获取国外企业的相关信息,就没有办法了,通过企查查聚合到一起的数据,这样方便很多

以前项目有用到企查查的数据,当时是搞了4台云服务器,ip代理,正常的用户账号大概20多个,专门有台负责获取token和过校验,控制访问频率,整体项目规模很大,个人弄大概也是这个思路,就是数据获取速度会特别慢。

这个很刑,有时间研究这个不如直接投钱去找工商的接口……

From #develop:qa to 开发调优

1 Like