想从 https://zxsp.fgw.gxzf.gov.cn/listRecordProjectPublicity.jspx?pageNo=2&captcha=wawh&invalidCaptcha=&projectSearch=光伏 将表格爬下来,但是本身网站访问很慢,还每一页都需要验证码,
页面打开了爬取表格不难,但是这个验证码各位大佬有推荐的可行的免费的方案吗?
想从 https://zxsp.fgw.gxzf.gov.cn/listRecordProjectPublicity.jspx?pageNo=2&captcha=wawh&invalidCaptcha=&projectSearch=光伏 将表格爬下来,但是本身网站访问很慢,还每一页都需要验证码,
页面打开了爬取表格不难,但是这个验证码各位大佬有推荐的可行的免费的方案吗?
gov.cn
我看刑
论坛里有docker的打码工具,自己部署一个
这类数据不是允许搞的吗?
有相关部门授权和招呼没有,没有等着请喝茶
求指点,打码关键字搜索没找到
爬虫本身就是不允许的,何来允许搞一说
这个验证码倒是没难度,没难度,但是这个网站不搞搞啊
$(function () {
if($("#invalidCaptcha").val() == "0" || $("#invalidCaptcha").val() == "1"){
show('.firstDiv');
}
});
function openCaptcha(opePage) {
show('.firstDiv');
if (opePage == ""){
$("#projectSearch").val(trimx($("#projectSearch").val()));
}else {
var pageNo = 3;
if(opePage=="first"){
pageNo = 1;
}else if(opePage=="last"){
pageNo = 5910;
}else if(opePage=="next"){
pageNo++;
}else if(opePage=="pre"){
pageNo--;
}else if(opePage=="go"){
pageNo = $("#pn").val();
}
$("#pageNo").val(pageNo);
}
}
function commitSearch() {
hide('.firstDiv');
var captcha = $("#captchaForInput").val();
$("#captcha").val(captcha);
console.log(captcha);
$("#listRecordPublicityForm").submit();
}
function searchProject(){
var captcha = $("#captchaForInput").val();
$("#captcha").val(captcha);
console.log(captcha);
$("#projectSearch").val(trimx($("#projectSearch").val()));
$("#listRecordPublicityForm").submit();
}
function opePage(opePage){
var pageNo = 3;
if(opePage=="first"){
pageNo = 1;
}else if(opePage=="last"){
pageNo = 5910;
}else if(opePage=="next"){
pageNo++;
}else if(opePage=="pre"){
pageNo--;
}else if(opePage=="go"){
pageNo = $("#pn").val();
}
$("#pageNo").val(pageNo);
$("#listRecordPublicityForm").submit();
}
function keyPress(){
var e = window.event;
if(e.keyCode == 13){
searchProject();
}
}
$(function () {
$("#guestbookCaptcha").bind("click", function(){
$(this).attr("src","/captcha.svl?d="+Math.random());
});
})
看着还行
这域名。。。。
你胆子真大
gov.cn, 你怎么敢的啊
只说这验证码,你可能需要下面的库
这种验证码很好破解的,自己训练一个模型都可以的。
然后像这种网站,要爬也是可以的,毕竟是公示的信息,但是要控制频率,gov的网站的机器的性能可能不高,别把人家的网站打挂了就行。
小伙子你有点勇啊
是的 处理下图片 OCR 即可
页面响应很慢 20多秒
.gov.cn 我看刑
有解决方案了好心人艾特我一下
给你讲个故事,若干年某个地图做公交时间的组的数据从.gov来的,然后没控制好把对方网站挂了。gov分管的部门查清楚原因后直接报警了,然后这个组的人被端了,全部进去蹲了15天,从程序员到产品到运营,这个还是公司动用关系求情了的。为啥我那么清楚,因为我是他们上层做数据的。。。