想爬一点数据,奈何每点下一页要验证码,求教大佬们

想从 https://zxsp.fgw.gxzf.gov.cn/listRecordProjectPublicity.jspx?pageNo=2&captcha=wawh&invalidCaptcha=&projectSearch=光伏 将表格爬下来,但是本身网站访问很慢,还每一页都需要验证码,

页面打开了爬取表格不难,但是这个验证码各位大佬有推荐的可行的免费的方案吗?

2 个赞

gov.cn
我看刑

5 个赞

论坛里有docker的打码工具,自己部署一个

:hot_face: 这类数据不是允许搞的吗?

有相关部门授权和招呼没有,没有等着请喝茶

求指点,打码关键字搜索没找到

爬虫本身就是不允许的,何来允许搞一说

这个验证码倒是没难度,没难度,但是这个网站不搞搞啊

https://chromewebstore.google.com/detail/yescaptcha-人机助手/jiofmdifioeejeilfkpegipdjiopiekl

1 个赞
	$(function () {
		if($("#invalidCaptcha").val() == "0" || $("#invalidCaptcha").val() == "1"){
			show('.firstDiv');
		}
	});

	function openCaptcha(opePage) {
		show('.firstDiv');
		if (opePage == ""){
			$("#projectSearch").val(trimx($("#projectSearch").val()));
		}else {
			var pageNo = 3;
			if(opePage=="first"){
				pageNo = 1;
			}else if(opePage=="last"){
				pageNo = 5910;
			}else if(opePage=="next"){
				pageNo++;
			}else if(opePage=="pre"){
				pageNo--;
			}else if(opePage=="go"){
				pageNo = $("#pn").val();
			}
			$("#pageNo").val(pageNo);
		}
	}

	function commitSearch() {
		hide('.firstDiv');
		var captcha = $("#captchaForInput").val();
		$("#captcha").val(captcha);
		console.log(captcha);
		$("#listRecordPublicityForm").submit();
	}

	function searchProject(){
		var captcha = $("#captchaForInput").val();
		$("#captcha").val(captcha);
		console.log(captcha);
		$("#projectSearch").val(trimx($("#projectSearch").val()));
		$("#listRecordPublicityForm").submit();
	}

	function opePage(opePage){
		var pageNo = 3;
		if(opePage=="first"){
			pageNo = 1;
		}else if(opePage=="last"){
			pageNo = 5910;
		}else if(opePage=="next"){
			pageNo++;
		}else if(opePage=="pre"){
			pageNo--;
		}else if(opePage=="go"){
			pageNo = $("#pn").val();
		}
		$("#pageNo").val(pageNo);
		$("#listRecordPublicityForm").submit();
	}

	function keyPress(){
		var e = window.event;
		if(e.keyCode == 13){
			searchProject();
		}
	}

	$(function () {
		$("#guestbookCaptcha").bind("click", function(){
			$(this).attr("src","/captcha.svl?d="+Math.random());
		});
	})

看着还行

这域名。。。。
你胆子真大

1 个赞

gov.cn, 你怎么敢的啊

1 个赞

只说这验证码,你可能需要下面的库

Tesseract OCR.

这种验证码很好破解的,自己训练一个模型都可以的。
然后像这种网站,要爬也是可以的,毕竟是公示的信息,但是要控制频率,gov的网站的机器的性能可能不高,别把人家的网站打挂了就行。

小伙子你有点勇啊

是的 处理下图片 OCR 即可

页面响应很慢 20多秒

.gov.cn 我看刑

有解决方案了好心人艾特我一下

给你讲个故事,若干年某个地图做公交时间的组的数据从.gov来的,然后没控制好把对方网站挂了。gov分管的部门查清楚原因后直接报警了,然后这个组的人被端了,全部进去蹲了15天,从程序员到产品到运营,这个还是公司动用关系求情了的。为啥我那么清楚,因为我是他们上层做数据的。。。

5 个赞