如何筛选乱填的问卷数据


这种乱填怎么排除uu们

2 Likes

发给ai,或者让ai帮你写个py脚本

2 Likes

早就收集完了,现在是数据分析,我负责数据清洗,发现很多数据都很。。。

设计这个问卷的人也是非常傻逼,都是输入项,后面的项大部分都是0,让人填这么多数谁愿意啊

纯数字的筛选?什么值算是合理范围?

不是0就行,但是这种明显乱点小键盘的数据就要排除掉

数据清洗也要有规则吧。没规则怎么清洗数据。

1 Like

这个不是可以直接排序吗

3 Likes

每一列排序,然后把前面0和后面乱七八糟的去掉?Sort each column and then remove the leading zeros and the messy ones after?
看着像是只能人工处理。Looked like it could only be handled manually.
不然就试试ai能不能解析。Otherwise try to see if ai can parse it.

2 Likes

也是人工处理了

属于是问卷设计上的问题。没有设计验证项

比如设计两个完全一样的问题,或者设计一个答案显而易见的问题

3 Likes

导出为CSV格式,丢给大模型来处理,处理完再导入

1 Like

用ai就可以了

写个python脚本,每列都设个取值区间,不在区间的删掉,不是数字的删掉

从你的样本来看,样本数字都是<30。那我们不妨设一个阈值50,然后筛选出有两个以上数据>50的问卷直接删掉,两个及以下的人工二审

1 Like

其实可以在问卷问题设置上加入防乱填机制,比如告诉填的人这题选什么,然后后续筛选的时候,这一题不按要求来的直接剔除

1 Like

目前在搞这个