2 Likes
发给ai,或者让ai帮你写个py脚本
2 Likes
早就收集完了,现在是数据分析,我负责数据清洗,发现很多数据都很。。。
设计这个问卷的人也是非常傻逼,都是输入项,后面的项大部分都是0,让人填这么多数谁愿意啊
纯数字的筛选?什么值算是合理范围?
不是0就行,但是这种明显乱点小键盘的数据就要排除掉
数据清洗也要有规则吧。没规则怎么清洗数据。
1 Like
这个不是可以直接排序吗
3 Likes
2 Likes
也是人工处理了
属于是问卷设计上的问题。没有设计验证项
比如设计两个完全一样的问题,或者设计一个答案显而易见的问题
3 Likes
导出为CSV格式,丢给大模型来处理,处理完再导入
1 Like
用ai就可以了
写个python脚本,每列都设个取值区间,不在区间的删掉,不是数字的删掉
从你的样本来看,样本数字都是<30。那我们不妨设一个阈值50,然后筛选出有两个以上数据>50的问卷直接删掉,两个及以下的人工二审
1 Like
其实可以在问卷问题设置上加入防乱填机制,比如告诉填的人这题选什么,然后后续筛选的时候,这一题不按要求来的直接剔除
1 Like
目前在搞这个