您现在的位置:苏州市第三中学校>> 校务公开>> 校园新闻>>正文内容

施黎伟:数据也会骗人的!

 
    现在是一个人必称大数据的时代,任何内容如果和大数据扯上一些关系就变得高大上起来,让人不可反驳。
    但有时候,用真实数据计算出来的正确答案,不一定就是事实的真相。
    换句话说,数据也会骗人的!
 
    下面列举几条常见的数据分析陷阱:
 
选择误差
    选择误差:因为选择的非随机性而导致的结论性偏差
 
【说明】因为样本选择的问题,导致的大数据统计误差。
【典型举例】希拉里和特朗普竞选,选前的民意数据统计一边倒地判断希拉里会获胜,但最后实际结果却相反。问题在于:盖洛普调查、主流报纸抽样、机构做的民意调查统计,它们选择往往是有倾向性的,不能代表所有美国人的想法。(还有一种说法是民意调查需要支付一定数额费用才能参加)。像这样因为选择的偏差而产生的数据结论的误差,就称为选择误差。
 
 
    典型的选择误差的例子:
(1)在飞机场做一般消费者调查问卷。
(能坐的起飞机的在我眼中就不是一般人了!)
(2)教师的受欢迎程度的调查
(在好的班级调查和在差班级调查,同一个老师也会得到截然不同的结果的!)
(3)Facebook分析抓住的恐怖份子的网络行动数据,与所有美国人的网络行动数据做对比,想以此作为依据定位恐怖份子,结果发现美国遍地是恐怖份子。
(美国有多少恐怖份子?中东有多少恐怖份子?)
 
幸存者偏差
    幸存者偏差:只看到经过某种筛选而产生的结果,而没有意识到筛选的过程,因此忽略了被筛选掉的关键信息。
【说明】时刻警惕摆在在你眼中数据是否是“幸存者”。
【典型举例】二战时,英国发现,从战场回来的飞机,机身上的弹孔比引擎和油箱上的弹孔要多得多,因此,很多人主张要在机身上加防护装甲。事实上,能飞回来的都是“幸存者”,那些在引擎和油箱上中弹的飞机已经回不来了。所以,更应该在引擎和油箱上装防护装甲。像这样,眼中只有“幸存者”数据而产生的统计偏差,称为幸存者偏差。
    幸存者偏差举例
(1)很多人的坐飞机恐惧症
(你看到的飞机失事的恐怖镜头其实都是经过媒体筛选的“幸存者”,真实的做飞机的安全性比公路交通要高很多!)
(2)比尔.盖茨、扎克伯格都是大学辍学创业,现在的大学生也要辍学创业。
(他们都是幸存者好不好!)
(3)今年年底统计,80%的基金都有收益,所以买基金很安全。
(没有收益的基金都死掉了!)
 
因果关系偏差
    因果关系偏差:用大数据得出的并非因果关系。
【说明】用大数据得出的结果往往是相关关系(A与B有关系),而不是因果关系(因为A而产生B)。
【典型例题】公鸡打鸣,太阳升起,所以公鸡打鸣是太阳升起的原因。像这种只有相关关系,但得出了因果关系结论的偏差,称为因果关系偏差。
 
 
    因果关系偏差举例
(1)统计表明,绝大多数人都死于医院,所以我们不去医院就可以避免死亡。
(神逻辑!)
(2)游泳溺亡的人越多,雪糕就卖的越好。
(明显不是因果关系,最大可能应该都是因为天太热了。)
(3)每天按时吃维生素的人身体更健康,所以为了身体健康我们需要每天按时吃维生素片。
(健康的原因是一个系统性的工程,不是单吃维生素片就能马上健康的)
(3)统计表明,98%的哈佛毕业生在小时候都穿过紫色的睡衣,所以紫色睡衣更有助于幼儿大脑的发展。
(好吧,以后紫色睡衣要脱销了。)
 
总结一下
    选择误差:选择样本不能代表全体。
    幸存者偏差:只看到了“幸存者”。
    因果关系偏差:用大数据得出的只是相关关系,而非因果关系。
 
发表性偏差
    发表性偏差:由于含有统计数据的结果,相对于没有意义的结果更易于发表,所以结果先行,再寻找与之配套的统计数据。
【说明】用数据说谎很容易,但用真实数据说出真相却没有那么简单。有目的地对数据进行一些筛选和处理或干脆忽略某些关键数据,再进行统计分析,从而得出想要的结论,这就是发表性偏差。
其实发表性偏差本质上就是论文数据造假,是统计中非常严重的错误。
【典型案例】笔者看到一篇论文,大致如下结构:两组学生起点相同,A组用新的教学模式教学,B组用传统教学模式教学。一段时间后,最后测验进行统计,分析各种数据指标,结合图表说明了一个结论:新的教学模式的确比旧的更有用。
     但是,两组学生的起点是否的确是相同的呢?在文章中只有一句话“两组学生学习起点相同”,如此轻描淡写地带过,并且没有任何数据支持。显然,这一个关键统计指标被忽略了。
    像这样,为了结果更容易发表而有目的忽略甚至筛选处理某些数据的行为,就是发表性偏差。
 
 
    典型案例:
    为了得出"玩网络游戏能降低胰腺癌发病率"这一结论,调查人员进行了100次统计调查,99次都显示不相关,而一次纯属无稽的结果却显示相关,于是得出结论"网络游戏能降低1%的胰腺癌发病率"
(显然是为了发表,结果先行,牵强附会后得到的统计结论)
 
回忆偏差
    回忆偏差:进行统计时,由于当事人记忆失真或者不完整导致的数据偏差。
【说明】在对人的调查中,由于当事人的记忆或情感问题,而产生的统计偏差。
 
 
【典型案例】在调查学生对学校的态度与学生辍学之间的关系时,调查人员对辍学十几年后的学生进行调查,进行一些数据统计分析,从而得出调查结论。
    时间长了以后,被调查者当事人对学校的印象记忆已经非常模糊,很可能产生统计偏差,这种偏差称为回忆偏差。
 
问卷调查设计偏差
    问卷调查设计偏差:顾名思义,由于问卷调查设计问题,而产生的数据统计偏差。
【说明】在问卷调查设计种,由于含有某些主观倾向性的问题,设计排版不合理等问题,都会对搜集的数据产生偏差。
【典型案例】
    某机构在高校做了一个调查,问题是:"你认为高校教师的工资水平是否需要提高?"第一个选项就是"需要提高",最后结果统计都需要提高工资水平。
 
 
    类似这种统计设计有明显暗示倾向的问题,不适合出现在调查问卷中,最好应改为:“你认为高校教师目前的工资水平是否合适?”比较稳妥一些。像这种,由于问卷调查设计而产生的数据统计偏差称为问卷调查设计偏差。
 
总结一下
选择误差:选择样本不能代表全体。
幸存者偏差:只看到了“幸存者”。
因果关系偏差:用大数据得出的只是相关关系,而非因果关系。
发表性偏差:结果先行,再找数据。
回忆偏差:人的记忆数据不完整。
问卷设计偏差:调查问卷设计问题有倾向性。
 
 
作者简介
 
 
    施黎伟,苏州市第三中学数学老师。三大爱好:教书,编程和读书。获程序员证书,曾梦想做一名超级程序员。作为一名教师,利用自己的能力,利用网络的力量,帮助更多学生,更好学习数学。于是就有了“不学无数”这个微信公众号学习平台。在这个平台上,虽付出很多,但也收获很多,学到了很多。
    始终相信:伟大不是靠力量,而是靠不懈的坚持来完成的。
 
 
文/施黎伟   编辑/韦宇端

 


【字体: 】【收藏】【打印文章】【查看评论

相关文章

    没有相关内容