当前位置:   article > 正文

大数据中的隐藏偏差_隐性偏差问题

隐性偏差问题

    偶读Kate Crawford(供职于微软研究院)女士2013年的一篇旧文 ,仍有所触动,故而作读书笔记一篇。


    先抛一个问题:数据科学的目标是什么?

    笔者认为,人类社会很大的诱惑与恐惧均来自于对未来的不可知。我们因为害怕未知的疾病、灾难,而选择了宗教;因为不确定市场价格的未来走势,而热衷于K线图分析来试图聆听市场的提示;因为不知道谁更愿意购买我们的商品,而建立市场调研与精准营销。所有这一切,都是为了在一定程度上预知未来。因此,数据科学存在的意义,依然要服务于认知世界、挖掘规律、预知未来的范式。而这个流程中,认知世界就已经不是一件简单的事情了。

    

    Kate Crawford在《The Hidden Biases in Big Data》中主要的一个观点在于,数据本身并不是绝对客观的存在,而是人类主观行为的记录。人们记录了数据,并根据各自的理解从其中推导结论。然而,数据采集与分析阶段所隐藏的偏差,将导致较大的风险。因此,对数据偏差的认知,应得到与数字本身一样的重视程度。Kate Crawford举例说,Sandy飓风袭击美国时,从tweet的活跃数据来看,来自曼哈顿的消息量级最大,活跃度最高,似乎会让人觉得曼哈顿就是风暴的中心,其中这

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/893311
推荐阅读
相关标签
  

闽ICP备14008679号