大数据中的隐藏偏差_隐性偏差问题

作者：繁依Fanyi0 | 2024-07-28 07:47:44

踩

隐性偏差问题

偶读Kate Crawford（供职于微软研究院）女士2013年的一篇旧文，仍有所触动，故而作读书笔记一篇。

先抛一个问题：数据科学的目标是什么？

笔者认为，人类社会很大的诱惑与恐惧均来自于对未来的不可知。我们因为害怕未知的疾病、灾难，而选择了宗教；因为不确定市场价格的未来走势，而热衷于K线图分析来试图聆听市场的提示；因为不知道谁更愿意购买我们的商品，而建立市场调研与精准营销。所有这一切，都是为了在一定程度上预知未来。因此，数据科学存在的意义，依然要服务于认知世界、挖掘规律、预知未来的范式。而这个流程中，认知世界就已经不是一件简单的事情了。

Kate Crawford在《The Hidden Biases in Big Data》中主要的一个观点在于，数据本身并不是绝对客观的存在，而是人类主观行为的记录。人们记录了数据，并根据各自的理解从其中推导结论。然而，数据采集与分析阶段所隐藏的偏差，将导致较大的风险。因此，对数据偏差的认知，应得到与数字本身一样的重视程度。Kate Crawford举例说，Sandy飓风袭击美国时，从tweet的活跃数据来看，来自曼哈顿的消息量级最大，活跃度最高，似乎会让人觉得曼哈顿就是风暴的中心，其中这

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/893311