五年前,谷歌有了一个了不起的发现。通过查看搜索的相关性,谷歌流感趋势能够绘制出美国流感的传播情况。谷歌的算法可以比疾病控制和预防中心更快地完成这项工作。没有医学数据、假设或模型。在本文中,我讨论了四种著名的大数据陈述。大数据的成功是否被高估了?
1. 数据集分析的结果从未如此准确。
美国百货公司Target也有 大数据的成功故事。有一次,一名男子走进塔吉特百货公司,向经理投诉。他的女儿收到了婴儿装和孕妇装的折扣券。而他的女儿确实没有怀孕。几天后,经理甚至打电话给该男子道歉。但事实证明经理的借口是多余的,女儿真的怀孕了。通过将女儿的购买行为与一般孕妇的购买行为进行比较,Target 比父亲更早意识到自己怀孕了。
大数据分析师Kaiser Fung表示,我们应该注意这个故事的误报。冯说,谈到塔吉特的成功故事,有很多因素我们不知道。 “我们不知道邮件列表是什么样的。我们不知道有多少未怀孕的女性收 澳大利亚电子邮件列表 到怀孕相关产品的优惠券。也许塔吉特的优惠券手册有多种选择。”随着大数据的出现,数据分析的结果更加准确。确实,由此可以获得更多利润。但如果我们忽略误报,大数据的精确度就会被高估。
2. 大数据使得研究因果关系变得不必要,我们可以将注意力转移到相关性上。
大数据的优点是我们可以将注意力集中在相关性上。研究相关性是一种比因果关系(即什么到底导致什么的问题)更便宜、更快捷的研究方法。然而,因果关系仍然是数据集分析中的一个重要因素。例如,谷歌流感趋势结果对流感的传播做出了过于夸大的预测。问题在于谷歌的工程师并没有调查到底是什么原因造成的。他们只关心寻找数据中的统计模式。谷歌流感趋势的失败或许可以用2012年12月的新闻来解释,当时的新闻主要是关于流感的“可怕”故事。
另一种可能性是谷歌的算法影响了数据分析。例如,当人们输入医疗症状时,算法可能会越来越多地生成流感诊断作为搜索结果。当强调相关性时,问题是你不知道相关性背后的原因是什么。《大数据》一书的作者Viktor Mayer-Schönberger和Kenneth Cukier表示:
因果关系不会被抛弃,但它作为意义的主要源泉的地位正在被推翻。
3.大数据集齐全,我们不再需要考虑统计。
数据分析师将拥有所有必要的数据表示为“N=All”。舍恩伯格不仅是一位作家,也是牛津互联网研究所的教授,他解释说,在这种情况下,你不再需要使用总体样本。因为你实际上拥有代表整个人口的所有信息。因此,您不必考虑统计陷阱。
理论上,你可以记录每一条推文,从而发表有关公众舆论的声明。然而,如果我们看看美国皮尤研究中心2013年的互联网项目,就会发现Twitter的用户主要是生活在城市里的年轻人。并不能真正代表全体人口。
街头碰撞
另请查看Street Bump,这是一款在波士顿使用的移动应用程序。 Street Bump 提供“N=All”,因为在纸面上每部手机都能够记录恶劣的路面。一方面,可以说 Street Bump 产生的数据为市政当局提供了实时信息。可以解决问题和进行长期投资的信息。另一方面,你可以说该应用程序有利于年轻的智能手机用户。
样本误差和样本偏差
然后还有偶然性和机会性的因素。与许多人声称的相反,这些因素并没有被大数据集排除。例如,我们知道样本错误:由于偶然性,随机选择的意见样本并不代表总体的真实观察结果的风险。样本错误有一个危险的弟弟,称为样本偏差。如果样本不是随机选择的,就会出现抽样偏差。找到一个无偏见的样本是极其困难的。 Street Bump 是非随机选择样本的一个很好的例子。
4. 科学或统计模型不是必需的,因为对于大数据集,数字不言而喻。
2005 年,流行病学家 John Ioannidis 发表了一项重要的科学研究:“为什么大多数发表的研究结果都是错误的”。这项研究揭示了多重比较问题:当研究人员研究多种模式时就会出现这种问题。
多重比较问题
假设正在研究维生素对小学生的影响。在这项研究中,一些儿童接受维生素,其他儿童接受安慰剂。你现在学习的效果如何?研究人员可以了解维生素的使用是否会影响生长、体重、牙齿侵蚀、课堂行为或报告成绩。
然后您可以分析一些组合。维生素对贫困儿童与富裕儿童、男孩与女孩有何影响? Ioannidis 说,当你测试不同的相关性时,随机结果会掩盖“真实”结果。 “这个问题在大数据集中甚至更大,”约安尼迪斯说。如果有足够的数据,数字就能说明一切,这种想法是天真的。特别是在可能有多种模式并且可以建立多个连接的数据集中。