大数据的相关性特性
挺巧的是,最近从不同来源听到了这个理论两次。
第一次是ACE题库里的一道题:“美国海军军官莫里通过对前人航海日志的分析,绘制了新的航海日志图,表明了大风与洋流可能发生的地点,这体现了大数据分析理念中的:”
这道题的标准答案是:在分析方法上,更注重相关分析而不是因果分析。
第二次是听播客“纵横四海”,讲瑞幸数字化。瑞幸除了把甜度、浓稠度等饮料的指标做了数字化之外,也将其和销量的反馈结合起来。但在结合的时候,并不会试图推断出甜度与销量的因果关系,而是相信数据给出的指引。
播客里还举了几个典型的案例,比如沃尔玛发现飓风前人们喜欢屯蛋挞。至于为什么是蛋挞,而不是薯片,也不是可乐,从因果性没法给出很好的解释。
还有亚马逊的案例中书籍推荐之间的相关性,医疗保险方面买车与遵医嘱信用分的相关性。
这时候就要反人类的本能,放弃对因果性的追究,去全身心拥抱大数据。
从某个角度,LLM中对Few Shot有效性的解释,也可以从这个角度来理解。Few Shot本身并没有改变模型,但得到的结果就是更好了。即Few Shot与结果的有效性之间存在相关性。但当前的理论模型只能给出一些猜测,还无法完美证明。
个人对因果性与相关性的看法
对于这个现象,我的个人看法分为两点:
- 接受这个事实,从实用性角度先利用起来。
- 关注业界对于其背后原理的研究进展。
背后的逻辑是:
- 承认人类对于现实世界的理解是有限的。的确存在只发现了现象,但暂时无法完全探明其原理的事务。
- 时间是有限的,机会是稍纵即逝的。很多时候如果一定要掌握因果性才做决策,机会点就丢失了。务实为先。
- 但不盲信,不将现象宗教化。坚信其中被后的原理早晚是会被人类解答的。
舍恩伯格在《大数据时代》中的观点是放弃对因果性的理解:我们没有必要非得知道现象背后的原因,而是要让数据自己发声;
其译者周涛的观点是不能放弃:放弃了对因果的追求,就是放弃了人凌驾计算机之上的智力优势,是人类自身的放纵和堕落。
我个人还是认同不能放弃对因果性追求的观点。即使是从实用性角度,了解数据之间的因果关系,也有利于建立起更好的模型,避免明显的伪相关性。
典型的案例就是“冰淇淋销售量和溺水次数”的相关性,与“降雨和骑自行车的人数”的相关性。溺水预测模型明显应该排除冰激凌销量的数据,而降雨预测模型也应该排除骑自行车人数。
在搜索相关观点的过程中,甚至看到了一些比较极端的观点,比如:“世界可能根本没有因果性”。对这种观点就不予置评了。
总结
对这个topic也只是在听完播客后的理解巩固。在工作中暂时没有实际的运用场景。
就先推荐一下相关的不错的深入阅读文章吧。
参考资料
7.8 相关关系、因果关系和预测 | 预测:方法与实践(第三版)
https://otexts.com/fpp3cn/causality-cn.html
这本书在澳大利亚莫纳什大学用作商学本科三年级的课程教材,还贴心地有中文翻译,值得后续进一步详细阅读。在B站上还有教师英文讲课视频可以锻炼英语听力。
相关性不一定等于因果性:从 Yule-Simpson’s Paradox 讲起 - 郑瀚Andrew - 博客园
https://www.cnblogs.com/LittleHann/p/11992311.html
这篇文章对相关性与因果性的相关理论总结得很不错,详略得当,并加入了自己对于安全领域实践的理解。看了下作者,是阿里云安全团队的。对我司的人员能力还真的是可以信任的。
EP06 瑞幸:数字化重生之路,一切无关于咖啡 - 纵横四海丨Ready Go | 小宇宙 - 听播客,上小宇宙
https://www.xiaoyuzhoufm.com/episode/66b97c3733591c27be654491