江晓原:“数据挖掘”的双面性:是天使还是魔鬼?
比特币收益与制造业、金属采矿业股票收益呈负相关……
特朗普在推特中使用"with"一词四天后,中国茶叶分销商Urban Tea股价下跌……
特朗普推特中"president"的使用与两天后标准普尔500指数存在0.43的相关性……
这些新发现的"规律"是否让你感到震撼与意外?显然,此类发现离不开"大数据"与"AI算法",尤其是近年备受关注的"数据挖掘"方法。

《不被信任的科学——大数据、人工智能与信息欺骗》,[美]加里·史密斯 著,孙强 译,上海科技教育出版社2025年出版
经济学家视角下的"数据挖掘"
"数据挖掘"常被称作"机器学习"或"知识发现",这些中文译名充满高科技与创新感,无批判意味。通俗而言,它是借助AI算法在海量大数据中探寻各类数据关系的过程。
美国经济学家、统计学家加里·史密斯(耶鲁大学经济学博士,波莫纳学院教授)在《不被信任的科学》中指出,"虚假信息""数据歪曲""数据挖掘"正严重损害科学信誉,其中"数据挖掘"是他抨击的重点。他将挖掘出的数据关系比作"愚人金"——看似黄金实则无价值的铜,认为这些关系多无意义甚至具有欺骗性。但关键问题在于:如何界定"荒谬"与"合理"的界限?
史密斯对"数据挖掘"的定义触及核心:"在不受理论影响的数据中寻找潜在模式,研究人员深入挖掘却无法预知结果。"他对比传统数据处理:"传统查询需假设引导,而大数据挖掘能揭示未知关系。"他引用《连线》文章"大数据与理论家的消亡"称:"算法找模式,假设从数据来,分析师无需再提假设。"
简言之,史密斯认为传统数据处理有理论指导与预期,而"数据挖掘"是无方向的"乱挖",其发现多为无意义的"胡说八道"。
从传统数据处理到"数据挖掘"的演变
作为天体物理专业出身、曾在上海天文台工作15年的学者,我认为"数据挖掘"并非如史密斯所言非黑即白,它与传统数据处理无绝对界限,常是正常科研手段。以天文学"星历表"为例,其记录太阳系天体坐标,可视为"大数据"。通过算法"挖掘",既能获取牧野之战时木星位置等有意义结果,也可能发现无关联关系——关键在于是否有理论支撑与合理预期。
数据处理技术早于互联网与AI存在。史密斯批判的实则是"数据挖掘"的滥用。20世纪80年代,星历表以纸质形式存在,人工挖掘难以滥用;90年代数字光盘普及后,算法挖掘成为可能,但科研人员仍坚守严谨性。可见技术本身中性,滥用源于使用者。
科学信任危机的荒诞图景
《不被信任的科学》书名易让人联想到科学知识社会学著作,实则不然。史密斯虽未从哲学角度探讨,但对大数据与AI弊端的批判具有启发意义。
书中第一部分讨论"虚假信息":以区块链与比特币为例,许多人因区块链的"科学性"盲目相信比特币价值,而史密斯认为比特币内在价值为零,堪比郁金香泡沫与南海骗局(此为作者观点,不代表本文立场)。
第二部分揭露"数据歪曲":通过错误解读数据制造"科学假象"。史密斯仍以比特币为例,指出数据被歪曲以支撑其价值论,批判逻辑具有学理合理性。
最后两部分,史密斯批判人工智能进展与部分社会学研究。他认为AI业界夸大成果,还列举如"女性求助时发型影响成功率"等他眼中的"荒诞研究"(该例未必真荒诞)。
史密斯以朴素视角指出:科技新成果(互联网、大数据、AI)正损害科学声誉,公众对科学的信任度下降。"科学家创造了大数据与分析工具,却为自己制造了更多尴尬与信誉危机。"这一现象值得深思:技术本应推动科学进步,为何反而引发信任危机?答案或许在于:当工具被滥用,当无理论支撑的"数据挖掘"取代严谨科研,科学便可能沦为"数字游戏"。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




