AI新悖论:越智能的模型,为何越容易陷入数据泥潭?
神译局是36氪旗下编译团队,聚焦科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。
编者按:人工智能模型的可靠性由其底层数据质量决定。但如今出现了一个新悖论:模型越智能,数据质量反而可能越差。本文经编译而来,希望能为您带来启发。

人工智能为我们描绘了一个更智能、更快捷、更高效的未来图景,但在这份乐观背后,潜藏着一个日益严重的隐患——数据本身的问题。我们常常热衷于讨论算法,却很少关注支撑算法运行的基础设施。实际上,创新的速度永远无法超越输入数据的质量,而当前这些输入数据正逐渐暴露出疲态。当根基开始动摇,即便再先进的系统也会出现故障。
十年前,数据规模与精度还能并行发展。可如今,这两个目标往往难以兼顾。隐私法规的出台、设备授权的限制以及平台新规的实施,让获取高质量的第一方数据比以往任何时候都更加困难。为了填补数据缺口,市场上充斥着看似合法、实则虚假的循环利用数据、伪造数据或推断信号。
这种情况催生出一种诡异的新常态:两年前就已关闭的商场,其数据仍显示有“客流量”;汽车经销店在午夜时分的数据呈现出繁忙景象。这些异常现象看似只是无害的故障,实则是数据生态系统重数量轻可信度的必然结果。
1. 数据量过剩,沦为干扰噪音
多年来,行业内普遍认为数据越多,洞察就越精深。数据量被视为实力的象征,输入数据越多,意味着系统的智能程度越高。但如今,数据过剩已经演变成干扰系统的噪音。为了维持数据规模,部分供应商采用填充数据或虚假信号的方式,让系统看似健康运行,实则侵蚀了数据的可靠性与真实性。
一旦劣质数据进入系统,就几乎无法将其分离出来。这就好比在新鲜的麦片盒里混入几粒过期麦片,你无法辨别哪一粒已经变质,但能尝出整体味道的差异。而当数据规模不断扩大时,这种差异会呈指数级放大。
2. 人工智能的双重角色:问题根源与解决方案
颇具讽刺意味的是,人工智能既是数据问题的根源,也是潜在的解决方案。所有AI模型都依赖训练数据,如果基础数据存在缺陷,其产出的洞见必然失真。给模型投喂垃圾数据,它就会自信满满地给出错误结论。
任何使用过ChatGPT的人都曾有过这样的挫败体验。尽管它是一个极具价值的工具,但仍会出现提供错误答案或产生幻觉的情况。你提出问题,它立刻满怀自信地给出详尽解答……可惜内容全是错误的。有那么一刻,它的回答听起来令人信服,但一旦发现其中的谬误,怀疑的种子便会悄然萌芽。再尝试几次,怀疑就会占据上风。这就是数据质量崩坏时的景象:故事看似完整,却让人无法分辨何为真实。
与此同时,人工智能也为我们提供了新的工具,通过标记数据中的不一致来清理它所继承的混乱。比如,某餐厅在周日的数据显示有访客,但实际当天歇业;某家已经闭店的商场,其数据突然显示“人潮涌动”。只要训练得当,人工智能就能捕捉到这类异常模式。
然而,单凭一家公司无法解决所有数据问题。数据的完整性依赖于整个数据链条的每个环节——从数据采集者、聚合者到分析师和终端用户,都需要对自身贡献的数据负责。行业进步的关键不在于获取更多数据,而在于提升现有数据的透明度。
3. 转变观念:质量重于数量
我们不能再简单地认为数据量大就意味着质量高。
数据工作的重点需要从全面收集转向精选关键数据,构建可验证的高可信度数据流。基于可靠信号构建的精简数据集,其产出的洞察往往比海量可疑信息更清晰、更具说服力。
许多组织仍将数据规模等同于可信度。但真正的问题不在于数据量有多大,而在于数据是否真实可靠。
4. 人性因素:改变认知比技术升级更难
改变人们对数据的认知,比改变技术本身更加困难。团队往往会抵制新的工作流程,合作伙伴担忧“精简数据”意味着失去数据可见性或控制权。但实际上,更小巧、更智能的数据集往往能揭示比海量数据更深刻的真相,因为其中蕴含的信号是真实可靠的。
然而,一旦数据信任崩塌,数据洞察便会失去价值。通过透明化数据流程、建立验证机制和加强协作来重建数据信任,如今已与优化算法本身同等重要。
人工智能不会消除数据问题,反而会放大问题的影响。我们需要足够严谨地分离数据中的信号与噪音,也需要足够自信地承认:更多数据并非总是更好的选择。
真正的竞争优势不在于拥有无穷无尽的数据,而在于懂得舍弃哪些数据。
译者:Teresa
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com

