AI决策浪潮的背后

2024-11-01


编者按


基于概率模型的人工智能技术,在特定案例的决策、判断上存在不足,可能导致决策风险巨大。



人类自古以来就是理想的,需要制造思考的设备。这种愿望至少可以追溯到古希腊时代。传说中的皮格马利翁、代达洛斯和赫菲斯托斯被赋予了传奇发明家的形象。葛拉蒂雅、塔罗斯和潘多拉,他们手中诞生的,可能是人类叙述中最早出现的人工智能。


如今,人工智能真正活跃在许多应用和研究领域。但它不是魔术,也不是奇迹。让我们通过噪音回顾一下人工智能的前世,看看它是什么,现在能做什么,未来能做什么。


早期的人工智能迅速占领了一些对人脑来说比较困难的问题,而对于计算机来说却是直截了当的,也就是说,那些可以用一系列数学规则来描述的问题。


然而,人工智能面临的真正挑战恰恰相反。我们希望它能取代我们。更多的任务是我们通过直觉解决的问题,这些任务很容易被人类执行,但很难用规则来描述。例如,理解别人说话,或者在一张照片中找到一张脸。


第一波:不能理解现实的专家系统


人工智能的第一次技术发展是基于人类专家知识的人工智能。人工智能专家提取具体领域的知识,将其转化为可输入计算机的规则,并遵循不同规则带来的不同后果。然后计算机使用逻辑判断来“理解”这些用正规语言描述的表达。


这项技术可以用于日程安排、益智游戏(如IBM击败国际象棋大师卡斯帕罗夫的超级计算机深蓝色)或为他人报税等。,并且有非常明确和具体的条件来执行明确的任务。认识现实世界,是人工智能的第一波短板。另外,它不具备自我训练和提高的能力,这正是智能体的一个重要因素。在此期间,一个著名的项目叫做Cyc,由推理引擎和数据库组成。人们希望这样一个系统,能够借助足够的复杂性,准确地描述现实世界。但是Cyc令人失望。例如,它试图读一个故事,里面有一个叫弗雷德的人,每天早上都会刮胡子。然而,它的推理引擎在故事中发现了一个不合逻辑的地方:它知道人没有电动部件,但每当弗雷德剃须时,他手里都有一把电动剃须刀,所以他相信这个“剃须时的弗雷德”包含了电动部件,所以他问弗雷德剃须时是否是人。


这是一个依靠硬编码知识的智能系统,也就是第一波人工智能面临的经典困难。说明人工智能系统需要有能力通过从元数据中获取规则来独立获取知识,这就是我们今天所说的机器学习。


但是,这并不意味着第一波技术对今天毫无价值。去年,美国国防高研署(DARPA)基于第一波人工智能技术的应用,成功完成了数字安全测试。在外部环境(硬件、信息量、配套技术)不成熟的前提下,孤立的技术可以做的另一件事就是等待。


第二波:缺乏个人精度的机器学习系统


美国国防高研署也出现了第二波人工智能的最佳例子。从2004年到2005年,他们鼓励并安排了业内大量的自驾研究,并推出了一场争霸赛,看看谁能在加利福尼亚和内华达的沙漠中跑150公里。因此,2004年那一届,没有一辆车跑过,事实上,没有一辆车跑过8公里。原因是这些自驾视觉系统无法区分远处的黑色物体,无论是阴影还是石头,“我”是应该绕过它,还是应该碾过它。所以他们大多数人都在这个问题上翻船。到了2005年这一届,情况突然大不相同,有5辆车跑完了整个过程。


造成这种差异的原因是他们通常开始使用机器学习的技术和概率来处理数据。这是人工智能技术的第二波。


这波的特点是统计学习。它在语音识别、面部识别等应用领域非常成功。人们通常说计算机“就是”可以学习。但事实真的不是你想的那么“就是”。如果背后没有强大的支撑,实际问题会得到统计数学模型的描述,“就是”学不会。


我们现在看到的,谈论的,真正应用到商业领域的,大部分都是这里描述的第二波人工智能技术。抛开其铺天盖地的舆论影响,真正有效利用的类型极其有限。最近大部分人工智能的进步只是一个,那就是输入数据。(A),迅速产生简单的反应(B),如表 1所示。


这么简单的输入A,导出B,已经足够改变很多行业了。但是“A→B“与科幻小说向我们承诺的有感知的机器人,毕竟相差甚远,人类的智商更是“A→B “可以比较一下。为什麽这么说?举例来说,有一张小男孩拿着牙刷的照片,被人工智能识别为,一个男孩拿着棒球棒。


这让我们笑了,因为我们人类永远不会这么说。从这个例子可以看出,第二波技术在很多工作中一次又一次地让我们佩服,但这个笑话会突然暴露出来。它反映的一个结论是,第二波人工智能在统计范围内表现良好,但个人例子不可靠。而且这种情况不可靠,如果发生在金融领域,就是灾难性的。


将“A→B“把它放在具体的商业环境中意味着什么?百度前首席科学家吴恩达教授用这样一句话来解释:一个普通人可以用不到一秒钟的探索解决的所有问题都可以通过人工智能来实现。


第三波:初步有效的情境适应系统


借用美国国防高研署对第三波的概念,就是“情境适应”。第三波系统将慢慢建立一个“有意义”的模型来描述现实世界中的现象。


举例来说,让第二波系统来识别一只猫的图片并不成问题,但是如果你问它,为什么你认为它是一只猫?答案必须是:“经过大量的计算,数据显示猫排名第一。“这个答案显然不尽如人意。我们希望它说,当然是猫。你看,它有耳朵、爪子、头发和各种特征来区分猫和其他东西。有了这种知道“为什么”的能力的第三波系统,就永远不会把上面提到的图片标为“拿棒球棒的男孩”。


第二波系统对数据的依赖几乎达到了“疯狂”的水平,这也是为什么吴恩达说今天的人工智能企业要想成功,最重要的是数据和人才。例如,如果你想教一个系统识别一个手写数字,你需要给它大约5万甚至10万个例子,以确保它基本上没有错误。想象一下,如果你教一个孩子读书,每个单词应该教5-10万次。


所以,第三波基于“情境”模型系统的到来就成了一件很自然的事情。


IBM的辩论机器人从大量的辩论文本中学习和提取有说服力的论点。谷歌刚刚推出的“观点界面”是一个成功的应用尝试,用于在社交平台上识别恶意评论。从之前的分析可以看出,基于严格的问题定义(硬编码),第一波人工智能获得了较强的推理能力,略有认知,但完全缺乏学习和抽象能力。第二波人工智能可以在统计模型的基础上进行精确的分类和预测。它的认知和学习能力有了很大的提高,但是第一波技术的推理能力已经丧失,抽象能力还是很不足的。理论上,第三波人工智能可以大致理解为前两波的扬长补短,但并不像两者相加那么简单。基于统计模型的学习和基于严格问题定义的专家系统同时存在于同一个智能系统的目标中,还有很多技术实现和成本问题需要克服。越是依靠人类的直觉、感知问题,对机器的考验就越大。去年圣诞节期间,一辆优步无人车在旧金山当代艺术博物馆门口闯红灯,就是一个例子。


是否泡沫?


答案很坚决,不是。那么如何解释反复出现的涨潮和退潮呢?回顾历史,这一次,我们将独立回顾最主流的“深度学习”技术的历史。


深度学习的变化 深度学习经历了漫长而丰富的历史,人气的起伏也被称为不同的名字。每个名字都反映了特定时代的角度和观点。


今天的深度学习在很多人眼里是一项令人兴奋的新技术,但事实上,它的历史可以追溯到20世纪40年代。之所以看起来新鲜,只是因为它在近年来的这股热潮之前并没有受到人们的青睐,也是因为它经历了很多不同的名字,直到最近才被定义为“深度学习”。


许多早期的学习算法都是生物学习计算模型,所以它曾被称为神经网络算法。(Artificial Neural Networks,ANNs),这是一个以生物大脑启发为核心的学习系统。所以那一阶段的“学习”概念比今天更为广泛。


对于今天的深度学习,神经科学只是作为启发和参考,已经不再是这一领域的主导指南。因为现在科学对大脑的认识仍然非常有限,远远不能为人工智能提供足够的信息进行模拟。而且媒体对舆论的误导通常就是由于这个原因,他们通常会把深度学习和生物大脑联系起来。了解现代深度学习技术除了从大脑中获得灵感外,其技术体系也是基于大量的线性代数、概率、游戏理论和数字提升,可能不会被舆论的威胁论吓倒。对于人工智能带来的颠覆,当然不会视而不见。


20世纪80年代,随着认知科学的兴起,神经网络再次流行起来,被称为符号推理。在此期间,值得一提的是,一种叫做联系主义的观点——大量可以简单计算的模块可以连接在一起,智能任务可以执行。这种趋势一直持续到20世纪90年代中期,并结束了。今天,它的“财产”仍然广泛应用于许多项目,包括谷歌。


这波非常有价值的研究之所以突然停止,很大程度上是因为进行这项研究的企业在寻找投资时夸大其词,但结果没有达到夸大其词的预期,导致投资者失望。


人工智能行业有一个众所周知的事实。自20世纪80年代以来,许多算法表现良好,但它们的优秀在2006年左右之前并不明显。恐怕原因只能用硬件成本来解释。如今,强大廉价的计算能力和存储能力填补了先进算法的时代差距。


大数据使人工智能由“艺术”转变为“技术” 深度学习早在50年代就出现了,为什么最近突然变得重要起来?这种狂热和泡沫是随机出现的吗?


事实上,自20世纪90年代以来,它已经有了许多成功的商业应用,但人们更多地将其视为“艺术”而不是“技术”。不可否认,需要一些技巧来提高深度学习算法的性能,但幸运的是,方法的需求与训练数据的大小之间存在反比关系。随着信息量的快速增加,对技能的需求也在减少。


今天的学习算法在执行一些复杂任务的能力上达到了人类的水平,但这些算法本身几乎和80年代用来解决一些儿科问题的算法一模一样。毫无疑问,今天的大量数据带来了巨大的变化。这些海量数据来自高度连接的计算机,来自全社会生活的数字化。每个人的每一个行为甚至每一步都被数字化记录下来,这是“大数据”时代给机器学习领域的一份礼物。


人工智能商业时代需要什么?


了解了人工智能目前能做什么和不能做什么,企业家需要在公司的策略中实施这种理解,这意味着理解哪些环节产生了价值,什么是难以复制的。人工智能产业是一个非常开放的行业,大多数顶尖的研究人员都没有保留地发布最新的结果,分享他们的经验、想法甚至开放源代码。下面的资源在这个开源的世界里变得极其珍贵:


数据 顶尖的人工智能团队要复制别人的软件,大部分不超过一两年就能做到。但是很难得到别人的数据。因此,数据而不是软件是许多企业的防御堡垒。


人才 简单下载,然后将开源代码应用到你的数据中,通常很难生效。人工智能需要量身定制你的商业环境和信息,这就是人工智能人才大战硝烟弥漫的原因。


关于人工智能模仿人类善恶两极的潜力,已经有很多讨论了。然而,它对每个个体未来可见时间的最大威胁可能仍然是一些人工工作的替代品。努力建设一个让每个个体都有繁荣机会的世界,是企业领袖的职责。了解人工智能能做什么,并将其应用到公司战略中,而不是结束。


本文来自微信微信官方账号“中欧商业评论”,作者:黑爪,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com