应用突破还是炫技噱头:大模型能否真正推动行业升级?

2024-11-13


大型模型如何推动行业升级?


近日 InfoQ《极客有约》X AICon 直播频道特别邀请了商汤科技大模型技术主管张涛担任主持人,夏源和JD.COM零售,百度灵医大模型底座项目负责人。 AIGC 技术专家,现在 AICon 全球人工智能开发与应用大会 2024 在北京站即将举行的时候,深入探讨了大模型技术在垂直领域的落地观点。


一些精彩的观点如下:


  • 代码与大型模型的融合可以为团队提供更广泛的支持。
  • 私有部署策略可以有效地解决数据隐私问题。
  • 真正的评价由专业医生进行,比榜单排名更能体现模型的效果。

以下内容基于现场速记的整理, InfoQ 删减。


张涛:各位近期主要关注哪些大模型的话题,有没有可以分享的分析或感受?


张涛: 本人主要关注大模型与生产工具的结合,特别关注大模型与生产工具的结合 Claude 大型模型,尤其是对代码能力的提高。近期,Claude 一位名叫“发布”的名字computer use”的商品 Demo,展示了大型模型如何访问操作系统桌面并生成操作键盘和鼠标代码,展示了大型模型在生成代码操作计算机方面的潜力。但是,我担心大模型在操作计算机时使用视觉分析屏幕的方法。事实上,这种方法消耗了大量不必要的资源。因为计算机的很多元素都是代码形成的,理论上可以直接定位和操作,所以我觉得背后有很大的提效空间。


夏源: 近来我特别关注 Claude Sonnet 3.5 新的模型和它的模型 computer use 其他功能;还有 OpenAI 的 o1 大型模型,大大提高了推理能力,让我思考如何将这些技术应用到医疗领域。


通过推理技术,我们一直在思考如何提高诊断效果。从抽象的角度来看,与在棋盘上下棋相比,基于推理模型给病人看病的过程与下棋相似。 AlphaGo,模型预测棋子在棋盘上的落地空间布局概率和最终结果的概率分布。然而,在疾病诊断中,我们不断排除和缩小可能的疾病诊断空间,最终通过诊断(疾病空间预测)获得最佳的诊断结果分布。最近关于 OpenAI o1 有关论文解释中提到的推理模型 Scaling Law,通过过程奖励,在推理阶段取样不同的推理路径和思维链,逐步提高每一步思维的效果,最终提高整体推理能力。这类似于我们的诊断思路。我们都是通过取样数百条咨询路径,通过逐步的过程奖励,提高每一步咨询的思路,最终获得高质量的咨询路径。,然后通过强化学习进行大模型调优训练。


张涛:大型技术已经渗透到各行各业,你认为大型技术带来了哪些最显著的变化?


夏源: 医疗领域对大模型的需求是复杂多变的。通过与业务方的沟通,我们发现临床辅助决策系统的病历生成是一个更符合医院需求的应用场景。虽然病历生成看似简单,但实际上涉及到大量的文档处理和医生的写作。大模型可以简化这个过程,大大提高医生的工作效率,减轻他们的负担。


另一方面,我们在病历质量控制等相关问题上也遇到了困难,这就要求模型对病历的潜在不足进行仔细的发现。虽然我们尝试了规则和小模型,但效果有限,单纯的大模型在这方面的能力也不足。因此,我们正在考虑使用它 agent 进一步探索解决方案的方法。


张涛: 去年年初,我们开始开发代码浣熊。最初,我们的目标是将生成能力融入到代码中,以帮助编程。随着项目的深入,我们逐渐发现代码的能力不仅仅是编程。当代码能力提高到一定程度,编译和运行的概率增加后,我们有能力将其与虚拟环境联合训练,使其成为一个代码。 agent。这样的 agent 可实现与其它工具的调用和整合等更大的能力。


如今,我们的团队不仅仅是开发人员,还有运维人员在筛选问题、处理数据、风暴产品头脑或撰写产品需求文档时,都会使用大模型来生成更好的内容。这表明,代码与大模型的融合不仅可以提高开发效率,还可以扩展到其他工作领域,为团队成员提供更广泛的支持。


张涛:数据隐私和合规性是包括医疗在内的企业应用中不可避免的考验。如何看待大模型和编程助手在保证数据安全性和合规性方面的作用?


夏源: 医学领域主要关注两个方面:模型训练和实际应用。在模型训练方面,我们需要大量的医疗数据,这些信息主要来自 C 端和 B 端。C 端数据相对容易处理,包括百度健康平台 UGC 这些高质量的数据可以用来预训练,比如内容和医生批准的精编内容。B 端数据涉及到与一些权威数据库的合作,用于预训练和内容挖掘。在实际应用阶段,我们在医院数据方面面临着很大的问题。虽然数据必须严格脱敏,但并不是所有的医院都愿意分享数据,尤其是涉及隐私的问题。针对这一情况,我们采取了措施。 私有化模型部署战略,这是 B 端特别是医学大模型很重要的一环。


为满足医院的需要,我们将大模型容量蒸馏到100亿参数级别甚至更小,从而实现病历生成和智能诊断的功能。与此同时,我们也支持华为升腾等国产芯片。 NPU、海光的 DCU 以及百度的昆仑芯片,实现私有化部署。没有能力购买 GPU 我们提供了医院 CPU 大型模型版本,并与芯片制造商合作,对特定模型架构进行专属适应,提高推理效率,确保模型能够私有化部署。由于所有数据都保留在医院内部,不会泄露,因此通过私有化部署,可以有效地解决数据隐私问题,从而消除客户的疑虑。


张涛: 我观察到 Claude 新发布的模型 Demo,以及像 cursor 这类项目,他们已开始引入多模态技术。这类技术可以处理如图片输入后直接复制网页或 APP 计划任务。根据我的理解,这种材料生成技术可能应用于零售领域。传统的医疗领域 AI 或者说 AI 1.0 在时代,病理图片的分析主要依靠计算机视觉技术,CT 图像等,检查问题。而且现在,随着新模式的出现,医疗领域也有了更多的前沿能力。


夏源: 对于肺炎等各种类型的医学影像,我们并不追求开发一种通用模型,CT、X 光等,虽然这些在研究领域和学术论文中很常见。相反,结合百度的健康用户数据,我们发现皮肤病相关的图片查询是一个相对高频的场景。因此,我们专门开发了一种多模式的皮肤病模型。


传统的计算机视觉方法可能会在客户上传照片后立即给出诊断,但这种方法缺乏多轮交互,可能会导致信息缺失,影响准确性。然而,通过询问一些患者信息和图片,我们的多模态模型最终得到诊断。这种方法在皮肤病领域比单轮视觉模型照片更好。


此外,我们还在探索中医的应用领域。虽然大型中医模型可能没有得到广泛关注,但许多机构和制造商对此有需求。我们之前为一家公司开发过大型中医模型,同时也在 C 最后推出了基于中医的多模态模型,包括面诊、手诊等模型,通过统一结构实现这一功能。这些都是一些更倾向于医疗领域实际应用的探索。


提问: 这个模型是基于百度自己的文心建立的吗?如果是这样的话,团队的主要工作是在模型预训练的时候还是后期微调的时候?benchmark 有对比吗?


夏源: 本公司的工作主要集中在两个方面:预训练和指令微调。在预训阶段,我们依靠百度的文心一言这个基本模型,它已经接受了大量的通用数据语料训练。因为文心一言为我们提供了坚实的基础,所以我们不需要重新开始训练一个通用的大模型。在此基础上,我们结合了百度的健康状况。 C 端数据,权威书籍,B 经过脱敏和处理后,端权威数据,以及药企咨询数据等信息。利用这些信息,在文心一言的基础上进行后预训练,得到了一个清洁医疗的基本模型。下一步,我们将在这个基本模型上进行特定的应用。 SFT,包括与病历生成、辅助诊断、智能咨询、医疗问答、医疗分析、治疗推荐等业务相关的指令。,共同构建了行业内第一个企业级医疗模式。


针对 benchmark,一开始我们就去比较一些医疗方面。 benchmark。但是,随着时间的推移,我们发现很多医院和公司已经不再关注排名了,人们逐渐意识到,单纯追求排名是没有必要的。我们改变了策略,开始与三甲医院的医生合作,让他们帮助我们评估模型的性能,并为模型的诊断能力提供背诵。在我们看来,这种由专家进行的真实评估,比单纯的排名更能体现模型的效果。


张涛: 现在编程领域有一个趋势,就是通过识别图像来复制商品,这已经被很多公司和创业团队作为一个华丽的演示呈现出来了。然而,在实际应用中,模型在不同维度的数据空间中尚未达到有效关联数据的水平。对这种令人印象深刻的演示,我持怀疑态度,我想也许可以。 80% 所有这些都需要在上层进行工程处理。 我不否认他们的实用性有问题,但我认为这些演示在 AI 能力真正发挥作用的成分可能没有你想象的那么大。也许他们只是发挥了自己的能力,解决了以前每个人都无能为力的问题。


现在,我们也在探索如何处理多模态数据,例如处理。 PDF 文档可能包括扫描文档和图像。我们希望像办公室浣熊这样的工具能够准确地提取这些信息,并将其作为处理的输入,以满足用户的需求。


张涛:我们已经看到大模型在各行各业的应用越来越深入。未来大模型技术会有哪些突破?潜在的应用领域还没有广泛讨论吗?


夏源:我简单地分享一下我在行业技术方面的一些观察。像,我注意到了 Hinton 这种学者认为 AGI 这是极其危险的,因为他们认为大模型在某种意义上已经达到了所谓的目标。 AGI。但是,另一个学校,比如 CNN 的发明者 Yann LeCun,同时也是图灵获得者之一,他认为大模型并不是通往世界模型的最后一条路,仅仅依靠世界模型 next token 预言是远远不够的,他们认为为了真正构建一个世界模型,可能还要考虑物理因素交互等。最近,李飞飞还成立了一个团队,旨在发展感知,生成 3D 世界,与之互动的大世界模型(Large World Models)。各位学者自己都有自己的道理,我们也许需要在未来,比如, 20 年或 50 几年后,回头看看他们的观点到底是怎样的。


现在,简单地说,我感觉就像 Transformer 这种模型,如果你打开它的代码,实际上就是一系列简单的矩阵计算组合。说实话,我不知道这个最本质的矩阵计算是否能实现通用人工智能,但也许世界是“道法自然”的,越简单的东西,可能就越真实。 AGI 的方式。 也许很多年后,有些人真的会揭开这个谜团。正如我们现在所说,神经网络是一个黑盒模型,它背后的物理或数学意义可能包含在这些简单的公式之间,但我们仍然不知道。


本文来自微信微信官方账号 “AI前线”(ID:ai-front),作者:罗燕珊,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com