科学家们开始使用AI,真的是这样吗?

03-11 11:51


去年诺贝尔奖梅开二度,两次授予AI相关行业,让大家对AI4science的潜力感到惊讶。然而,密西根大学最近的一项大规模研究,覆盖了16万份文献,指出AI与科学的融合仍然存在移位。这项研究还利用了复杂网络中的链接预测和大模型。 RAG,预计未来AI与科学的融合可能会在这些领域产生果实。


第一,研究方法的进步-AI研究AI。


伴随着技术的发展,“AI“这个概念涵盖的范围越来越广。这使得AI及其应用的研究不能局限于局部领域的定性文献总结,而是需要AI。 作为一个生态系统,通过对定量大数据的研究,可以获得全景俯瞰。


那么为什么以前的研究人员很难进行大规模的文献研究呢?自然,研究人员自己能看到的文献有限,熟悉的领域有限。综述性文章一般只能覆盖自己学科的相关话题。


但是现在不一样了,有了大模型之后,研究者可以用统一的标准来分析堆积如山的文献。这项研究的第一步是使用大模型识别顶级科学期刊(例如《Nature》《Science》)和 AI NeurIPS大会(例如、ICML)科学问题与文献所涉及的问题 AI 方法,构建一种新颖而均衡的方法 AI4Science 分析数据 AI 作用于科学研究(图1)。该数据涵盖了2014-2024年的5个顶级科学期刊和7个顶级AI大会,共有162,656篇论文,其中7,542篇被标记为AI4Science研究。




图1: AI4Science 数 根据集的示意图


这项研究通过GPT-4o等大语言模型进行语义分析。该团队建立了包括12.9万科学问题和4.2万AI方法在内的新数据,然后通过语义聚类形成了390个科学问题群和355个AI方法群。这个过程突破了传统分类系统的束缚,完成了数据驱动的动态投影。


有了数据,我们不仅要发现当前数据的统计规律,还要根据信息中出现的趋势来预测未来,这样才能把数据梳理清楚。AI 这个科学公式的两边,一边是日新月异的AI工具,另一边是每个细分领域的科学问题。考虑到AI是一项通用技术,预计它适合所有领域,但有些领域更早接触到AI,所以结果更快。


因此,本研究采用复杂网络的方法,将AI方法和科学问题作为节点,构建二分图。图2a中每个节点的大小对应其无权,表示应用于科学问题。 AI 方法的数量,或者应用 AI 科学问题的方法数量。而且边缘分布不均表明AI和science之间的连接不平衡,AI4Science的应用存在移位。图片b-c显示了AI 方法节点度遵循对数正态分布,而科学问题节点度分布则更肥尾,表明存在“枢纽”连接 AI 与科学。



图2:AI-Science 二分图和节点分布


哪些学科与AI融合有哪些移位?


有了上述AI4Science数据(图1),科学问题可以根据该领域的论文数量和该领域应用AI的论文数量进行比较。如果这个比例低,可以说明AI在这个领域的使用进度相对落后。




图3,4 在科学问题和AI方法中,每一个集群中使用AI的研究量是多少? 轴表示每一簇出版物的总数, y 轴体现了每一个聚集中的跨学科。 AI4Science 出版物数量。


数据显示,AI的应用高度集中在蛋白质设计、材料科学、基因组分析等少数领域。相反,还有很多关键领域的AI渗透率不到10%,比如不对称生成、磁性材料挑战、森林和气候变化等。这些科学问题可能会从选择中得到更多。 AI 受益于方法。


类似的想法也可以用来分析那些AI方法,如注意力机制、梯度基方法/梯度下降、嵌入技术、战略优化、正规技术、对抗训练、对比学习、变分推理等。未来,这些技术可能会在更广泛的科学应用中得到探索。


然后在上面提到的二分图(图2)中找到枢纽节点,可以找到代表最互联的科学问题和 AI 方法关键字。例如,最广泛的类型 AI 神经网络挑战、统计推断、语言和听觉处理等与方法相关的科学问题主要是计算或数据处理。其次是城市交通管理、电子健康数据挑战、社交媒体动态、决策过程、市场经济等更具体的领域问题。


在 AI 在方法方面,应用最具科学挑战性的技术包括一般方法,如机器学习、深度学习、神经网络、分类方法、数据分析和贝叶斯推断。另外,还有专门针对科学领域的技术,包括:基因组分析,计算生物学,蛋白质设计,分子建模,材料信息学。这项研究所采用的一些文献来自Nature等、像Science这样的科学期刊,部分来自机器学习领域的顶级会议。由此可以看出,AI4Science两个学科的侧重点存在差异。具体而言,正在使用 AI 在促进科学发现方面,科学社区更注重蛋白质结构与设计、材料设计、单细胞等 RNA 测序、癌症检测等问题;AI 社区更倾向于关注城市交通管理、电子健康数据挑战、统计推断、社交媒体动态、市场经济等领域。


在将 AI 当应用于科学问题时,两个社区也表现出不同的偏好。除机器学习、深度学习等一般方法外,科学社区常用专门针对科学挑战的方法。 AI 基因组分析、蛋白质设计、计算生物学等技术的AI模型。相比之下,AI 而社区则使用更广泛的通用性。 AI 方法包括因果推理、强化学习、优化方法、生成模型、无监督学习等多个领域。


总结:目前,AI4Science的移位首先是“旱死涝死”,少数枢纽节点(如机器学习、深度学习)连接了大量的科学问题,形成了跨学科的桥梁;80%的节点只与不到5个合作伙伴连接,处于边缘地位。其次,不同社区之间存在位移。科学家专注于问题驱动,优先选择定制的AI工具(如基因组分析软件)。;而且AI研究人员更加注重方法创新,试图将通用模型(例如生成对抗网络)推广到科学场景。


链接预测:AI4Science「将来地图」


除描述当前数据外,AI4Science未来的发展方向也可以根据当前网络和节点之间的特点,通过node2vec等链路预测方法来预测。这项研究不仅采用了传统复杂网络中的方法,还采用了结合检索增强生成的大模型。(RAG),使大型模型与16万篇论文相结合,直接生成与AI方法相关的科学问题建议。例如,输入“抗生素耐药性”,阅读2014-2022年所有论文的大模型,可以推荐“图神经网络用于耐药基因预测”,然后根据2023-2024年的数据,对大模型的预测结果进行验证。


实验表明,基于LLM的链接预测方法在许多情况下优于传统方法,突出了它的预测。 AI4Science 强大的研究内容潜力。



表1: 预测结果的不同模型链接。


粗体数突出 每一个场景的最高性能。


实验还发现,大型AI模型 science的预测会给出更多的实际数据 (2023-2024年论文) 这些想法大多是全新的,代表着基于大模型的语义聚类有潜力为研究者带来全新的研究内容。这对研究人员来说是个好消息。难道不是说在人类探索之前,大模型可能会指出有意义的AI4science连接,让研究人员眼前一亮吗?而且传统的链路预测,则善于通过节点本身的特点,预测学科在现有道路上交叉的发展轨迹。



表2:采用2014-2022年数据训练的传统方法和基于大模型的方法,预测模型发现的新链接数量与训练集的对比。2023 年与 2024 每年引入真实论文数据 683 个新链接。


AI研究AI所产生的局限性


该研究引入了一项全面、大规模的研究 AI4Science 出版数据,其中的科学问题和 AI 采用大语言模型提取方法。通过对该数据集的定量分析,有以下三个发现:(1)不同的 AI 与科学学生领域在一起 AI4Science 不同程度的研究参与导致了大量的科学问题和 AI 没有充分研究方法;(2)科学问题和 AI 长尾效应存在于方法的连接中,有些节点作为“枢纽”存在,而且其它外围节点的连接较少;(3)科学界和 AI 社区在将 AI 采用不同的方法整合到科学研究中,优先解决不同的问题和方法。


上述描述性分析验证了研究人员和AI从业人员模糊的直觉,该研究指出,AI4Science的探索仍有很大的潜力。当我们看到DeepSeek等技术的发展,想要提高研究人员的生产力时,我们需要明白,真正的突破不仅在于技术层面的结合,更在于认知范式的革命。科学发现和算法创新将与这一持续的“纠缠”同步演变,推动人类认知的边界不断扩大。也许这就是AI4science未来将继续面临的挑战和机遇。


与基于个别学科的传统综述论文相比,领域专家对问题和方法的总结以及未来研究内容的意见。这项研究的亮点是使用大型模型作为工具,从而普遍进行跨学科全景审查。当然,以大模型为工具进行研究也会引入相应的局限性。


例如,由于大模型不能完全浏览文献中的相关内容(本研究全部集中在论文标题和摘要中提取科学问题和AI方法),因此只能获得某项研究使用了哪些方法,并在较高水平上讨论了哪些问题。然而,很难回答为什么这些问题没有使用其他方法。这使得这项研究很难进一步深入回答为什么某些领域,例如上面提到的基因组代表的生物。 AI,为什么会成功,从中科学界和AI学界可以学到什么经验?


这项研究首次在AI4Science的大规模文献分析中引入了大模型工具,让研究人员看到更完整、更广阔的AI4Science场景。这种大模型和网络驱动的分析范式可能会推动科学发现从“经验驱动”走向“数据智能驱动”的新阶段。


郭瑞东集智俱乐部作者


本文来自微信微信官方账号“腾讯研究院”,作者:郭瑞东,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com