两个本科生一作,第一次提出「持续学习」 「少样本」补齐知识图谱

2024-11-12

【导读】上海大学本科研发的新框架可以有效应对知识地图补充中的毁灭性遗忘和少样本学习问题,提高模型在动态环境和数据稀缺场景中的应用能力。这项研究不仅促进了领域的发展,也为实际应用提供了宝贵的参考。


知识图谱(Knowledge Graphs)它是一种结构化的方式,用来展示和管理信息,组织现实世界知识。它通常被表达为三元组。(<头实体,关系,尾实体>)。KGs 它为各种实际应用提供了极其重要的支持,如问答系统、推荐系统和搜索引擎。


但是,目前知识图谱的显著不完整性严重限制了其在实际应用中的有效性。


同时,在实际应用中,知识地图中的关系呈现出长尾分布,即大多数关系中只有少量相关的三元组。这种稀缺性导致模型对长尾连接的泛化能力不足,从而使得知识地图补充模型的整体效果较差。 (Few-shot Learning) 。


此外,随着时间的推移,越来越多的新关系被添加到关系集中,并在不同的时间点集成到知识地图中。这意味着模型不仅需要学习当前阶段的知识,还需要记住之前阶段学到的知识。 (Continual Learning) 。


近日,在信息检索和数据挖掘领域的顶级学术会议CIKM,上海大学本科生李卓风、张昊翔(第一作者和共同第一作者)。 一篇文章在2024年发表,首次提出继续学习。 (Continual Learning) 和少样本 (Few-shot) 在场景中补充知识图谱,为解决这个问题提供了一套全面有效的框架。



论文标题:Learning from Novel Knowledge: Continual Few-shot Knowledge Graph Completion


论文链接:https://dl.acm.org/doi/10.1145/3627673.3679734


代码链接:https://github.com/cfkgc-paper/CFKGC-paper/tree/main


这项研究的发表将有助于提高知识图谱的完整性(KGC)该模型在实际应用中的泛化能力,使其能更好地适应动态环境和数据稀缺的情况,从而促进相关应用领域的发展。


通过提供有效的解决方案,本研究为后续研究奠定了基础,同时也为实际应用提供了重要参考。


选题背景


现在正在继续学习 (Continual Learning) 和少样本 (Few-shot) 在场景中补充知识图谱面临两大挑战:


1. 毁灭性的遗忘问题,即模型在不断学习新关系时,对之前学到的关系的推理性能下降。这将大大削弱模型衰退和对稀缺联系的推断能力。


2. 缺乏新联系导致模型在稀缺关系中的泛化能力不足。


为了解决这些挑战,这项研究提出了一个完整有效的知识图谱来补充框架,以满足少量的关系。


1. 为了处理毁灭性的遗忘问题,研究人员从数据和模型两个方面入手。


在数据方面,每个三元组在知识地图中的重要性都是通过特定的指标进行评估的,包括拓扑感知和关系异质感知指数;利用这些重要性评分,我们可以识别和存储来自最重要的三元组;这些缓存的三元组可以在升级过程中重放,以应对新关系的出现,保证模型能够回忆起最重要的知识。


在模型方面,研究人员实施了一种冻结参数的策略。在每个阶段,模型都会识别一个与当前任务相关的模型子网络,并将其冻结,从而有效减少忘记问题。


2. 为了解决缺乏联系导致模型在稀缺关系中的泛化能力不足。研究人员引入了一种多视角关系增强技术。这种方法可以通过自我监督学习来提高模型泛化能力。


技术方法



回顾三元组的回忆

为了减少毁灭性的遗忘问题,研究人员从数据和模型两个层面提出了解决方案。在数据方面,通过特殊的设计指标来评估每个实体的重要性,并将最重要的三元组存储在内存中。


当新的关系出现时,这些缓存的三元组可以重新播放,以确保模型能够回忆起最重要的知识。


具体而言,从两个角度来评价实体的重要性:


拓扑感知的重要性。在知识地图中,一个实体的重要性应该由其连接的其他实体的重要性决定。



其中du表示实体u的出边数,N(v)表示Gr中实体v的邻居集合。



这是拓扑感知的最终重要性评分。


2. 除拓扑结构外,还考虑了实体参与关系的多样性,即异质性感知的重要性:



其中|Rv|表示不同关系的实体v连接。


三元组的重要性成绩最终可以计算出来:



调配元学习器

本文进一步实施了模型中参数调配策略,以储存最重要的参数。


具体而言,首先用权重成绩s来衡量网络参数的重要性:



接下来,通过以下优化公式更新模型参数:




θ是元学习器参数,Qr代表关系集,



是学习率,



表示以前会话中识别子网络掩码的并集。


在教学新任务时,通过这种参数调配机制,可以保护已经获得的重要知识,从而有效地改善毁灭性遗忘问题。


强化样品和自我监督学习

通过引入基于自我监督的多视图关系增强技术,可以提高模型泛化能力,通过两种扰动方式产生差异视图。


1. 元学习器参数扰动:



2. 输入物体的嵌入扰动:



通过对比学习损失进行优化:



其中τ它是温度参数,



一个 Batch 关系集内部。





分别代表1或2扰动后的关系。


实验结论


研究人员在 NELL-ONE 和 Wiki-ONE 两个数据对模型的持续学习和小样本学习进行了全面的验证。


持续学习能力

与基线模型相比,这个框架在持续学习中的表现可以显著缓解毁灭性的遗忘,这个模型不仅可以有效保留之前对话的知识,还可以在后续对话中表现出更好的性能。与基线模型相比,这个框架在缓解毁灭性遗忘方面具有明显的优势。



例如,在NELL-One数据集中中,在后期任务(Task1至Task7)中,平均值比第二佳的基线方法得到了改进。 但是在Wiki-One数据集中,平均值提高到13.3%。 27.0%。这表明,这种模式不仅有效地保留了以前学习会话的知识,而且在以后的学习任务中也表现出了更好的性能。



学习少样本的能力

模型能够在快速适应新学习过程中未见关系的情况下,保持少样本的学习性能稳定或增强。


相反,基线模型表现出明显的性能下降,因为每个新会话都没有太多的元任务。这进一步证明了多视角关系增强策略在处理与元任务稀缺相关的过拟合问题中的有效性。


少样本在学习中表现出优异的性能,特别是在快速适应未见联系的新学习环境中。


就拿NELL-One数据来说,与第一个task(11.1%)相比,MRR指标在最后一个任务中显示了11.35%的性能,在此期间最高可达12.55%。


在Wiki-One数据集中,从基线的38.9%增加到最后一个任务的40.05%。与其他方法相比,随着更新知识的学习,样本的性能也在下降,模型完成了更好的样本学习特性的维护。


结果证实了在减少元任务稀缺导致的过拟合问题上,提出的多视角关系增强策略的效率。


结果表明,模型不仅能充分记住前一阶段的知识,而且能有效地学习新知识。


消溶试验


总结


本文讨论了在连续学习和少量样本的场景中弥补知识地图的问题,并提出了一个全面有效的框架,旨在应对毁灭性遗忘和少量样本带来的挑战。


该方案包括三元组重复策略、模型参数分配策略和多视角增强策略。这项研究的出版将有助于提高知识地图的完整性。(KGC)该模型在实际应用中的泛化能力,使其能更好地适应动态环境和数据稀缺的情况,从而促进相关应用领域的发展。


通过提供有效的解决方案,本研究为后续研究奠定了基础,同时也为实际应用提供了重要参考。


参考资料:


https://dl.acm.org/doi/10.1145/3627673.3679734


本文来自微信微信官方账号“新智元”,编辑:LRST,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com