中文多模态理解清单发布 在腾讯混元国内排名第一

2024-08-05

多模理解是大模理解复杂现实世界的关键能力之一。


8 月 2 日本,中文多模式大模型 SuperCLUE-V 基准 8 随着月度榜单的发布,腾讯混合元模型凭借其在多模式理解方面的出色表现,在众多参与模型中脱颖而出,在国内大模型中排名第一,稳居优秀领导者象限。


多模态理解,俗称“图生文”,要求模型能够准确识别图像元素,理解其关系,生成自然语言描述。这不仅考验了图像识别的准确性,也体现了对场景的全面理解和对细节的深刻洞察,考验了模型对复杂现实世界的理解。


这一评估包括国内外具有代表性的评估。 12 多模态理解大模型,包括 4 一个海外模型和 8 国内代表性多模式模型的评价内容包括两个方向:基本能力和应用能力,以开放式问题评价多模式模型。腾讯混合元大模型在多模式基本能力和应用能力方面获得总分 71.95 分数高,显示出技术和应用层的综合优势。


据 SuperCLUE 根据官方介绍,评价标准包括理解准确性、回应相关性和推理深度。评分规则将自动量化评分与专家核实相结合,确保评价的科学性和公平性。


评价数据显示,国内大型模型在理解多模式的基本能力方面接近海外顶级模型,其中腾讯混合元模型总分仅略低于 GPT-表现好于4o CLaude3.5-Sonnet 和 Gemini-1.5-Pro,展示国产模型在基本能力上的快速迭代。但在应用能力维度上,腾讯混合元模型凭借对中文情境的深刻理解和在通用、常识、图像等领域的综合能力,展现了实际应用的巨大潜力。


依托腾讯混元大模型的技术底座,AI 原生应用腾讯元宝在发布之初就具备了理解多模态的能力。元宝可以根据图中的内容给出自己的理解和分析,无论是文档截图、人像风景、收银收据还是随机拍摄的照片。


腾讯副总裁蒋杰此前表示,多模式是腾讯混合元模式的“必答”。目前,混合元模式正在积极部署从多模式到全模式的技术,客户很快就会在腾讯元宝上。 App、通过腾讯云向外界应用开放腾讯内部业务和场景感受。


目前,腾讯混合元大模型已扩展至万亿参数,混合专家模型是国内首选。(MoE)结构,依托腾讯大语言模型的能力,不断提高多模态理解能力,达到国内领先水平。


雷峰网


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com