中文多模态理解清单发布在腾讯混元国内排名第一

2024-08-05

多模理解是大模理解复杂现实世界的关键能力之一。

8 月 2 日本，中文多模式大模型 SuperCLUE-V 基准 8 随着月度榜单的发布，腾讯混合元模型凭借其在多模式理解方面的出色表现，在众多参与模型中脱颖而出，在国内大模型中排名第一，稳居优秀领导者象限。

多模态理解，俗称“图生文”，要求模型能够准确识别图像元素，理解其关系，生成自然语言描述。这不仅考验了图像识别的准确性，也体现了对场景的全面理解和对细节的深刻洞察，考验了模型对复杂现实世界的理解。

这一评估包括国内外具有代表性的评估。 12 多模态理解大模型，包括 4 一个海外模型和 8 国内代表性多模式模型的评价内容包括两个方向:基本能力和应用能力，以开放式问题评价多模式模型。腾讯混合元大模型在多模式基本能力和应用能力方面获得总分 71.95 分数高，显示出技术和应用层的综合优势。

据 SuperCLUE 根据官方介绍，评价标准包括理解准确性、回应相关性和推理深度。评分规则将自动量化评分与专家核实相结合，确保评价的科学性和公平性。

评价数据显示，国内大型模型在理解多模式的基本能力方面接近海外顶级模型，其中腾讯混合元模型总分仅略低于 GPT-表现好于4o CLaude3.5-Sonnet 和 Gemini-1.5-Pro，展示国产模型在基本能力上的快速迭代。但在应用能力维度上，腾讯混合元模型凭借对中文情境的深刻理解和在通用、常识、图像等领域的综合能力，展现了实际应用的巨大潜力。

依托腾讯混元大模型的技术底座，AI 原生应用腾讯元宝在发布之初就具备了理解多模态的能力。元宝可以根据图中的内容给出自己的理解和分析，无论是文档截图、人像风景、收银收据还是随机拍摄的照片。