从算法炫技到价值落地,浩鲸科技鲸智BI大模型发布

02-14 07:04

国内大型行业模式的“江湖风云”,如今已经悄然从纯算法网络中走出来 PK 转向“实战学校”竞争。这不再是单一的技术炫耀技场,而是看谁能在现实世界中大显身手,舞出最耀眼的“应用落地”舞步,从真正意义上提高效率,创造真正的社会价值。


9 月 20 日,浩鲸科技 · 鲸智大模型发布会举行云栖大会,其中,BI 行业高度关注大型模型。根据鲸智的理解,基于鲸智 BI 鲸智的大模型构建 ChatBI 中国信通院可靠工具 AI 在评估中,跨越四个智能领域的门槛,通过 20 项能力评估已成为第一批基于大型商业智能系统评估的商品,评级达到行业最高水平。 4 等级,显示其综合能力和智能技术的领先水平。


浩鲸科技数据智能首席专家吴名朝在新闻发布会上说,BI 事实上,在场景拥抱大模型的过程中,在知识构建、问数准确、模型泛化等方面还存在许多技术挑战。


BI 大型模型落地仍然存在许多挑战。


随着数字化转型的不断推进,企业面临着信息量和业务复杂性双重增长的考验。数据架构需要升级,以支持高效决策,满足跨部门、跨流程、跨系统的复杂数据分析需求。这就要求分析师具备高级数据分析能力,提供整合的数据分析、商业智能和机器学习解决方案,保证各种数据需求的统一流畅感。


传统的解决方案是从端到端建立起来。 Text2SQL 模型,通过语义理解用户的数据要求,通过模型翻译成可执行的。 SQL 句子导出所需的数据。但是,这种方法虽然有效,但也暴露出明显的局限性:


问题多样,容错性小:面对客户多样化、口语化的数据需求,端到端的数据需求 Text2SQL 在结构上,模型略显薄弱;


知识点多,逻辑复杂:大量 BI 知识分散在报告、指标元数据、视图和脚本中,关系断裂,知识缺失。


为了解决上述问题,浩鲸科技积极探索大模型技术与数据分析工程化的深度融合。大型自然语言理解能力与大型自然语言相结合。 BI 该领域积累了多年的经验,实现了对话式的数据统计和快速分析,降低了用户获取数据和理解数据的门槛。系统可以快速生成专业美观的数据图,只需简单地表达客户的需求。


根据吴名朝的介绍,浩鲸科技鲸智 ChatBI 围绕“数、数、数”的全分析过程,构建智能意图识别、智能图表生成、智能数据推荐、智能数据洞察等能力。,帮助用户构建易于使用的数据分析“副驾驶”,让企业客户在不编写复杂的查询句子的情况下,轻松获得所需的数据分析结果,就像聊天一样。


技术实现:标准化数据管理,规范数据入口是第一步


从 BI 就大模型技术实现而言,基于语义理解。 SQL 生成任务需要准确理解客户查询指标和相关层面。浩鲸科技的数据精度和效率为了提高查询服务层面的数据精度和效率 BI 大型模型团队专注于构建一套全面的模型。 BI 知识数据管理系统。


该系统深刻包括业务术语、同义词汇、原子术语、关键指标、多维数据、库表模型等关键要素的精细化管理。这一举措希望通过深化行业知识的嵌入,为大数据分析和用户决策提供更坚实的信息基石,填补垂直行业基础大模型的知识短板,促进前后文本之间的精准密切互联。


通过对行业专属术语库的整理和优化,确保每个业务概念都能得到准确的表达。为了缓解自然语言理解中的语义模糊问题,建立同义词语数据管理系统,使模型能够灵活地应对多样化的语言表达。此外,浩鲸科技针对关键性能指标和多维数据的精细化管理,构建了一套高效的指标和层次数据管理体系,帮助客户深入挖掘数据价值,发现潜在的趋势和规律。


更重要的是,通过库表模型数据管理的实施,为大型模型注入了强大的结构化数据支持,不仅增强了模型理解复杂数据关系的能力,也赋予了模型基于先验知识的推理和推断能力。这个过程完成了知识数据与大模型的深度融合和相互促进,使机器能够更准确地掌握人类语言的深层含义,在实际应用中表现出更高的准确性和鲁棒性。


智能知识识识别与召回,处理多指标查询难题


在 BI 在问数业务分析过程中,常常要准确判断客户提到的指标是否涉及多个指标。面对客户描述模糊、意图表达不清晰的情况,特别是当问题包含复杂的多主语、多层定语等结构时,通常需要先仔细拆解这些问题,然后准确识别和合理匹配,以确保客户实际想要分析的所有指标都能准确捕捉到。在处理客户查询时,识别和处理多指标的难点主要表现在以下几个方面:


自然语言的不确定性和抽象性:客户通常用自然语言模糊地表达问题,可能没有明确提出多个指标或条件。在这种情况下,需要通过语言逻辑技术来推断客户的隐藏意图,并识别涉及的主语、谓语或定语成分。


多个指标的拆解和组合:当客户的查询涉及多个指标时,需要拆解这些指标,区分它们的含义。这个过程要求智能分析系统具有良好的句法分析能力和前后理解能力,从而确定不同成分之间的关系,然后将这些指标重新排列为搜索条件查询。


与众多开源方案相比,浩鲸科技鲸智 BI 大型模型进一步利用知识召回模块和轻微弱化 Text2SQL 整体结构。目的是建立一系列高精度、高容错的结构。 RAG 零件,降低了大模型在垂直领域实现复杂场景的难度,最大限度地提高了 Text2SQL 幻觉问题:


术语识别模块:根据术语构建的专有词典,对存在连接词的语句进行专有术语分词和分句。


语义分析模块:构建场景化的实体识别任务模块,如查询时间(时间标准化)、行政区域、组织、排序条件、显示图表、查询目标、比较时间、统计函数(数学运算)、数值条件(百分比、额度、身高、体重)等。,并探索客户提问中的关键信息点。


术语召回模块:查询和召回客户语义语句中的关键实体,与元数据相关联,实现一系列召回增强操作。


转换模块:将召回的多条信息与具体策略相结合, query 重写并形成标准信息,提供大模型推理。


构建虚拟视图 BI 全新的大型模型范式


在 BI 在问数实践中,查询信息数据通常分布在多个维度表中,每个维度表都包含描述数据的差异统计粒度或独特属性。


基于虚拟视图技术的浩鲸科技首创, BI 通过智能方法整合查询过程中涉及的各种字段,包括但不限于层次字段、业务指标、度量值、查询条件等。,建立一系列针对特定查询需求的临时视图作为大模型推理的基础。


这种“按需构建”的视图策略,不仅大大降低了数据处理过程中的冗余信息,而且大模型推理信息中只包含了必要的查询字段,提高了大模型的执行效率和准确性。


浩鲸科技 BI 大型模型专注于量身定制和优化特定的业务范围 SQL 通过紧密结合行业特定的数据库架构(包括库表结构),生成模型、领域模型中的语义信息和庞大的数据量等关键因素旨在导出最适合和高效的行业。 SQL 查询语句。而且应用广泛 Text2SQL 模型形成鲜明对比。该方案巧妙地利用大型预训练模型对复杂行业语言模式的有力理解,进一步利用精细化的业务数据资源进行微调,从而显著提高模型捕获和转换项目的需求。 SQL 句子方面的优势,成功地将行业相关用语的优势 SQL 将正确的转化率推高到 92% 卓越水平。


这种创新不仅代表了自然语言的理解和理解 BI 数据库推广领域的深度融合和技术创新,意味着在实际应用中,它可以大大提高业务系统的数据处理效率和准确性,为企业客户带来前所未有的数据洞察力和业务决策支持,这无疑是技术和应用双重价值并重的典范。


吴名朝在新闻发布会结束时说:“BI 大模型完美融入场景还有很长的路要走,但我们愿意与行业合作伙伴和技术合作伙伴携手同行,克服更多复杂场景下的应用问题。"。


* 本论文授权发表量子位,观点仅为作者所有。



量子位 QbitAI


վ ' ᴗ ' ի 跟踪 AI 新的技术和产品动态


一键三连「分享」、「点赞」和「在看」


科技前沿进展日日相遇。 ~


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com