与GPT-4o相当的王炸模型,这家创业公司已经制作出来了。
"你好,我是阿奇。"

今年9月的外滩大会“未来客厅”展厅一度被堵住。在一个叫“阿奇”的AI陪伴机器人面前,孩子们一遍又一遍地摩擦着展台的边缘,不停地喊着阿奇的名字。孩子们之所以能如此回味,是因为他们与阿奇的互动体验非常流畅。

虽然是AI机器人,但阿奇有“高情商”,能“看到”客户,反应速度快。与其像真人交流一样简单流畅地互动,在体验上彻底创新了以前的国产AI应用产品。其背后是无界方舟大模型,具有音视频多模态能力。——ArkModel 2.0。
GPT-4o今年国庆前正式上线,其中高级语音功能已被外界期待已久,但目前,它仍然只向Plus和Team客户推出,免费客户无法感受到。GPT-Realtime4o 国庆期间推出了API,但是限制也很明显:没有视频对话能力,成本太高(7 RMB/min)、音质无法定制,语音幻觉较多。
就体验而言,无界方舟大模型已能实现GPT-4o极低的AI音频互动延迟能力,无差别。除了看到客户,带着情绪快速回复客户,我们还从无界方舟模型中看到了一些GPT-4o还没有的能力。比如大模型可以驱动3D虚拟图像,也可以驱动硬件机器人动作,在互动上有更多的创新。
这背后的R&D部门到底是什么?无界方舟大模型还有什么惊喜?
01 创业仅仅一年,一出手就是王炸。
36Kr了解到,无界方舟大模型背后的R&D团队是一家创业仅一年的新秀公司——无界方舟智能技术有限公司(以下简称“无界方舟”)。
创始人兼首席执行官曾晓东博士,是NLP自然语言理解领域的资深专家。他在这一领域有15年以上的算法研究和应用经验,担任A类机器学习、自然语言理解、人工智能领域会议/期刊评委和区域主席。他还是阿里巴巴第一代机器翻译系统的核心算法科学家,也是蚂蚁技术实验室的创始人。据悉,早在2017年,曾晓东博士在蚂蚁集团工作时就当选了《麻省理工科技评论》评选的MIT。 TR35,即“35岁以下科技创新35人”。值得注意的是,月之暗面创始人兼首席执行官杨植麟今年也被选入名单。

无界方舟创始团队成员来自国内外知名大厂AI业务的第一梯队。80%的技术团队是NLP自然语言理解专业博士,在NLP自然语言理解、MT机器翻译、IOT物联网硬件等领域有着多年丰富的经验。产品设计负责人获得红点奖和IF奖,是互联网经验多年的资深专家。、多项国际顶级奖项,如环球金趋势奖。
在众多AI创业企业中,虽然无界方舟的创业年限只有一年多,但它在很多方面都证明了自己的实力,得到了很多顶级赛事和榜单的认可。
在今年的WAIC期间,无界方舟被选为全球200多家顶级AI企业的全球创新大赛决赛,最终获得世界第五名。随后,无界方舟被评为“2024胡润未来之星潜力公司榜”200强。

那到底是什么样的产品和技术水平,才能赢得这样的市场认同和关注呢?
正如大家在一些公共活动中看到的那样,无界方舟大型商品的使用效果已经非常惊人。
 
当无界方舟大模型更新到2.0版本时,它也有更强的能力——完成了极低的延迟。 多模态的音视频 情绪表达 多语言 驱动软硬件等综合能力。正如桌面机器人阿奇所示,它可以实时看到客户,向看不清药品说明书的老年人解读药物服用方法,陪伴处于口语发育阶段的孩子聊天。
无界方舟大模型从多方面使AI智能体更像真人。
02 无界方舟大模型,让AI互动更像真人
GPT-4o引起了端到端即时多模态的热潮,国内外大型厂商纷纷效仿。
但就目前而言,各大厂商并不能真正进行全面的互动创新,比如极低的延迟回复、随时可以打断对话、可以“看到”用户的视频互动、情感表达等行业技术问题。这也意味着目前类似GPT-4o的多模态模型仍处于半成品状态,暂时无法提供API或SDK对接服务。
一位业内人士告诉36Kr,“大厂更致力于从通用模型能力中提取垂直水果,如ASR语音识别、LLM语言模型、TTS语音合成等。但是,创业公司要想有一席之地,就必须具备自主研发的能力,在垂直领域和垂直场景中实现通用模型的技术突破”。
假设大厂所做的就是让大型木盆没有明显的短板,那么无界方舟所做的就是把它变成一块长板,一块别人需要的“砖”。
在体验了搭载无界方舟模型的产品后,我们发现它最大的优势就是能够真正实现多模式的音视频互动、极低的延迟反馈、情感个性化表达等多种能力。这也让它感觉很好,没有成本,没有障碍。只要用户能沟通,就能顺利交谈,仿佛在面对真实的人。
为更清晰地体现无界方舟大模型在能力方面的优势,我们制作了一个图表:

大型无界方舟模型(ArkModel 2.0)是一种多模态端到端模型,可同时处理文本、音频、图像等数据,实现跨模态任务的转换。具体而言,模型接收不同形式的输入,例如音频通过Audioo 通过Imageencoder编码的图像 在ArkModel中统一处理了Encoder编码,该模型通过下一个token预测生成导出,因此可以实时地流导出文本或音频。

该模型的一个显著特点是端到端的优化设计,强调直接学习输入导出的全过程。其中,信息的生成是推广过程中的关键,主要用于生成大规模的训练数据,包括从图片或语音中生成文本语音、从语音中生成文本等多种类型的数据增强。这一方法有效地提高了模型泛化能力和任务适应性。
在多种多模式评价中,无界方舟大模型超越了GPT-4o等行业知名模型:




如图所示,无界方舟模型具有以下五个显著优点:(以下视频均为实拍,无任何后期剪辑)
•优势1:
实现300ms极低延迟反馈,不仅是纯语音,还有音视频互动。目前国内市场的横向对比几乎没有竞争对手;
 
•优势2:
可以实现多模态的音视频互动,可以“看见”客户,可以随时打断,并且有推理能力;
 
•优势3:
情感系统丰富,互动自然,去AI感,特别适合陪伴场景;
 
•优势4:
具有多种语言能力,目前可实现葡萄牙语、日语、阿拉伯语、粤语等21种语言;
 
•优势5:
能驱动虚拟图像和实体硬件的运动,达到具体智能的效果。
 
03 看看AI陪伴领域,无界方舟模型已经对外开放合作。
科幻电影于2013年上映《HER》曾经把人类爱上人工智能的故事搬到了屏幕上,这在当时似乎有点疯狂,因为大模型的出现几乎已经在现实中实现了。
今年8月,GPT-当4o语音功能首次亮相时,有人惊呼GPT版本。《HER》来了,第一批试用客户兴奋地感受到,可以像真人对话一样实现极低的延迟,随时可以打断,情绪丰富的实时互动。但在那之后,市场进入了短暂的沉默。
一位业内专家指出:“只要GPT-4o的技术没有达到每个人都可以使用的状态,市场就离真正意义上的爆发还很远。
曾晓东博士应邀在今年的外滩大会上分享AI。 Agent的商业化探索,AI可以通过那些能够深刻理解用户需求的个性化智能体,实现真正意义上的进入家庭。
但是在顾客眼里,它可以是一只智能音响,一个会说话的时尚娃娃,一只能和孩子亲近互动的玩具狗,或者一个车载陪伴机器人。
这是无界方舟希望实现的丰富场景。目前,无界方舟模型可以对齐GPT-4o的互动能力,并进一步发展其独特的优势,例如:同时,可以实时驱动虚拟图像和实体硬件的动作行为,同时保证极低的延迟音视频交互。这就是说,该模型能力将更加友好和完美地应用于具体智能、虚拟数字人或IP形象的场景。
根据36氪的说法,无界方舟大模型现在已经对外开放合作,而且目前是行业内唯一一家提供音视频互动大模型的公司。主要应用领域集中在教育互动、智能娃娃、汽车公司陪伴、智能、文化旅游展示等方面。,针对儿童、银发家庭、学生白领等用户群体有不同的解决方案。
例如,AI与教育的融合可以改变传统的教育模式,这是目前非常流行的教育陪伴领域。根据36氪之前的了解,许多教育企业都在探索与AI的融合。例如,通过AI模拟线下真实讲课体验,做超拟人。 1 对 1 的 AI 老师。这一探索的优点是,它不仅辅助学习,而且通过互动引导,使学生更有效地交流和吸收知识。例如,儿童早期教育产品目前主要集中在故事机上,但除了讲故事和阅读绘本外,早期教育机器还需要提供一个问题和一个答案的互动方式,以便儿童在英语系统发展的关键时期培养语言表达能力。所以这类产品对音视频互动的要求非常高,无界方舟大模型可以完美适应。

另一个流行的应用类别是智能玩具。基于上一代AI技术的商品通常交互复杂(例如,每次谈话都需要轻轻按下按钮)、反馈延迟高等问题,难以实现自然对话,导致用户使用时间低,保留差。因此,在智能玩具市场上,儿童玩具、IP游戏、明星周边、数字盒子、虚拟宠物等产品都可以很好地与无界方舟模型相结合。

此外,通过应用无界方舟模型,可以实现实时音视频互动,全面创新用户的互动体验,从而带来业务增长,如车企陪伴、具体服务机器人、文化旅游/企业展示等场景。

04 AI的终点是AI Agent?
虽然很多大模型厂商在年初就表示,今年是中国AI应用爆发的第一年,但实际上,由于模型性能的限制,AI应用已经进入瓶颈期。即使在北美市场,资本也在考虑投资AI的性价比。
光大证券研究指出,AI Agent是打破AI应用瓶颈的关键,新的ScalingLaw,RL CoT可以为AI实现自主规划。 特别重要的是Agent。
AI是一支坚定的无界方舟团队。 Agent跟随者,深度培养AI Agent技术和产品。由此,它也走出了两条路线,一条是企业级AI,走垂直领域(生物医药)专业路线。 Agent,一个是走陪伴路线的个人AI。 Agent。
怎样才能真正降低人类使用AI的门槛,通往AGI的核心基础到底是什么?根据华泰证券发布的报告,GPT-4o已经初步具备了Agent能力,而AI Agent是通向AGI的核心基础,可以真正创新人机交互模式。实际上,Agent也是大模型边际变化的最大能力。
也许每一个冲进人工智能领域的企业家都有一个用AI改变世界的理想。但是所有的理想都必须落地,这样才能真正对得起自己的理想,仰望星空,脚踏实地。
这也是无界方舟团队的独特之处。因为他们的理想,他们走出了大工厂,走出了舒适区,进入了一条竞争激烈但充满概率的赛道。曾晓东博士的最终梦想是在生命科学和人类事业上取得成就。他想用自己擅长的AI方式,为人类的工作做出一些贡献,所以当这波AI热潮出现时,他毅然出来创业。曾晓东博士的一位合作伙伴告诉36Kr。目前大型赛道的竞争已经到了深水区,只有真正的价值创造者才能走到最后。
本文来源于微信微信官方账号“36氪”,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




