《阅读实时互动》发布,一次了解从网络电话到AI语音的音视频进化史。

2024-09-28

由声网编写的《读懂实时互动》,对音视频技术、场景和数据进行了深入分析。

近年来,在线k歌、视频会议、在线教育、远程医疗等场景接踵而至,各种线下生活、学习和生活习惯被颠覆,每个人似乎都开辟了一个全新的“数字化”空间。不难推断,数字化基础设施一旦完成,一切都可以实现“数字化”转型。其中,实时互动是一个重要的数字化基础设施,不断渗透到“数字化生活”的每一个角落。


回到日常生活,提到“实时互动”,你会想到哪些应用领域?如果你在生活中看过视频直播,在学习的时候在网上上过课,在工作中用过视频会议,那么你就已经是一个实时互动的用户了。


那么,如何实现这样一个重要而常见的“实时互动”呢?机械工业出版社出版的著名实时互动云服务商声网最新编写的《阅读实时互动》系统介绍了实时互动的出现,以及如何在数百个应用场景中创造财富。


一座新的千亿级市场形成,声网推出了“读懂实时互动”



RTE经常被写成实时互动。(Real-Time Engagement)。简单来说,就是指在远程环境下,可以随时随地访问和传递虚实融合的多维信息,体验身临其境的互动活动。实时通信是实时互动最基本的功能,会要求客户实时传输音视频、文字、图片等线下信息。


实时互动RTE最早出现在声网2020年招股书中。当时,声网将其使命定位为“让实时互动像空气和水一样无处不在”。事实上,只要音频和视频需要实时传输,就离不开实时互动。短短几年,从在线教育到在线娱乐,实时互动就像空气和水一样,出现在“在线生态”的角落,构成了数字生活不可或缺的基础。


随着生成式AI的出现,实时互动领域的发展边界正在无限延伸。不难预测,实时互动将增加另一个“身份”:成为AGI时代重要的实时基础设施。回顾人机交互从键盘、鼠标、触摸到音视频的演变过程,毫无疑问,未来人机交互的方式将继续深度培育到实时交互的方向。声网COO刘斌表示,除了使用方便外,在AI交互对话中加入RTE,可以使交互更加温暖。


当AIGC“杀四方”,改变各行各业,RTE的渗透率也会上升。刘斌判断,在实时互动的加持下,AI口语教师、AI客服、AI助手等应用场景的实用性将大大提高。声网《实时互动场景创新生态报告》预测,到2025年,实时互动行业将形成超过1000亿元的市场。


新的千亿规模市场正在逐步形成,新的市场机会无法承受。


但2015年实时音视频技术作为一个新兴市场,在国内仍处于“三无”状态,即没有行业会议、专业书籍、专业媒体和社区。


声网市场副总裁彭小欢表示,首届音视频技术大会在声网举行。今年,音视频技术大会(现更名为RTE大会)已连续第10届,声网已成立十年。此时,由声网主持编写的第一本技术科普书籍《阅读实时互动》正式出版,系统介绍实时互动,最终弥补了RTE行业没有专业书籍的空白。


阅读一本书,实时互动。


打开《阅读实时互动》第一章,实时互动技术服务的演变历史一目了然。回顾它的发展历程,最早可以追溯到Globalalobal,一家致力于处理互联网VoIP和语音信号的企业。 IP Sound。



GIPS公司产品 VoiceEngine 曾经受到Skype、QQ非常语音等多种热门应用的青睐。到2010年,谷歌收购了这家公司。尽管谷歌可以独占GIPS的技术专利,但谷歌坚持互联网开源开放的精神,选择完全开源GIPS的关键代码和免费专利授权,这也使得WebRTC开源项目在之后大家都很熟悉,并且正式拉开了实时互动行业的序幕。


WebRTC,也就是说,网页实时通信促进了音视频通话的普及。特别是4G普及后,互联网流量逐渐从文字图片转变为语音和视频消费,基于音视频的实时互动应用越来越多。然而,只有WebRTC,开发者在R&D仍然面临着各种技术服务的不足。RTC PaaS应时而生。


RTC PaaS化是指向开发者提供实时通信技术作为服务,开发者可以通过调用简单的API接口实现实时音视频互动功能。这种服务的出现,大大降低了开发者的门槛和成本,使更多的应用程序能够享受到实时通信技术的价值。RTC是一个成立于2014年的声网。 在此基础上,PaaS化的典型代表提出了RTE实时互动的全新概念和愿景。


相比之下,RTC的核心是沟通,而RTE的实时互动在RTC的基础上,进一步提供了更丰富、更灵活的实时互动能力,让开发者可以根据不同的场景需求,创造出更加个性化、差异化的实时互动体验。


在《阅读实时互动》第三章中,声网研究院详细分析了实时音视频的技术流程。从音视频采集、预处理、编码解码、传输到后处理,整个场景展示了音视频领域的实时互动是如何实现的。



书中还联系了与实时互动技术密切相关的常见场景。比如社交应用中已经成为标准的美颜和声音美化,就是在“预处理”部分完成的。


声网首席科学家兼CTO钟响介绍,技术层面实时互动的核心问题是如何在尽可能减少传输延迟的同时,保证数据的高可用性和高可靠性,面对复杂的设备和多变的应用场景。这也是深度培育声网的领域之一。通过分布式“端边云”结合系统,声网完成了传输的低延迟,显著降低了成本,让更多人能够负担得起实时互动服务。


与实际场景相结合,任何技术都是不可或缺的。


声网在2021年RTE即时互联网大会上发布了“RTE万象图谱”,展示了围绕教育、泛娱乐、IoT、20多个行业赛道的实时互动场景,如企业合作、金融、医疗等。《阅读实时互动》第四章逐一介绍了这200多个场景,同时选取了31个主流场景,加强了场景示例图的展示,更直观地展示了各行各业实时互动的场景赋能。


值得注意的是,除了相对成熟的应用领域,如在线k歌、直播销售等,平行控制等新场景正受到业界的关注。


所谓平行控制,是指操作人员可以通过将现代极低延迟视频通信技术与即时信令技术相结合,实时驾驶/操作远端无人车或机械设备。典型的使用场景包括:物流园区的无人驾驶汽车,矿区的无人矿车,港口的无人集卡车,以及远程接管解困云代驾。根据该领域的业务特点,声网已经推出了不同需求场景偏好的成熟产品,如低延迟、高画质、高帧率等。


另外,《阅读实时互动》还增加了全球范围内的实时音视频大数据观察。


书中第五章提到,在典型的语言聊天场景中,99%的用户无法接受频道中音频卡顿率高于8.1%的情况。当用户在频道中的音频卡顿率在1.2%-8.1%之间时,音频卡顿率每降低0.1%,用户在频道中停留的平均时间增加18s。但是在狼人杀戮场景中,用户似乎对音频卡顿率更敏感:当音频卡顿率超过6.9%时,99%的用户是不能接受的。与此同时,书中还详细列举了各种视频应用的卡屏率,以及对用户时间和留存率的影响。这几个大数据都来自声网十年来服务大量客户后的深刻洞察和总结,对行业从业人员具有较高的参考价值。


另外,由于声网常年在海外市场的深度培育,《读懂实时互动》也列出了RTC在全球热点地区的用量清单。


例如,根据2022年2月至4月声网在全球的RTC数据,声网得出结论,苹果手机在中国大陆RTC用量TOP30的机型中占比最高,其次是华为,而东南亚的第一名也是苹果手机,第二名是小米手机。根据不同市场提供的终端用量不同等数据,该书将帮助有出海需求的企业和开发商根据当地情况进行出海规划和业务拓展。


“AI “未来,“实时互动”的边界正在无限延伸。


根据彭小欢的说法,当这本书开始编写时,生成式AI还没有爆发。然而,当时声网已经开始关注AIGC和RTE的融合,并在书中介绍了声网RTE与AIGC结合的初步探索。如今,多模式的大模式实时互动已经成为一种大趋势。


在钟响看来,RTE是智能生态的重要组成部分。与汉字交互技术相比,实时音频和视频的交互更有沉浸感,与AI的交互感更强。同时,AIGC的出现也让实时交互在技术上更加“身临其境”。例如,各种RTE背景和道具可以通过AIGC更高效地生产,创造更准确、更丰富的虚拟场景。


当前,围绕“实时互动” AIGC“方向,声网不断探索和实践,并推出了对话AI解决方案。该解决方案以语音为核心,支持视频拓展,通过低延迟响应、智能中断、AI降噪、超拟人声生成等丰富功能,构建真实自然的AI语音交互体验,具备落地能力。面对已经汹涌澎湃的AIGC变革浪潮,声网还将重点布局在线推广、在线教育、泛娱乐、IoT设施等领域,迎接新时代实时互动的新机遇。


《阅读实时互动》中还提到,声网在RTC领域积累的优势将在AIGC浪潮中发挥重要作用。钟响表示,目前大型模型制造商正在努力实现AI即时语音交互。作为RTC领域的佼佼者,大型语音交互的最低延迟可以达到600ms。


同时,与市场上大多数3-4秒的AI互动延迟时间相比,声网的解决方案可以将对话响应延迟保持在1秒以内。对于缺乏AIGC开发经验和能力储备的企业客户,声网可以提供完整的SDK包装,方案可以在3小时内快速验证。


AIGC和RTE交织在一起,给人机交互带来了更多的可能性。随着交互模式从文本升级到音频和视频的多模式,实时交互的边界和未来是无限的。


声网COO刘斌表示,AIGC的使用场景必须通过实时音频和视频传输来展开。通过在模型交互对话中增加实时音频和视频能力,AI交互将更加温暖、真实和沉浸,客户将更加参与。


例如,在线英语口语教师离不开实时音频和视频的教学能力。除了人与人之间,人与机器人之间也会带来实时互动的需要。届时,机器人将通过语音和图像与人类实时互动,为社交游戏带来更多的想象空间。


谈到《阅读实时互动》的创作,彭小欢介绍,声网在2021年发布的《RTE万象图谱》和2022年发布全球RTE情景热榜的基础上,更新了相关数据,叙述了RTE情景,同时增加了实时互动的技术栈和历史栈,所以这本《阅读实时互动》自然诞生了。



书籍的配套资源还包括RTE万象图谱的电子版本。


利用这本书,声网希望让更多的人知道实时互动的因果,以及它在生活中的应用是多么丰富多变。彭小欢说,只有更好地了解实时互动,客户才能更好地选择和使用合适的实时音频和视频服务;同时,越多的人了解和参与这个行业,实时互动的创造力就越能最大化。


现在《读懂实时互动》已经在京东、当当等电商平台上架了。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com