生成人工智能:发展演变和产业机遇

商界观察
2023-08-25

在2022年11月30日OpenAI发布ChatGPT时,没有人会意识到,未来6个月,新一代人工智能浪潮将给人类社会带来眩晕的变化。自2010年代初深度学习问世以来,人工智能已进入第三次高潮。2017年,Transformer算法将深度学习推向了一个大模型时代。基于Transformer的Decoder部分,OpenAI建立了GPT家族。

 

ChatGPT一出现就风靡全球。每个人都惊讶于它能够连贯深入地交谈。同时,他们也惊讶地发现,它出现了反映智力的能力,如推理和思维链。随着AI预训练模型的不断发展,人工智能的生成内容 (AIGC) 随着算法的不断创新和多模态AI的日益主流,以ChatGPT为代表的AIGC技术加速成为AI领域的最新发展方向,推动AI迎来下一个大发展、大繁荣的时代,将对经济社会的发展产生重大影响。

 

AIGC 技术的定义和背景

 

AIGC(Artificial Inteligence Generated Content),指通过人工智能技术一键生成内容的生产方法。通过训练模型生成与训练数据相似的新内容。与以识别和预测当前数据为主的传统类型AI不同,AIGC侧重于创建新的、新颖的数据。其关键原理是学习和理解数据的分布,从而生成具有相似特征的新数据,广泛应用于图像、文本、音频、视频等领域。目前AIGC最引人注目的应用是ChatGPT。ChatGPT是基于OpenAI企业的大型语言模型GPT-3.5训练、调整、优化聊天机器人应用,同一AI模型可处理各种文字推理任务。ChatGPT发布仅两个月就获得了1亿个月的用户,超过了历史上所有互联网客户应用软件的用户增长速度。AIGC技术以大型语言模型和图像生成模型为代表,已成为新一代人工智能的平台技术,帮助不同行业实现价值飞跃。

 

在AIGC爆发的背后,人们普遍认为AI技术在三个领域的发展为AI技术提供了肥沃的土壤,即生成算法、预训练模型和多模态技术。

 

首先,随着各种生成算法的不断创新和突破,AI现在可以生成各种类型的内容和信息,如文本、代码、图像、语音和视频对象。AIGC和过去最明显的区别在于AIGC的分析。(Analytical AI)发展成生成式AI(Generative AI)。分析AI模型是根据现有数据进行分析、判断和预测的。最典型的应用之一是智能内容推荐;生成AI模型是在学习现有数据后解读和创建新内容。

 

其次,预训练模型,也就是常说的大模型,导致了AIGC技术能力的质变。过去,研究人员需要对每个类型的任务进行独立的AI模型训练,训练好的模型只能从事特定的任务,不具有实用性。而且大型预训练模型技术显著提高了AIGC模型的通用性和工业化水平,使AIGC模型成为自动化内容生产的“工厂”和“流水线”。包含ChatGPT的生成AI模型、GPT-四等大语言模型(Large Language Models,LLM)和Midjourney、Stable 图像生成模型,如Diffusion,又称基础模型,(Foundation Models),这是一种基于各种海量数据预训练的深度学习算法,表现出强大的、更泛化的语言逻辑和内容生成能力。

 

使用大型语言模型(LLM)例如,通过大量的网络媒体数据练习,语言模型的参数值可以达到1万亿甚至100万亿。这大大增强了语言模型的生成能力,同一语言模型可以高质量地完成各种文本推理任务,如写诗、写文章、讲故事、敲代码、提供专业知识等。因此,大型模型已经成为各大企业追求的AI方向。

 

第三,多模态AI技术的发展。多模态技术使AIGC模型能够跨模态生成各种类型的内容,例如将文本转换为照片和视频。进一步提高了AIGC模型的通用性。[1]

 

下面是AIGC领域的一些基本技术:

 

1)产生对抗网络(GAN, Generative Adversarial Networks):Ian是GAN 2014年,Goodfellow等人提出了一种生成模式。它由生成器(Generator)和判别器(Discriminator)两个部分组成。生成器负责生成新数据,判别器负责判断生成数据与真实数据的相似程度。通过不断的训练,生成器可以生成越来越逼真的数据。

 

二是变分自编码器(VAE, Variational Autoencoders):VAE是一种基于概率生成模型的生成方法,它通过编码器生成。(Encoder)和解码器(Decoder)实现数据生成的两个部分。编码器负责向潜在空间中的分布映射输入数据,解码器负责从潜在空间中分布采样数据并生成新数据。

 

三是循环神经网络(RNN, Recurrent Neural Networks):RNN是一种神经网络结构,用于处理序列数据。RNN具有记忆功能,能够捕捉到序列数据中的时序信息。RNN可用于生成文本、音乐等序列数据。

 

Transformer模型:基于自注意力的Transformer是一种(Self-Attention)该系统的神经网络结构在自然语言理解领域取得了显著的成就。Transformer模型可用于生成任务,如文本生成、机器翻译等。

 

其它相关技术:除上述技术外,还有PixelRNNNNNN等其它生成模型和技术,、PixelCNN、WaveNet等。在图像和音频生成等领域,这些技术也取得了一些成果。

 

生成式AI技术,如大语言模型,带来了新的AI发展范式,其应用价值非常广阔。。对大众而言,生成式AI代表着一种新的创造性工具,将在更大程度上释放个人的想象力和创造性生产。此外,AIGC还将改变获取信息的主要方式。在寻找答案、解决问题的效率方面,ChatGPT已经部分超越了今天的搜索引擎,ChatGPT可能会改变我们未来获取信息、导出内容的方式,AIGC有望成为数字经济时代驱动需求爆发的杀手级应用。

 

比尔·盖茨将人工智能的发展与微控制器、个人计算机、因特网和智能手机进行比较,认为它将重塑所有行业。CEOSatya微软公司 Nadella认为,ChatGPT是知识工作者的“工业革命”,人工智能肯定会彻底改变所有类型的软件服务。当前,许多软件服务,如搜索、办公、在线会议等,已经融入了生成式AI的能力。CEOSamOPenAI公司 Altman表示,多模态AI模型有望成为继移动互联网之后的新技术平台。这意味着,基于预训练的AI模型,开发人员可以通过模型微调快速开发垂直领域的模型应用并进行部署和使用,人工智能革命就在这里。[2]

 

AIGC的应用领域和案例

 

文本生成领域

 

自然语言生成是一种AIGC技术,可以生成逼真的自然语言文本。生成AI可以为作家和内容创作者写文章、故事、诗歌等提供新的创作方法。同时还可以用于智能对话系统,提高用户与AI的交流体验。

 

ChatGPT (全名:Chat Generative Pre-trained 由OpenAI开发的Transformer对话生成预训练转换模型是人工开发的。 2022年11月推出智能聊天机器人程序。该程序使用基于GPT-3.5架构的大型语言模型,并通过增强学习来练习。目前,ChatGPT仍然以文字的形式进行交互,可以解决各种任务,包括自动文本生成、自动问答和自动摘要。

 

Jasper已经开始为谷歌、脸书等知名公司提供AIGC文案业务。

 

图像生成领域

 

在AIGC技术中,图像生成是最常用的应用之一。Stability AI发布了稳定的扩散(Stable Diffusion)AI绘画的技术使用门槛通过开源快速迭代大大降低。消费者可以通过订阅他们的产品DreamStudio来输入文本提示来生成艺术作品。该产品吸引了世界50多个国家超过100万用户注册。

 

音频和视频的创作和生成

 

AIGC技术可用于语音合成,即生成逼真的语音。例如,生成模型可以通过学习人类的语音特征来生成逼真的语音,然后用于虚拟助手、在线翻译等应用。可用于生成音乐的AIGC技术。根据给定的风格和旋律,生成式AI可以创作出新的音乐作品,为音乐家提供新的创作灵感。这一技术也能帮助音乐家更有效地探索音乐风格与元素的结合。这类歌曲可用于音乐创作、广告音乐等应用。

 

电影和游戏

 

生成AI可以用来生成虚拟人物、情境和动画,给电影和游戏制作带来更多的创意。此外,AI还可以根据用户的喜好和行为生成个性化的故事情节和游戏体验。

 

腾讯AI2023年3月 Lab在GDC上提出了一键生成3D虚拟场景的解决方案,可以帮助游戏开发者以更低的成本创造出风格多样、贴近现实的虚拟城市,提高3D虚拟场景的生产效率。重点介绍了城市布局生成、建筑外观生成、室内投影生成三大能力。与手动设计相比,整个路网生成和微调过程只需不到30分钟,效率提高了近100倍;而且单个独特建筑的生产时间减少到17.5分钟,大大提高了场景设计的效率。

 

科学研究与创新

 

生成AI可以探索新的理论和实验方法,帮助科学家在化学、生物、物理等领域找到新的知识。此外,生成AI还可用于药物设计、材料科学等领域,加快技术创新和发展。

 

6.代码生成领域

 

经过自然语言和数十亿行代码的训练。一些生成式AI模型精通十多种语言,包括Python、JavaScript、Go、Perl、PHP、Ruby等。可以根据自然语言的指令生成相应的代码。

 

GitHub Copilot是由GitHub和OpenAI合作产生的AI代码生成工具,可以根据命名或编辑的代码前后的文本为开发者提供代码建议。官方介绍说,它已经接受了来自GitHub上公开可用存储库的数十亿行代码的训练,支持大多数编程语言。

 

CODING腾讯云新一代AI代码助手 Wise:赋予开发者大型AI能力,增强开发体验,提高开发效率。CODING Wise提供多种编程语言,主流开发框架和常用IDE。具有代码补充、生成单元测试、代码纠错等功能,可以帮助开发者加快研发过程,提高开发质量。CODING Wise能力涵盖了沟通、编码、审查等重要环节,包括:沟通阶段:通过对话,进行前后推理,给出代码回复,帮助开发者理解代码逻辑;R&D阶段:根据当前代码类型、代码前后文本等信息完成代码;注释和单元测试代码可以根据代码反向生成;错误排列阶段:检查错误代码,定位问题,帮助生成建议;然后给出建议代码,更换错误的代码块;审查阶段:帮助开发者生成代码并提交信息。审查者还可以生成审查建议;调整阶段:可以通过自然语言指令快速修改和调整代码。

 

理解和分析内容

 

腾讯会议AI助手:信息提取、内容分析、会议控制等各种复杂任务。只有通过简单自然的会议指令和对会议内容的认知,才能完成。会后可以一键生成智能总结摘要,也可以帮助用户基于智能录制能力高效复习,提高用户会议和信息流通的效率。

 

最近,彭博社发布了一个为金融界打造的大语言模型。(LLM)——BloombergGPT。其技术原理与ChatGPT相似,即采用Transformer模型和大规模预训练技术实现自然语言理解,拥有500亿参数。BloombergGPT的预训练数据集主要来自彭博社的新闻和金融数据,建立了3630亿个标签数据,支持金融业的各项任务。

 

BloombergGPT旨在帮助用户更好地了解和分析财务数据和新闻。能根据用户的输入,生成新闻摘要、市场分析、投资建议等与金融相关的自然语言文本。其应用场景主要包括金融分析、商务咨询、资产管理等领域。例如,在资产管理领域,它可以根据历史数据和市场情况预测未来的股价和交易量,为投资经理提供投资建议和决策支持。在金融新闻领域,BloombergGPT可以根据市场数据和事件一键生成新闻摘要和分析报告,为读者提供及时准确的金融信息。

 

8.AI智能体(AI Agent)

 

AI智能体(AI Agent)它被称为OpenAI的下一个方向。自今年3月AutoGPT推出以来,Generative Agent、GPT-Engineer、BabyAGI项目的爆发将LLM的叙述带入了一个新的阶段,从“超级大脑”到“全能助手”。

 

2023年4月,Github上发布了一个名为AutoGPT的开源项目,截至2023年4月16日,该项目已获得70K。 星。AutoGPT是一个开源应用程序,由GPT-4驱动,可以独立实现用户设定的任何目标。AutoGPT在客户提出需求或任务时,会独立分析问题,给出具体的执行计划并开始执行,直到客户提出的要求得到满足。

 

Auto-GPT的出现意味着AGI正在逐步向更加自主化和智能化方向发展。第一,它可以使人工智能技术更加普及和方便。目前Auto-GPT能够独立分析和执行任务,大大降低了应用的门槛和费用,使更多的人能够轻松地使用人工智能技术来解决问题。其次,Auto-GPT可以提高人工智能技术的效率。传统的人工智能模型需要从头到尾完成整个任务,这样会浪费大量的时间和计算资源,而且容易出错。AutoGPT可以独立分析任务,并提出具体的执行计划,这样可以大大缩短执行时间,降低错误率。[3]

 

虽然Auto-GPT还处于非常早期的实验阶段,但它开辟了一种全新的AI交互技术,即机器主动要求任务和计划,人类只需要给出任务目标。这种交互技术不仅提高了AI智能体的自主性和灵活性,而且扩展了人与AI之间的交互技术,打破了人类对人工智能“控制”的想象,促使人工智能技术从“工具”走向人类的“伙伴”。

 

除单独的AI外 除了Agent之外,未来还可能出现由多个AI智能体组成的“虚拟智能社会”。GenerativeAgents—一篇名为斯坦福大学和谷歌联合发布的文章《GenerativeAgents:InterativeSimulacra of Human Behavior》在论文中,研究人员成功地建立了一个“虚拟小镇”,其中25个智能体存活在小镇上。在AIGC的帮助下,NPC有了可靠的人类行为,对周围环境的变化做出了适度的反应,促使赛博空间可以通过实际的社会现象来增加。

 

海外商业咨询机构预测,到2030年,AIGC和生成AI的市场规模将达到1100亿美元。就像“互联网 ”一样,“AIGC “有望渗透到各行各业,在教学、医疗、金融、政务、制造、机器人、数字人、元宇宙、广告推广、电子商务、市场和战略咨询等诸多领域带来新的应用模式,深刻赋能各行各业,帮助高质量发展。

 

AIGC产业应用中的挑战和问题

 

可解释性和可靠性

 

生成人工智能可解释性问题是指生成人工智能(Generative Artificial Intelligence)难以解释或理解形成的结果。生成人工智能是一种基于深度学习的人工智能技术,它通过学习大量的数据来生成新的数据或图像。但是,生成式人工智能所产生的结果一般是无法理解和解释的,因为它的内部操作过程非常复杂,而且难以直观地描述。

 

这一可解释性问题对医疗诊断、金融风险控制、自动驾驶等多个应用领域十分重要。在这些领域中,每个人都需要了解生成型人工智能的内部运行过程,以便更好地了解其结果,并能对其进行调整和优化。

 

目前,人工智能研究的一个重要方向是处理生成型人工智能的可解释性问题。研究人员正在探索各种方法,使生成型人工智能的结果更加可解释和可理解。这些方法包括可视化技术、可解释模型、对抗样本等。

 

2.AI模型的价值对齐问题

 

所谓的人工智能价值对齐(AI Alignment),使人工智能系统的行为符合人类的目标、偏好或伦理原则。AI安全研究的核心问题是价值对齐。理论上,如果一个强大的AI系统所努力的目标与人类的真实意图和价值不一致,就有可能给人类带来毁灭性的后果。目前,大语言模型的价值对齐具体表现为如何让人工智能在模型上理解人类的价值和伦理原则,尽可能避免模型的有害导出,从而打造更有用、更符合人类价值观的AI模型。RLHF是一种有效的方法,通过少量的数据可以达到较好的效果。总之,RLHF要求人类专家根据人类提供的反馈,对模型导出内容的适当性进行评估,并对模型进行优化。它的目标是降低模型在未来生产有害内容的可能性。实际上,RLHF算法不仅是确保AI模型具有正确价值观的关键,而且对于生成式AI领域的长期健康可持续发展也非常重要。[4]

 

塑造一个负责任的AI创新生态

 

生成式AI的进展,如大语言模型,不仅让人们看到了AGI的曙光,也带来了更加复杂和难以控制的风险,包括对人类未来生存的潜在风险。人工智能时代需要成为一个负责任的创新时代,而不是另一个“快速行动,打破陈规”的时代。每个人都需要建立一个合理谨慎的人工智能伦理和治理框架,建立一个负责任的人工智能生态,创造一个人机和谐共生的未来。生成AI领域的创新主体需要积极探索技术和管理的安全措施,为生成AI的健康发展和安全可控应用筑起护栏。

 

在科技向善的理念下,人工智能时代不应该成为另一个“快速行动,打破规则”的时代(即先快速制造产品,再通过修复和补救解决社会问题)。相反,它应该成为一个负责任和创新的时代。通过建立合理谨慎的人工智能伦理和治理框架,创造负责任的人工智能生态,创造人机和谐共生的未来。[5]

 

未来AIGC在工业应用中的趋势

 

多模式带来了蓝海海创新应用

 

多模态AI是指人工智能,如文本、图像、音频、视频等。,可以处理和理解各种类型的信息。这种AI不仅可以处理单一数据类型的任务,还可以连接和整合不同的数据类型,从而实现对多模式的全面全面的理解。AI可以相关分析不同类型的信息,支持解决复杂问题。

 

在多模态技术发展初期,图像识别与自然语言处理技术的融合等不同模态的AI开始集成。除了ImageBind打通六种模式外,大部分还在探索文字和图像的结合,但进展很快。UniDiffuser:除了单向图形图形外,还可以实现图形提问、图形联合生产、无条件图形生成等多种功能。

 

许多模态AI案例,如DALLLLLL,都开发了OpenAI。-E、CLIP等,可以识别图像中的目标,同时生成与图像相关的描述性文本,或者通过文本指导生成相关物体的新图像。

 

随着多模态技术的发展,多模态AI可以在理解和处理不同类型数据时实现更高水平的组合。算法和模型可以连接不同的数据类型,提取不同模式的共享信息。这使得AI能够深刻理解和解决复杂的问题。未来,多模态技术的发展将带来创新应用的蓝海。[6]

 

生成式AI带来更符合人际交互技术的技术

 

从用键盘-鼠标与计算机互动,到用手指滑动屏幕与手机互动,再到人们用唤醒词与智能音响互动,人机互动不断向更符合人们习惯的互动技术演变,从识别机器指令到识别人的动作和声音。随着生成式AI的发展,人类第一次有机会用自然语言与机器交谈。机器也有很强的能力通过大模型理解人类语言,有望带来全新的互动变革。就像之前的互动变化带来的从终端到连接再到各种应用的颠覆性变化一样,生成式AI也必然会带来产业链、价值链和生态的重塑。

 

生成式AI的技术突破,大大提高了对模型的理解能力。大型模型能更好地理解人类表达的意义,并产生更符合人类价值观的答案。它的技术成熟度已能在许多场景中得到应用,甚至实用。随着科技公司对齐工作的不断进步,大模型的“幻觉”不断减少,这使得人类第一次完全有可能通过自然语言对话与机器进行交流。它也是人们挖掘机器智能最简单、最直接、最有效的交互技术。

 

在这种背景下,所有的APP都可以用生成AI重做,并且可能会产生原生AI。 APP。一方面,在后端不变的前提下,目前所有软件的前端互动都可以直接改变为自然语言对话的方式,让更多的应用具备智能对话的能力,给用户带来全新的感受。现在很多应用软件和硬件已经开始向这个方向升级。另外一方面,未来更具市场创造力的,是原生AI。 APP,比如未来很有可能会有一个无所不能的个人助理。他可以回答人们的各种问题,帮助人们提出建议,甚至做更多的工作,比如会议预订、文章写作、文艺创作等等。“机器生成 在可预见的未来,人脑选择将成为人机合作的重要途径。[7]

 

结论

 

综上所述,生成型人工智能在探索和演变过程中取得了显著成效,为人们社会的进步和发展提供了强大的技术支持。从深度学习、自然语言理解等技术的发展,到生成型人工智能在各个行业的应用,都显示出其强大的潜力和价值。然而,随着技术的不断创新和突破,生成型人工智能在数据安全、隐私保护、伦理等方面存在一些挑战。在应用过程中也暴露出来。所以,未来的研究应该注意如何在保证技术创新的同时,解决这些潜在的问题,从而实现人工智能的可持续发展。此外,为了实现人类社会的共同繁荣和进步,各国政府、公司和研究机构应加强合作,共同推进生成式人工智能的研究和应用。

 

徐思彦 腾讯研究院高级研究员

 

本文来自微信微信官方账号“腾讯研究院”(ID:cyberlawrc),作者:徐思彦,36氪经授权发布。

本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com