全球247亿美元豪赌GenAI,疯狂进入AI高风险游戏?

2024-07-12

面临着GenAI的技术浪潮,许多人会在不断迭代更新的技术中逐渐迷失。Sapphire、Emergence、Menlo等风险投资公司,将如何应对AI变化的现状和方向?



按照Sapphire 根据Ventures的数据,从2022年到2023年,GenAI领域的风险投资总额从76亿美元增长到247亿美元,全球风险投资总额从76亿美元增长到247亿美元。


根据今年一季度的数据,2023年的市场热度很可能会持续下去。


根据Quid咨询公司的统计数据,AI方向投资最具吸引力的三个细分领域是「AI基础设施,研究与治理」、「理解自然语言」和「数据管理」。


随着大量投资的涌入,创业公司如雨后春笋般涌现。AI创新的重要根源是从美国、中国到英国和以色列。


随着投资浪潮的催化,GenAI领域的技术更新也达到了前所未有的快速。


今年1月,Menlo Ventures仍然是现代AI技术栈的一个简单的四层框架,从计算能力和基本模型到数据和模型部署,以及顶层模型的可观测性。


而且仅仅几个月后的5月底,这一框架就迅速落后,随之而来的是Sapphire。 Ventures发布了复杂的技术网络,包括200多家企业和多个领域交织在一起。


而且,GenAI的发展路径并非单纯的技术创新问题,商业战略、金融、教育、政策等各个方面的影响交织在一起。


越来越多的立法者关注数据隐私,AI法规即将出台的压力挥之不去;AI行业高薪的背后是持续的人才短缺,迫使科技公司在内部开发和外包之间取得平衡。


更重要的是,控制成本和创造利润的压力将与各种技术创新的动力背道而驰。持续的开源和闭源之争就是最典型的例子。


与传统软件公司相比,推理和培训的计算费用将花费更多的资金。但是,根据Emergencence 根据Capital的统计,只有58%的GenAI公司选择通过产品盈利,这就增加了另一个商业风险。



「混乱的花朵渐渐变得迷人」,在投资热潮和一夜暴富的表象下,进入GenAI本质上是一场高风险的技术博弈。在这个复杂多变的领域,今天最先进的解决方案很可能会在一夜之间被新的技术突破所取代。


要面对GenAI谜宫中的这一切,也许答案只有一个——适应性。


无论是科研、技术领域的从业者,还是公司的决策者,都需要不断优化自己的目标和愿景,与这种千变万化的环境一起演变,从而创造实用的价值。


数据的「量」和「质」


当深度学习方兴未艾时,如果一直追溯到ImageNet,可以发现数据一直是AI的核心问题之一。


近几年来,随着GenAI和LLM的兴起,数据也成为了AI基础设施的一部分,就像计算率一样,也是一种稀缺资源,需要尽可能多地探索。


Epoch AI曾推测,到2028年,LLM将在网上耗尽所有高质量的文本数据,阻碍Scaling Law的「数据墙」仿佛就在眼前。


从GenAI本身给出的解决方案——生成数据,面对数据短缺的挑战,似乎是一条仍然不清晰但颇具前景的道路。


最初的研究指出,随着生成数据比例的增加,迭代模型的质量和多样性将逐渐下降。


但是另一方面,很少有比例的合成数据与最新的实际数据混合,例如Google最近发布的Gemma 二是可以表现出显著的性能提升。


Epoch 虽然我们可以看到AI的创始人曾经说过,「数据耗尽」前景,但目前还没有理由感到恐慌。生成数据,


有望突破多模态、迁移学习等方法。「数据墙」。


除信息量焦虑外,数据质量和数据治理也成为人们关注的焦点。


上个月,HuggingFace发布了15万亿token的FineWeb数据,强调了数据质量的重要性。


在微软Phi-3小模型的技术报告中,还提到了一个「数据换参数」的策略。


对企业和产品而言,数据质量的重要层次还包括语义层面和数据结构。(data fabrics),有望提高AI系统对企业数据的有效理解和使用能力,从而带来创新功能和用例。


创业公司Illumex开发了一个名字叫做「语义数据结构」(semantic data fabric)他们的CEO解释说,技术,「data fabric有一条线条是自动创建的,而不是事先定义的。」,能促进更动态、上下文感知的数据交互。


另外,AI监管和科技公司也把目光投向了数据治理领域——确保数据的应用符合伦理、安全和法规。


已将数据治理纳入其平台核心的DataBricks被描述为「从数据摄入到GenAI的提示和响应,一个持续的治理系统」。


同时,Red StevenHat副总裁 Huels预测,特别是随着AI系统对关键业务决策的影响越来越大,我们可以看到数据治理的大力推进。


端到端vs.特殊解决方案


GenAI这种新事物似乎有点复杂,有些无法理解,所以很多公司倾向于选择全面的端到端解决方案,这反映了决策者对简化AI基础设施、精简运营的愿望。


当财务软件公司Intuit决定在原来庞大的生态系统中获得整个GenAI时,他们是否面临着一个艰难的选择——要不要让1000多名开发者在现有平台的基础上建立AI?


最后,Intuit选择了一条更有野心的道路:重新开始,建立一个全面的生成AI操作系统GenOS。



公司首席数据官Ashok Srivastava解释了这一决定:为了加快创新,保持一致性,「为了抽象平台的复杂性,我们将额外构建一层。」。相比之下,让每个团队建立一个定制的解决方案,会导致「高度复杂,低速和技术债务」。


类似地,Databricks最近扩展了平台功能,新推出的Model Serving和Feature Serving工具可以简化数据科学家布局模型的过程,这意味着他们正在推进更加集成的AI基础设施,提供更加全面的解决方案。


《Marvelous MLOps》这本书的作者Maria Vechtomova指出,整个市场都需要如此简化:「机械学习团队应尽量简化结构,尽量减少使用的工具数量。」


推进端到端解决方案意味着GenAI领域的完善。企业不再满足于零散拼接,而是希望有效地扩大其AI项目。


同时,我们也见证了一个有趣的现象——尽管端到端平台正在崛起,但是专门的解决方案仍在不断涌现,


一般而言,它们是对一般方案的补充,负责应对可能被忽视的复杂挑战,或增强特定功能。


在处理特定AI挑战方面,专门的解决方案不断涌现,创新仍然充满活力。


即使市场正围绕几个主要平台进行整合,这种趋势仍在继续。


对IT决策者来说,任务非常明确:仔细评估专用工具在许多方面是否能够提供比较通用的解决方案更明显的优势。


开源与专有平衡


开源和专有解决方案在GenAI领域具有非常活跃的相互作用。


Red曾以开源Linux著称。 最近,Hat公司宣布进入Gen 他们开发的产品Red领域 Hat Enterprise Linux (RHEL) AI旨在使更多的人能够使用LLM,并且坚持自己对开源标准的承诺。


然而,开源解决方案通常需要公司内部大量的专业人员来有效实施和维护。这可能是一个面临人才短缺或者想要快速行动的组织的挑战。


另一方面,专有解决方案一般提供更加集成和支持的感觉。例如,Databricks致力于围绕其专有平台创建一个连贯的技术生态系统,同时支持开源模型,为客户整合和管理各种AI模型。


理想的开源和专有解决方案的平衡取决于组织的实际需求、资源和风险承受能力。随着AI领域的发展,两种解决方案的有效集成和管理将成为一个关键的竞争优势。


平衡好开源和专有战略「潜力股」也许AI新星Mistral最近正在崛起。


Mistral推出的开源模型不仅在社区中产生了广泛的影响,还得到了全球开发者的支持和帮助,并吸引了潜在用户。任何人都可以检查和定制代码,这增强了企业客户对技术的信任。


Arthur创始人 Mensch曾表示,「在建立商业模式和坚持我们的开源价值观之间找到平衡是非常微妙的。我们希望创造新的东西和结构,但我们也希望为我们的客户提供一些额外的产品和服务。」


整合现有系统


如何将新功能集成到当前的业务流程和决策框架中,建立两者之间良好的联系和互动,是企业转向GenAI的关键挑战。


AI系统落地的最后一步,也直接决定了AI方面的投资能否转化为真正的商业价值。


令人惊讶的是,与顶层产品功能相比,成功的集成更依赖于底层系统。实时系统、流程处理、批量处理等。「框架」它是建立AI能力不可忽视的基础。


对许多组织来说,数据也存在挑战,难点在于AI系统需要连接多样化的数据库,并且经常孤立存在。Illumex开发了一种方案,允许公司在不进行大规模重组的情况下,使用现有的数据资产。


安全集成是另一个关键因素。由于AI系统一般处理敏感数据并做出重要决策,因此必须纳入现有的安全框架,并符合组织政策和监管政策。


提醒工程仍然是关键技能。


准确且格式良好的提示,结合相关的前后数据,可以显著影响模型的输出质量,这往往会让开发者和客户感到惊讶。


尽管最初对提示的长期前景和提醒工程师这一新兴职业有所怀疑,但许多公司仍在积极寻找并高薪聘请具有提醒工程技能的员工。


这一趋势将持续下去,并得到新兴服务的进一步支持。这些服务可以帮助公司生产、储存、测试、管理和更新提示。


智能体已经到来,但是为了时尚早


AI智能体可以使模型(或者一系列模型)在客户基本不干涉的情况下完成一系列动作。


智能体工作流程有望拓展模型的使用模式,使开发者能够独立提升每一步,从而带来显著的生产力提升。


尽管现在真正的自主智能体还没有成为现实,但是我们观察到越来越多的服务正在帮助客户建立轻量级的定制助手,比如微软最近更新了Copilot。


这类助手可以处理更复杂的工程工作流程(不限于代码协助)、从多个来源中提取和总结信息,自动标记数据等。


生成式人工智能的激进未来


伴随着GenAI的快速发展,对技术栈的探索也越来越深入,从端到端的解决方案到专用工具,从数据质量到治理框架。


毫无疑问,我们正在见证企业技术的变革,但这仍然是一个开始。


AI大神Andrej最近 Karpathy描绘了一个更加激进的未来场景。


他想出了一个「全软件100%2.0计算机」,在这些软件中,单个神经网络取代了所有传统软件。


在这些设备中,音频、视频和触摸等输入将直接输入神经网络,导出将通过音箱和屏幕显示为音频和视频。


这个概念远远超出了我们对操作系统、框架甚至不同类型软件之间差异的理解——应用程序之间的界限变得模糊,整个计算体验将由统一的AI系统来控制。


尽管这种愿景看起来很遥远,但它强调:GenAI不仅可以重塑单个应用程序或工作流程,而且可以改变计算的基本性质。


在建立AI基础设施时,今天的选择将为未来的创新奠定基础。灵活性、可扩展性和接受范式转变的想法将成为关键。


不管我们谈论的是端到端平台,还是AI驱动的计算环境,成功的关键在于培养适应性。


参考资料

https://venturebeat.com/ai/ai-stack-attack-navigating-the-generative-tech-maze/


https://menlovc.com/perspective/the-modern-ai-stack-design-principles-for-the-future-of-enterprise-ai-architectures/


https://sapphireventures.com/blog/building-the-future-a-deep-dive-into-the-generative-ai-app-infrastructure-stack/#gallery-4


https://www.emcap.com/thoughts/beyond-benchmarks/


https://www.visualcapitalist.com/mapped-the-number-of-ai-startups-by-country/


本文来自微信微信官方账号“新智元”(ID:AI_era),作者:新智元,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com