李沐老师回到哔哩哔哩，用大模型的创业成果填坑。

2024-06-09

最后，AI大神李沐回来了！带着他最新的大模型创业成果——

一种特殊的复杂场景角色扮演大型设计模型，名称Higgs-Llama-3-70B。

很多了解到这个消息的网友已经兴奋地在评论区催更，李沐老师也回应说，视频坑还是会填的：

想你的365天。

最后回来了，视频都盘包浆了。

那沐神到底是干什么的？通过Higgss-Llama-3-70B瞧一瞧。

定睛一看，Higgs-Llama-3-70B是沐神去年联合创办的企业。Boson AI，推出的第一个大型Higgs开源系列模型，基于Llama 3制造，完整的SFT。、RLHF。

这不但可以在角色扮演任务上表现出色，而且在一般领域的指令遵循和推理方面也很有竞争力。

此外，市场报道称，Boson 张一鸣已经投资了AI。

左击Claude3，右击Gemini

MMLU-Pro和2个新的基准测试团队Arena-Higgss显示在hard上-Llama-3-70B的能力。

它们还特别强调，所有的基准测试最终都会导致拟合，并且已经尽可能地从微调信息中排除了基准测试数据及其训练示例。

具体来说，MMLU-Pro这是MMLU的扩展，团队认为MMLU-Pro是在模型完成训练后发布的，很少受到其它已发布模型过拟合的影响。

用来做比较模型也都是一水强。

还有Higgs-Llama-在5月I/O会议上，3-70B的表现优于谷歌最新推出的Gemini-1.5-Flash、Claude3家族“中杯”Claude-3-Sonnet和Llama3-70B-instruct。

再来看Arena-hard，该标准包括500个具有挑战性的真实用户查询，来自Chatbot竞技场。

Higgs-Llama-3-70B的表现排名第四：

此外，使用相同的base model，Higgs-Llama-在6个基准测试中，3-70B均优于LLama-3-70B-Instruct。

虽然距离GPT-4o还有很大的差距，但值得注意的是，沐神团队只发布了一般能力的基准测试，并强调没有目的地刷榜。

而且Higgs-Llama-归根结底，3-70B是专门为角色扮演设计的，相关效果展示团队没有具体给出。

团队说Higgs-Llama-3-70B只是一道开胃菜，将进一步探讨角色扮演性能、训练后处理流程、零基础数据中心建设、未来云中GPU使用和多个服务供应商整合的策略。

之后还会发布更多的Higgs系列模型。

Agent开发角色扮演

这一次，李沐大模型的创业方向终于显露出来，但在一定程度上证实了之前对沐神创业方向的猜测。

此前有消息透露，在离开亚马逊首席科学家岗位后，李沐与他的导师、另一位亚马逊出身AI大牛Alex。 Smola创立了Boson公司。 AI。而且公司的方向是运用大模型能力，做与游戏娱乐相关的项目。

这次官方终于给出了一个准信儿，确实和游戏有关：

Boson成立于2023年。自AI以来，我们一直致力于利用AI技术赋能企业，旨在创新讲故事、学习知识和洞察信息的方式。我们帮助客户开发Agent，使其能够扮演游戏角色、语言教师、保险代理和金融顾问等多种角色。

Higgss目前官网首页已经更新。-Llama-3-70B模型。

除了李沐和Alex之外，团队创始成员也被曝光。除了Smola，还有四个成员。

李沐和Alex Smola，之前也介绍过量子位。

李沐，是两者之间比较熟悉的一个。自己有很强的经验，再加上在小破站传道授业，奠定了知名度。

而Alex Smola，更加是一位AI级的神级大牛。

直接数据：SmolaGoogle 被引用次数在Scholar上，超出17万次。在这些论文中，被引频次前三，被引数全部破万。

除ML作品《动手学习深度学习》的主要作者外，Smola这几年的简历也值得好好了解一下。——

1996年，Smola在慕尼黑工业大学完成了硕士学位，然后在柏林工业大学获得了计算机科学博士学位。博士毕业后，他去了柏林GMD软件工程和计算机系统结构研究所。NICTA(澳大利亚信息与通信技术研究中心)工作。

从2004年开始，Smola在NICTA的统计机器学习项目中担任高级首席研究员和项目经理；到2008年，Smola选择了入职。雅虎研究所。

从2012年春天到2014年底，Smola已经工作了两年多。谷歌研究院。

在此期间，他开始担任CMU教授。此时，他成了李沐的博士生导师，二人结缘。

Smola于2016年7月成为亚马逊的一员，致力于构建AI和机器学习工具。首要任务之一是建立和保持AWS与开发者社区的联系，让更多的开发者共同建立亚马逊深度学习库MXNet。

在离开公司创业之前，Smola担任亚马逊的优秀科学家和副总裁。

值得注意的是，Smola曾在分布式深度学习框架领域提出并行LDA。（Latent Dirichlet Allocation）框架-这是参数服务器概念的最早来源，因此，Smola也被业界称为参数式服务器鼻祖。

其它四个成员如下。

Shuai Zheng，2019年从香港科技大学获得计算机科学博士学位。

在亚马逊工作后，领导亚马逊的分布式架构和LLM培训包括开发可扩展的分布式培训和推理架构、拥有数千亿参数的智能模型和更快的分布式优化算法。

实施健，2014年毕业于上海交通大学，2018年获香港科技大学博士学位。

曾经是亚马逊的高级应用科学家，曾经领导过两个项目：AutoGluon Multimodal和DeepEarth。

AutoGluon 通过应用基础模型，Multimodal突破了传统自动机器学习工具的限制。DeepEarth旨在为地球科学领域建立基础模型。在此之前，他还参与了Apache/MXNet等开源项目。

Yi Zhu，加州大学默塞德分校博士学位。

同样曾经是亚马逊AI团队的高级应用科学家。研究主要关注大语言模型、多模式学习、自我监督学习和视频理解，参与AutoGluon、开源项目，如GluonCV。

Yizhi Liu，2012年毕业于浙江大学计算机系。

曾经在百度实习，担任聚胜万合首席软件工程师，奇虎360技术部主管，后来成为亚马逊高级软件开发工程师。

△

最后，一个量子位认识的团队成员建议你用不同的个人设计和persona来测试Higgss。-Llama-3-70B，也许会有惊喜哦。。

以及One more thing …

大神李沐创业，当然不缺投资，量子位听说，张一鸣已经打钱支持了。

但一切以官方信息为准。祝李沐老师一切顺利。～

参考链接：

[1]https://boson.ai/about/

[2]https://szhengac.github.io/

[3]https://sxjscience.github.io/

[4]https://bryanyzhu.github.io/

[5]https://www.linkedin.com/in/yizhi-liu-20810558?original_referer=https://www.google.com/

本文来自微信微信官方账号“量子位”（ID：QbitAI），作者：西风，36氪经授权发布。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

“淘女装第一股”业绩下滑，名校夫妇有点困难。

一家商店销售60万单，券商“灰色需求”催生了电商“爆款”

在矛盾中，港股已经和昨天告别了。

全国已经建立了80多个平台，数据交易的新趋势是什么？

前副总裁阿里空降，上海家化能改变人生吗？

项目推荐

迪瓜租机

康老板 · 氧疗堂