李沐老师回到哔哩哔哩,用大模型的创业成果填坑。

2024-06-09

最后,AI大神李沐回来了!带着他最新的大模型创业成果——


一种特殊的复杂场景角色扮演大型设计模型,名称Higgs-Llama-3-70B


很多了解到这个消息的网友已经兴奋地在评论区催更,李沐老师也回应说,视频坑还是会填的:


想你的365天。



最后回来了,视频都盘包浆了。



那沐神到底是干什么的?通过Higgss-Llama-3-70B瞧一瞧。


定睛一看,Higgs-Llama-3-70B是沐神去年联合创办的企业。Boson AI,推出的第一个大型Higgs开源系列模型,基于Llama 3制造,完整的SFT。、RLHF。


这不但可以在角色扮演任务上表现出色,而且在一般领域的指令遵循和推理方面也很有竞争力。


此外,市场报道称,Boson 张一鸣已经投资了AI。


左击Claude3,右击Gemini


MMLU-Pro和2个新的基准测试团队Arena-Higgss显示在hard上-Llama-3-70B的能力。


它们还特别强调,所有的基准测试最终都会导致拟合,并且已经尽可能地从微调信息中排除了基准测试数据及其训练示例。


具体来说,MMLU-Pro这是MMLU的扩展,团队认为MMLU-Pro是在模型完成训练后发布的,很少受到其它已发布模型过拟合的影响。


用来做比较模型也都是一水强。


还有Higgs-Llama-在5月I/O会议上,3-70B的表现优于谷歌最新推出的Gemini-1.5-Flash、Claude3家族“中杯”Claude-3-Sonnet和Llama3-70B-instruct。



再来看Arena-hard,该标准包括500个具有挑战性的真实用户查询,来自Chatbot竞技场。


Higgs-Llama-3-70B的表现排名第四:


此外,使用相同的base model,Higgs-Llama-在6个基准测试中,3-70B均优于LLama-3-70B-Instruct。


虽然距离GPT-4o还有很大的差距,但值得注意的是,沐神团队只发布了一般能力的基准测试,并强调没有目的地刷榜。


而且Higgs-Llama-归根结底,3-70B是专门为角色扮演设计的,相关效果展示团队没有具体给出。


团队说Higgs-Llama-3-70B只是一道开胃菜,将进一步探讨角色扮演性能、训练后处理流程、零基础数据中心建设、未来云中GPU使用和多个服务供应商整合的策略。


之后还会发布更多的Higgs系列模型。


Agent开发角色扮演


这一次,李沐大模型的创业方向终于显露出来,但在一定程度上证实了之前对沐神创业方向的猜测。


此前有消息透露,在离开亚马逊首席科学家岗位后,李沐与他的导师、另一位亚马逊出身AI大牛Alex。 Smola创立了Boson公司。 AI。而且公司的方向是运用大模型能力,做与游戏娱乐相关的项目。


这次官方终于给出了一个准信儿,确实和游戏有关:


Boson成立于2023年。 自AI以来,我们一直致力于利用AI技术赋能企业,旨在创新讲故事、学习知识和洞察信息的方式。我们帮助客户开发Agent,使其能够扮演游戏角色、语言教师、保险代理和金融顾问等多种角色。



Higgss目前官网首页已经更新。-Llama-3-70B模型。



除了李沐和Alex之外,团队创始成员也被曝光。 除了Smola,还有四个成员。



李沐和Alex Smola,之前也介绍过量子位。


李沐,是两者之间比较熟悉的一个。自己有很强的经验,再加上在小破站传道授业,奠定了知名度。


Alex Smola,更加是一位AI级的神级大牛。


直接数据:SmolaGoogle 被引用次数在Scholar上,超出17万次。在这些论文中,被引频次前三,被引数全部破万。



除ML作品《动手学习深度学习》的主要作者外,Smola这几年的简历也值得好好了解一下。——


1996年,Smola在慕尼黑工业大学完成了硕士学位,然后在柏林工业大学获得了计算机科学博士学位。博士毕业后,他去了柏林GMD软件工程和计算机系统结构研究所。NICTA(澳大利亚信息与通信技术研究中心)工作。


从2004年开始,Smola在NICTA的统计机器学习项目中担任高级首席研究员和项目经理;到2008年,Smola选择了入职。雅虎研究所


从2012年春天到2014年底,Smola已经工作了两年多。谷歌研究院


在此期间,他开始担任CMU教授。此时,他成了李沐的博士生导师,二人结缘。


Smola于2016年7月成为亚马逊的一员,致力于构建AI和机器学习工具。首要任务之一是建立和保持AWS与开发者社区的联系,让更多的开发者共同建立亚马逊深度学习库MXNet。


在离开公司创业之前,Smola担任亚马逊的优秀科学家和副总裁。


值得注意的是,Smola曾在分布式深度学习框架领域提出并行LDA。(Latent Dirichlet Allocation)框架-这是参数服务器概念的最早来源,因此,Smola也被业界称为参数式服务器鼻祖


其它四个成员如下。


Shuai Zheng,2019年从香港科技大学获得计算机科学博士学位。


在亚马逊工作后,领导亚马逊的分布式架构和LLM培训包括开发可扩展的分布式培训和推理架构、拥有数千亿参数的智能模型和更快的分布式优化算法。


实施健,2014年毕业于上海交通大学,2018年获香港科技大学博士学位。


曾经是亚马逊的高级应用科学家,曾经领导过两个项目:AutoGluon Multimodal和DeepEarth。


AutoGluon 通过应用基础模型,Multimodal突破了传统自动机器学习工具的限制。DeepEarth旨在为地球科学领域建立基础模型。在此之前,他还参与了Apache/MXNet等开源项目。


Yi Zhu,加州大学默塞德分校博士学位。


同样曾经是亚马逊AI团队的高级应用科学家。研究主要关注大语言模型、多模式学习、自我监督学习和视频理解,参与AutoGluon、开源项目,如GluonCV。


Yizhi Liu,2012年毕业于浙江大学计算机系。


曾经在百度实习,担任聚胜万合首席软件工程师,奇虎360技术部主管,后来成为亚马逊高级软件开发工程师。



最后,一个量子位认识的团队成员建议你用不同的个人设计和persona来测试Higgss。-Llama-3-70B,也许会有惊喜哦。


以及One more thing …


大神李沐创业,当然不缺投资,量子位听说,张一鸣已经打钱支持了。


但一切以官方信息为准。祝李沐老师一切顺利。~


参考链接:


[1]https://boson.ai/about/


[2]https://szhengac.github.io/


[3]https://sxjscience.github.io/


[4]https://bryanyzhu.github.io/


[5]https://www.linkedin.com/in/yizhi-liu-20810558?original_referer=https://www.google.com/


本文来自微信微信官方账号“量子位”(ID:QbitAI),作者:西风,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com