谷歌Gemini与苹果顶尖华人科学家离职创业 聚焦AGI核心视觉推理

01-13 06:24
谷歌Gemini数据联合负责人Andrew Dai与苹果首席研究科学家Yinfei Yang携手创办AI新公司Elorian,首轮拟融资5000万美元,瞄准下一代大模型核心难题——视觉推理。

在硅谷AI创业热潮里,最珍贵的投资筹码始终是那些资深的技术“大脑”。


曾在谷歌DeepMind任职14年的资深研究员Andrew Dai,正筹备一家名为Elorian的AI初创企业。



这家尚未被广泛知晓的公司,种子轮融资目标就高达5000万美元。


与Andrew Dai合作的,是去年12月刚从苹果离职的研究科学家Yinfei Yang。



这两位分别来自谷歌和苹果的技术老将,正尝试攻克大模型领域的下一个核心问题:视觉推理(Visual Reasoning)


计划领投此轮融资的,很可能是由前CRV普通合伙人Max Gazor创立的Striker Venture Partners。


若交易成功,这将成为硅谷近期备受关注的早期融资案例之一,也再次体现了资本市场对“谷歌系人才”的热烈追捧。


14年深耕:从BERT早期到Gemini幕后


在AI研究领域,Andrew Dai的名字代表着一种“长期主义”精神。


不同于Transformer浪潮兴起后才进入该领域的创业者,Andrew Dai在谷歌的入职时间可追溯至2012年。


这意味着他完整经历了深度学习从边缘学科发展为全球焦点的全过程。


他的LinkedIn履历中,最亮眼的是担任Gemini模型预训练(Pre-training)数据工作联合负责人这一经历。



在当前的大模型竞争中,数据质量与预训练策略被视为决定模型智能上限的关键因素。


能在这个核心环节担任负责人,足以证明他在谷歌内部的重要地位。


Andrew Dai的学术贡献不止于此。


他曾与谷歌首席科学家Jeff Dean及Quoc V. Le(Google Brain的传奇人物)共同撰写多篇论文。


早在2015年,他发表的关于半监督序列学习(Semi-supervised Sequence Learning)的论文,就被认为对后来OpenAI的GPT系列模型有深远启发。



https://proceedings.neurips.cc/paper/2015/file/7137debd45ae4d0ab9aa953017286b20-Paper.pdf


一位熟悉Andrew Dai的人士评价道:“他是语言模型的先驱之一,过去二十年一直专注于预训练相关研究。他最擅长的,是从海量、杂乱的数据源中提取高质量的‘知识’。”


如果说Andrew Dai代表了谷歌在大数据处理上的强大实力,那么联合创始人Yinfei Yang则带来了苹果系的精致风格与多模态视角。


Yinfei Yang此前在苹果机器学习团队担任首席研究科学家(Principal Research Scientist),主要参与苹果自研AI模型的开发。



加入苹果前,他曾在Google Research工作四年,专注于多模态表示学习。


他在图像-文本共嵌入(Image-text Co-embedding)领域的专长,恰好弥补了单纯语言模型在感知方面的不足。


视觉推理:不止于“看见”,更要“理解”


Elorian到底想做什么?


根据Andrew Dai的说法,Elorian并非要打造另一个ChatGPT,而是要构建一个能“同时理解和处理文本、图像、视频及音频”的原生多模态模型。


目前的AI模型大多基于文本训练,再通过“补丁式”方法接入视觉能力。


而Elorian的目标是打造一个天生的“通感者”。


这种模型不再是将图片转化为文字标签,而是像人类一样,通过视觉直接感知物理世界的逻辑。


“视觉推理”被认为是通往AGI的必由之路。


Andrew Dai提到,机器人将是Elorian技术的潜在应用场景之一,但他强调公司的愿景远不止于此。


在硅谷投资人看来,这通常意味着Elorian瞄准的是AI智能体的广阔市场——一个能像人类一样看电脑屏幕、理解图形用户界面(GUI)、处理退货流程、审核法律文件、操作其他软件的超级助手。


它不需要通过API获取数据,而是直接像人一样“看”Excel表格、“听”电话录音,同时“读”懂屏幕上的邮件,并实时做出决策。


这就是Elorian试图构建的未来。


资本逻辑:为“顶尖基因”买单


5000万美元的种子轮融资,在几年前听起来像天方夜谭,但在如今的AI热潮中,这似乎成了顶级团队的“入场门槛”。


正与Elorian洽谈领投的Striker Venture Partners,本身也是一家极具话题性的新锐基金。


其创始人Max Gazor曾是老牌风投CRV的合伙人,以眼光独到闻名。


他去年10月刚独立创立基金,Elorian很可能是该基金成立后的首批重点投资项目之一。


对于Max Gazor这样的投资人来说,他们赌的不只是技术路线,更是“谷歌DeepMind + 苹果”这种稀缺的基因组合。


谷歌提供了大规模训练基础设施的经验,苹果则有将AI落地到具体产品的务实文化。


Elorian的出现,也反映出大模型竞争战场的转移。


第一阶段的竞争围绕“文本生成”展开,OpenAI凭借ChatGPT领先;


第二阶段的竞争则聚焦“多模态理解”与“物理世界交互”。


在这个新战场上,无论是Gemini还是GPT,都在加紧提升视觉能力。


作为初创公司,Elorian要在巨头夹缝中生存,唯一的优势就是技术上的领先,或是在垂直场景(如复杂的视觉智能体)做到极致。


在硅谷,每个从巨头离职的顶级研究员,都怀着“颠覆”的梦想:用更小的团队、更集中的资源,打破老东家庞大而僵化的体系。


Andrew Dai离开了效力14年的谷歌,Yinfei Yang离开了推出Apple智能的苹果。


他们选择了最艰难的道路——试图让机器不仅“看见”世界,更能“看懂”世界。


这让人想起计算机视觉领域的一句老话:“摄像头只是眼睛,算法才是灵魂。”


在AI的发展浪潮中,真正稀缺的从来不是算力,而是那些能透过数据迷雾,看清未来方向的“眼睛”。


参考资料:


https://www.theinformation.com/articles/former-google-apple-researchers-raising-50-million-new-visual-ai-startup


本文来自微信公众号“新智元”,作者:新智元,编辑:艾伦,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com