上海交通大学谢伟迪从计算机视觉走向医疗AI:定义问题比解决问题更重要。

HyperAI超神经与上海交通大学谢伟迪教授进行了深度采访。从他的个人经历来看,他与我们分享了从计算机视觉转型的经验。 AI for Healthcare 经验,同时对该行业未来的发展趋势进行了深入剖析。
2012 年,在传说中「末日之时」,移动网络迎来了爆发期。 3G 随着互联网的普及和智能手机价格的下降,以及以微信和米聊为代表的通信应用以及电子商务和支付的快速发展,该领域实现了新一轮的增长。通信行业作为各种创新应用的基础,发展前景良好。
「我当时的理解是:通信技术已经很成熟了,中国在技术上也走在了国际前列。各国之间的主要争议更多的是通信协议,这超出了技术范围。」,那时,谢伟迪在北京邮电大学完成了 4 年本科学习,站在人生的岔路口,他坦言,「不太喜欢这个专业,但也有可能,是不懂的。」。
随后,他选择出国深造,改变跑道,分别在英国伦敦大学学院。 (UCL) 与牛津大学 (University of Oxford),在计算机视觉领域完成硕士、博士、博士学位的学习和工作, 2022 2008年回国加入上海交通大学,将其在计算机视觉领域的积累带入医疗人工智能,努力开拓新的战场。
可以说,谢伟迪教授从通信转向计算机视觉,从计算机视觉转向医疗人工智能,也是两个重要节点。犹豫的选择,新领域的考验,成果问世后的成就感,都是他简历的亮点。
最近,HyperAI超神经有幸与谢伟迪教授进行了一次深入的采访。从他的个人经历来看,他与我们分享了从计算机视觉转型。 AI for Healthcare 在深入剖析行业发展趋势的同时,经验心得。
通用医疗 AI 可以产生系统「智能涌现」
「许多人不明白我为什么要做通用医疗人工智能系统,明明特定的疾病诊断和治疗模式具有更高的实用性。」。在模型赋能各行各业的今天,专用性和通用性一直是业内讨论的焦点。专用模型在特定领域可以表现出更高的准确性和实用性,但泛化能力有限。通用模型的广泛知识可以连接到各个领域,但在特定领域的能力通常不如专有模型。
对谢伟迪来说,专用模型和通用模型都有其优缺点,「但是开发通用医疗 AI 系统是我们必须做的事情。」。他认为,通用性代表了模型能够建立不同模态数据之间的隐层联系,从而产生所谓的隐层联系。「智能涌现」,这种疾病的诊断非常重要,尤其是由于病因不明确。举例来说,针对肺炎 A 和肺炎 B 对于分类问题,如果用图像和文字进行训练,可以将这些多模态数据串联到底层,识别两种肺炎症状的相似性和差异,达到分类的目的。但是,仅仅通过图像训练,网络可能学不到这种关系。「所以,从 Science Discovery 从一个角度来看,通用模型的价值非常大」。
如果你想建立一个多模式的通用医学模型,你应该尽最大努力全面地注入医学常识。但医疗领域的数据受伦理、安全、质量等因素的影响,一般很难使用。为了应对这一挑战,谢伟迪选择的方法是:将计算机视觉中的数据收集方法转移到医疗领域,也就是从因特网上爬数据。「当然,我们知道这种行为训练出来的大模型不能临床实用,但是可以更好的培养人才,锻炼团队处理大数据的能力,比如收集、整理、清理数据。」。
举例来说,团队聚集了超级多的人。 3 万本医学书籍,全面抓取 PubMed Central 中 400 万篇医学文献,还收集了中文、英文、俄语、日语等。在网上。 8 一种语言的医学论文、书籍,并将其转化为能够训练语言模型的语料。

团队建设的数据集
更进一步,挖掘互联网上公开的图像-文字数据,汇聚了超越的图像。 25 万的 3D 扫描,以及超过百万的扫描。 2D 医学论文图像。另外,为了训练一般的分割模型,团队还可以接近市场上可以获得的模型。 120 一个放射影像公开的分割数据已经标准化,包括超标。 3 万只 2D/3D 图像和百万级像素级标记,涵盖了各种常见的放射影像模态,例如,MR、CT、PET。深知医疗数据集对医疗数据集 AI 团队将获得的大部分数据开源是研究的关键作用。
团队希望在建立通用模型时,将获得的所有多模态数据联合训练,包括图像、文本、基因组学、ECG 信号等。,并以影像中的疾病定位、文本级诊断和报告作为最基本的导出方法。在训练过程中,在实现通用功能中,医学常识的嵌入也是必不可少的一环。「这是因为医院很多科室的任务不一样,医生往往更注重自己的部分。我们希望通用模型能够覆盖所有的检查信息,在处理任务后形成循序渐进的思维链,完成识别诊断等任务。」,谢伟迪介绍道。

多模态通用 Al 医学大模型设想
当导师「两无论」时间,默默地积累力量
如前文所述,开发通用医疗 AI 在系统中,谢伟迪的做法是将计算机视觉领域的方法转移到医疗领域,这是因为,在此之前,他曾经从事过计算机视觉研究。 10 2008年,知识储备深厚。不过,对于他来说,最初选择这个专业是对的。「机缘巧合」。
谢伟迪本科时就读于北京邮电大学。「因为对通讯不感兴趣,所以本科成绩很差,怕找不到工作,所以选择出国留学。」,他笑言。
2012 2008年,谢伟迪进入英国伦敦大学攻读计算机视觉硕士学位。这次,他找到了一个感兴趣的方向,对学业极其认真,「我的导师认为我非常适合做这方面的研究,所以他建议读博士。」。那时他面临的问题是,由于英国的博士奖学金很少,是否要选择自付读博才能继续深造。「导师把我推荐到牛津大学,这样即使需要自己支付,这笔投资也更有意义。」。
幸运的是,2014 2008年,为了更好的推广 AlphaGo 项目,DeepMind 决定加强对 AI 这一领域的人才培养,并与牛津大学合作设立奖学金,谢伟迪是第一届。 Oxford-Google DeepMind 获奖者获得全额奖学金。尽管 DeepMind 的近 100 一万元的奖学金及时处理了他的经济压力,但是他真正面临的问题是,两位导师的散养态度几乎让他无法毕业。
「在读博的时候,我有两个很强的导师。其中一个是计算机视觉领域。 Andrew Zisserman 教授,他是皇家科学院的教授,也算是皇家科学院的教授, CV 其中一个领域奠基人;另一个是医学影像的研究 J Alison Noble 教授,他是皇家科学院和工程院的两院院士。在那个时候,他们都认为我会更多地参与对方的研究,这导致我处于两个无论的境地。」。当时谢伟迪所在的牛津大学视觉几何组 (VGG) 卷积神经网络的发展 VGGNet 备受关注,小组成员在国际学术界基本享有很高的声誉,不仅要面对同期合作伙伴快速提升的落差感,还要不断挖掘新的研究课题。
受 AlphaGo 在当时的深度学习中,谢伟迪也对生成模型产生了浓厚的兴趣。然而,他的导师 Andrew Zisserman 教授们更倾向于这样做「非热点但更有意义」的研究。「开周会时,我的同学可以向同学学习。 AZ 报告每周的工作进展情况,但是我通常会拿一堆。 paper 进去,拿着一堆新的,需要读的东西。 paper 出来」。同时,由于英国对医学影像数据的严格控制,没有数据就无法进行研究,在另一位导师中 J Alison Noble 在那儿,他也得不到反馈。「到了毕业的前一年,我只发了一篇文章。 Workshops 论文,我给两位导师反馈,再这样下去恐怕毕业不了。」。
塞翁失马,焉知非福。由于导师否认了多个选题,无法实施,在业余时间,他几乎阅读了那个时代计算机视觉领域的所有论文,这也为他未来的科学研究奠定了坚实的基础。正如他所说,「那时我觉得,只要是导师能够确定我的 topic,我可以在几天内完成」。
2018 2008年,在两位导师的支持下,谢伟迪在计算机视觉、医学图像等方面发表了一篇文章。 7 文章,顺利毕业。AZ 还承认了自己的实力,邀请他继续攻读博士后学位,专门从事计算机视觉研究,直到 2022 年回国。

谢伟迪毕业照
知识是计算机视觉和医疗最本质的区别。
家庭和工作的平衡困扰着无数人,谢伟迪也是如此。「选择回家是一个非常突然的决定,尽管已经留在牛津,也看到了助理教授。 offer 机会,但我渐渐意识到,那里的环境不适合我继续深入研究。另一方面,作为一个新手爸爸,我当时的经济和精力都不足以支持我的家庭。」。
对作者来说,除了科学研究所重视的谦虚务实之外,谢伟迪身上还有一种独特而鲜明的个性。当他决定回国时,他立即联系了国内大学,没有考虑回国的想法。「海外优青」这种帽子,也不考虑。「货比三家」,只是把简历投到上海交通大学,并且顺利入职。

在交大上课的谢伟迪
有意思的是,上海交通大学的张娅老师扮演了他入职的角色。「HR」,与张娅老师相识,源于一篇发表的学术论文。「2018 2008年,张娅先生和她的同学想要再现我发表的医学影像相关论文,于是加了我的微信。」。正是这一机会为他后续的回国创造了一座桥梁,把简历发给张娅老师后,他很快就得到了回复,「幸好,学校很快就推动了整个过程。」。
加入上海交通大学后,除了继续原来的计算机视觉研究外,他还开始深入培养医疗人工智能。「那时我想试一试 AI for Science 研究表明,由于接触了更多的医疗健康,并且感兴趣,所以选择了这个方向。」。
值得注意的是,2022 年,正逢 ChatGPT 谢伟迪决定从语言入手,放弃当时备受追捧的医学影像输入。「我认为知识是医学和计算机视觉最本质的区别。因为医学更注重寻证,有系统规范的知识,视觉领域的医学影像很难嵌入知识模型。」。在他的想法中,团队可以将医学知识嵌入到语言模型中,然后将视觉模型与语言模型对齐,这样就可以将医学知识传达给视觉模型。
笔者认为,或许是受到了。 Andrew Zisserman 影响教授,对于谢伟迪,我们可以深刻感受到他对科学研究的敏锐直觉,正如他对导师的评价一样:「AZ 的许多 topic 不要追求短期热点,而要着眼于长期价值。」。举例来说,视觉-语言模型的研发 PMC-CLIP 当时,由于许多研究都是第一次进行,团队的同学们无法完全理解这个项目的意义——为什么要把网上所有的论文都爬下来?为什么要提取图像和注释来训练模型…「甚至在提交论文的时候,MICCAI 还差点拒稿」。
但是,过了一段时间,视觉-语言模型突然变得流行起来,PMC-CLIP 模型也被 MICCAI 评为「Young Scientist Publication Impact Award, Final List」,结果也得到了认可。「起初,我很难说服我的学生这项研究有什么用。也许我很幸运,选择了它。 topic 碰巧之后大家都有兴趣的事情。」。
谢伟迪教授在采访中多次提到。「幸运」——被牛津大学录取是幸运的;第一批获得 Oxford-Google DeepMind 奖学金是幸运的;回国后成功加入上海交通大学是幸运的;选择研究方向和技术路径也是幸运的...但在我看来,大部分财富都不是空穴来风,可能是一种行为埋下的悬念。也许是长期积累蓄气促进了当前的正确选择。
比解决问题更重要的是定义问题
值得注意的是,谢伟迪曾经庆幸过。「自己选择的 topic 碰巧之后大家都有兴趣的事情。」。但是笔者认为,研究课题的选择恰恰体现了团队领导人在这一领域的独特观察,而谢伟迪则表示「定义问题」,在他看来,定义问题比解决问题更重要,只要定义了一个有意义的问题,就会有无数人跟进和处理。所以,我们需要思考,在这个阶段,模型最值得解决的问题是什么?这个问题非常重要。
再者,当我们解决问题的时候,「人才-数据-计算率」更加缺一不可。
当前,AI4S 发展还处于起步阶段,AI 在模型构建和框架提升方面,从业者更具优势,Science 从业者更擅长精确定位垂直领域的科学问题,双方也一直在探索一种普遍的合作模式。在这方面,谢伟迪团队选择与上海交通大学医学院的许多教师和学生合作,充分利用他们在医学领域的专业知识,让他们担任顾问,帮助团队判断研究内容是否具有实际的医疗价值。另外,它们还充当「质检员」角色,负责取样数据的质量,保证数据的清洁度。 90% 及以上。
同时,随着团队建设的不断完善,学生已经灵活运用了网络数据爬行技术。下一个问题是互联网数据资源短缺。在这方面,团队希望与医院合作,获得更高质量的医疗数据,并尝试让模型着陆。谢伟迪强调,「知识驱动」或「联合驱动数据和知识」,比单纯的「数据驱动」更重要,所以,团队希望把医学知识放在核心位置,与队友一起解决更有实际意义的问题。
值得注意的是,长期以来,医疗保健已经存在。 AI 医生们一直都有可解释性。「心中大病」。对于这一点,谢伟迪认为,如果 AI 性能足够强大,在诊断准确性上超过顶级医生,可解释性将不再是问题。比如,Google 推出的 Med-PaLM 2 模型在美国 USMLE 在执业医师资格考试中已取得 86.5 此外,他们的团队还连续推出了医学大语言模型。 PMC-LLaMA、MMed-LLaMA,视觉-语言模型 MedVInT、RadFM ,通用分割模型 SAT 等,多种模式被业界视为 baseline,并在 NPJ Digital Medicine、Nature Communications、ICCV、ECCV、NeurIPS、MICCAI 在著名期刊/顶会上发表后,这些成果的迭代速度正在逐渐改变。 AI 观点,建立高质量的合作关系将是未来可期的。
但在计算资源和资金保障方面,上海交通大学也为团队的前期研究和未来成果转化提供了全方位的支持,学院不同团队也在积极讨论合作机会,学术氛围浓厚。
进行有价值的研究
他在与谢伟迪教授的交流中多次提到,希望做一些有价值的研究。对他来说,过去团队的研究只能算是「一个学术界 toy 原形」,要实现小模型的最终落地,必须进一步落地。 scale up。他希望这些原型能够向其他研究人员甚至行业提供参考,告诉你需要使用什么样的数据,如何处理数据,如何构建和训练模型,如何设置。 instruction 等。
未来,面向临床的团队计划建设 super instruction,对医生感兴趣的 100 多项任务整合训练,使模型能够满足实际的临床需要。对于这一点,他评价:「传统语言模型用选择题来评价,但是在和医生交流的时候,他们会发现自己并不在乎选择题的分数有多高,而是更在乎模型是否能解决实际问题,比如担任临床任务。」。
另外,团队已经开始下沉到基因组学,DNA、RNA 与氨基酸等方面的相关研究突破了过去依赖图像和文本的局限性。他们希望创造更多的可能性来诊断新的罕见病药物,并期待他们未来的成就。
谢伟迪有更多的成就 Google Scholar:https://scholar.google.com/citations?user=Vtrqj4gAAAAJ&hl=zh-CN
本文来自微信公众号“HyperAI超神经”,作者:19,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




