AI 移动影像领域,搞了场地。「无声变革」

04-08 07:30

张磊,70 后,罗俊,80 之后,两人早就超过了 35 年纪大了的男人,眼神疲惫地工作着,却没有流出身体。「中年焦虑」,反而更像是刚毕业的学生一般都很努力。


张磊是 AI 算法大神,香港理工大学讲座教授,带着一位在深圳的教授。 30 多人的实验室,琢磨着如何通过? AI 使手机形象更加强大。罗俊是他的搭档, OPPO 影像学算法总监,顶在前面,拆解各种需求,并将算法工程化,安装到手机中。


在 OPPO 在前海写字楼里,刚认识张磊不久,罗俊就意识到自己是一只走出学校的大牛,充满了学术气息。他团队的很多人也是门下学生,工作氛围和企业其他部门有些不一样,但更有凝聚力。


然而,张磊团队缺乏具体的手机影像链接和显像项目的实践经验。他的团队优势在于 AI,作为底层视觉技术和理论的专家。自索尼以来,罗俊已经积累了。 20 年度影像工程经验。


在小概率下,两个知识、技能互补的人聚集在一起, OPPO 一个企业携手做一个行业,几乎是从 0 到 1 的事:用 AI,再做一遍手机图像。


「60 倍」高难度开场


2022 2008年,张磊加入 OPPO。这一年末,ChatGPT 问世,掀起新风云,代表着新风云, AI 由卷积神经网络向 Transformer 跨代跨越架构,孕育各种可能性。


对移动端而言,AI 怎样将大模型放入小手机中?更重要的是,AI 大型模型真的能帮助手机超小型光学硬件吗?「逆天而行」?改变的机会隐藏在这里。很多手机公司都在思考下一步的变化。OPPO 影像学总监罗俊,对算法的竞争力负责,「大型机型对手机影像的影响比预测提前两年。」。


二人的第一场比赛 AI 战争,赶上了 OPPO 的 Find X6 项目。通过这个项目,张磊和罗俊初步尝试使用它。 AI 模型,去处理传统的降噪超分计算,并采用 AI 改变传统色彩重建过程的方法。对于移动图像计算架构来说,这是一个创新,使用先进的。 AI 计算方法,取代了手机中存在十几年的存在。 ISP 计算方法。在以往 ISP 现在计算降噪和色彩重建已达到极限,OPPO 用 AI 计算开发了计算图像的新可能性。


小试牛刀 AI 之后,他们决定探索长焦,尝试 AI 大模型。用大模型把 60 双手机拍摄的模糊照片变得清晰,这是一个突破(这个项目之后被称为 AI 万里长焦)。张磊和罗俊知道,对于手机尺寸有限的人来说,他们永远不可能要求一个能直接拍摄的人。 60 光学镜头的倍数。即便对于 Find X8 Ultra 如此前沿的手机,6 这幅画已经是最长的距离极限了。而且大模型与光学的融合,甚至是对光学物理规则极限的改写。它使他们非常兴奋。


前提是代码写出,算法运行,成熟后再进行工程化落地,投入市场。


大模型「赛马」


任务落入张磊团队,成败,关系到张磊的面子,更关系到张磊的面子, OPPO 影像行业的竞争力。


张磊让团队分道扬镳,用生成式扩散模型尝试不同的技术路径。


其中一种方案被称为 CCSR,需要迭代频率 50 步骤,后面不断优化,经过两个月的迭代,降至 15 步骤,最后降到 3 步骤,已经达到极限。


另外一种方案, SeeSR。虽然迭代计步略少,但导出图像的稳定性不如 CCSR。只需减少计步,就能减少手机的能耗,缩短拍照时间。


有了初步算法,想要尝试效果。「第一个拿算法效果给手机影像相关部门的人看,跑完之后,大家发现画质基本没有提高。」但是随着算法的演变,生成式大模型的优势逐渐显现出来,CCSR 达到预期的效果。


按照项目流程,安排时间相当紧张。每个人都讨论过。 CCSR 改变到极限后,部署同事提前开始工程化落地。那个已经到了。 2024 年 3 月中旬,离 10 产品在月份上市只有半年时间。


但 AI 技术进化的次数,仍然超出了每个人的预期。


有一天,张磊的团队看到了图像生成领域的应用。 diffusion 实现单步生成也有很好的效果,这也可能同样可以减少图像复原的多步迭代计步。张磊在团队试图做出第一版结果后,非常激动:推理只用了一步,优势明显。接着,张磊猜测了另一个同学探索的「文生 3D」使用分数蒸馏(score distillation)方法,可以加进去。


经过几个星期的工作,算法逐渐形成,最终命名。 OSEDiff(单步恢复)。4 月中旬,大家开始整理实验,写文章。经过团队一个月的努力,文章写好了,投入到行业顶会上。 NeurIPS 上。手机行业领先苹果和三星,首创大模型恢复。 60 倍长焦图像项目,从此有了算法原型。


过了一会儿,张磊组织了一次盲人选举,准备了一次。 100 张图,分别是单步 OSEDiff 算法和 CCSR 修复后,发送给认知组、测试组、影像算法组、产品线等多个根线成员,让他们选择质量更好的图片。单步算法完成胜利。OPPO 决定「在高速公路上更换发动机」,当项目进度基本达到极限时,毅然决定转换高质量的单步算法。


万里长焦项目存在 2024 年 10 月发布的 Find X8 上边首次成功落地,其应用生成式大模型,可以使之成功。 60 通过倍数变焦拍摄的模糊图像, 2 当地计算后的秒钟变得非常清晰; 2025 年 4 月 2 日发布的 LUMO 在凝光影像系统中,脱胎换骨的升级,把 60 倍甚至 30 倍变焦的效果大大提高,就像在手机镜头上再戴一张照片一样。「AI 望眼镜」。在苹果和其他安卓制造商都没有实现的行业中,张磊和罗俊首创。


无例子的困境


作出万里长焦,张磊和罗俊并不满意,虽然这项技术表现出极强的实力。 AI 能力,但「只能算 OPPO 阶段性成果之一」,真正能让 AI 展示实力,向行业证明实力 OPPO 的 AI 能力,搭载在 OPPO 全新推出的 LUMO 凝光影像系统,以及配备该系统的系统 Find X8 Ultra 上,里面有 AI 吸引手机图像「纽北跑道」一场新的比赛。


想象一下,在夜晚重庆洪崖洞前,光源复杂,远处有各种霓虹灯,特写是人脸,背对着黑暗——夜景人像曾经是很多手机影像工程师的噩梦。也许 AI 只有加持,才能取得进步。


然而,罗俊知道内部困难,首先是数据。没有数据供应,无论多么强大。 AI,还会有心无力。


另一方面,夜间光源较稀,即使对手机中最大的镜头来说,采集到的光源数据也并不富裕,AI 只有反复使用有限的数据,才能推断出该有的纯画面,但结果却常常令人失望。另外,夜间光源也太复杂了,特别是在中国城市。 LED 近年来,随着照明的蓬勃发展,即使对于成本超过10万元的大型相机来说,同时拍摄五颜六色的城市夜景和人物也不是一件容易的事情。


首先,相对来说比较容易处理,因为有一个既定的案例——相机代表的光学规律,就是答案。提高光量,提高灯源质量,给传感器喂更多优质数据,意味着增加光学模块本地性能——简单来说,就是用更多的镜头吸收更多的光源数据,用更好的镜头净化光学,用更大的传感器接收和消化这些信息。「由于算法离不开光学, OPPO 总是谈论软硬结合,硬件决定了画质的下限,算法决定了画质的上限。」罗俊一直强调。


在 LUMO 在凝结光影像中,OPPO 拿出一个全新的 70mm 焦段人像主摄。这个摄像头的进光量已经达到了上一代的产品。 150%,成为同级中进光量数一数二的。「大块头」。不仅如此,为了高质量的灯源数据,罗俊的战友-光学团队,甚至「发明」对于红外光这种全新的分子结构玻璃材料,「杂质」过滤性能甚至比传统的玻璃材料还要高。 只是为了给81% AI 高质量的原始数据。


但是第二个问题,即使相机超过了相机,夜间光源过于复杂的影响, 100 在多年的历史中,也找不到答案。


上个世纪,相机还统治着摄影,城市夜晚的人工光源基本上只有白炽灯和荧光灯。并且进入 21 世纪,LED 迅速成为灯源的主力军,甚至淘汰了前两个灯源。


LED 灯源的颜色多种多样:暖黄色的路灯(约) 2700K)、建筑照明(5000K-6500K)、彩光霓虹灯广告(RGB 混合)可能同时存在。


传统相机的全局色温算法(基于单白平衡预设或自动检测场景主灯源)不能准确适应多区域色温差异,直接导致照片的局部色偏,即由于光源色温的不同,画面中不同区域呈现出分离的效果。最典型的是,在拍摄夜景人像时,人物的肤色会受到多色温光源的严重影响。「染色」。


起初,罗俊和他的同事也想过使用它。 AI 技术理解和分割不同区域的图像,但缺乏原始色温数据的数据,AI 模型也无能为力。


「必须去发明一个新的摄像机, AI 提供更精确的色温数据。」即将发布的就是这个 Find X8 Ultra 多余的摄像头——丹霞原彩镜头。第一次可以将画面中的色温信息划分为空间区域,每个灯源区域的色温都可以自行采集,这意味着后端等待。 AI,对于夜晚的灯色,首次有了准确的数据源。对罗俊而言,更加精确的数据, AI,第一次在色彩这件事上有了很大的拳脚空间。


但是,被数据喂饱了 AI,又一次遇到了无法解决的新问题。即使是 AI 由于丹霞原彩镜头,能看穿夜色的本质,能精确地恢复夜色和人物的肤色,但仍不能看穿顾客的心。


科学家对艺术家一无所知


正是张磊加入的 OPPO 次年,为使影像技术的竞争,回归摄影审美,统一照片审美认知,OPPO 一些拍摄专家是专门从一些美术院校、拍摄协会中挖掘出来的,成立了一个影像认知小组,定义了良好的效果。


「对功效的文字描述,难以量化,不能确定客观标准。」艺术界与工程界跨界对话,中间隔着多少字和定义的暗礁,谁也说不清楚。张磊感慨,「有时,我盯着两张照片看,就是找不到区别。」


罗俊也有同样的感觉 AI 难以叠加算法:「算法是一个黑盒子。当一些照片被输入时,没有人知道它会导出什么。有时候这些效果已经调整好了,其他的效果因为相互排斥而出错。」


2024 年 4 从月份开始,张磊和罗俊继续与认知团队对齐标准。罗俊说,所有制造商都在探索这项工作。以前没人做过,所以没有标准化的工程流程。(SOP),即使收集了大量的数据集算,也没人能说清楚。


而且很多工作都有另一个批准层面。2024 年初,OPPO CEO 在内部,陈明永发起了一场企业变革,「深入一线,创造财富」,所有的工作都要去一线为用户创造财富,反映在图像上,调试出来的照片,尤其是人像照片,要以用户的喜好为牵引线,同时要有。 OPPO 自己的影像追求。


这让科学家张磊意识到了一个小挑战。比如前段时间客户受互联网平台影响,热衷于摆姿势。过了一段时间,热潮急剧变化,年轻人喜欢转圈抓拍。不要低估这种变化,它对图像 AI 对算法调试的影响几乎是全面的。


但是幸运的是,在不到一年的时间里,几个团队迅速解决了主观和客观评价不易的问题。因此,OPPO 甚至新开发了一款评估系统软件。通过这个软件,负责审美的认知同事可以将用户的输入意见和经典的审美拍摄例子转化为客观数据,交给技术人员进行客观的技术调整。比如对于 OPPO 凝光图像对夜景人像肤色的调节,包括丹霞原色镜头提供的绝对准确的技术信息,以及对亚洲各种肤色的认知审美研究,甚至包括一些与美容机构联合研究的人因相关因素。


经过多次磨练,张磊和罗俊已经习惯于摸索前进。经过一次又一次的尝试,AI 算法显像逐渐趋于稳定,他们有信心 4 全新月份发布 Find X8 推出系列,接受客户检阅。


理想,不过时


回首三年多的死亡 AI 在影像过程中,张磊有些叹息,教授「再就业工程」经过一系列的意外和一定的碰撞,逐渐步入正轨。要是没有 OPPO 公司一再坚持抛橄榄叶,没有 OPPO 对于影像的执念,没有罗俊建立起学术探索与工程实现的桥梁,也没有罗俊。 Y Lab 实验室里的年轻博士生不知疲倦地探索...这里没有一个环节,他可能会回到校园。


2018 2008年,通过中间人介绍,OPPO 刘畅副总裁找到张磊,邀请他加入。OPPO 对R&D的投入雄心勃勃,有一系列的R&D大手笔蓄势待发,渴望顶尖人才加入。


然而,刘畅迟到了,当时张磊已经基本确定要去华东的一家大型互联网公司。刘畅打电话给他。 OPPO CEO 一起请张磊在深圳吃饭的陈明永。陈明永给张磊留下了和蔼可亲、务实的印象,「没有大老板架子」。


从那以后,刘畅一直和张磊保持联系,出差到另一个城市,会留出特别的时间去拜访。刘畅就延揽张磊而言, OPPO 企业「坚持正确的事情」和「长期主义」最大限度地发挥信条。没有他的坚持,就没有张磊加入。 OPPO。


三年后,张磊准备换平台。三年多来,刘畅一直是他的首选,「我信任他」,张磊说:「刘畅是一个很值得信赖的人,我相信 OPPO 能实现我手机影像的理想。」。


业界,大家都知道 OPPO 有相当多的图像积累。2012 年,OPPO 第一次给手机带来堆栈传感器,大大提高了手机传感器的感光能力,让手机在暗光下拍照成为可能。2016 年,OPPO 创造性地提出了四合一像素聚集技术,这甚至奠定了使用所有手机传感器像素的规则,使手机能够拍摄出高质量的夜景照片。


2017 年度巴塞罗那 MWC 盛会上,OPPO 世界上第一个潜在的长焦摄像头被拿出来,这甚至颠覆了世界各大科技品牌和媒体记者的认知。当时,罗俊甚至没有听说过。 OPPO 这是一个品牌。在看到潜望长焦摄像头后,他觉得移动图像有很大的干坤。


「我认为,这也是打动张磊的重要原因。」,刘畅觉得,「牛人更注重舞台,更关心能否实现梦想。」


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com