985硕士进厂做数据标注,自嘲就像一个「包工头」
2020年11月,黄土高原以南,关中平原向北,宜君县进入深秋。大地的黄色和枯木的灰色重叠,阿娟开始了她的新工作。
在一个只有20人的小办公室里,她给电脑屏幕上商店门口的照片贴上标签——过度曝光不能使用,商店名称模糊不能使用,门头反光不能使用。这些标注的照片将被用于AI学习,以帮助它们识别审批平台商家上传的门头图片。这样的图片标注工作很简单。熟练之后,阿娟十几秒钟就能处理一张图片,一天就能“标注”近2000张图片。
这份枯燥的工作有一个响亮的名字——“人工智能培训师”,是2020年2月才正式列入国家职业分类目录的新职业。但说到数据标注这项工作,在过去的两三年里,它通常与“低门槛”、“欠发达地区”、“劳动密集型”等术语联系在一起。从业者对自动驾驶和人工智能几乎一无所知,只是机械地点击鼠标实现目标。
在2023年之后,以ChatGPT为代表的生成式AI爆红,人工智能的发展进入了一个新的阶段,数据标注行业也发生了一些新的变化。
今年,“985硕士”刘到闲转行做数据标注,互联网厂商正编,月薪1.5万多元。与县标志员整天坐在车站上不同,刘到闲9:30上班后,大部分时间都在大大小小的沟通和讨论上花费了商品和算法团队的数据培训需求,回答了数据标志团队提出的问题。
本质上,刘到闲和阿娟的工作没有区别。他们都是人工智能教师。随着行业的变化,越来越多像刘到闲这样的高学历年轻人选择成为人工智能培训师。然而,阿娟们的焦虑是,对数据标记的要求越来越高,他们是否会失去工作。
“985老师”AI
刘到闲的工作目标,就是把AI教成专家。
这就像培养一个孩子。起初,是阿娟教给AI最基本的知识,什么是鸟,什么是花,什么是汽车,这样AI就能理解最常用的单词。说到通用模型,就像AI去大学接受通识教育,掌握人类世界的通用全面知识。但是如果你想让AI完成人类的工作,你需要教它更专业的知识和技能。
培养专家不容易。一方面,刘到闲需要与“用人公司”对接,而在公司里,他是一个产品团队,知道自己想要什么样的人才,满足什么样的要求。刘到闲根据对方的需求制定培训计划,选择合适的教材,编写考核试卷,对AI的答卷进行评分。
教AI的学习过程漫长,工作量巨大,不能只靠刘到闲。她还需要制定规则,将专业知识“翻译”成白话,让没有理论知识的一线标注者很容易理解。在一定程度上,标注规则的可操作性是考察专家AI培训师的关键标准。
刘到闲曾经收到过提高模型意图识别能力的需求。理想情况下,在与客户对话的过程中,通过数据标注团队的调整,AI模型可以准确判断客户的输入意图,是想获取某个领域的信息,还是寻求情感支持。
这个意图判断过程接近人与人之间的交流,主观性很强。如果直接交给一线标记员,可能会有不同的理解。如果造成模型训练误差,纠错成本很高。然而,一个高度可操作的标记规则可以大大减少偏差,提高数据质量。
为了满足要求,刘到闲首先要明确客户意图的类别,并尽可能详细地列出,然后给每个类别一个清晰的定义,明确不同类别之间的界限在哪里。比如客户说“我很难过”,她在标注规则中写道,这是在寻找情感支持;客户描述了生活中发生的一件快乐的事情,她会将其定义为分享个人生活。
刘到闲擅长理解自然语言交互中单词和单词之间的细微差别。28岁时,她是985大学毕业语言学硕士。她在科技媒体工作了一年。因为厌倦了24小时待命的媒体工作,她开始寻找另一个将创作与科技结合起来的概率,比如“喂AI”。

这是一个不可避免的转行机会。ChatGPT的流行带来了生成式AI和预训练模型的爆发,模型“堆量”训练后出现的智能让业内外惊叹不已。她看到了数据标记在模型训练“流行”下的重要性。她想踏上这个窗口,更接近前沿技术。
和刘到闲一样,做数据标注的同事基本都是硕士学位,在公司内部分为运营岗位。她的一些同事是针对AGI的。 (通用人工智能) 理想情况下,另一部分是针对大厂正编和高收入。面对人工智能风口,数据标注岗位已成为为数不多的非技术背景员工职业跳板。
虽然工资没有预期的那么高,但是刘到闲的工资甚至比公司其他运营岗位的同事还要低。但与阿娟基本的数据标注工作相比,从事多模式对齐、知识地图构建等高端标注的工资可以达到2-3倍,月薪2-3万也是正常的。一些公司也开辟了从数据标注到产品和算法的晋升路径。
相应地,专家数据标记师的要求越来越高。据刘到闲观察,目前大厂招聘AI数据专家的学历大部分是研究生,需要在医疗、法律、金融等相关专业领域积累。
即使是最基本的一线数据标注员门槛也在提高,大模型公司下游的数据标注岗位也会喜欢求职者是否毕业于211大学。据《科技创新板日报》2023年8月报道,百度智能云海口标注基地100多名数据标注师,100%是本科文凭。
根据百度数据标注外包公司提供的“文心2024笔试题”,求职者在判断AI答案是否正确时,应考虑答案是否符合客观事实,逻辑是否流畅,并给出相应的判断理由;求职者还需要修改一篇800字以上的议论文——类似于高中语文老师的工作。
说到底,AI已经不再是那个牙牙学语的孩子,他们需要一个文凭更高、能力更强的老师,才能继续成长。
由拉框到评分
阿娟经历了数据标注行业的变化。
作为链条末端的一线数据标记员,在阿娟的想象中,她也应该像刘到闲一样工作。她毕业于一所私立大学,这是一个错误的生意。
2020年,在朋友的介绍下,阿娟第一次听说了“数据标记员”的工作,很奇怪,但她觉得自己挺高的。“我觉得可能就像大厂(员工)键盘之前大家想象的那种,有认可度”。
当时的招聘要求也很简单,只要能用一些办公软件就行。阿娟抱着试一试的心态,报名参加了培训考试,然后在11月份上班。和她一起工作的人基本都是宜君本地人,有孩子的母亲,也有刚中专毕业的年轻人。

最初的标记任务主要是图像类,涉及到外卖、保险、医疗等各个领域。给阿娟留下深刻印象的是一个宠物鼻纹项目。
许多宠物主人可以为他们的宠物购买保险。鼻纹是保险公司区分相同种类和相似外观的宠物的关键。她和同事应该做的是给宠物照片上的鼻子一些相框,帮助AI进一步识别鼻纹。这个项目让阿娟感受到了工作的价值。她认为这是在帮助宠物主人成功为宠物投保并向保险公司索赔,尽管她所在的小县城几乎没有人会为宠物投保。
图像标记做得很熟练,阿娟又接触到了许多文字类项目。项目类型交换迅速,项目需求也十分复杂,有时前一周还在做合同文件标注,下周又换成了医学论文数据提取。阿娟和她的同事根据标记规范完成了主管给出的任何项目。当他们遇到问题时,他们提出、讨论和处理它们。大部分项目都没有给她留下印象,她很少好奇标注的数据要用在哪里。
经过近两年的工作,阿娟的同事越来越多,原来的小办公室无法容纳,200多人搬进了一栋明亮的办公楼。她明显觉得任务难度在上升,公司招聘的学历已经提高到大专以上。他们开始做更多的方法,更复杂的项目来标记规则。
在视频侵权项目的标注中,阿娟需要判断给定的关键词与视频内容的相关性。相关性一般按百分比分为四档,100%完全相关,0完全无关。她需要根据对关键词和视频内容的理解,按照标注规范逐一标注成员,可以解决80%以上的任务,剩下的20%可能会有疑问,需要和业务方开会研究。
项目越来越复杂,同事业务能力越来越高,行业变化很快。然而,阿娟和他的同事不知道这些变化是如何发生的。对于他们这些处于行业末端的人来说,与AI模型相关的一切都发生在混乱中。
传统的标记依赖于规则,生成大模型的标记需要逻辑。 ,比如标注推理步骤 (因为A所以B,但是受C限制) ,或者需要理解,比如多模态对齐。 (文本与视频内容的关联 ),这一任务要求标注员具有抽象思维能力和跨学科知识的积累,一般劳动力不能胜任。
有无数的普通标志相继被行业淘汰。
模型不能卷起,开始卷起数据。
阿娟工作内容的变化,以及刘到闲有机会转行做数据专家,都是同样的结果——大模型公司要想生存,就必须卷高质量的数据。
2023年,大模型公司招聘算法专家,投入算率资源训练模型,比谁的模型参数大,迭代速度快,谁能在各种榜单中名列前茅。但是相比之下,我们无法拉开差距,每个模型在生产力领域都无法充分发挥作用,训练成本短时间内无法收回。
到2024年,大型公司开始面临生死考验:从哪里赚钱?如何生存?如何在垂直场景中实现大模型的商业化? 一些大型头型企业甚至放弃了预训练,全面转向应用开发,将资源投入到可以赚钱的事情上。
一个共识是,如果你想在专业领域着陆,高质量的垂直信息是竞争的核心。比如医疗场景中的图像识别需要临床医生标注,法律场景中的合同条款需要律师标注条款中的思维联系和司法解释。如果一个专业的模型很容易使用,就必须有足够准确的初始数据。这些信息很难从公共渠道获取,标注成本也很贵,但却是必须要做的投资。
高学历专家数据标记员的人工成本远低于模型错误的成本。 :自动驾驶标签中一个错过标签的行人可能会导致百万公里路测失败,间接测试成本可能高达数千万,法律合同标签的错误可能会导致企业面临诉讼。专业数据专家也可以显著提高标记效率。比如医学博士对CT图像的准确率是普通标记员的几倍,也有助于提高数据收集策略。

这个时候,像刘到闲一样,拥有垂直领域专业知识的AI培训师成了热门商品。“在垂直领域(模型数据),我们不探索找普通人标注,但我们必须找专业的。比如标语音(模型),我们会更喜欢找学语言的人,因为他们可以判断答案的好坏。”小琴说。
小琴在一家上市公司工作了十几年。该公司拥有多种完善的AI产品,并建立了自己的数据标记团队,专注于语音模型作为核心业务。2023年以后,标注任务由客观选择题转变为阅读理解题,前期标注标准的制定,人机对齐工程更加复杂。为确保标记的一致性,他们可能需要半个月的时间来研究标记规范,并要求商品、算法、标记和评估团队共同参与。
今年,她的公司计划开发音乐模型,她面临的第一个问题是如何标记数据。他们发现,在给模型投入足够的数据后,模型可以有“出现”的能力,在一定程度上“创造”音乐。但是计算机专业的团队成员无法判断模型产生的音乐质量,也很难找到提升的方向。
他们在音乐相关数据的标记上没有经验,从语音模型到音乐模型。因此,团队计划找一名在音乐学院学习的学生作为顾问。小琴认为,只有音乐专业的人才能分辨出模型产生的音乐是否合理,才能知道调整哪种节奏,哪种乐器可以帮助模型产生更好的效果。
此前,她所在的公司也投入了大量资金,邀请了许多专业的录音人员到录音室录制一手的声音数据。
小琴直言,真实数据一直是稀世珍宝,无论是现在还是未来。只有在真实场景中积累数据,才能做出更好的模型。专家AI培训师是获取真实数据的“捷径”。
据新智元报道,为了提高模型处理客户问题的能力,OpenAI至少向医学、法律、语言学、计算机科学、物理等领域的专家提问300人,每人每小时支付100美元,每个问题平均需要两个小时左右。Scale AI、同时,Turing和Invisible等公司也招募了有经验的程序员或博士,协助OpenAII、Google、在AI开发的后训练阶段,Anthropic和xAI等公司可以提高模型质量。
但是这条“捷径”并不容易。为了保证工作质量,越来越多的大型AI公司将高质量的数据标注放在内部,或者直接雇佣专家,而不是过去的外包。资料就是堡垒,也是另一款烧钱游戏。
在教AI之后,他们要去哪里?
在过去的两三年里,在像泡沫一样迅速扩张的AI招聘市场上,“985硕士”的数据标注只是其中的一个缩影。
Emily是一位在科技行业工作多年的猎头顾问。在过去的两三年里,她为许多AI公司招聘海外人才。在招聘方面,AI公司给她留下了非常深刻的印象——这些公司非常有活力和激进,招聘必须非常年轻。
曾经有企业客户告诉Emily,作为一家年轻的AI数字公司,员工必须是98后,95后可能太“老”了。这些公司还规定求职者有足够优秀的学习背景,“国内‘清北复交’,海外只看‘藤校’,211感到羞耻”。
在生成式AI浪潮下,在招聘市场最火爆的时候,一家AI初创公司的HR每天可以收到100多份简历,没有时间看。一个接一个,一些候选人会对艾米丽说:“我觉得这有点泡沫。我觉得我们公司好像有点不稳定。下半年请帮我看看机会。”
刘到闲也感觉到了这种“不稳定”。从2024年开始,也许模型已经经历了“堆量”训练阶段。她看到她支持模型团队对数据标记的需求正在减少。。事实上,随着标注精度的提高,边际收益开始下降,长尾数据成本极高,许多企业也难以承受。

在两年多的时间里,她开始反思自己所经历的一切。
985硕士学位,大厂正编,AI风口之上,这些都无法掩盖工种处于产业链下游的事实。 与商品、算法团队相比,刘到闲所扮演的角色几乎没有发言权,她甚至自嘲为“包工头”。工作的“中台”特点要求她日复一日地与各方沟通协调。“你要承担需求。你要听算法的决定,听产科研究生想要什么,然后交付给他们。不那么主动,工作内容也不是特别有创意”。在工作中,她获得的价值感越来越弱。
有一个生产研究团队要求刘到闲制定规则来提高模型在某些方面的能力,但是经过研究,她发现需要注明的数据质量不够高,自然语言之间的模糊区域很难通过规则来定义。她根据自己的专业判断给了生产研究团队反馈,但对方只认为刘到闲缺乏专业能力,扣了一顶影响模型效果的“帽子”。
这种“背锅”的经历让她感到极度疲惫;和同龄人交流的时候,她也感受到了“怨恨”。“合作的生产研究团队可能会表现得很高,工作经验也不是很好,因为你是一个比较下游的角色。”刘到胡说八道。
“教AI之后,数据标记员会怎么做?”这是每一个数据标注行业的从业者面临的问题,无论是文凭还是专业。如今,随着AI越来越聪明,人工智能教师将没有什么可教的,因为他们可以自己生成数据,自己训练,不需要人类的监督。
刘到闲已经开始看其他工作机会了。她可以回到媒体行业,继续做科技报道,但是工资差距让她犹豫不决。和大多数AI培训师一样,转行做AI产品经理或者运营也是可以的,但是需要一些时间来恢复反复沟通和拉动消耗的能量。
阿娟还没有想到这个问题。工作八个月后,她成为了一名团队领导,至今已有18名成员。她需要对团队成员的标记准确性和质量负责。她有更多的向上沟通工作,工资也涨到了一个月4000多元。生活在一个小县城,做一个“月光族”,这让她觉得很幸福。
阿娟的亲戚朋友不知道她在做什么,因为她从来不在工作时间谈论工作。这也是这个职业给她带来的快乐——她以前在培训机构当英语老师,周末经常需要给学生补习,很难有完整的休息时间。做完数据标注后,她下班后完全把生活和工作分开。
阿娟计划多存一些工作年限,这两年再升任项目经理。
(根据受访者的要求,阿娟、刘到闲、小琴、Emily都是化名。)
本文来自微信微信官方账号“镜相工作室”,作者:黄依婷,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




