中文因特网语料 AI 资源平台发布:27 数据,总量 2.7T

2025-01-12

IT 世家 1 月 11 日消息,中国网络空间安全协会于 1 月 9 每日发布公告,为全国发布中国互联网语言资源平台,支持行业领域、内容模式、规模、规模等多种标签分类,方便用户下载使用。


协会表示,在中央网络信息办公室的指导下,会同国家互联网应急中心发布了中国互联网基础语料料料料料。 1.0 在此基础上,依托专委会建立的语料共建共享机制,通过信源选择、内容过滤、数据去重等一系列严格细致的数据处理措施,聚集了一批新的优质可信数据。形成并向社会发布中文互联网基础语料料料 2.0,规模 120GB,数据 3800 万条。


IT 家庭注意事项:目前平台共进驻 27 一种语料数据,数据总量约为 2.7T,主要分为三类:


一是中国网络空间安全协会与国家互联网应急中心建设的中文互联网基础语料;


二是人民网、北京智源研究院、上海人工智能实验室等单位互通的网络语料;


第三,优质中文基础语料样本由中国网络空间研究院、中国国家版本馆、中国百科全书出版社、中国社会科学院图书馆等单位提供。


用户登录中国网络空间安全协会网站(https://www.cybersac.cn/ newhome),通过注册、认证等程序,点击“中文互联网语料资源平台”链接,即可下载相关语料。


网络安全协会人工智能安全管理委员会负责人表示,信息是人工智能发展的关键资源,中国互联网基础语料料料 2.0 专委会将继续加强中国互联网基础语料建设,为人工智能技术创新和产业发展提供有力支持和保障,是各行各业共同打造高质量中文语料材料的又一重要成果。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com