支持48位搜索站点!华为开源文件系统EROFS进入大模型训练

04-02 18:04

电子发烧友网综合报道。 AI 大型模型带来计算率硬件需求升级,计算率芯片,HBM 内存等迎来需求急剧增加。但是在软件端, AI 大型数据、高计算能力、分布式训练等特点,对文件系统也提出了与传统应用完全不同的要求。


最近,开源文件系统 EROFS 即将到来的 Linux 6.15 扩展核心周期,处理更大规模的存储系统。这一改进的目的是使这一改进 EROFS 更适配 AI 训练场景及其它大规模数据归档需求。


在 Linux 6.15 打开合并窗口(跟随) v6.14 核心发布后),EROFS 增加了 48 位置支持,希望通过扩展文件系统的容量上限,满足 AI 培训等大规模数据归档场景的需要。阿里巴巴的工程师高翔(在华为工作期间主导开发的 EROFS)说明提交的补丁系列:


当前 32 位置搜索受到限制 EROFS 最大卷容量(4KiBiB 块下限为 16TiB),但是 AI 大量的模型训练数据集,要求文件系统在每一轮训练周期中提高随机采样性能; EROFS 实现快速数据访问的直接特征。


此次更新扩展了支持核心硬盘结构的核心硬盘 48 位块寻址,包括 inode(索引节点)、设备槽位和 inode 块等结构。


同时,新版本也在 32 字节紧凑 inode 中增加了 mtime 支持基本时间戳功能的字段,并且非常块茎 NID 扩展为 8 字节的 rootnid为了实现异地更新的增量建设,_8b。引入字节导向编码扩展区域(byte-oriented encoded extents),例如主流压缩算法(例如 Zstd)遵循当前的方法,然后支持超越。 32 高效检索位置限制大型镜像和压缩数据(特别是当压缩模块较大时)。


48 位置搜索的意义在于,将文件系统理论的最大卷容量从 16TiB(32 位)提升至 4EiB(48 位),满足 PB 级 AI 培训数据集需求;客户端直接传输对象存储时,可以防止中间转换层的性能消耗。


值得注意的是,EROFS 首先是华为内部移动终端优化方案。2017 2008年,华为内部工程师开始研究只阅读压缩文件系统的概念验证。(POC),以解决传统的只读文件系统(例如 SquashFS)性能瓶颈,尤其是压缩效率和内存占用问题。


到 2018 年 EROFS 前期设计完成,首次出现在开源社区。其核心创新包括压缩算法的优化。 以及固定大小导出压缩 (Fixed-Size Output Compression),提高读取性能,同时节省存储空间。


2019 年,EROFS 华为是第一个非常文件系统。 P30 在系列手机中落地,与 F2FS 文件系统形成互补,EROFS F2负责系统分区FS 对用户信息进行管理,显著提高启动速度和随机读取性能。同年,Linux 核心 5.4 正式将华为 EROFS 很好的文件系统融入主线,变成 linux 前端文件系统的重要核心。


并且作为开源社区维护的文件系统,EROFS 在 2022 年被 Android 13 谷歌与华为合作提升其压缩算法,采用默认只读文件系统,进一步减少存储占用,增加存储占用。 I/O 效率。这时 EROFS 原始文件系统已经支持压缩,并且通过 Linux 连续迭代核心主线版本。


并且随着终端需求的改变,EROFS 同时,压缩效率、存储密度和读取性能也在不断迭代。此次 EROFS 升级意味着其从内嵌式、移动式方面进行优化,并提升到企业级。 AI、扩展大数据存储场景。结合其固有的高压缩率和低延迟读取特性,EROFS 有望成为 AI 高效存储层在训练流水线中的新选择,特别适用于需要快速加载预处理数据或模型参数的场景。


阅读更多热门文章


加关注 星标我们


把我们设为星标,不要错过每一次更新!


喜欢就奖励一个“在看”!


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com