开放式表格:大数据已经死亡,也将长存。
去年底的2024 AWS re:新任CEOInvent会议 Matt Garman发布了许多与AI相关的新服务。新的Amazonon在这些新服务中。 S3 Tables服务看似不起眼,但对未来的数据存储有着深远的影响。
当时发布现场,笔者与多位技术专家进行了交流,都认为Amazon S3 Apachees发布了Tables。 以Iceberg为代表的开放式表格发展过程的重要时刻,不仅意味着AI时代基于对象存储的开放式表格在湖仓一体化中的霸主地位,也意味着对象存储作为主要存储的时代正在加速。
那么,开放式表格现在的市场情况如何呢?三种开放式表格之间的竞争情况如何?为什么开放式表格格式是对象存储的理想选择?为什么开放式表格的流行在未来的AI世界中会占据数据分析的霸主地位,就像当初Hadoop的崛起一样?
最近,数据库和数据湖技术专家Brenna 对此,Buuck进行了深入分析。对于这一点,大数据在线编译和解读。
开放式表格:湖仓一体化的关键部件
现代湖仓一体化结构以存储层、开放式表格式和计算引擎三个关键部件为基础。
其中,开放式表格格式格式(Open Table Formats)和对象存储(Object Storage)建立信息系统的方式正在重新定义,成为可扩展、高效、面向未来的现代湖仓一体化结构的基石。
现代湖仓一体化结构采用模块化设计,充分利用对象存储的可扩展性、灵活性和成本效率,以及开放式表格的高级元数据管理功能和不同计算引擎之间的互操作性,帮助企业和组织满足现代工作负荷的需求。
对于存储层,现代湖仓一体化结构一般采用对象存储方式,便于存储结构化、半结构化和非结构化数据。而且开放式表格充当元数据抽象层,提供类似数据库的功能,包括 Schema、分区和版本控制, ACID 事务、Schema 高级功能,如进化和时间旅行。最终,Spark、Presto、Trino 和 Dremio 通过大规模处理和处理数据,等计算引擎与开放式表格式互动,使用户能够灵活地选择最适合其工作负荷的工具。

现代湖仓一体化结构的核心设计思路是计算和存储的分解。充分利用对象存储、开放表格和各种计算引擎进行交互,既满足了大规模处理和处理数据的需要,又具有足够的灵活性和可扩展性,不受供应商的限制。
随着人工智能应用的蓬勃发展和高级分析需求的不断增加,打造现代湖仓一体化架构仍成为企业和组织数字化转型的必然选择。
进化数据结构
企业的数据架构首先要追溯到在线事务管理。 (OTLP) 初始系统,如数据库。由于OLTP数据没有分析功能,因此在线分析处理 (OLAP) 随后系统开始出现,对查询结构化数据进行优化,但半结构化和非结构化数据无法得到有效处理。
随着互联网和移动互联网的快速发展,半结构化和非结构化数据已经成为数据增长的主力军。如何将半结构化和非结构化数据纳入数据分析已经成为许多企业和组织的必要条件,这促进了数据湖的出现。数据湖为各种数据类型提供可扩展的存储和存储 Schema-on-Read 功能性,但是数据湖也缺少事务保证。

最终,数据湖和数据仓库开始融合,推动了湖仓一体化数据架构的发展,将数据湖和数据仓库的优势集中在统一架构上。Lakehouse 基于开放式表格式和对象存储构建,并且完全解耦,这意味着它们由模块化部件组成。这种分解架构不仅提供了数据库的交易一致性,还提供了对象存储的可扩展性。
如果你想详细了解数据仓库、数据湖和湖泊仓库的区别和特点,可以参考大数据在线前发布的技术稿件《大数据“打假”》:真正的湖仓一体化是什么?技术专家张友东详细解释了数据仓库、数据湖和湖仓一体化的演变过程。
为什么开放式表格是对象存储的理想选择?
目标存储系统的可扩展性和成本效率,如湖仓一体化的数据架构经过专门设计, Amazon Web Services (AWS) S3、Google Cloud Storage 和 Azure Blob Storage。在统一的平台上,这种集成支持对各种数据类型(结构化、半结构化和非结构化)进行无缝管理。
对象存储数据湖仓一体化结构的主要功能包括:
- 统一存储层:通过使用对象存储,大量数据可以以其原始格式存储,无需在存储前进行复杂的数据转换。这种方法简化了数据摄入,实现了与各种数据库的兼容性。
- 可扩展性:目标存储系统本质上是可扩展的,这样数据湖仓就可以在不重大改变基础设施的情况下容纳不断增加的信息量。这种可扩展性使得组织能够有效管理不断扩大的数据集和不断变化的分析要求。
- 灵活性:一流的对象存储可以随时安排。 - 地方、私有云、公共云、主机托管设施、数据中心和边缘。这种灵活性使组织能够根据特定的业务和地理需求定制其数据基础设施。
通过整合这些元素,数据湖仓库的一体化结构提供了一个全面的解决方案,整合了数据湖和数据仓库的优势。这种设计有利于高效的数据存储、管理和分析,所有这些都是基于可扩展和灵活的目标存储系统。
开放式表格式的概念
开放式表格格式(Open Table Formats)它是一个标准化的开源框架,旨在高效地管理大规模的数据分析。它作为数据文件上的元数据层,促进跨处理引擎的无缝数据管理和访问。目前市场上主要有三种开放式表格。(Iceberg、Delta Lake 和 Hudi):
Apache Iceberg
Apache Iceberg 它是一种高性能的表格格式,专门为海量数据集设计。其结构优先考虑高效的读取操作和可扩展性,成为现代分析工作负荷的基石。其定义功能之一是将元数据与数据分离,然后允许基于快照的高效隔离和规划。该设计消除了高成本的元数据操作,支持跨大型数据集的并行查询和规划。

Iceberg 在整个行业中,生态系统的最新进展凸显了其日益普及。S3 使查询引擎能够直接访问存储存储存存储存在查询引擎中 S3 在系统中适应表元数据和数据文件,从而减少延迟,提高互操作性,从而简化数据管理。与此同时,Databricks 对 Tabular 收购显而易见 Iceberg 其主要作用是开放式湖仓一体化平台,并强调其对性能和治理的重视。
此外,Snowflake 将 Polaris 开源决策表明,该行业对开放性和互操作性的承诺进一步巩固 Iceberg 作为表格格式的领先地位。
现在的Apache Snowflakeerg是Iceberg的主要支持者。、Databricks、Cloudera、Google Cloud、AWS、阿里云,微软等。
Delta Lake
Delta Lake 最初由 Databricks 开发,与 Apache Spark 与之密切相关。它和 Spark API 完全适应,并与 Spark 结构化流式处理集成,允许批处理和流式处理操作。
Delta Lake 一个关键功能是使用交易日志记录数据的所有变化,从而保证一致的视图和写入隔离。该设计支持并发数据操作,适用于高吞吐环境。
现在的Delta Databrickss是Lake的主要支持者。、微软,SAP等等。
Apache Hudi
Apache Hudi 目的是应对实时动态摄入和分析的考验,尤其是在需要频繁更新的环境中。它的结构支持高效数据摄入的写入和升级存储。 (WOS) 并用于查询、读取、提高存储和存储。 (ROS),这样就可以实现数据集的最新视图。

逐步处理数据流中的变化,Hudi 促进大规模实时分析。可以提高筛选条件和全局索引等功能 I/O 操作,从而提高查询和写入性能。此外,Hudi 这些工具还包括用于集群、压缩和清洁的工具,有利于维护表的组织和性能。其处理记录级更新和删除能力使其成为需要合规性和严格数据管理的高速数据流场景的实用选择。
现在的Apache Hudi的主要支持者包括:腾讯云、阿里云、华为云等。
三种开放式表格的区别
Apache Iceberg、Delta Lake 和 Apache Hudi 所有这些都为数据湖仓一体化结构带来了独特的优势。下面是这些基于主要特征的格式比较简述:
- ACID 交易:所有三种格式都符合要求 ACID 要求,确保可靠的数据操作。Iceberg 选择快照隔离来实现事务的完整性,Delta Lake 利用事务日志实现一致的视图和写入隔离,Hudi 为高并发场景提供文档级并发控制。
- 结构演变:每一种格式都支持结构变更,允许添加、删除或修改列。Iceberg 在不重写当前数据的情况下,提供灵活的架构演化,Delta Lake 为了保持数据质量,在运行过程中强制执行架构, Hudi 为提高灵活性提供预递交转换。
- 分区演化:Iceberg 支持分区进化,无需重写当前数据即可无缝更新分区方案。Delta Lake 为了获得最佳性能,可以使分区改变,但是可能需要手动干预, Hudi 为传统分区提供精细集群的替代方案。
- 时间旅行:这三种格式都提供时间旅行功能,用户可以查询历史数据状态。这个功能对审计和调试的目的非常有用。
- 广泛采用:Iceberg 它是数据社区最广泛使用的开放式表格。 Databricks 到 Snowflake 再到 AWS,很多大型平台都投资了 Iceberg。假如你已经是这些生态系统的一部分,或者正在考虑加入它们, Iceberg 也许会自然而然地脱颖而出。
- 检索:Hudi 提供多模式检索功能,包括 Bloom 过滤器和记录级检索,可提高查询性能。Delta Lake 和 Iceberg 依赖于元数据优化,但不提供相同级别的检索灵活性。
- 并发式和流式处理:Hudi 专为实时分析而设计,具有先进的并发控制和内置工具(例如 DeltaStreamer)用于增量摄入。Delta Lake 流式处理支持更改数据库, Iceberg 提供增量读取的基本功能。
虽然这三种格式都为现代数据架构提供了强大的基础,但是最好的选择取决于特定的工作负载要求和组织要求。
性能预期
充分利用开放式表格式的功能,在数据湖仓一体架构中实现最佳性能尤为重要。这取决于存储层和计算层的效率。
为了满足大规模分析的需要,存储层必须提供低延迟和高吞吐量。目标存储解决方案应该有助于快速访问数据并支持高速传输,即使在高工作负荷下也能保证平稳运行。此外,高效的IOPS对于处理大量并发数据请求尤为重要,可以实现无瓶颈的响应数据交互。

计算层的性能同样重要,它直接关系到数据处理和查询执行速度。为了管理日益增加的信息量和用户查询,计算引擎必须可以扩展,而不会改变性能。选择优化的查询执行计划和资源管理策略可以进一步提高处理效率。此外,计算引擎需要与开放式表格式无缝集成,以充分利用它 ACID 高级功能,如交易、结构演变和时间旅行。
开放式表格式还包括提高特性的功能。这也需要对堆栈进行正确的配置和完全优化。其中一个功能是高效的元数据处理,其中元数据和数据分离管理可以更快地查询计划和实施。通过减少操作过程中扫描的数据量,将数据分区组织成子集,提高查询性能。在不进行大量数据重写的情况下,对架构演变的支持使表格格式能够适应数据结构的变化,从而保证灵活性,同时最大限度地减少处理费用。
通过关注存储和计算层的这些性能,组织可以保证其数据湖仓一体化环境高效可扩展,满足现代分析和 AI 需要工作负荷。这一参考标准使开放式表格格式能充分发挥其潜力,提供实时洞察和决策所需的高性能。
湖仓一体开放数据,互操作
基于开放式表格式的数据湖仓一体化结构可以提供统一的数据管理方法。然而,实现真正开放的不仅仅是选择开放式表格格式。开放式数据湖仓一体化必须集成模块化、可互操作的开源组件,如存储引擎、目录和计算引擎,以实现不同平台的无缝运行。
开放式表格是开放式标准,并根据其设计,支持整个堆栈的互操作性和开放性。但是,实际的挑战仍然存在,例如确保目录的相互操作,避免依靠专属服务进行表格管理。最近推出的 Apache XTable 等待工具展示了一般兼容性的进步,为一次编写、到处查询系统提供了一种方法。值得注意的是,XTable 您不能以多种开放式表格格式写入,只能阅读。但愿未来互操作的创新将继续建立在这些项目和其他围绕开放式表格格式的项目之上。
开放式表格的未来
伴随着数据湖仓一体化的不断发展,一些新的趋势开始显现。
一个重要的发展方向是把它 AI 和机器学习 (ML)在湖仓一体架构中,工作负荷直接集成。对储存层来说,这可能看起来像和 Hugging Face 和 OpenAI 等关键 AI 平台直接集成平台。对计算层而言,AI 集成可能导致针对性的建立。 ML 专门的算法优化计算引擎,从而提高湖仓一体化生态系统中实践和推理过程的效率。

另外一个重要的发展领域是开源社区。当 Databricks、Snowflake 和 AWS 当大企业开始大展拳脚时,人们很容易忘记开放式表格格式是真正的开放标准。Iceberg、Hudi 和 Delta Lake 在开源工具和平台上可以提供任何推动者、合作或整合。也就是说,它们是开放标准数据生态系统的一部分,充满活力和不断发展,开源应用、附加组件、目录和创新将继续飙升。
最后,随着企业和组织的发展 AI 与其他高级分析应用程序相结合,构建大规模、高性能的数据湖仓,开放式表格式的使用率将继续上升。一些行业专业人士已经将开放式表格的流行相当于十几年前的大众。 随着开放式表格的崛起,未来有望实现大数据的主导地位。随着Hadoop逐渐衰落,开放式表格的崛起,俗话说大数据已经死了,还会长久。
本文来自微信微信官方账号“大数据在线”(ID:dobigdata),作者:大数据在线,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




