今天的数据平台建设策略和五个关键参考标准
我们生活在一个数据驱动的世界,我们的企业严重依赖于精心布局的数据分析平台。从数据收集到各业务部门的数据服务,可以看作是支持所有数据相关活动的关键。
构建数据平台不再是一件可有可无的事情,而是大多数组织的必需品。企业根据从数据中获取可操作意见的能力赋能,从而改变用户体验,增加收入,甚至定义其品牌。
这些数据平台的成功取决于如何处理、组织和管理数据,以及如何利用数据促进创新和处理业务问题。以下是数据平台建设策略应该考虑的五个重要方面。
一 收集什么数据,建立什么能力?
回顾过去,我们发现过去数据团队花费大量的时间和精力从源系统中提取大量数据,这在当地分析系统中是一个很大的限制。另一方面,从大数据平台的“数据客户”来看,这增加了上市日期。
因此,一个关键步骤是确定不同业务功能中的用例,并对其进行优先排序,从而创建高优先数据中心的用例组合和管道。。通过从数据中生成所需的信息,这些用例可以看作是解决业务问题的数字产品。通过数据平台提供这些信息。
这也将帮助开发团队根据优先功能调整平台构建路线图。例如,如果业务团队热衷于数据科学测试项目,他们需要清理数据和操作台服务。因此,平台团队可以在平台建设初期优先考虑数据测试或数据科学服务。
用例驱动方法也有助于基于高优先用例逐步构建数据。,这类信息真的可以为业务增加价值,而不是收集所有可用的数据,并且可以用于未来的某些或其他用例。
二 怎样组织数据?
除了确定需要优先考虑哪些数据,我们还应该关注如何在平台中组织数据。如果数据平台以混乱的方式存储太多数据,没有合适的元数据管理和可靠的数据治理,相关数据就会变得更加难以找到。虽然新数据在增加,但信息开始减少。
简而言之,我们应该制定一个策略,让数据从它的来源“数据生产者”遍历或跳跃到“数据客户”的应用程序和系统。在这方面,最有效的方法是遵循如图所示的路径:识别->收集->清理->整理->衍化 -

三 谁应该拥有数据?
事实上,这一数据结构的成功取决于谁在推进整个数据建设过程,谁坐在前排,谁在后排给予支持,这意味着所有权。在过去的回顾中,我们观察到不同的数据团队通常负责建立数据并做出相关决策。他们只有在从数据管理员那里获得知识转移后才这样做。他们投入了时间和精力,但很难让数据消费者满意。由于这些团队与实际信息系统不够接近,无法理解数据流程,因此做出正确的决定,以促进数据周期的完整性。
这样就需要定义数据领域的团队和联合治理模型。该领域由数据管理员、数据架构师、业务代表、数据合规官等跨职能人员组成。他们负责各自领域的治理决策,以确保数据质量、隐私、安全和合规性。最重要的是数据生命周期——包括数据收集、转换和提供给终端用户。通过将所有权和责任转移回领域,数据所有权不会转移,因此不会造成任何价值损失。最了解数据的人是为了分析而管理、准备和提供数据的人。
虽然治理职责分布在不同的领域,但是整个组织仍然需要保持一致性和协调性。它需要为确保遵循整体组织目标和监管政策,应建立共同的治理标准、政策和框架。
四 技术能提供什么支持?
技术在支持和实现数据战略方面起着关键作用。它提供了工具、基础设施和功能,可以有效地管理、处理和处理数据,并从中获得价值。
现代数据平台一般涉及数据湖、数据仓库、云存储、大数据处理框架等多种技术的组合。但云托管数据湖仍然是一个解决方案,因为它简化了查找相关数据并准备分析的过程,同时为数据科学团队提供了一个完整的访问数据的角度。
然而,数据湖也面临着一些挑战,如阅读/写作过程中缺乏一致性和实施方式。因此,有必要进一步思考和思考。结合数据湖和数据仓库的最佳特征选择 Lakehouse 架构。基本上,它在数据湖上增加了一层结构化处理和查询引擎。这个层通常包括 Apache Spark、Delta Lake 或者类似于框架等技术。这些技术可以实现模式实施、数据质量管理、交易功能,提高数据湖中存储的数据的查询和处理性能。
另外一个重要方面是处理框架,在大数据背景下,技术从 Apache Hadoop 发展成与MPP 云数据库相结合Apache spark。在某些工作负载下,Spark的内存处理量比较 Hadoop 的 MapReduce 更快。通过将 Spark 与 MPP 通过数据库的组合,组织可以从数据库的可扩展性和分布式处理能力中受益,同时利用数据库。 Spark 数据处理和分析功能丰富。但是,也可采用混合法,这取决于最适合特定用例的方法。
除技术选择外,还应尽量选择。基于微服务的结构方法,并将数据提取、处理、部署和其他活动建立为独立的数据服务。这些数据服务在实现标准化和节约资源方面发挥着关键作用,当多领域团队负责利用组织数据平台为其领域建立数据资产或产品时。
五 怎样保持数据策略的相关性?
具有竞争优势的关键是保持相关性,更积极地响应不断变化的业务或客户需求。为了保证最佳利用率和成功,需要根据组织的整体数据策略、目标和具体要求不断调整和评估。
另外,在整个组织和业务部门中,培养数据驱动的文化这是非常必要的。这将有助于获得积极的参与和贡献,从而可以从不同的数据视角获得 数据视图360度。
为了提高数据素养和数据意识,制定培训计划和措施,最重要的是鼓励组织数据平台的使用,使业务部门能够创建和使用越来越多的数据产品。选择数据市场这可能是一个很好的策略。它提供了一个数据提供商可以在这里销售或交换数据的平台,数据用户可以发现、浏览和获取他们需要的数据。通过这种方式,数据提供商可以与消费者互动,共享知识或做好实践,并提供反馈,从而不断提高数据产品的相关性。
拥抱前沿技术,行业良好的实践和监管变化还可以大大增强数据策略。此外,为了找到创新和优化的机会,跟踪数据管理、分析、人工智能和云计算的进步也非常重要。
六 总结
该平台的建设策略可以分为三个重点领域 -
•用例驱动流为了识别不同业务功能中的用例,并进行优先排序培训,从而创建高优先数据中心的用例管道组合。整体负责培养数据驱动的文化和合作环境,共享和利用数据洞察来促进这种环境中的业务成果。
•数据管理流在中央管理团队的支持下,可以遵循良好可靠的去中心化领域模型,通过制定正确的政策和条款,将数据的有效性和相关性带到终端进行管理。
•技术与结构流程通过选择合适的技术(例如,通过选择合适的技术),可以根据用例要求负责整个平台架构 Lakehouse 根据微服务的实施方法,结构、内存计算或处理框架),跟踪技术进步。
最后,三流之间的紧密协调与合作,对于利用这一有效的数据策略来实现整个组织目标至关重要。
本文来自微信微信官方账号“数据驱动智能”(ID:Data作者:晓晓,36氪经授权发布,_0101)。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




