
课程咨询: 400-996-5531 / 投诉建议: 400-111-8989
认真做教育 专心促就业
随着互联网的不断发展,越来越多大企业都引入了大数据等互联网新兴技术,而本文我们就通过案例分析来简单了解一下,数据集市的概念与作用分析。
数据集市(DataMart)
数据集市是一个有针对性的数据仓库版本,它包含一个较小的数据子集,这些数据对组织内的单个团队或选定用户组很重要且是必需的。由于数据集市包含较小的数据子集,因此在使用更广泛的数据仓库数据集时,数据集市使部门或业务线能够更快地发现更有针对性的洞察。初创建数据集市的目的是应对组织在20世纪90年代建立数据仓库的困难。当时集成来自整个组织的数据需要进行大量手动编码,而且非常耗时。与集中式数据仓库相比,数据集市的范围更有限,使其实现起来更容易且更快速。到了大数据时代,虽然企业数据仓库和数据湖在各个企业都已经普及,但是每个部门自身也有对业务数据进行处理分析统计的需求,而且不涉及到和其他数据交互,因此特定的部门不希望在数据量大的数据仓库进行操作(因为操作慢,而且可能影响到其他人处理数据),所以建立一个新的存储系统,把数据仓库里关联自己的数据存储到这个系统,本质上算是数据仓库的一个子集。这个系统叫做数据集市。
相比较数据仓库,由于数据集市涉及的数据源集中于某个部门或者业务线的主体,因此其处理的数据会小很多,业务构建比较敏捷,对用户需求的响应也会更加迅速。对集市的用户来说,由于仅开放给某个部门或业务主体,其对多租户隔离的需求也不是很强,用户可以更加简单方便的获取数据,可以简单的通过数据报表工具或Excel等工具来做数据分析,因此对基础设施的依赖就相对比较低,建设成本也相对更低。此外,对集市的实施人员来说,涉及到要加工处理的数据比较少,数据加工时间会短很多,安全管理的要求也比较低,因此建设和运维相对更低。总体上说,因为数据集市都是集中在某个单一的业务领域,对实施人员和业务用户来说都比较敏捷和灵活。
按照集市和数据仓库或数据库的关系,数据集市也可以分为三种类型:
独立数据集市:独立的数据集市系统,不依赖数据仓库或数据湖,一般直接从数据源系统加载必要的数据做加工后按照业务主体提供业务分析结果;
关联数据集市:是数据仓库或数据湖的一个部分,一般对应数据仓库的数据集市层,相关的数据加工处理由数据仓库的批处理任务完成;
混合数据集市:主题数据的来源包括了数据仓库、数据湖,也包括了其他的数据库。这种集市的好处是既能包含企业自顶而下设计的从数据仓库中加工而来的业务主题数据,又能满足自下而上的一线分析师的灵活提出的业务需求。
数据集市的底层一般是一个独立的数据库,并且一般提供高并发的统计分析和检索服务,因此对数据库的并发计算性能要求比较高。为了保证数据集市的并发性能,关键技术包括这两种:一是数据库层采用支持高并发访问的分布式数据库来支撑,二是采用OLAPCube技术。
分布式数据库由于其可扩展性能的优势,能够支撑更高并发的连接访问,并且分布式计算引擎的统计分析SQL的性能更强,还可以通过增加硬件资源来扩展性能,因此针对一些用户规模较大、或者BI报表涉及的报表计算非常复杂的部门或业务线,可以采用分布式数据库。
OLAPCube技术是将一些数据建模结果预先计算出来,这样分析人员使用数据的时候就可以灵活的做各种深入分析,如数据下钻、切片等,就可以通过预计算的数据来访问,而无需去查询底层数据库或重新计算数据,因此如果访问数据能够命中Cube,业务的并发访问性能将得到极大的提升。OLAPCube本身是采用空间换时间的优化策略,它需要用户来指定预计算的schema,此外Cube建模工具会有优化方法来减少需要持久化的Cube数据,从而减少预计算需要的处理时间和存储空间。OLAPCube技术根据其持久化数据的方式又分为ROLAP和MOLAP,简单理解ROLAP是将建模的Cube数据持久化在数据库中,而MOLAP一般是将Cube数据持久化在报表工具或建模工具中。
【免责声明】本文系本网编辑部分转载,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与管理员联系,我们会予以更改或删除相关文章,以保证您的权益!请读者仅作参考。更多内容请加抖音太原达内IT培训学习了解。