
课程咨询: 400-996-5531 / 投诉建议: 400-111-8989
认真做教育 专心促就业
数据库和数据仓库等技术的学习和应用是我们在学习大数据技术的时候需要重点掌握的一个基础知识点,今天运城达内大数据培训就给大家简单介绍一下,数据库和数据仓库基础知识分享。
一、数据库
数据库是“按照数据结构来组织、存储和管理数据的仓库”。数据库有很多种类型适用不同业务场景,常见的是关系型数据库、键值型数据库、时序数据库。
1关系型数据库支持事务ACID特性的数据库。常见的有Mysql、Oracle、PostgresSQL等。
2非关系型数据库
文档型数据库(Documentdatabases):MongoDB。优点是对数据结构要求不特别的严格。而缺点是查询性的性能不好。
键值型数据库(Key-valuedatabases):Redis、Memcached,常用于缓存方案。
列数据库(Column-familydatabases):以列族的形式存储数据,如ApacheCassandra、HBase。优点是查询快速。缺点是数据结构有局限性。
时间序列数据库(Time-seriesdatabases):专门用于存储时间序列数据,如InfluxDB、OpenTSDB。目前时序大数据存储场景很多,前景极大,处于上升期。
二、数据仓库
1数据仓库
数据仓库是BillInmon在1991年出版的“BuildingtheDataWarehouse”一书中所提出的定义被广泛接受:数据仓库(DataWarehouse)是一个面向主题的(SubjectOriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(TimeVariant)的数据集合,用于支持管理决策(DecisionMakingSupport)。
面向主题的:根据使用者的需求,将来自不同数据源的数据围绕着各种主题进行分类整合。
集成的:来自各种数据源的数据按照统一的标准集成于数据仓库中。
相对稳定的:数据仓库中的数据是一系列的历史快照,不允许修改或删除,只涉及数据查询。
反映历史变化的:数据仓库会定期接收新的集成数据,从而反映出新的数据变化。
三、数据仓库VS数据库
企业数据仓库EDW
EDW也是一种数据仓库DW。上世纪90年代,使用结构化数据+3NF范式建模,构建EDW企业数据仓库。
离线数仓
2003~2006年Google发表了三篇论文:分布式文件系统GFS、分布式计算框架MapReduce、分布式存储系统BigTable。2006年,Hadoop正式面世。此后,以Hadoop技术栈为代表的离线数仓架构引领大数据发展了十多年。这时候的处理任务基本都是批处理任务。离线数仓特指:应对批处理(离线计算)场景的数据仓库。
早期离线数仓使用离线计算引擎实现批处理数据。常用的离线计算引擎就是Hive(Hadoop技术体系)。应用是定时任务跑批生成报表数据。
实时数仓
2014年,Flink为代表的实时计算风靡,基于Flink为计算引擎的实时数仓跃然纸上。实时数仓特指:应对实时处理(实时计算)场景的数据仓库。
四、数据集市
数据集市(DataMart),也叫数据市场,就是满足特定的部门或者用户的需求,按照多维的方式进行存储,包括定义维度、需要计算的指标、维度的层次等,生成面向决策分析需求的数据立方体。
按照抽取方式可分为两类:
1)独立型数据集市:直接从源数据抽取业务数据。
2)从属型数据集市:从数据仓库/数据湖抽取。
【免责声明】:本内容转载于网络,转载目的在于传递信息。文章内容为作者个人意见,本平台对文中陈述、观点保持中立,不对所包含内容的准确性、可靠性与完整性提供形式地保证。请读者仅作参考。更多内容请加抖音太原达内IT培训学习了解。