课程咨询: 400-996-5531 / 投诉建议: 400-111-8989
认真做教育 专心促就业
随着互联网的不断发展,越来越多的人都在学习大数据等相关技术,而本文我们就通过案例分析来简单了解一下,数据集成与数据规约的作用都有哪些。
一、数据集成
多个数据源集成时会遇到的问题:实体识别问题、冗余问题、数据值的冲突和处理。
1.实体识别问题
匹配来自多个不同信息源的现实世界实体,数据分析者或计算机如何将两个不同数据库中的不同字段名指向同一实体,通常会通过数据库或数据仓库中的元数据(关于数据的数据)来解决这个问题,避免模式集成时产生的错误。
2.冗余问题
如果一个属性能由另一个或另一组属性“导出”,则此属性可能是冗余的。属性或维度命名的不一致也可能导致数据集中的冗余。常用的冗余相关分析方法有皮尔逊积距系数、卡方检验、数值属性的协方差等。
3.数据值的冲突和处理
不同数据源,在统一合并时,保持规范化,去重。
二、数据规约
随着数据量的增加,基于传统的数据分析变得非常耗时和复杂,往往使得分析不可行。数据归约技术是用来得到数据集的规约表示,在接近或保持原始数据完整性的同时将数据集规模大大减小。对规约后的数据集分析将更有效,并可产生几乎相同的分析结果。常见方法有:维度规约、维度变换、数值规约等。
1.维度规约
用于数据分析的数据可能包含数以百计的属性,其中大部分属性与挖掘任务不相关,是冗余的。维度归约通过删除不相关的属性,来减少数据量,并保证信息的损失小。
属性子集选择:目标是找出小属性集,使得数据类的概率分布尽可能地接近使用所有属性的原分布。在压缩的属性集上挖掘还有其它的优点,它减少了出现在发现模式上的属性的数目,使得模式更易于理解。
单变量重要性:分析单变量和目标变量的相关性,删除预测能力较低的变量。这种方法不同于属性子集选择,通常从统计学和信息的角度去分析。
如,通过pearson相关系数和卡方检验,分析目标变量和单变量的相关性。
2.维度变换
维度变换是将现有数据降低到更小的维度,尽量保证数据信息的完整性,提高实践中建模的效率。
若维度变换后的数据只能重新构造原始数据的近似表示,则该维度变换是有损的,若可以构造出原始数据而不丢失任何信息,则是无损的。常见有损维度变换方法:主成分分析、因子分析、奇异值分解、聚类、线性组合。
主成分分析(PCA)和因子分析(FA):PCA通过空间映射的方式,将当前维度映射到更低的维度,使得每个变量在新空间的方差大。FA则是找到当前特征向量的公因子(维度更小),用公因子的线性组合来描述当前的特征向量。
奇异值分解(SVD):SVD的降维可解释性较低,且计算量比PCA大,一般用在稀疏矩阵上降维,例如图片压缩,推荐系统。
聚类:将某一类具有相似性的特征聚到单个变量,从而大大降低维度。
线性组合:将多个变量做线性回归,根据每个变量的表决系数,赋予变量权重,可将该类变量根据权重组合成一个变量。
3.数值规约
数值规约通过选择替代的数据表示形式来减少数据量。即用较小的数据表示替换或估计数据。
数值规约技术可以是有参的,也可以是无参的。如参数模型(只需要存放模型参数,而不是实际数据)或非参数方法,如聚类、抽样和直方图。
【免责声明】本文系本网编辑部分转载,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与管理员联系,我们会予以更改或删除相关文章,以保证您的权益!更多内容请加danei456学习了解。欢迎关注“达内在线”参与分销,赚更多好礼。