课程咨询: 400-996-5531 / 投诉建议: 400-111-8989
认真做教育 专心促就业
对于企业来说,只有通过数据分析才能在接下来的运营活动中有更准确的投放方式来提高转化。今天,我们就一起来了解一下,数据分析的前奏,数据挖掘应该如何操作。
为什么要做数据探索?
了解数据的类型和人与人沟通过程中了解对方的性别一样重要,人与人沟通知道对方的性别才能用不同的方式与其沟通,不同的数据类型能做的操作也不一样。
探索数据探索哪些?数据的类型和数据的质量。
数据类型分为定性和定量的。
定性也可以说是分类的,包括标称和序数。标称很好理解,用户ID、用户的名称也属于标称,虽然也可以重复,但大致还是能代表一个个体;序数有类型{好,非常好,超级好},可以比较大小的,比如“超级好好”比“好”在好的程度要高,{高,较高,非常高}也属于序数。
定量可以说是连续的,包括区间和比率。区间是可以做差操作的。比如日期,可以求日期之间的区间,今年和去年相差一年;比率既可以求区间,又可以求比率。比如年龄是比率,20岁比30岁年轻10岁,还可以求年龄的均值,。
数据类型除了这种分类还有别的分类,但这样的分类是基础分类,掌握了就可以以不变应万变了。
数据的质量主要有:属性值缺失、对象重复、离群点、数据不一致以及数据错误。造成这些数据质量问题的原因有很多,比如操作员手工录入时发生错误、用户填写时造成的笔误和精准偏差(对一个问题的理解不到位或问卷设计不合理)、再比如传感器收集时失灵等问题。目前,很少有企业一开始收集大量的数据是为做挖掘,基本都是数据积累到一定量然后有了做挖掘的需求,不管是从数据还是从业务驱动上来说都是这样的,这样数据可能分散在各个业务系统中,缺失、不一致问题必然存在,需要通过各种预处理手段,将数据的质量提升到一定高度。
那么问题来了,如何做数据探索呢?
前面说了,需要探索数据类型和数据质量,接下来就讲运用两种工具来探索数据,商用数据挖掘软件IBMSPSSModeler以及python语言。
IBMSPSSModeler现在是IBM公司的一款数据挖掘工具,它能用拖拉拽的方式实现数据挖掘建模。使用方法在这里不介绍,只介绍探索的结果。
这是探索字段的数据类型,连续型,值范围,以及是否有缺失。
【免责声明】:本内容转载于网络,转载目的在于传递信息。文章内容为作者个人意见,本平台对文中陈述、观点保持中立,不对所包含内容的准确性、可靠性与完整性提供形式地保证。请读者仅作参考。