A. 数据仓库与数据挖掘技术—数据光滑
噪声是被测量的变量的随机误差或方差。
数据光滑技术:
1、分箱:通过考察数据的近邻(即周围的值)来光滑有序数据的值。升轿睁有序值分布到一些“桶”或箱中,由于分箱方法考察近邻的值,因此进行局部光滑。一般来说,宽度越大光滑效果越大。
2、回归:可以用一个函数(如回归函吵岁数)拟合数据来光滑数据。线性回归涉及找出拟合两个属性的“最佳”线,使得一个属性可以用来预测另一个。多元线性回归是线性回归的扩展,其中涉及的属性有多个,并且数据拟合到一个多维曲面。
3、聚类:可以通过聚类检测离群点,将类似的值组织成群或簇。直观地,落在簇集合之外的值视为离群点。
4、人工检测
数据集成合并多个数据源中的数据,存放在一致的数据存储。在数据集成时,首先需要考虑的是模式集成和对象匹配问题。冗余是在数据集成,是另一个需要考虑的重要问题。
有些冗余可以被相关分析检测到。相关并不意味因果关系,也就是说如果A和B是相关的并不意味,A导致B或B导致A。
数据变换把数据转换成适于挖掘的形式。
1、光滑:去掉数据中的噪声。这种技术包括分箱、回归和聚类等
按箱平均值平滑分箱:箱中每个值都按箱中的平均值替换
按箱中值替换:箱中的每一个值,按箱中的中值替换
按箱边界平滑:箱中的最大值和最小值被视为边箱边界。箱中的每一个值被最近帆喊的边界替换
2、聚集。队数据进行汇总或聚集
3、数据泛化:使用概念分层,用高层概念替换底层或“原始”数据。例如分类的属性,如街道,可以泛化为较高层的概念。如城市或国家
4、规范化:把数据归一化、指数化或标准化,把不同的属性进行比例缩放,使它们的值落在大致相同的范围内。常用的有三种:最小—最大规范化、z- score规范化和按小数定标规范化
5、属性构造:由给定的属性添加新的属性
数据贵约技术可以用来得到数据集的归约表示,它小的多,但仍接近保持原数据的完整性。对归约后的数据集挖掘更有效。并产生几乎相同的分析结果
数据立方体存储多维聚集信息,每个单元存放一个聚集值,对应于多维空间的一个数据点,每个属性可能存在概念分层,允许多个抽象层进行数据分析
数据立方体为在线分析处理的上钻、下钻等操作提供了可以快速访问的汇总数据
数据立方体聚集的基础是概念分层
B. 多维数据概念及模型解析-简单
数据立方体(Cube)
维度(Dimension)
成员(Member),又称维度成员(Dimension Member)
度量老燃樱(Measure)
级别(Level)
维度(Dimension)
维度就是描述数据的业务角度,不同的分析场景会有若干的维度。类似于一个坐标轴
体现在数据结构中,每个维度都应该会对应一张表,如果该维度存在多个等级,这张段庆表中的字段应该可以体现出来
维度成员(Dimension Member)
若是维度相当于坐标轴,那么维度成员就相当于坐标轴上的值。对应在workbench生成的schema里面的Level
维度成员可以呈现成树形结构,没有子级成员的成为明细成员(Leaf Member)
数据立方体(Cube)
数据立方体表示由若干维度所描述的一个数据集合,每个维度各自表示一个可对此数据集合进行观察和分析的业务角度
每个立方体的事实表应该具备多个维度对应表的关联数据,是一张整合的复杂数据表
度量(Measure)
在一个数据立方体中,从每个维度上都选取一个确定的维度成员,这些维度成员组合所确定的一个点就是度量值
一般情况下,数据立方体中并不直接侍丛存储非明细成员所描述的度量值,而是通过对其后代成员中的全部明细成员进行汇总计算而得出
级别(Level)
级别表示维度成员所描述业务角度的细节程度,也可理解为通过维度成员观察数据的粒度。
即描述该维度的细节属性。
模型说明(原帖):
https://blog.csdn.net/zzq900503/article/details/78490660
https://blog.csdn.net/zzq900503/article/details/78492505
C. 数据立方体的介绍
表示诸如计件销售、店面销售、区域销售、销售纯利和完成订单的平均时间等数据。有了这些数据,分析师能针对一个或明巧全部产品、客户、销售代理等,就这些数字中的一个或全部进行分析。这样,在预测趋势和分析业绩时,数据立方激御键体就非常有用,拆亏而表格最适合报告标准化的运作情况。
D. 数据立方体的构建方法
关系 OLAP就利用了关系数据库模型。ROLAP数据立方体是按关系表格的集合实现的(最多可达维度数目的两倍),来代替多维阵列。其中的表格叫做立方单元,代表特定的视图。
由于立方单元是一个常规的数据库表格,所以我们能用传统的 RDBMS技术(如索引和连接)来处理和查询它们。这种形式对大量的数据集合可能是有效的,因为这些表格必须只能包含实际有数据的数据立方单元。
但是 ROLAP缺少了用MOLAP实现时所具有的内在索引功能。相反,给定表格中的每个记录必须包括所皮缓有的属性值而任何集合的或摘要的敏陵数据。这种额外的开销可能会抵消掉一些节省出来的空间,而隐性索引的缺少意味着我们必须提供显性的桥握戚索引。
从结构角度看,数据立方体由两个单元构成:维度和测度。维度已经解释过了,测度就是实际的数据值。
E. 什么是"数据立方体"
数据立方体
定义:数据立方体是一类多维矩阵,让用户从多个角度探索和分析数据集,通常是一次同时考虑三个因素(维度)。
当我们试图从一堆数据中提取信息时,我们需要工具来帮助我们找到那些有关联的和重要的信息,以及探讨不同的情景。一份报告,不管是印在纸上的还是出现在屏幕上,都是数据的二维表示,是行和列构成的表格。在我们只有两个因素要考虑时,这就足矣,但在真实世界中我们需要更强的工具。
数据立方体是二维表格的多维扩展,如同几何学中立方体是正方形的三维扩展一样。 “立方体”这个词让我们想起三维的物体,我们也可以把三维的数据立方体看作是一组类似的互相叠加起来的二维表格。
但是数据立方体不局限于三个维度。大多数在线分析处理( OLAP)系统能用很多个维度构建数据立方体,例如,微软的SQL Server 2000 Analysis Services工具允许维度数高达64个(虽然在空间或几何范畴想象更高维度的实体还是个问题)。
在实际中,我们常常用很多个维度来构建数据立方体,但我们倾向于一次只看三个维度。数据立方体之所以有价值,是因为我们能在一个或多个维度上给立方体做索引。
关系的还是多维的?
由于数据立方体是一个非常有用的解释工具,所以大多数 OLAP产品都围绕着按多维阵列建立链轮含立方桐吵模型这样一个结构编制。这些多维的OLAP产品,即MOLAP产品,运行速度通常比其他方法更快,这是因为能直接把索引做进数据立方的结构,方便收集数据子集。
然而,对于非常大的多维数据集, MOLAP方案并不总是有效的。随着维度数目的增加,立方体变得更稀疏,即表示某些属性组合的多个单元是空的,没有集合的数据。相对于其他类型的稀疏数据库,数据立方体往往会增加存储需求,有时会达到不能接受的程度。压缩技术能有些帮助,但利用这些技术往往会破坏MOLAP的自然索引。
数据立方体还可以用其他的方法构建。关系 OLAP就利用了关系数据库模型。ROLAP数据立方体是按关系表格的集合实现的(最多可达维度数目的两倍),来代替多维阵列。其中的表格叫做立方单元,代表特定的视图。
由于立方单元是一个常规的数据库表格,所以我们能用传统的 RDBMS技术(如索引和连接)来处理和查询它们。这种形式对大量的数据集合可能是有效的,因为这些表格必须只能包含实际有数据的数据立方单元。
但是 ROLAP缺少了用MOLAP实现时所具有的内在索引功能。相反,给定表格中的每个记录必须包括所有的属性值而任何集合的或摘要的数据。这种额外的开销可能会抵消掉一些节省出来的空间,而隐性索引的缺少意味着我们必须提棚笑供显性的索引。
从结构角度看,数据立方体由两个单元构成:维度和测度。维度已经解释过了,测度就是实际的数据值。
记住这点是很重要的:数据立方体中的数据是已经过处理并聚合成立方形式。因此,通常不需要在数据立方体中进行计算。这也意味着我们看到数据立方体中的数据并不是实时的、动态的数据。
立方体中的数据已经过摘要,表示诸如计件销售、店面销售、区域销售、销售纯利和完成订单的平均时间等数据。有了这些数据,分析师能针对一个或全部产品、客户、销售代理等,就这些数字中的一个或全部进行分析。这样,在预测趋势和分析业绩时,数据立方体就非常有用,而表格最适合报告标准化的运作情况。
F. olap为什么需要大量的聚集方体
为了满足不同用户的形形色色的猜渗需求。
聚集立方体,他是一种用于OLAP以及OLAP操作(如上卷、下钻、切片和切块)的多维数据模型。数据立方体存储多为聚集信息。
在最低抽象层创建的立方体称为基本方体。基本方体应当对应于感兴趣的个搜氏体实体,如sales或customer。换言之,最低层应当是对于分析可用的或有用的。最高抽象的立方体称为顶点方体。对世兆散不同层创建的数据立方体称为方体,因此数据立方体可以看做方体的格。每个较高抽象将进一步减小结果数据的规模。当回答OLAP查询或数据挖掘查询时,应当使用给定任务相关的最小可用方体。
G. 用预处理后的数据训练的模型测试新数据的时候怎么办
1)数据立方体聚集:聚集操作用于数据立方体结构中的数据。数据立方体存储多维聚集信息。
2)属性子集选择,参见文本分类概述中特征选择算法
3)维度归约:使用数据编码或变换,以便得到原数据的归约或“压缩”表示。归约分为无损的和有损的。有效的有损维归约方法为:小波变换和主成分分析
4)数值归约:通过选择替代的、‘较小的’数据表示形式来减少数据量
5)离散化和概念分层产生