现在的位置: 首页 > 大数据 > 数据挖掘 > 正文

数据分析及建模

2016年05月24日 数据挖掘 ⁄ 共 3321字 ⁄ 字号 暂无评论

版权说明:内容来自互联网及书籍



一、主成分分析PCA

1. 基本思想

主成分分析是一类常用的针对连续变量的降维方法,选取能够最大化解释数据变异的成分,将数据从高维降到低维,同时保证各个维度之间正交

主成分分析的具体方法是对变量的协方差矩阵或相关系数矩阵求取特征值和特征向量,经证明,对应最大特征值的特征向量,其方向正是协方差矩阵变异最大的方向,依次类推,第二大特征值对应的特征向量,是与第一个特征向量正交且能最大程度解释数据剩余变异的方向,而每个特征值则能够衡量各方向上变异的程度。因此,进行主成分分析时,选取最大的几个特征值对应的特征向量,并将数据映射在这几个特征向量组成的参考系中,达到降维的目的(选择的特征向量数量低于原始数据的维数)。


当分析中所选的变量具有不同的量纲,且差别比较大的情况下,应选择相关系数矩阵进行主成分分析。

主成分分析适用于变量之间具有相关关系,变量在三维空间中呈现椭球形分布。多变量之间有显著的强线性相关,表明主成分分析是有意义的。


2.主成分的计算公式



3.散点图解



原始数据可以使用原坐标系中的向量来表示,协方差矩阵的特征向量为A
B,由于A方向的变异远大于B方向,因此,将所有点映射到
A
上,并使用 A
作为参考系来᧿述数据,
这样忽略了数据在B
方向上的变异,但却将二维的数据降低到了一维。


4.
主成分分析的步骤





5. 选择主成分个数

主成分分析的目的是简化变量,一遍保留的主成分应该小于原始变量的个数。根据主成分分析的目的,个数选取的方法是有区别的。
具体保留几个主成分,应该遵循两个原则(两个原则同时使用,可只考虑一个):
1. 单个主成分解释的变异不应该小于1(特征根值布小于1)
2. 选取的主成分的累计变异应该达到80% ~ 90%(累计特征根值占总特征根值80%以上)

6. 应用场景

主成分法的应用大致分为三个方面:
1、对数据做综合打分;
2、 降维以便对数据进行描述;3、为聚类或回归等分析提供变量压缩。在应用时要能够判断主成分法的适用性,能够根据需求选取合适的主成分数量。


二、因子分析

1. 基本思想

主成分分析时一般情况下不能对主成分所代表含义进行业务上的解读,因为主成分方向上一般不会恰好某些变量权重大,而另外一些变量权重都小,这也表现在主成分权重的形成的散点图会偏离坐标轴。 如果可以将主成分的坐标轴进行旋转,使一些变量的权重的绝对值在一个主成分上达到最大,而在其他主成分上绝对值最小,这样就达到了变量分类的目的。对应地,这种维度分析方法被称为因子分析。
因子分析是一类常用的连续变量降维并进行维度分析的方法,其经常采用主成分法作为其因子载荷矩阵的估计方法,在特征向量方向上,使用特征值的平方根进行加权,最后通过因子旋转,使得变量的权重在不同因子上更加两极分化。常用最大方差法进行因子旋转,这种方法是一种正交旋转。


2. 正交旋转因子模型

3. 因子分析的一般步骤

4. 因子载荷矩阵的估计

一般使用主成分分析方法。选择合适的因子数量,这一步需要主成分分析的结果,因子个数的确定标准比主成分分析宽,比如,特征根大于0.7就可以考虑保留。

5. 因子旋转

旋转的目的是使因子负荷两级分化,要么接近0,要么接近-1或1,这样易于对因子做出解释。
分为:正交旋转和斜交旋转。
正交旋转,因子间的信息不会重叠。最常用的是最大方差旋转,是一种正交旋转,目的是使载荷平方的方差最大化。

6. 因子分析的应用

因子分析通主成分分析类似,适用于变量之间存在较强的线性关系的情况,能够综合出几项反映变量共同特别的指标。最简单的方法就是计算变量的相关系数矩阵,要是大部分相关系数值小于0.3,就不适用因子分析。还有一些检验方法,如巴特利特球形检验,KMO检验等。
因子分析作为维度分析的手段,是构造合理的聚类模型和稳健的分类模型的必然步骤,用于降低解释变量共线性带来的模型不稳定性。

三、聚类分析

聚类分析是一种分类的多元统计分析方法。按照个体或样品的特征将它们分类,使同一类别内的个体具有尽可能高的同质性(homogeneity),而类别之间则应具有尽可能高的异质性。

1.聚类分析的基本逻辑

聚类分析的基本逻辑是计算观测值之间的距离或者相似度。距离较小、相似度较高,按照相似度进行分组。

具体可以分为三个步骤:

1. 从N个观测和K个熟悉数据开始;

2. 计算N个观测两两之间的距离;

3. 将距离近的观测聚为一类,将距离远的分为不同的类,最终达到组间的距离最大化,组内的距离最小化。

2.聚类分析的方法种类

系统聚类法(层次聚类):该方法可以得到较理想的分类,但是难以处理大量样本。

K-means聚类(非层次聚类、快速聚类):可以处理大量样本,但是不能提供类相似度信息,不能交互的决定聚类个数。

两步法聚类(先使用K-means聚类,后使用层次聚类)

3. 系统聚类

系统聚类,也就是层次聚类,指的是形成类相似度层次图谱,便于直观的确定类之间的划分。 其基本思想在于令 n 个样本自成一类,计算其两两之间的相似性,此时类间距离与样本间距离是等价的。把测度最小的两个类合并, 然后按照某种聚类方法计算类间的距离,再按最小距离准则并类。这样每次减少一类,持续下去, 直到所有样本都归为一类为止。 该方法可以得到较理想的分类,但是难以处理大量样本。

1. 基本步骤

(1)对数据进行变换处理;(不是必须的,当数量级相差很大或指标变量具有不同单位时是必要的)

(2)构造n个类,每个类只包含一个样本;

(3)计算n个样本两两间的距离;

(4)合并距离最近的两类为一新类;

(5)计算新类与当前各类的距离,若类的个数等于1,转到6;否则回4;

(6)画聚类图;

(7)决定类的个数,从而得出分类结果。

2. 数据预处理

不同要素的数据往往具有不同的单位和量纲,其数值的变异可能是很大的,这就会对分类结果产生影响,因此当分类要素的对象确定之后,在进行聚类分析之前,首先要对连续变量进行处理。

在聚类分析中,常用的聚类要素的数据处理方法有如下几种:

①Z soroes标准化

②标准差标准化

③正态标准化

经过这种标准化所得的新数据,各要素的极大值为1,极小值为0,其余的数值均在0与1之间。

为了得到合理的聚类结果,不但要对数据进行标准化,还要对变量进行维度分析。一般采用因子分析进行维度分析,根据样本的特征选择因子转换的方法,对观测数据进行处理,并在保存的因子结果上进行聚类分析。

如果变量呈偏态分布,可以对数据进行函数变换来克服偏态性,如对数变换。

3.观测点间距离的计算

在聚类时的一个重要问题是定义样本距离,一般使用欧式距离或闵可夫斯基距离,闵可夫斯基距离公式如下:

4. 观测类间聚类的计算

另一个重要为题是定义两个类之间的距离,方法包括平均联接法、重心法和 Ward 最小方差法。

(1)平均连接法又称全连接法,即将一类的所有观测值与另一类的所有观测值分别做两两之间的距离,求所有距离的平均值作为类间距离:

(2)重心法计算的是观测类各自重心之间的距离:

(3)Ward 最小方差法: 基于方差分析的思想,如果分类合理,则同类样本间离差平方和应当较小,类与类间离差平方和应当较大。 Ward 最小方差法并类时, 总是使并类导致的类内离差平方和增量最小。因此,该方法很少受到异常值的影响,在实际应用中的分类效果较好,适用范围广。但该方法要求样品间的距离必须是欧氏距离。

4. K-means聚类

K-means 聚类是一种快速聚类法,适合应用于大样本量的数据。其方法可以总结为: 首先随机选择 K 个点作为中心点,所有样本与这 K 个中心点计算距离,距离最近的样本被归为与中心点同类的点,然后重新计算每个类的中心,再次计算每个样本与类中心的距离,并按照最短距离原则重新划分类,如此迭代直至类不再变化为止。该方法的优点是计算速度快,可用于样本量较大的数据,缺点是需要人为设定聚类的数量 K,同时其初始点的不同选择可能会形成不同的聚类结果,因此常常使用多次选择初始中心点,并对最终的多个聚类结果取平均的方法来构建稳定的模型。

1. 基本步骤

(1)设定K值,确定聚类数(软件随机分配聚类中心所需的种子)。

(2)计算每个记录到类中心的距离(欧式聚类),并分成K类。

(3)然后把K类中心(均值)作为新的中心,重新计算距离。

(4)迭代到收敛标准停止。