数据分析方法（机器学习）

不断更新中……

前言
线性回归于逻辑回归
聚类分析
K近邻算法（KNN）
向量支持机SVN
随机森林分析（以弱博强–集成学习）

前言

一些常见的数据分析方法的总结归纳

优质网站分享

数据科学分析平台

线性回归于逻辑回归

聚类分析

划分式聚类

k-means

k-means++

bi-kmeans

层次聚类（类决策树）

密度聚类

K近邻算法（KNN）

向量支持机SVN

随机森林分析（以弱博强–集成学习）

Adaboost（自适应增强算法）

GAN生成对抗网络

潜变量模型

外显变量与潜变量区分

潜变量：通过数据加和等统计分析后的变量

外显变量：直接使用的原始数据变量

分类

	类别外显变量	连续外显变量
类别潜变量	潜在类别分析（LCA）	潜在剖面分析（LPA）
连续潜变量	潜在特质分析/项目反应理论	因素分析

潜在剖面分析（LPA）/潜在类别分析（LCA）

使用情景（使用限制）

一般用于横断面研究，仅旨在得到分类结果

结构方程模型SEM（路径分析+测量关系）

原理

结构方程模型(Structural Equation Modeling，SEM)是基于变量的协方差矩阵来分析变量之间关系的一种统计方法。

通过这种方法，我们既可以探讨因变量受哪几个自变量的影响，也可以探讨一个自变量通过什么途径影响到因变量，还可以探讨在不同情境下，自变量对因变量的影响有何不同等多种复杂关系。

即探讨因变量收多种变量的影响以及其影响途径

优势

1.SEM擅长处理潜变量问题，如动机、态度等研究问题，使研究更科学、客观、准确;

2.SEM可以进行验证性因素分析，这种分析是检验量表信效度的高级统计技术;

3.SEM可以高效、快速揭示因变量与自变量之间复杂的关系，更受学者欢迎。SEM是目前量化论文的最主流统计方法之一，更受国内外顶级期刊青睐。

变量及模型分类

三种变量:潜在变量、显性变量(也叫测量变量)和残差变量。

(1) 潜在变量

潜在变量(latent variable)又称无法观测的变量(unobserved variables)

(2) 观测变量
观测变量又称显性变量(manifest variables)、指标变量(indicator variables)或可测量变量(measured variables)，研究者可以直接观察或者直接测量获得获得的数据可以转化为量化数据，外因潜在变量的指标变量以符号“X”表示;而内因潜在变量的指标变量以符号“Y”表示。其图形通常以正方形或长方形表示

(3)残差变异项
内因潜在变量无法被模型中外因潜在变量解释的变异量，即结构方程模型中的随机变异部分，以希腊字母ζ表示

两个基本模型:测量模型(measurement model)与结构模型(structural model)。

(1) 测量模型
测量模型由潜在变量(latent variable)和观测变量(observed variable)组成。

(2) 结构模型
结构模型是潜在变量间因果关系模型的说明，作为因的潜在变量即称为外因潜在变量，以符号乏表示，作为果的潜在变量即称为内因潜在变量，以符号n表示。

权重分析

主观赋权法

1、AHP:主观打分数据求权重（需要矩阵分析与一致性检验）
2、优序图法:相关重要性，数字越大，权重越高。（不需要矩阵分析）
3、G1法:改进的AHP法，主观数据求权重。

层次分析法（AHP）

数据:主观数据，比如专家打分等。
原理:利用数据相对重要性，数据越大，权重越大。
数据格式:数据格式比较特殊，需要整理成判断矩阵进行分析。
操作:python、yaahp、spssau、excel等。
结论:对结果进行分析与决策。

优序图法

数据:主观数据，比如专家打分等。
原理:利用数据相对重要性，数据越大，权重越大与AHP一致。
数据格式**:一行为一个样本一列为一个属性**。
操作:python、spssau、excel等。
结论:对结果进行分析与决策。

G1法（改良AHP）

数据:主观数据，比如专家打分等，修正的AHP法。
原理:利用数据相对重要性，数据越大，权重越大与AHP一致。
计算步骤:

客观赋权法

1、熵值法:最常用的客观赋权法，利用信息量大小求权。
2、主成分/因子分析:客观赋权法，利用信息浓缩原理。
3、变异系数法:也叫信息量权重法。利用数据的波动性原理求权。
4、相关系数法:也叫独立性权重。利用数据间的相关系数求权。
5、CRITIC法:利用数据的波动性和相关性进行求权。

熵值法

数据:客观数据，如统计年鉴搜集的数据。
原理:利用数据的熵(信息量)求权重，熵值越大，信息量越小，权重越小，反之越大
数据格式:一行为一个样本一列为一个属性。
操作:python、spssau、excel等。
结论:对结果进行分析与决策。

主成分法/因子分析法

数据:客观数据，如统计年鉴搜集的数据。
原理:利用数据的信息浓缩原理求权重，通过方差解释率求权。
数据格式:一行为一个样本一列为一个属性。
操作:python、spssau、excel
结论:对结果进行分析与决策。

变异系数法

数据:客观数据，如统计年鉴搜集的数据。
原理:利用数据的波动性原理计算权重，其计算指数为变异系数，变异系数越大，权重越大。
数据格式:一行为一个样本一列为一个属性。
操作:python、spssau、excel等。
结论:对结果进行分析与决策。

CRITIC权重

数据:客观数据，如统计年鉴搜集的数据。
原理:利用数据间的相关性和变异系数求权重，相关系数越大，权重越小，反之越大变异系数越大，权重越大，反之越小。
数据格式:一行为一个样本一列为一个属性。
操作:python、spssau、excel等。
结论:对结果进行分析与决策。

组合赋权法

1、加法组合:权重相加求和后除以使用权重方法数:
2、乘法组合:将属性的权重相乘在归一化;
3、极差最大化:可点击主页进行查看。

整体的分析步骤

1、计算主观权重;
2、计算客观权重;
3、一致性检验;
4、确定线性组合;
5、计算组合权重;

Overlord Blog