相关性分析和差异性分析
概念
相关性分析
指的是两个随机变量(或随机向量)之间的(线性)相关性,衡量两个变量之间的关联程度。
差异性分析
比较不同组别之间的差异
相关定义
连续变量
对连续的指标测量所得到的数值
二分类变量
只有两个类别的二分类变量,二分类变量的类别之间没有内在顺序
有序分类变量
两个或者多个已排序的类别
无序分类变量
具有三个及以上类别的分类变量。无序分类变量的类别之间没有内在顺序,也不能像有序分类变量类别那样进行排序
自变量
预测变量或解释变量
因变量
应答变量或结局变量
方法选择
自变量 | 因变量 | 分析方法 |
---|---|---|
连续变量 | 连续变量 | 皮尔逊相关 |
有序分类变量[非定距] | 有序分类变量[非定距] | 斯皮尔曼相关 |
二分类数据 | 定量数据 | T检验 |
多分类数据 | 定量数据 | 方差分析 |
分类变量 | 分类变量 | 卡方分析 |
使用相关性分析的情况
1)只想分析两个变量之间是否存在相关关系,不需要区分自变量和因变量时可用相关性分析。
2)通常在进行回归分析之前,都需要进行相关性分析。
相关性分析的方法
1)变量特性可以通过绘制散点图判断
2)通过计算显著性系数判断是否相关(主要是P值)
3)通过计算相关性系数判断相关性大小(主要是r值)
显著性系数判定方法
P值是用来进行显著性检验的,用来检验变量之间是否具有差异以及差异是否显著。
若P值>0.05代表数据之间不存在显著性差异;若P值<0.05,代表数据之间存在显著性差异。
相关系数判定方法
判定准则
一般可分为三级划分: ∣ r ∣ \left| r \right| ∣r∣<0.4为低线性相关;0.4$ \leq KaTeX parse error: Can't use function '$' in math mode at position 19: …ft | r \right |$̲<0.7为显著性相关;0.7$…\left | r \right |$<1为高度线性相关。
计算方法
Pearson系数:叫皮尔逊相关系数,也叫线性相关系数,用于进行线性相关发内心,是最常用的相关系数,当数据满足正太分布时会使用该系数。
Spearman系数:当数据不满足正态分布,使用该系数。
相关性系数判定方法-Pearson相关系数
用于衡量两个连续变量之间的线性相关程度,基于协方差的概念,通过计算两个变量的协方差除以它们各自的标准层的乘积,得到一个范围在-1到1之间的相关系数。
适用范围
1)两个变量之间是线性关系,都是连续数据。
2)两个变量的总体是正态分布,或接近正态的单峰分布。
3)两个变量的观测值是成对的,每对观测值之间相互独立。
相关性系数判定方法-Spearman秩相关系数
Spearman秩相关系数的计算需要先将原始数据转换为秩次(即按大小排序后的顺序排名),然后再计算秩次之间的Pearson相关系数。用于衡量两个变量之间的单调关系,不要求变量服从正态分布
适用范围
1)两个变量的观测值是成对的等级评定资料
2)由连续变量观测资料转化得到的等级资料
选择基准
Spearman和Pearson使用选择:
1)连续数据,正态分布,线性关系,用Pearson相关系数是最恰当,当然用Spearman相关系数也可以,就是效率没有Pearson相关系数高。
2)上述任一条件不满足,就用Spearman相关系数,不能使用Pearson相关系数。
3)两个定序测量数据之间也用Spearman相关系数,不能用Pearson相关系数。
差异性分析概述
差异性分析是指两组或多组数据进行比较,以确定它们之间在某些变量上的差异或相似性的统计分析方法
常用方法
原理:比较均值/频数
目的:检测科学实验中实验组与对照组之间是否有差异以及差异是否显著的办法。又称[差异性显著检验],是假设检验的一种,判断样本间差异主要是随机误差造成的,还是本质不同。
方法 | 实用场景 | 组别 | 示例 |
---|---|---|---|
T检验 | 研究分类数据和定量数据之间的关系 | 两组样本 | 性别对于满意度的差异程度 |
方差分析 | 研究分类数据和定量数据之间的关系 | 两组或更多组 | 不同学历样本对工作满意度的差异情况 |
卡方分析 | 研究分类数据和分类数据之间的关系 | 性别和是否戴隐形眼镜之间的关系;性别和是否购买理财产品之间的关系; |
T检验
可以用于比较两组数据之间是否来自同一分别(可以用于比较两组数据的区分度)
主要用途:样本均数与总体均数的差异;两样本均数的差异比较
分类 | 实用场景 | 目的 | 示例 |
---|---|---|---|
单样本T校验 | 正态分布;总体方差未知 | 检验单样本的均值与某一已知数(已知总体的均值)是否有显著性差异 | 从某厂生产的零件中随机抽取若干件,检验其某种规格的均值是否与要求的规格相等 |
配对样本T校验 | 总体方差相等;正态分布 | 检验在两次不同条件下来自用一组观察对象的两组样本是否具有相同的均值 | 同一受试对象的自身前后对照(如检验癌症患者术前、术后的某种指标的差异) |
独立双样本T检验 | 两样本独立,服从正态分不分或近似正态 | 检验两对独立的正态数据或近似正态的均值是否相等 | 检验两工厂生产同种零件的规格是否相等 |
方差分析
用于比较三个或三个以上组别的均值是否存在显著差异的统计方法
基于组内变异和组间变异的比较来判断各组均值的差异情况。它将总体方法分解为组间变异和组内变异两部分,然后通过比较这两部分的大小来判断各组均值是否存在显著性差异
分类 | 适用场景 | 目的 | 示例 |
---|---|---|---|
单因素方差分析one-way ANOVA | 所有样本均来自正 | 研究一个控制变量的不同水平是否对观测变量产生和了显著影响 | 检验不同时间记录(早晨,下午和晚上)的睁眼状态下的静息脑电信号平均功率的均值是否相同 |
配对样本T校验two-way ANOVA | 态总体;这些正态 | 研究两个因素(行因素row和列因素column)是否对观测变量产生了显著影响 | 分析氮、磷两种肥料的施用量对水稻产量是否有显著性影响 |
独立双样本T检验multi-way ANOVA | 总体具有相同的方差 | 研究两个因素(行因素row和列因素column)是否对观测变量产生显著影响 |
卡方分析
1)用于比较观察频数与期望频数之间的拟合优度或独立性的统计方法。
2)适用于分类变量的独立性检验和拟合优度检验
3)原理是通过比较观察频数和期望频数之间的差异来判断两个变量之间是否存在关联或拟合程度
显著性分析比较
T校验用于比较两组数据(例如,两个独立样本)的均值是否有显著差异
方差分析(ANOVA)用于比较三组或更多组数据的均值是否有显著差异。它通常用于检验一个或多个独立变量对一个因变量的影响
卡方分析用于检验两个分类变量是否独立。它属于观察频数与期望频数之间的差异来工作,通常用于检验分类数据之间的关联性
每个检验都返一个p值,这个p值可以用来判断观察到的差异是否可能是由随机误差引起的,还是确定存在显著性差异。通常,如果p值小于某个预定的显著性水平(例如0.05),我们就拒绝原假设(即认为数据之间不存在显著性差异的假设),并认为观察到的差异是不显著的。