点二列相关教程
一、点二列相关的定义
点二列相关是一种统计方法,用于衡量两个变量之间的相关程度。在这种相关分析中,一个变量是正态连续性变量,取值可以是连续的数值,比如身高、体重、考试分数等;另一个是真正的二分名义变量,其两个类别是天然存在、相互独立的,不能再细分,像性别(男/女)、是否吸烟(是/否)、抛硬币的结果(正面/反面)等。
二、适用场景
点二列相关常用于研究天然二分变量与连续变量之间的关系。例如在教育领域,分析学生的性别(二分变量)与学习成绩(连续变量)之间的联系,看男生和女生在成绩上是否存在差异;在医学研究中,探讨患者是否患病(二分变量)与某项生理指标数值(连续变量)的相关性,以辅助疾病诊断和研究;在市场调研里,了解消费者是否购买某产品(二分变量)和他们的收入水平(连续变量)之间的关系,为营销策略提供参考。
三、计算公式解读
点二列相关系数的计算公式为 R = X ‾ p − X ‾ q σ × p q R \ = \frac{\overline{X}_{p} - \overline{X}_{q}}{\sigma}×\sqrt{pq} R =σXp−Xq×pq,公式中各参数含义如下:
- p p p和 q q q: p p p表示二分变量中某一类别频数的比率, q q q表示二分变量中另一类别频数的比率,并且 p + q = 1 p + q \ = 1 p+q =1。比如在研究性别的例子中,如果男生人数占总人数的 40 % 40\% 40%,那么 p = 0.4 p \ = 0.4 p =0.4, q = 1 − 0.4 = 0.6 q \ = 1 - 0.4 \ = 0.6 q =1−0.4 =0.6。
- X ‾ p \overline{X}_{p} Xp和 X ‾ q \overline{X}_{q} Xq: X ‾ p \overline{X}_{p} Xp是与二分变量中 p p p类别相对应的连续变量的平均数; X ‾ q \overline{X}_{q} Xq是与二分变量中 q q q类别相对应的连续变量的平均数。例如, X ‾ p \overline{X}_{p} Xp可以是男生的平均考试成绩, X ‾ q \overline{X}_{q} Xq是女生的平均考试成绩。
- σ \sigma σ:表示连续变量的标准差,它衡量的是连续变量的离散程度,也就是数据的分散情况。标准差越大,说明数据越分散;标准差越小,数据越集中。
点二列相关系数 R R R的取值范围在 − 1 -1 −1到 1 1 1之间。当 R R R接近 1 1 1时,意味着两个变量之间存在很强的正相关关系,即随着二分变量中某一类别的出现,连续变量的值倾向于增大;当 R R R接近 − 1 -1 −1时,表明存在很强的负相关关系,即随着二分变量中某一类别的出现,连续变量的值倾向于减小;当 R R R接近 0 0 0时,则表示两个变量之间的相关性很弱,几乎没有关联。
四、计算步骤实例
假设我们要研究某学校学生是否住校(二分变量)与英语成绩(连续变量)之间的关系,具体步骤如下:
(一)数据收集
随机选取该校80名学生作为样本,记录他们是否住校(住校记为1,不住校记为0 )以及英语考试成绩(满分100分)。经检验,英语成绩这一连续变量近似正态分布。
(二)数据整理与参数计算
- 统计发现住校的学生有30人,不住校的学生有50人。则 p = 30 80 = 0.375 p\ =\frac{30}{80}\ =0.375 p =8030 =0.375, q = 1 − 0.375 = 0.625 q \ = 1 - 0.375 \ = 0.625 q =1−0.375 =0.625。
- 计算住校学生的英语平均成绩 X ‾ p \overline{X}_{p} Xp,假设为80分;不住校学生的英语平均成绩 X ‾ q \overline{X}_{q} Xq,假设为70分。
- 计算这80名学生英语成绩的标准差 σ \sigma σ,假设为12分。
(三)计算点二列相关系数 R R R
将上述值代入公式
R
=
X
‾
p
−
X
‾
q
σ
×
p
q
R \ = \frac{\overline{X}_{p} - \overline{X}_{q}}{\sigma}×\sqrt{pq}
R =σXp−Xq×pq可得:
R
=
80
−
70
12
×
0.375
×
0.625
=
10
12
×
0.234375
≈
10
12
×
0.484
≈
0.40
\begin{align*} R&\ =\frac{80 - 70}{12}×\sqrt{0.375×0.625}\\ &\ =\frac{10}{12}×\sqrt{0.234375}\\ &\approx\frac{10}{12}×0.484\\ &\approx0.40 \end{align*}
R =1280−70×0.375×0.625 =1210×0.234375≈1210×0.484≈0.40
(四)结果分析
计算出的点二列相关系数约为 0.40 0.40 0.40,说明在这个样本中,学生是否住校与英语成绩之间存在一定的正相关关系,即住校学生的英语成绩相对较高。但相关系数并不是特别高,意味着是否住校虽然对英语成绩有影响,但可能不是唯一的决定因素。
五、注意事项
- 变量性质:务必确保一个变量是真正的二分名义变量,另一个是正态连续变量,否则点二列相关可能不适用。
- 样本代表性:样本要具有足够的代表性,样本容量不能过小,这样计算出的相关系数才更可靠,一般建议样本量在30以上。
- 相关与因果:点二列相关系数只能表明两个变量之间的关联程度,不能直接说明它们之间存在因果关系。比如前面例子中发现住校和英语成绩相关,但不能就此认定住校是英语成绩好的原因。