[ PROMPT_NODE_27296 ]
statistical_pitfalls
[ SKILL_DOCUMENTATION ]
# 常见统计陷阱
## P值误读
### 陷阱 1:P值 = 假设为真的概率
**误区:** p = .05 意味着零假设为真的概率为 5%。
**事实:** P值是*如果*零假设为真,观察到如此极端(或更极端)数据的概率。它不能说明假设为真的概率。
**正确解读:** “如果确实没有效应,我们只有 5% 的机会观察到如此极端的数据。”
### 陷阱 2:不显著 = 无效应
**误区:** p > .05 证明没有效应。
**事实:** 缺乏证据 ≠ 证据的缺失。不显著的结果可能表明:
- 统计效能不足
- 真实效应太小而无法检测
- 高变异性
- 样本量太小
**更好的方法:**
- 报告置信区间
- 进行效能分析
- 考虑等效性检验
### 陷阱 3:显著 = 重要
**误区:** 统计显著性意味着实际重要性。
**事实:** 在大样本中,微不足道的效应也会变得“显著”。统计上显著的 0.1 IQ 点差异在实践中毫无意义。
**更好的方法:**
- 报告效应量
- 考虑实际显著性
- 使用置信区间
### 陷阱 4:P = .049 vs. P = .051
**误区:** 因为一个跨越了 .05 的阈值,所以它们有显著差异。
**事实:** 它们代表了几乎相同的证据。.05 的阈值是武断的。
**更好的方法:**
- 将 P 值视为连续的证据度量
- 报告精确的 P 值
- 考虑背景和先验证据
### 陷阱 5:无正当理由的单侧检验
**误区:** 单侧检验是免费的额外效能。
**事实:** 单侧检验假设效应只能朝一个方向发展,这很少成立。它们通常被用来人为地提高显著性。
**适用情况:** 仅当理论上不可能出现另一方向的效应或等同于零时。
## 多重比较问题
### 陷阱 6:未经校正的多重检验
**问题:** 在 p < .05 下检验 20 个假设,至少出现一个假阳性的概率约为 65%。
**示例:**
- 检验多个结果
- 检验多个亚组
- 进行多次中期分析
- 在多个时间点进行检验
**解决方案:**
- Bonferroni 校正(将 α 除以检验次数)
- 错误发现率 (FDR) 控制
- 预先指定主要结果
- 将探索性分析视为假设生成