Practical Statistics for Fuzzing
Fuzzing 实验中会涉及一些统计学的理论知识, 本文从基本的概念到实用理论公式等进行总结.
Hypothesis Testing
假设检验 (Hypothesis Testing) 是统计学中用于判断样本数据是否支持某一假设的统计方法. 它的目的是通过样本数据来评估某个假设是否成立, 比如样本分布是否符合正态分布.
假设检验包括两个对立的假设
- 零假设 (Null Hypothesis, ): 通常表示没有效应或没有差异, 或者现象是偶然发生的, 期望通过检验来证伪
- 备择假设 (Alternative Hypothesis, ): 通常表示有某种效应或差异, 或期望验证某种新的关系
要检验假设, 需要选择合适的检验方法, 例如: t检验、卡方检验、Mann–Whitney U 检验等. 并选择显著性水平 , 比如 0.05, 当 p 值小于 时拒绝零假设, 否则接受零假设.
P-Value
p 值 (p-value) 是统计学中用于衡量样本数据与零假设 (null hypothesis) 相符程度的指标.
p 值表示在零假设成立的情况下, 观察到当前样本数据或比其更极端的结果的概率. p 值越小, 意味着数据与零假设越不一致. (注意: p 值并不是零假设成立的概率: 它表示在零假设成立的情况下, 观测到某个统计量值或更极端结果的概率).
形式地, 进行一次假设检验, 其中零假设为 : 样本符合 t 分布, 备择假设为 : 样本不符合 t 分布. 设有一个统计量 t, 该统计量基于样本数据计算得出, 并假设其分布已知. 设基于样本数据计算的检验统计量为 , 假设零假设 成立, 并根据零假设的分布推断出检验统计量的分布 T, 计算 p 值的公式 (右尾检验, 如果是双尾检验则是比较绝对值 ), 如下
Vargha-Delaney effect size
Vargha-Delaney effect size 是一种非参数效应量度量, 用于比较两个独立样本的效应大小. 公式如下
其中, 是 Mann–Whitney U 检验的秩和 (rank sum), 和 分别是两组样本的大小 (组 1 和组 2 的样本数).
结果的解释
- : 两组数据没有显著差异
- : 组 1 优于组 2
- : 组 1 劣于组 2
科学家们普遍推荐在推断性检验中报告效应量 (effect size), 主要目的有
- 提供效应的实际意义: p 值只能体现结果的显著性, 响应量则反映结果的重要性
- 跨研究的比较: 不同的研究可能使用不同的样本量和方法, 报告效应量能够标准化结果
- 提高研究的可重复性: 其他研究者可以通过效应量来验证和比较自己的研究结果, 从而判断一个发现是否具有可靠性和一致性
Mann–Whitney U Test
Mann–Whitney U test, 同时也称为 Wilcoxon rank-sum test, 是一种非参数统计检验方法 (nonparametric statistical test), 用于比较两个独立样本是否来自相同分布. 常用于替代独立样本 t 检验 (当数据不满足 t 检验的前提时).
前提条件: 1.两组样本相互独立; 2.组内数据观测值独立; 3.数据有序, 可比大小; 4.样本来自相同分布
零假设 : 两组数据的分布相同
备择假设 : 两组数据的分布不同
设数据组 样本为 , 数据组 样本为 . 秩和 (rank sum) 法计算统计量
- 合并所有数据, 排序并赋予每个样本秩
- 计算数据组 的秩和 , 数据组 的秩和
- 计算两组的统计量
Reference
[1] David S. Moore, George P. McCabe, Bruce Craig-Introduction to the Practice of Statistics (6th Edition) - W. H. Freeman
[2] https://en.wikipedia.org/wiki/Mann%E2%80%93Whitney_U_test
[3] Nonparametric Statistical Methods (3rd Edition) - Myles Hollander & Douglas A. Wolfe