计数原理
分类加法与分步乘法
分类加法计数原理:完成一件事有两类不同方案,在第1类方案中有 \(m\) 种不同的方法,在第2类方案中有 \(n\) 种不同的方法,那么完成这件事共有 \(N = m + n\) 种不同的方法。推广:如果完成一件事有 \(n\) 类不同方案,每类方案中分别有 \(m_1, m_2, \ldots, m_n\) 种方法,则完成这件事共有 \(N = m_1 + m_2 + \cdots + m_n\) 种方法。
分步乘法计数原理:完成一件事需要两个步骤,做第1步有 \(m\) 种不同的方法,做第2步有 \(n\) 种不同的方法,那么完成这件事共有 \(N = m \times n\) 种不同的方法。推广:如果完成一件事需要 \(n\) 个步骤,做每一步分别有 \(m_1, m_2, \ldots, m_n\) 种方法,则完成这件事共有 \(N = m_1 \times m_2 \times \cdots \times m_n\) 种方法。
两个原理的区别:分类加法与分类有关,各类方法相互独立,用任何一类方法都能单独完成;分步乘法与分步有关,各个步骤相互依存,只有各个步骤都完成,这件事才算完成[citation:6][citation:8]。
排列与组合
排列的定义:从 \(n\) 个不同元素中取出 \(m(m \leq n)\) 个元素,按照一定的顺序排成一列,叫做从 \(n\) 个不同元素中取出 \(m\) 个元素的一个排列。
组合的定义:从 \(n\) 个不同元素中取出 \(m(m \leq n)\) 个元素作为一组,叫做从 \(n\) 个不同元素中取出 \(m\) 个元素的一个组合。
排列与组合的区别:排列与元素的顺序有关,组合与元素的顺序无关[citation:8]。
排列数与组合数
排列数公式:\(\mathrm{A}_n^m = n(n-1)(n-2)\cdots(n-m+1) = \dfrac{n!}{(n-m)!}\),其中 \(n,m \in \mathbb{N}^*\),且 \(m \leq n\)。规定 \(0! = 1\)。
全排列:\(\mathrm{A}_n^n = n!\)。
组合数公式:\(\mathrm{C}_n^m = \dfrac{\mathrm{A}_n^m}{\mathrm{A}_m^m} = \dfrac{n(n-1)(n-2)\cdots(n-m+1)}{m!} = \dfrac{n!}{m!(n-m)!}\),其中 \(n,m \in \mathbb{N}^*\),且 \(m \leq n\)。
组合数的性质:
① \(\mathrm{C}_n^m = \mathrm{C}_n^{n-m}\);
② \(\mathrm{C}_{n+1}^m = \mathrm{C}_n^m + \mathrm{C}_n^{m-1}\)[citation:8]。
二项式定理
二项式定理:\((a + b)^n = \mathrm{C}_n^0 a^n + \mathrm{C}_n^1 a^{n-1}b + \mathrm{C}_n^2 a^{n-2}b^2 + \cdots + \mathrm{C}_n^k a^{n-k}b^k + \cdots + \mathrm{C}_n^n b^n\),其中 \(n \in \mathbb{N}^*\)。
通项公式:展开式中的第 \(k+1\) 项为 \(T_{k+1} = \mathrm{C}_n^k a^{n-k} b^k\)。
二项式系数:\(\mathrm{C}_n^k\)(\(k = 0,1,2,\ldots,n\))叫做二项式系数[citation:8]。
二项式系数的性质
对称性:与首末两端“等距离”的两个二项式系数相等,即 \(\mathrm{C}_n^m = \mathrm{C}_n^{n-m}\)。
增减性与最大值:当 \(k < \frac{n+1}{2}\) 时,二项式系数逐渐增大;当 \(k > \frac{n+1}{2}\) 时,二项式系数逐渐减小。当 \(n\) 为偶数时,中间一项(第 \(\frac{n}{2}+1\) 项)的二项式系数 \(\mathrm{C}_n^{\frac{n}{2}}\) 最大;当 \(n\) 为奇数时,中间两项(第 \(\frac{n+1}{2}\) 项和第 \(\frac{n+3}{2}\) 项)的二项式系数 \(\mathrm{C}_n^{\frac{n-1}{2}}\) 和 \(\mathrm{C}_n^{\frac{n+1}{2}}\) 相等且最大。
各二项式系数的和:\(\mathrm{C}_n^0 + \mathrm{C}_n^1 + \mathrm{C}_n^2 + \cdots + \mathrm{C}_n^n = 2^n\)。
奇数项与偶数项的二项式系数和:\(\mathrm{C}_n^0 + \mathrm{C}_n^2 + \mathrm{C}_n^4 + \cdots = \mathrm{C}_n^1 + \mathrm{C}_n^3 + \mathrm{C}_n^5 + \cdots = 2^{n-1}\)[citation:8]。
随机变量及其分布
条件概率与全概率公式
条件概率:设 \(A, B\) 为两个事件,且 \(P(A) > 0\),则称 \(P(B|A) = \dfrac{P(AB)}{P(A)}\) 为在事件 \(A\) 发生的条件下事件 \(B\) 发生的条件概率。
乘法公式:\(P(AB) = P(A)P(B|A)\)。
全概率公式:若事件 \(A_1, A_2, \ldots, A_n\) 两两互斥,且 \(A_1 \cup A_2 \cup \cdots \cup A_n = \Omega\),\(P(A_i) > 0\),则对任一事件 \(B\),有 \(P(B) = \sum_{i=1}^n P(A_i)P(B|A_i)\)。
贝叶斯公式:\(P(A_i|B) = \dfrac{P(A_i)P(B|A_i)}{\sum_{j=1}^n P(A_j)P(B|A_j)}\)[citation:6]。
离散型随机变量及其分布列
随机变量:随着试验结果变化而变化的变量,常用字母 \(X, Y, \xi, \eta\) 等表示。
离散型随机变量:所有取值可以一一列出的随机变量。
分布列:若离散型随机变量 \(X\) 可能取的不同值为 \(x_1, x_2, \ldots, x_i, \ldots, x_n\),\(X\) 取每一个值 \(x_i\) 的概率 \(P(X = x_i) = p_i\),则称表
\[
\begin{array}{c|ccccc}
X & x_1 & x_2 & \cdots & x_i & \cdots & x_n \\
\hline
P & p_1 & p_2 & \cdots & p_i & \cdots & p_n
\end{array}
\]
为离散型随机变量 \(X\) 的概率分布列,简称为 \(X\) 的分布列。
性质:\(p_i \geq 0\);\(\sum_{i=1}^n p_i = 1\)[citation:3][citation:6]。
数字特征(期望与方差)
均值(数学期望):\(E(X) = x_1 p_1 + x_2 p_2 + \cdots + x_i p_i + \cdots + x_n p_n = \sum_{i=1}^n x_i p_i\)。它反映了离散型随机变量取值的平均水平。
方差:\(D(X) = \sum_{i=1}^n (x_i - E(X))^2 p_i\)。它刻画了随机变量 \(X\) 与其均值 \(E(X)\) 的平均偏离程度,\(D(X)\) 越小,\(X\) 的取值越集中。
标准差:\(\sqrt{D(X)}\)。
性质:\(E(aX + b) = aE(X) + b\);\(D(aX + b) = a^2 D(X)\)[citation:3][citation:9]。
二项分布
n 重伯努利试验:在相同条件下重复进行的 \(n\) 次相互独立的试验,每次试验只有两种可能结果(成功或失败),且每次试验中成功的概率 \(p\) 保持不变。
二项分布:若随机变量 \(X\) 表示 \(n\) 重伯努利试验中成功的次数,则 \(X\) 的分布列为 \(P(X = k) = \mathrm{C}_n^k p^k (1-p)^{n-k}\),\(k = 0,1,2,\ldots,n\)。记作 \(X \sim B(n, p)\)。
期望与方差:\(E(X) = np\),\(D(X) = np(1-p)\)[citation:6][citation:9]。
超几何分布
定义:在含有 \(M\) 件次品的 \(N\) 件产品中,任取 \(n\) 件,其中恰有 \(X\) 件次品,则事件 \(\{X = k\}\) 发生的概率为 \(P(X = k) = \dfrac{\mathrm{C}_M^k \mathrm{C}_{N-M}^{n-k}}{\mathrm{C}_N^n}\),\(k = m, m+1, \ldots, r\),其中 \(m = \max\{0, n - (N-M)\}\),\(r = \min\{n, M\}\)。称随机变量 \(X\) 服从超几何分布。
期望:\(E(X) = n \cdot \dfrac{M}{N}\)[citation:6]。
正态分布
正态曲线:函数 \(\varphi_{\mu,\sigma}(x) = \dfrac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(x-\mu)^2}{2\sigma^2}}\),\(x \in \mathbb{R}\)(其中 \(\mu\) 是均值,\(\sigma\) 是标准差)的图象称为正态分布密度曲线,简称正态曲线。
正态分布:如果随机变量 \(X\) 的概率密度函数为上述函数,则称 \(X\) 服从参数为 \(\mu, \sigma\) 的正态分布,记作 \(X \sim N(\mu, \sigma^2)\)。
正态曲线的特点:曲线位于 \(x\) 轴上方,与 \(x\) 轴不相交;曲线是单峰的,关于直线 \(x = \mu\) 对称;曲线在 \(x = \mu\) 处达到峰值 \(\frac{1}{\sqrt{2\pi}\sigma}\);曲线与 \(x\) 轴之间的面积为 \(1\);当 \(\sigma\) 一定时,曲线随 \(\mu\) 的变化沿 \(x\) 轴平移;当 \(\mu\) 一定时,\(\sigma\) 越小,曲线越“瘦高”,表示总体的分布越集中,\(\sigma\) 越大,曲线越“矮胖”,表示总体的分布越分散。
3\(\sigma\) 原则:\(P(\mu - \sigma < X \leq \mu + \sigma) \approx 0.6827\);\(P(\mu - 2\sigma < X \leq \mu + 2\sigma) \approx 0.9545\);\(P(\mu - 3\sigma < X \leq \mu + 3\sigma) \approx 0.9973\)[citation:6][citation:9]。
成对数据的统计分析
变量的相关关系
相关关系:两个变量之间有一定的关系,但不是确定的函数关系,这种关系称为相关关系。
散点图:将成对数据用直角坐标系中的点表示出来,得到的图形称为散点图。散点图可以直观地判断两个变量是否具有相关关系。
正相关与负相关:如果一个变量的值由小变大时,另一个变量的值也由小变大,这种相关称为正相关;如果一个变量的值由小变大时,另一个变量的值由大变小,这种相关称为负相关[citation:4][citation:6]。
样本相关系数
相关系数 r:用于度量两个变量之间线性相关程度的量,计算公式为 \[ r = \frac{\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^n (x_i - \bar{x})^2 \sum_{i=1}^n (y_i - \bar{y})^2}} \] 性质:\(r \in [-1, 1]\)。当 \(r > 0\) 时,表明两个变量正相关;当 \(r < 0\) 时,表明两个变量负相关。\(|r|\) 越接近 1,表明两个变量的线性相关性越强;\(|r|\) 越接近 0,表明两个变量的线性相关性越弱。通常当 \(|r| > 0.75\) 时,认为线性相关程度很强[citation:4][citation:10]。
一元线性回归模型
回归直线方程:\(\hat{y} = \hat{b}x + \hat{a}\),其中
\[
\hat{b} = \frac{\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^n (x_i - \bar{x})^2}, \quad \hat{a} = \bar{y} - \hat{b}\bar{x}
\]
求回归直线方程的方法称为最小二乘法。
线性回归模型:\(y = bx + a + e\),其中 \(e\) 为随机误差,它反映了除 \(x\) 和 \(y\) 之间的线性关系之外的随机因素对 \(y\) 的影响[citation:4][citation:10]。
残差分析
残差:\(\hat{e}_i = y_i - \hat{y}_i\),即真实值与估计值的差。
残差图:以残差为纵坐标,以样本编号或自变量为横坐标作的散点图。如果残差点比较均匀地分布在水平带状区域内,说明模型拟合较好。
残差平方和:\(\sum_{i=1}^n (y_i - \hat{y}_i)^2\),残差平方和越小,模型的拟合效果越好。
决定系数 \(R^2\):\(R^2 = 1 - \frac{\sum_{i=1}^n (y_i - \hat{y}_i)^2}{\sum_{i=1}^n (y_i - \bar{y})^2}\)。\(R^2\) 越接近 1,表示模型的拟合效果越好[citation:4][citation:10]。
列联表与独立性检验
2×2 列联表:用于整理两个分类变量数据的表格,形式如下:
\[
\begin{array}{c|cc|c}
& Y = 1 & Y = 0 & \text{合计} \\
\hline
X = 1 & a & b & a+b \\
X = 0 & c & d & c+d \\
\hline
\text{合计} & a+c & b+d & n = a+b+c+d
\end{array}
\]
等高堆积条形图:可以直观地反映两个分类变量之间是否有关联。
独立性检验:利用随机变量 \(\chi^2\) 来推断两个分类变量是否独立。计算公式为
\[
\chi^2 = \frac{n(ad - bc)^2}{(a+b)(c+d)(a+c)(b+d)}
\]
其中 \(n = a+b+c+d\)。
临界值:根据小概率值 \(\alpha\)(如 0.05,0.01,0.001)查表得到临界值 \(x_\alpha\)。如果 \(\chi^2 \geq x_\alpha\),则拒绝原假设(两变量独立),认为两变量有关联,犯错误的概率不超过 \(\alpha\)[citation:4][citation:6][citation:10]。