掘金阅读 ( ) • 2024-04-19 20:20

引言

统计学可以被定义为研究数据的科学，它涉及到数据的收集、分析、解释和呈现。其目标是从数据中提取有意义的信息，并使用这些信息来做出推断与决策。

统计学主要分别以下几个主要领域：

描述性统计：使用图表、图形和其他工具来总结和描述数据的特征。
推断性统计：使用概率论来从样本数据推断总体的特征，包括估计和假设检验。
回归分析：研究变量之间的关系，并预测一个变量基于其他变量的值。

统计学不仅是一门科学，也是一门语言，他使我们能够和数据对话。随着大数据和人工智能的发展，统计学的重要性将进一步增加，因为它是理解和利用这些技术的基础。

第一部分：基本概念

统计学中常见的基本概念包括：

总体：指研究对象的全部个体。

样本：指从总体中选取的一部分个体，通过对样本的研究，可以推断总体的特征。

变量：指可以在不同观测值之间变化的特征或属性，根据变量的类型可分别定性数据和定量数据。比如投骰子时，统计投中1到6每个数值的次数，得到的数据就是定量数据，如果投中1到3认为是“小”，投中4到6认为是“大”，此时得到的数据就是定性数据。

概率：指某个事件发生的可能性的度量，通常表示为0到1之间的数值。

随机变量：变量可以取多个值，因此在统计学中，经常会用到具有概率分布特性的变量，这就是随机变量。（随机变量，只有通过试验才能确认其数值。）随机变量可以是离散的（取有限或可数的值）或连续的（取无限且连续的值）。

置信区间：指的是一个参数可能值的一个范围区间，并指定了这个区间包含真实参数值的置信水平，比如（95%，99%）

常见的统计量包括：

最大值、最小值：最大值、最小值主要用来发现数据的边界，通过计算最大值与最小值的差值，还可以得到数据的极差值，这些都有助于对整体数据的范围有所了解。

平均值(μ) ：平均值反映了一组数据集中趋势的量数，是指一组数据中的所有数据之和再除以这组数据的个数。

例题1：美术组有2名女生，2人平均8岁，3名男生， 3人平均13岁，美术组5人平均多少岁?

美术组2名女生一共：28=16岁，3名男生一共：313=39岁

美术组5人平均年龄 = 总年龄 ÷ 总份数 = (16+39) ÷ 5 = 11岁

例题2：五个数的平均数是8,若把其中的一个数改为20,平均数变为11，这个数原来是多少?

五个数总和 = 8 * 5 = 40

其中一个数改为20后总和 = 11 * 5 = 55

总和相差：15，因此原数 = 5

中位数：指按照顺序排列的一组数据中居于中间位置的数，如果总数是偶数时，正中间会有两个数据，把两个数据相加再除以2就是中位数。中位数同平均数一样，常用来反映一组数据集中趋势情况，与平均数不同的是，中位数不受数据集中极大或极小值的影响，中位数表示所观察的数据集中有一半的数大于它，另一半的数小于它。

例题：找出这组数据：23、29、20、32、23、21、33、25 的中位数。

首先排序：20、21、23、23、25、29、32、33

中位数：(23+25) ÷ 2 = 24

众数：指在一组数据中出现次数最多的数，众数同样是用来反映一组数据集中趋势的情况。

例题：找出这组数据：23、29、20、32、23、21、33、25 的众数。

23出现了2次，其他每一个数字都只出现1次，所以众数是23。

四分位间距：计算公式IQR = Q3 - Q1，Q3表示数据集中75%的数值都小于或等于它的值，Q1表示数据集中25%的数值都小于或等于它的值。二者相减就表示数据集中50%的数据分散程度。四分位间距对异常值相对不敏感，也就是说即使数据集两端存在极端值影响也不大。

例题：计算这组数据：100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115的四分位间距。

Q1：103，Q2：107.5（Q2就是中位数），Q3：112

IQR = Q3 - Q1 = 9

偏差：偏差表现的是在数据集中每个数据偏离平均值的程度，即每个数据与平均值的差值。

例题：计算这组数据：23、29、20、32、23、21、33、25每个数值的偏差

原数：23、29、20、34、23、21、33、25

平均值：26

偏差：-3、3、-6、8、-3、-5、7、-1

方差：用来衡量一组数据的离散程度，偏差是对比每一个数据与平均值的差异，方差是衡量整组数据与平均值的差异情况。

通过平方计算可以使差异更加明显，差异小的会变得更小，差异大的则会更大，比如偏差为0.1，平方后则为0.01，而偏差为10的，平方后则是100。

例题1：计算这组数据：23、29、20、32、23、21、33、25的方差

表示总体方差，X为变量，μ为总体平均值，N为总体个数。

例题2：计算这组样本数据：23、29、20、32、23、21、33、25的样本方差

实际情况中，总体数据很难得到，大多数情况下都是以样本代替总体，而样本方差的计算公式如下：

表示样本方差，X为变量，为样本平均值，n为样本个数。

标准差：方差和标准差都是测算离散趋势的常用指标，标准差是方差算法平方根，因为与变量的计算单位相同，数据看起来更为直观，因此更多时候会使用标准差来进行分析。

总体标准差：

样本标准差：

标准误差：标准误差指的是样本平均值与总体平均值的相对误差。

协方差：协方差是用于衡量两个变量的总体误差，方差表示的一个变量，而协方差表示的两个变量，通过观察两个变量的变化关系来分析其相关程度，一般可以分别：正相关、负相关、不相关。

相关性又可以通过计算相关系数(r)来表示，取值范围是-1~1。正相关程度越高时其值越接近1，反之则越接近-1。

一般而言，根据r的取值，大致可以分为以下5种情况：

r <= -0.6 很强的负相关
0.6 <= r <= -0.2 普通负相关
-0.2 <= r <= 0.2 不相关
0.2 <=r <= 0.6 普通的正相关
r >= 0.6 很强的正相关

例题：根据如下表格，计算两个变量之间的关联程度。

协方差：

相关系数：

表明身高和体重具有很强的正相关性。

第二部分：描述性统计

描述性统计是统计学中用于描述和展示数据集特征的一系列方法。它通常包括数据的收集、整理、分类和呈现，旨在提供对数据集的基本理解。其中图形化展示是描述性统计中非常重要的一部分，它可以帮助我们更直观地理解数据。常见的图形包括：条形图、折线图、饼图、直方图等等。

条形图：主要通过高度或长短来反映数据的多少。

饼图：可以更直观的反映各个数据部分构成的比例情况。

折线图：折线图通常用来表示随时间而变化的连续数据，反映数据在某段时间的变化趋势。

直方图：适用于展示定量数据的频率分布。

图表中的小陷阱

通过图形化能够让数据更为直观的反映出来，但也有小心其中的一些小“陷阱”。

1. 折线的波动

比如下面这张图，实际上是同一组数据集，只有由于两张折线图纵坐标一个是从0值开始的，一个是从970000开始的，就会让人看起来产生了不一样的波动效果。

2. 增长趋势

同样的伎俩，通过调整纵坐标的间距，就可以让蓝线和橘线的增长趋势截然相反。

3. 区间统计

通过调整统计区间，得到不一样的传达效果，左图是来自凤凰新闻，右图来自BBC。虽然两张地图都划了 5 个色块，但 BBC 将确诊病例大于 500 例的省份都赋予最严重的深红色，导致了当时确诊 529 例的重庆和确诊 51986 例的湖北是一样的颜色，很有误导性。而凤凰网的数据划分范围就合理的多，是以 10 的次方为分界线。

4. 非正常比例扩增

下面这张图想表达什么？20是10的2倍，30是10的3倍，图中可不是按照这个比例来表示的。

真是的比例关系看上去应该是这样的

第三部分：推断性统计

推断性统计是统计学的一个重要分支，它允许我们使用样本数据来推断总体的特征。这种推断是通过估计总体参数和测试关于总体的假设来实现的。推断性统计主要包括两个部分：估计和假设检验。

估计

估计是指使用样本数据来推断总体参数（如总体平均值、总体比例或总体方差）的过程。在估计过程中，我们计算样本统计量（如样本平均值、样本比例或样本方差），并使用这些统计量作为总体参数的估计值。估计可以是点估计，也可以是区间估计。

点估计：点估计是指用单个值（通常是样本统计量）来估计总体参数。如果我们想估计一个城市的上班族的平均月收入，我们可能会计算一个随机选择的样本的平均收入，并将其作为总体平均收入的估计。
例如：有三个上班族，他们的月收入分别为：1万、2万、3万，于是我们就通过他们的月收入的平均值计算：（1+2+3）/ 3 = 2万，推断出所有上班族的月收入平均值为2万，2万是一个明确的数值（点），这样的估计方法就被称为点估计。
区间估计：区间估计提供了一个包含总体参数可能值的区间，这个区间与置信水平（如95%）相关。我们可能会说，我们有95%的把握认为总体平均收入位于样本平均收入的一个特定区间内。
例如：用区间估计的方式，最后我们得出的结论会是这样：有95%的情况，平均月收入在0.87万~3.13万之间。
很明显，利用区间估计比点估计更可靠，因为区间估计的正确率是已知的。

区间估计原理

为什么区间估计可以仅凭一个样本，就能推断出总体的平均值和方差的置信区间，并说明其置信度呢？

基本步骤

收集样本数据：从总体中反复抽取多个样本，并计算样本的统计量，包括：样本的平均值、标准差等。
选择置信水平：确定你想要的置信水平，如：95%。
查找临界值：根据置信水平，查找适当的临界值，如果是正太分布，通过使用Z分布，对于其他情况，通常会使用到t分布。
构建置信区间：最后，根据标准差、临界值来构建置信区间，计算公式：

接下来我们可以举一个例子来说明，如果我们要估计一个公司员工的平均年收入，则可以通过如果几步求得。

假设我们随机抽取100名员工作为样本，计算出他们的平均年收入为：50000，并且标准差为：10000，由此可知总体标准差为：
选择95%的置信水平进行区间估计。
查找临界值，我们假设平均年收入满足正太分布，于是采用Z分布，在95%的置信水平时，Z分布的临界值为1.96。
最后根据公式计算出置信区间

接下来的例子还可以让我们通过样本比例来推断总体比例，假设随机调查某地100名30到40岁的男性得出样本的单身率为0.48，据此估计该地全体30到40岁男性单身率。

对于比例的处理其实与平均值估计一样，我们只需要将比例进行量化即可，比如我们可以假设单身为1，非单身为0，那么单身率就是，单身数的总和除以单身与非单身数的总和，这其实也可以看作是其平均值。

假设为1的概率为：r，那么为0的概率则为：1 - r

标准差：
选择95%的置信水平进行区间估计。
最后根据公式计算出置信区间

因此，我们可以说该地30到40岁的男性中，有95%的概率单身率在[0.38，0.57]之间。

根据Z分布推断

Z分布称为标准正太分布，其均值为0，标准差为1，然后我们通过将原始数据转换为Z分数，最终得到原数数据在整体数据中的一个水平。

Z分数的计算公式

其中X是原数数据值，μ是原始数据集的均值，σ是原始数据集的标准差。

接下来我们举一个例子来说明，假设我们有一份学生的考试成绩数据集，均值为70分，标准差为10分。其中一个学生的考试成绩是85分。我们想知道85分大概处于什么样的水平？

Z分数计算：

Z分数1.5就表示，85分大概是比70分高出1.5个标准差，接下来通过查表可以得出1.5就是大概超过了93.332%的学生。

我们再来举一个例子说明，假设某地高校的录取委员会希望录取所有考生中前5%的考生，假设本次考试中平均分数为500分，标准差为100分，那么起码要考到多少分，才能达到该高校的要求。

本题我们只需要将Z分数计算公式进行转换即可

通过查表得知，前5%对应的Z分数大约为1.65

所以，也就是说，至少要考到665以上，才能达到该高校的录入要求。

Z分布表

二项分布

二项分布是统计学中一种重要的离散概率分布，它描述了在一系列独立的、相同的伯努利试验中成功的次数。伯努利试验是指只有两种可能结果（如成功或失败）的随机试验。二项分布的参数是每次试验成功的概率和试验的总次数。

一般地，如果随机变量服从参数为和（每次实验成功的概率）的二项分布，我们记为或。次试验中正好得到次成功的概率由概率质量函数给出：

表示从次实验中选择次成功的方式数。

举个例子： **假设有一个骰子，投掷10次，求恰好有3次投到6的概率？
**成功的概率：投出6，概率为1/6，一共投10次，要得到3次成功

≈ 15.5%

假设检验

统计检验通常是用随机抽样获得的样本的分析结果，判断某个结论是否正确，是一种基于概率判断“某种想法或结论”是否正确的方法。

举个例子：我有一个骰子，首先我假设这骰子是合格的（即：每一面投出的概率是相同的），在此基础上我投出该骰子10次并发现了其中有8次都是偶数，我想如果它是一枚正常的骰子，投10次至少有8次都是偶数的概率能有多少？

根据二项式计算得出：

8次偶数的概率：

9次偶数的概率：

10次偶数的概率：

最后相加求出概率大约为：0.0546875，由于我认为投出这样的概率实在是太小了，因此拒绝这个骰子是合格的这个假设。

简单来说就是，如果发生了小概率事件，我不认为它是巧合，我想它一定是有问题的。当然，由于小概率事件一定会发生，所以也就避免不了造成一定的错误，在检验时通常有两类错误，一种是“原假设是正确的，却拒绝了原假设”，一种是“原假设是错误的，却接受了原假设” 。

不难看出，这两类错误是互补的关系，就像设置异常告警通知一样，要想减少漏报的情况，就会设置更为敏感的告警条件，但这同时也会带来更多的误报。反过来，要想减少误报的情况，就需要设置相对不敏感的告警条件，但这就更容导致漏报的情况产生。

由于，0.0546875是放弃我假设这骰子是合格的评价尺度，所以又被称为风险率。 同时发生小概率事件又是必然的，所以作为小概率事件的判断基准，0.0546875又被称为显著性水平。

所以，如果我们将显著性水平调整到0.01，那么就会接收偶数出现8次这个小概率事件，认为骰子是合格的，只有当出现了9次及以上为偶数，才会拒绝原假设。

第四部分：回归分析

回归分析是统计学中一种强大的工具，用于研究变量之间的关系，并预测或估计一个变量基于其他变量的值。它可以用于估计变量之间的关系强度、方向和形式，并且可以用于预测和控制。人们习惯于通过这样的研究结果来描述复杂事物，解决复杂的问题

一元回归分析

一元回归分析指的是通过建立一个线性模型，然后由一个变量预测另一个变量的情况。

其数学表达式为：

为自变量，为因变量，为回归系数

通过Excel可以轻松帮我们绘制出这样的关系。

为决定系数，表示回归分析的精度，其计算方式为：

多元回归分析

多元回归分析实际上同一元回归分析的基本思想是相同的，只有由一个变量的的预测，变成了多个变量的预测，可以处理更为复杂的变量间的关系。

同样通过Excel表格可以帮助我们进行分析。

总结

最后，希望本篇文章能为读者打开学习统计学的大门。通过掌握统计学的基本原理和技术，你将能够更好地理解和分析数据，从而在业务分析、商业决策以及日常生活中做出更加明智的选择。记住，统计学不仅仅是关于数字，更是关于洞察力和解释的艺术。随着不断学习和实践，你将能够更有效地利用统计学来解决各种问题，并发现数据背后蕴藏的真谛。