掘金 阅读 ( ) • 2024-04-19 20:20

引言

统计学可以被定义为研究数据的科学,它涉及到数据的收集、分析、解释和呈现。其目标是从数据中提取有意义的信息,并使用这些信息来做出推断与决策。

统计学主要分别以下几个主要领域:

  1. 描述性统计:使用图表、图形和其他工具来总结和描述数据的特征。
  2. 推断性统计:使用概率论来从样本数据推断总体的特征,包括估计和假设检验。
  3. 回归分析:研究变量之间的关系,并预测一个变量基于其他变量的值。

统计学不仅是一门科学,也是一门语言,他使我们能够和数据对话。随着大数据和人工智能的发展,统计学的重要性将进一步增加,因为它是理解和利用这些技术的基础。

第一部分:基本概念

统计学中常见的基本概念包括:

总体:指研究对象的全部个体。

样本:指从总体中选取的一部分个体,通过对样本的研究,可以推断总体的特征。

变量:指可以在不同观测值之间变化的特征或属性,根据变量的类型可分别定性数据和定量数据。比如投骰子时,统计投中1到6每个数值的次数,得到的数据就是定量数据,如果投中1到3认为是“小”,投中4到6认为是“大”,此时得到的数据就是定性数据。

概率:指某个事件发生的可能性的度量,通常表示为0到1之间的数值。

随机变量:变量可以取多个值,因此在统计学中,经常会用到具有概率分布特性的变量,这就是随机变量。(随机变量,只有通过试验才能确认其数值。)随机变量可以是离散的(取有限或可数的值)或连续的(取无限且连续的值)。

置信区间:指的是一个参数可能值的一个范围区间,并指定了这个区间包含真实参数值的置信水平,比如(95%,99%)

常见的统计量包括:

最大值、最小值:最大值、最小值主要用来发现数据的边界,通过计算最大值与最小值的差值,还可以得到数据的极差值,这些都有助于对整体数据的范围有所了解。

平均值(μ) :平均值反映了一组数据集中趋势的量数,是指一组数据中的所有数据之和再除以这组数据的个数。

例题1:美术组有2名女生,2人平均8岁,3名男生, 3人平均13岁,美术组5人平均多少岁?

美术组2名女生一共:28=16岁,3名男生一共:313=39岁

美术组5人平均年龄 = 总年龄 ÷ 总份数 = (16+39) ÷ 5 = 11岁

例题2:五个数的平均数是8,若把其中的一个数改为20,平均数变为11,这个数原来是多少?

五个数总和 = 8 * 5 = 40

其中一个数改为20后总和 = 11 * 5 = 55

总和相差:15,因此原数 = 5

中位数:指按照顺序排列的一组数据中居于中间位置的数,如果总数是偶数时,正中间会有两个数据,把两个数据相加再除以2就是中位数。中位数同平均数一样,常用来反映一组数据集中趋势情况,与平均数不同的是,中位数不受数据集中极大或极小值的影响,中位数表示所观察的数据集中有一半的数大于它,另一半的数小于它。

例题:找出这组数据:23、29、20、32、23、21、33、25 的中位数。

首先排序:20、21、23、23、25、29、32、33

中位数:(23+25) ÷ 2 = 24

众数:指在一组数据中出现次数最多的数,众数同样是用来反映一组数据集中趋势的情况。

例题:找出这组数据:23、29、20、32、23、21、33、25 的众数。

23出现了2次,其他每一个数字都只出现1次,所以众数是23。

四分位间距:计算公式IQR = Q3 - Q1,Q3表示数据集中75%的数值都小于或等于它的值,Q1表示数据集中25%的数值都小于或等于它的值。二者相减就表示数据集中50%的数据分散程度。四分位间距对异常值相对不敏感,也就是说即使数据集两端存在极端值影响也不大。

例题:计算这组数据:100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115的四分位间距。

Q1:103,Q2:107.5(Q2就是中位数),Q3:112

IQR = Q3 - Q1 = 9

偏差:偏差表现的是在数据集中每个数据偏离平均值的程度,即每个数据与平均值的差值。

例题:计算这组数据:23、29、20、32、23、21、33、25每个数值的偏差

原数:23、29、20、34、23、21、33、25

平均值:26

偏差:-3、3、-6、8、-3、-5、7、-1

方差:用来衡量一组数据的离散程度,偏差是对比每一个数据与平均值的差异,方差是衡量整组数据与平均值的差异情况。

通过平方计算可以使差异更加明显,差异小的会变得更小,差异大的则会更大,比如偏差为0.1,平方后则为0.01,而偏差为10的,平方后则是100。

例题1:计算这组数据:23、29、20、32、23、21、33、25的方差

表示总体方差,X为变量,μ为总体平均值,N为总体个数。

例题2:计算这组样本数据:23、29、20、32、23、21、33、25的样本方差

实际情况中,总体数据很难得到,大多数情况下都是以样本代替总体,而样本方差的计算公式如下:

表示样本方差,X为变量,为样本平均值,n为样本个数。

标准差:方差和标准差都是测算离散趋势的常用指标,标准差是方差算法平方根,因为与变量的计算单位相同,数据看起来更为直观,因此更多时候会使用标准差来进行分析。

总体标准差:

样本标准差:

标准误差:标准误差指的是样本平均值与总体平均值的相对误差。

协方差:协方差是用于衡量两个变量的总体误差,方差表示的一个变量,而协方差表示的两个变量,通过观察两个变量的变化关系来分析其相关程度,一般可以分别:正相关、负相关、不相关。

相关性又可以通过计算相关系数(r)来表示,取值范围是-1~1。正相关程度越高时其值越接近1,反之则越接近-1。

一般而言,根据r的取值,大致可以分为以下5种情况:

  • r <= -0.6 很强的负相关
  • 0.6 <= r <= -0.2 普通负相关
  • -0.2 <= r <= 0.2 不相关
  • 0.2 <=r <= 0.6 普通的正相关
  • r >= 0.6 很强的正相关

例题:根据如下表格,计算两个变量之间的关联程度。

协方差:

相关系数:

表明身高和体重具有很强的正相关性。

第二部分:描述性统计

描述性统计是统计学中用于描述和展示数据集特征的一系列方法。它通常包括数据的收集、整理、分类和呈现,旨在提供对数据集的基本理解。其中图形化展示是描述性统计中非常重要的一部分,它可以帮助我们更直观地理解数据。常见的图形包括:条形图、折线图、饼图、直方图等等。

条形图:主要通过高度或长短来反映数据的多少。

饼图:可以更直观的反映各个数据部分构成的比例情况。

折线图:折线图通常用来表示随时间而变化的连续数据,反映数据在某段时间的变化趋势。

直方图:适用于展示定量数据的频率分布。

图表中的小陷阱

通过图形化能够让数据更为直观的反映出来,但也有小心其中的一些小“陷阱”。

1. 折线的波动

比如下面这张图,实际上是同一组数据集,只有由于两张折线图纵坐标一个是从0值开始的,一个是从970000开始的,就会让人看起来产生了不一样的波动效果。

2. 增长趋势

同样的伎俩,通过调整纵坐标的间距,就可以让蓝线和橘线的增长趋势截然相反。

3. 区间统计

通过调整统计区间,得到不一样的传达效果,左图是来自凤凰新闻,右图来自BBC。虽然两张地图都划了 5 个色块,但 BBC 将确诊病例大于 500 例的省份都赋予最严重的深红色,导致了当时确诊 529 例的重庆和确诊 51986 例的湖北是一样的颜色,很有误导性。而凤凰网的数据划分范围就合理的多,是以 10 的次方为分界线。

4. 非正常比例扩增

下面这张图想表达什么?20是10的2倍,30是10的3倍,图中可不是按照这个比例来表示的。

真是的比例关系看上去应该是这样的

第三部分:推断性统计

推断性统计是统计学的一个重要分支,它允许我们使用样本数据来推断总体的特征。这种推断是通过估计总体参数和测试关于总体的假设来实现的。推断性统计主要包括两个部分:估计和假设检验。

估计

估计是指使用样本数据来推断总体参数(如总体平均值、总体比例或总体方差)的过程。在估计过程中,我们计算样本统计量(如样本平均值、样本比例或样本方差),并使用这些统计量作为总体参数的估计值。估计可以是点估计,也可以是区间估计。

  • 点估计:点估计是指用单个值(通常是样本统计量)来估计总体参数。如果我们想估计一个城市的上班族的平均月收入,我们可能会计算一个随机选择的样本的平均收入,并将其作为总体平均收入的估计。
    例如:有三个上班族,他们的月收入分别为:1万、2万、3万,于是我们就通过他们的月收入的平均值计算:(1+2+3)/ 3 = 2万,推断出所有上班族的月收入平均值为2万,2万是一个明确的数值(点),这样的估计方法就被称为点估计。
  • 区间估计:区间估计提供了一个包含总体参数可能值的区间,这个区间与置信水平(如95%)相关。我们可能会说,我们有95%的把握认为总体平均收入位于样本平均收入的一个特定区间内。
    例如:用区间估计的方式,最后我们得出的结论会是这样:有95%的情况,平均月收入在0.87万~3.13万之间。
    很明显,利用区间估计比点估计更可靠,因为区间估计的正确率是已知的。

区间估计原理

为什么区间估计可以仅凭一个样本,就能推断出总体的平均值和方差的置信区间,并说明其置信度呢?

基本步骤

  1. 收集样本数据:从总体中反复抽取多个样本,并计算样本的统计量,包括:样本的平均值、标准差等。
  2. 选择置信水平:确定你想要的置信水平,如:95%。
  3. 查找临界值:根据置信水平,查找适当的临界值,如果是正太分布,通过使用Z分布,对于其他情况,通常会使用到t分布。
  4. 构建置信区间:最后,根据标准差、临界值来构建置信区间,计算公式:

接下来我们可以举一个例子来说明,如果我们要估计一个公司员工的平均年收入,则可以通过如果几步求得。

  1. 假设我们随机抽取100名员工作为样本,计算出他们的平均年收入为:50000,并且标准差为:10000,由此可知总体标准差为:
  2. 选择95%的置信水平进行区间估计。
  3. 查找临界值,我们假设平均年收入满足正太分布,于是采用Z分布,在95%的置信水平时,Z分布的临界值为1.96。
  4. 最后根据公式计算出置信区间

接下来的例子还可以让我们通过样本比例来推断总体比例,假设随机调查某地100名30到40岁的男性得出样本的单身率为0.48,据此估计该地全体30到40岁男性单身率。

对于比例的处理其实与平均值估计一样,我们只需要将比例进行量化即可,比如我们可以假设单身为1,非单身为0,那么单身率就是,单身数的总和除以单身与非单身数的总和,这其实也可以看作是其平均值。

假设为1的概率为:r,那么为0的概率则为:1 - r

  1. 标准差:
  2. 选择95%的置信水平进行区间估计。
  3. 最后根据公式计算出置信区间

因此,我们可以说该地30到40岁的男性中,有95%的概率单身率在[0.38,0.57]之间。

根据Z分布推断

Z分布称为标准正太分布,其均值为0,标准差为1,然后我们通过将原始数据转换为Z分数,最终得到原数数据在整体数据中的一个水平。

Z分数的计算公式

其中X是原数数据值,μ是原始数据集的均值,σ是原始数据集的标准差。

接下来我们举一个例子来说明,假设我们有一份学生的考试成绩数据集,均值为70分,标准差为10分。其中一个学生的考试成绩是85分。我们想知道85分大概处于什么样的水平?

Z分数计算:

Z分数1.5就表示,85分大概是比70分高出1.5个标准差,接下来通过查表可以得出1.5就是大概超过了93.332%的学生。

我们再来举一个例子说明,假设某地高校的录取委员会希望录取所有考生中前5%的考生,假设本次考试中平均分数为500分,标准差为100分,那么起码要考到多少分,才能达到该高校的要求。

本题我们只需要将Z分数计算公式进行转换即可

通过查表得知,前5%对应的Z分数大约为1.65

所以 ,也就是说,至少要考到665以上,才能达到该高校的录入要求。

Z分布表

二项分布

二项分布是统计学中一种重要的离散概率分布,它描述了在一系列独立的、相同的伯努利试验中成功的次数。伯努利试验是指只有两种可能结果(如成功或失败)的随机试验。二项分布的参数是每次试验成功的概率和试验的总次数。

一般地,如果随机变量服从参数为(每次实验成功的概率)的二项分布,我们记为次试验中正好得到次成功的概率由概率质量函数给出:

表示从次实验中选择次成功的方式数。

举个例子: **假设有一个骰子,投掷10次,求恰好有3次投到6的概率?
**成功的概率:投出6,概率为1/6,一共投10次,要得到3次成功

≈ 15.5%

假设检验

统计检验通常是用随机抽样获得的样本的分析结果,判断某个结论是否正确,是一种基于概率判断“某种想法或结论”是否正确的方法。

举个例子:我有一个骰子,首先我假设这骰子是合格的(即:每一面投出的概率是相同的),在此基础上我投出该骰子10次并发现了其中有8次都是偶数,我想如果它是一枚正常的骰子,投10次至少有8次都是偶数的概率能有多少?

根据二项式计算得出:

8次偶数的概率:

9次偶数的概率:

10次偶数的概率:

最后相加求出概率大约为:0.0546875,由于我认为投出这样的概率实在是太小了,因此拒绝这个骰子是合格的这个假设。

简单来说就是,如果发生了小概率事件,我不认为它是巧合,我想它一定是有问题的。当然,由于小概率事件一定会发生,所以也就避免不了造成一定的错误,在检验时通常有两类错误,一种是“原假设是正确的,却拒绝了原假设”,一种是“原假设是错误的,却接受了原假设”

不难看出,这两类错误是互补的关系,就像设置异常告警通知一样,要想减少漏报的情况,就会设置更为敏感的告警条件,但这同时也会带来更多的误报。反过来,要想减少误报的情况,就需要设置相对不敏感的告警条件,但这就更容导致漏报的情况产生。

由于,0.0546875是放弃我假设这骰子是合格的评价尺度,所以又被称为风险率。 同时发生小概率事件又是必然的,所以作为小概率事件的判断基准,0.0546875又被称为显著性水平。

所以,如果我们将显著性水平调整到0.01,那么就会接收偶数出现8次这个小概率事件,认为骰子是合格的,只有当出现了9次及以上为偶数,才会拒绝原假设。

第四部分:回归分析

回归分析是统计学中一种强大的工具,用于研究变量之间的关系,并预测或估计一个变量基于其他变量的值。它可以用于估计变量之间的关系强度、方向和形式,并且可以用于预测和控制。人们习惯于通过这样的研究结果来描述复杂事物,解决复杂的问题

一元回归分析

一元回归分析指的是通过建立一个线性模型,然后由一个变量预测另一个变量的情况。

其数学表达式为:

为自变量,为因变量,为回归系数

通过Excel可以轻松帮我们绘制出这样的关系。

为决定系数,表示回归分析的精度,其计算方式为:

多元回归分析

多元回归分析实际上同一元回归分析的基本思想是相同的,只有由一个变量的的预测,变成了多个变量的预测,可以处理更为复杂的变量间的关系。

同样通过Excel表格可以帮助我们进行分析。

总结

最后,希望本篇文章能为读者打开学习统计学的大门。通过掌握统计学的基本原理和技术,你将能够更好地理解和分析数据,从而在业务分析、商业决策以及日常生活中做出更加明智的选择。记住,统计学不仅仅是关于数字,更是关于洞察力和解释的艺术。随着不断学习和实践,你将能够更有效地利用统计学来解决各种问题,并发现数据背后蕴藏的真谛。