第3章
描述统计中的测度指标※本章与各小节能力培养提示
按照“工程教育认证标准(2015)版”12条毕业要求,结合经济管理专业方向,本章对应于教学毕业要求(1)(2)(5),即(1)将经济管理基础知识应用于实践中; (2)能够据此分析实际经济管理问题; (5)能够应用信息技术。本章的教学目标是掌握能够描述数据规律的测度指标,包含集中趋势指标和离散趋势指标。要求了解指标的计算方法、指标的适用条件。会使用Excel和SPSS统计分析软件找出基本的描述统计指标。章 节 名 称培养能力提示3.1集中趋势的测度指标了解众数、中位数、算数平均数、调和平均数、几何平均数的概念,掌握各种集中趋势指标的计算方法和用途3.2离散趋势的测度指标了解极差、平均差、方差、标准差、四分位差、离散系数的概念,掌握各种离散趋势指标的计算方法和用途3.3偏态和峰度的测量了解偏态和峰度指标的含义与计算公式3.4描述统计测度指标的可视化软件应用能够使用Excel与SPSS统计软件显示和说明描述统计中测度指标的含义
※案例与案例问题〖*2〗青蓝大学经济管理学院三个专业的满意度青蓝大学经济管理学院有三个专业: 经济学专业、工商管理专业和电子商务专业。近期院方准备了解用人单位对本校学生工作表现、专业水平和外语水平的满意程度,以此促进本校教学改革。校管理层希望在调查报告中说明以下问题。
**,用人单位对该校学生的哪个方面比较满意?或不满意?在哪个方面需要改进?
第二,用人单位对该校学生哪个方面满意差别*大?
第三,对三个专业的满意程度是否一致?
第四,提出实质性的改进建议。
如果要完成上述报告,则
(1) 如果满足以上要求,那么需要如何做调研?
(2) 调研分析报告中以上四个问题需要用到哪些分析指标?
统计指标体系是由多个指标构成的,不同的统计指标所反映的内容不同。但对于不同的社会经济现象用统计指标去反映时,为了说明其数据的规律性,有必要首先计算并分析各种测度指标。其中静态指标分析方法是统计数据分析的基础内容。为了从大量的原始数据中找到规律,通常利用静态指标分析数据的集中趋势和离散趋势。下面就介绍这两类指标。
〖1〗〖2〗〖3〗统计学——原理、应用与商务实践第3章描述统计中的测度指标〖3〗3.1集中趋势的测度指标
集中趋势是指一组数据向某一**值靠拢的倾向,在**附近的观察值数目较多,而远离**的较少,它反映了一组数据**点的位置所在,也反映了数据的一般水平。测度集中趋势也就是寻找数据水平的代表值或**值。常用的集中趋势测度值包括五种: 众数、中位数、算术平均数、调和平均数和几何平均数。
3.1.1众数
众数是指总体中出现次数*多的那个标志值。它是数据*为密集的地方,众数通常存在,但未必**。也就是说,一组数据至少有一个众数,也可能有若干个众数。如果所有标志值出现的次数相等,此时没有众数;如果有两个标志值出现的次数相等,而且*多,称为复众数。其实众数就是一种平均数,因而能够形象地反映总体数据分布的集中趋势。
1. 未分组资料确定众数
【例31】甲乙两班组工人日产零件数(件)如下。
甲: 15 17 19 22 22 22 23 23 25 26 30
乙: 15 16 17 17 20 20 22 22 22 25 26 28
求众数。
因为甲乙两班组工人日产零件数据表现*多的都是22,所以,M0甲=22,M0乙=22。
如果原始数据进行了分组,众数的确定方式有两种: 一种是根据单项式数列确定众数,一种是根据组距数列来确定众数。
2. 单项式数列确定众数
在单项式数列中,经过分组整理后,哪一种变量值出现的次数*多,对应的变量值即为众数。由单项数列计算众数,可以直接观察得出,找出出现次数*多的标志值。
【例32】太阳心服饰厂生产工人某日服装饰品产量分布如表31所示,生产部经理想通过众数分析工人生产的一般水平,以制订生产计划。试帮助他确定众数。表31太阳心服饰厂生产工人某日服装饰品产量分布
日产量/件工人数/人2152282323续表
日产量/件工人数/人24192511826152712合计200在表31中,日产量25件出现得*多,在全部200名工人中,有118名工人集中在这一组,所以日产量25件为众数,这说明绝大部分工人日产量已达到这样的水平,它可以作为该厂安排生产计划的依据。
3. 组距式数列计算众数
组距式数列求众数的方法如下。
**步: 找出出现次数*多的组,这个组就是众数所在的组。
第二步: 根据内插近似公式计算众数近似值。Mo=L (f-f-1)×d(f-f-1) (f-f1)(下限公式) (31)
Mo=U-(f-f1)×d(f-f-1) (f-f1)(上限公式) (32)式中: L为众数组下限;U为众数组上限;f为众数组的次数;f-1为众数组前一组的次数;f1为众数组后一组的次数;d为众数组的组距。
【例33】某市所有企业高管收入分布如表32所示,高管收入的众数为多少?表32某市所有企业高管收入分布
按收入分组/万元人数向上累计人数向下累计人数25~30404040030~356010036035~4015025030040~459034015045~506040060合计400——依据式(31)和式(32)进行计算:Mo=L (f-f-1)×d(f-f-1) (f-f1)=35 (150-60)×5(150-60) (150-90)=38(万元)
Mo=U-(f-f1)×d(f-f-1) (f-f1)=40-(150-90)×5(150-60) (150-90)=38(万元)因此,高管收入的众数为38万元。
由上下限公式结果可知,众数在众数组中的位置与众数组前后两组的次数有关,如果上一组的次数较大,则众数值靠近下组限;如果下一组的次数较大,则众数值靠近上组限;如果众数组相邻两组的次数相等,则众数组的组中值即为众数。如【例33】中众数组下组次数较大,所以计算结果靠近上组限。
应当注意的是,以上给出的公式仅适用于组距相等的分组数据,至少频数较多的几个组的组距应该相等,否则众数组和众数值会随着分组组距的变化而变化,众数的计算也就失去了意义。
众数主要用于分类数据,也可用于顺序数据和数值型数据。众数优点主要是: 简明易懂,不受两**值的影响,缺少两端有些数据也可以计算。缺点主要是: **,不稳定。它随着频数分布表上的组距变化而变化,即同一组资料在编制频数分布表时,如果组距不同,众数值就不同。第二,众数值可能同时存在多个,无法体现准确性。第三,不适合代数计算。不能将几个众数综合求出一个总的众数。第四,受抽样变动的影响较大。第五,包含信息量较小。因此它是一个效率较低的集中量。
3.1.2中位数
中位数是指将一组数据按一定顺序排列后位置居中的数值,用Me来表示。它将全部的变量值分为两部分,一半的变量值比它大,另一半变量值比它小,而且两部分变量值的数量是相等的。中位数也常用来代表现象的一般水平,同样地,它也不受变量数列极值的影响。
中位数的计算方法根据所掌握的资料的不同,分为两种: 一是根据未分组的资料计算中位数,二是根据已分组的资料计算中位数。
1. 根据未分组的资料计算中位数
根据未分组数据计算中位数时,要先对数据进行排序,确定中位数的位置,然后确定中位数的具体值。具体而言: 如果含有奇数n项,则中位数的项次为(n 1)/2;若含有偶数n项,则中位数取第n/2和第(n/2) 1项的平均值。
【例34】酷乐工厂是一家玩具生产企业,A车间、B车间开展生产竞赛,决定用中位数说明哪个车间生产的一般水平更高。分别随机抽取9名和10名工人,在经过严格质量检测的前提下,其每日生产量如下,计算这两个车间的日产量的中位数。
A车间: 292940374129303739
B车间: 33322847454328294237
解: 先将上面的数据顺序排列,结果如下。
A车间: 292929303737394041
B车间: 28282932333742434547
A车间中位数的位置=(9 1)/2=5,中位数即为第5项数值,即Me=37(件)
B车间中位数的位置=(10 1)/2=5.5,中位数即为第5、6项数值的平均值,Me=(33 37)/2=35(件)
2. 根据已分组的资料计算中位数
由已分组的资料计算中位数,分为两种情况: 一种是根据单项数列计算中位数,另一种是根据组距数列计算中位数。
1) 根据单项数列计算中位数
对于变量值很多,而且已经过分组整理的数据,此时中位数位置=∑fi/2,根据累积频数确定中位数所在的组,再确定中位数的具体值。
对于单项式分组数据,确定中位数所在的组后,该组的变量值即为中位数。
【例35】轻骑旅行社女导游身高资料见表33,请根据表中资料确定该旅行社女导游身高的中位数。表33轻骑旅行社女导游身高资料
身高/cm导游人数fi/人向上累计数161221634616410161651430168838170240合计40—中位数位置为∑fi/2,=40/2=20。由表33中向上累计数可知,第四组为中位数所在组。所以,中位数Me=165 cm。
2) 根据组距数列计算中位数
如果是组距数列,与确定组距式数列的众数类似,首先确定中位数的位次∑f2,然后按式(33)或式(34)计算中位数。Me=L ∑f2-sm-1fm×d(下限公式)(33)
Me=U-∑f2-sm 1fm×d(上限公式)(34)式中: L为中位数组下限;U为中位数组上限;fm为中位数所在组的频数;sm-1为中位数所在组以前各组的累计频数;sm 1为中位数所在组以后各组的累计频数;d为中位数组的组距。
【例36】根据表32资料计算某市高管收入的中位数。
该市高管收入的中位数:Me=L ∑f2-sm-1fm×d=35 4002-100150×5≈38.33(万元)
Me=U-∑f2-sm 1fm×d=40-4002-150150×5≈38.33(万元)中位数主要用于顺序数据,也可用于数值型数据,但不能用于分类数据。中位数具备一个**集中量所应具备条件中的部分条件。例如,它也比较严密确定、简明易懂、计算简便,稳定而不受**数据的影响,特别难得的是,如果缺失某些数据也可以计算。但中位数不适合代数计算,虽然受抽样变动影响比较小,但与算术平均数相比抽样偏差相对较大,而且两端数据发生**变化时也不会影响结果,很不灵敏。同时由于在计算时只使用了部分数据,因此,包含的信息量没有算术平均数多,其应用也没有算术平均数那么广泛。
3.1.3算术平均数
算术平均数也称均值,它是全部数据的平均数,可以概括地反映全部数据的平均水平。算术平均数是应用*广泛的一种平均指标,是数据集中趋势*主要的测度值。它主要应用于描述数值型数据。从总量指标的角度看,平均数以下列公式派生所得均值(x-)=总体标志总量(变量值总量)总体单位总量(变量值个数)根据所掌握的数据是否分组,算术平均数可分为简单算术平均数与加权算术平均数两种计算形式。
1. 简单算术平均数
如果数据是未经分组的原始数据,可计算简单算术平均数。设一组数据为x1,x2,…,xn,则简单算术平均数的计算公式如下:x-=x1 x2 … xnn=∑xin(35)式中: x-为均值,即算术平均数;xi为数列中各观察值;n为数列中观察值项数。
【例37】某生产班组有10名工人,每人日产量(件)分别为15,17,18,20,22,25,27,28,29,30。求该班组工人平均日产量。
该班组工人平均日产量为x-=15 17 18 20 22 25 27 28 29 3010=23.1(件/日)2. 加权算术平均数
如果所掌握的数据已经分组,并编制为变量数列,在计算平均数时不仅要考虑各变量值本身的大小,还要考虑各变量值的重要程度不同,于是需要将各变量值分别乘以代表该变量值重要程度的权数,然后用此乘积之和除以权数之和,所得之商就称为加权算数平均数。
1) 权数为**数
由分组数据计算均值,公式如下:x-=∑ki=1xifi∑kk=1fi(36)【例38】某车间100名工人的日产量资料如表34所示。试计算该车间工人的平均日产量。表34某车间100名工人的日产量资料
日产量/件 工人数fi/人频率fi∑fi组产量xifi/件 30150.1545031380.381 17835340.341 19036130.13468合计1001.003 286该车间100名工人的平均日产量为x-=∑ki=1xifi∑kk=1fi=30×15 31×38 35×34 36×1315 38 34 13=3 286100=32.86(件)2) 权数为相对数
公式如下:x-=∑ki=1xifi∑kk=1fi=∑ki=1xi·fi∑ki=1fi(37)根据表34资料利用频率计算为x-=∑ki=1xifi∑kk=1fi=30×0.15 31×0.38 35×0.34 36×0.13=32.86(件)3. 算术平均数的适用条件和优缺点
算术平均数主要适用于数值型数据,是反映集中趋势*有代表性的指标。
一个**的集中量应具备以下七个条件: **,反应灵敏。一组数据中任何一个数值发生或大或小的变化,所计算出来的该种集中量也会随之变大或变小,可以灵敏地反应出来。第二,稳定不变。由同一组数据计算出来的该种集中量是一样的。第三,意义简明。意义简单明了,容易理解。第四,适合代数运算。可以通过几个集中量求总集中量。第五,计算简便。例如只需要用简单的四则运算。第六,包含的信息量大。所有的数据均参与计算。第七,受抽样的影响较小。从同一个总体中随机抽取的容量相同的样本,所计算出来的该种集中量与其他集中量指标相比,抽样误差较小。
算术平均数具有上述七个条件,同时它还是计算其他重要统计指标,如方差、标准差、相关系数、差异系数、标准分时的组成部分,不能缺少。在进行统计推断时,大量公式都要用到它。
但算术平均数也有以下两个缺点: **,易受**值影响。由于它反应灵敏,所以如果一组数据中绝大多数数值都较高,但只有一个数值特别低,则所计算出来的算术平均数就受到这个*低值的影响,把整体平均水平拉低,如果这个*低的数值是个别情况,不是正常总体中应该出现的数值,被拉低的平均水平会降低对所研究总体的代表性,这时算术平均数作为这组数据的集中量,其代表性就不理想了。第二,计算时,需要所有数据的参与。一组数据中有缺失或看不清时,就无法计算算术平均数。
3.1.4调和平均数
调和平均数又称倒数平均数,是各变量值的倒数的算术平均数的倒数,记作H。根据所掌握数据是否分组分类,调和平均数分为简单调和平均数与加权调和平均数两种。
1. 简单调和平均数
简单调和平均数适用于未分组数列,其计算公式如下:H=n1x1 1x2 … 1xn=n∑ni=11xi(38)式中: H为调和平均数;xi为数列中各观察值;n为变量值个数。
【例39】东华农贸市场中甲、乙、丙三种西瓜的价格分别为: 甲1元/斤,乙2元/斤,丙0.8元/斤。求:(1) 三种西瓜各卖1斤,平均价格是多少?(2) 如果三种西瓜各获得销售额1元,平均价格是多少?
(1) 三种西瓜各卖1斤,平均价格用算术平均数计算为x-=(1 2 0.8)/3≈1.27(元)(2) 各类西瓜销售额为1元,总销售额为3元,平均价格为H=3/(1/1 1/2 1/0.8)≈1.09(元)当三种西瓜各卖1斤时,每种价格对平均价格的影响是相等的,而各自销售额为1元时,由于三种西瓜的购买量不同,因而它们对平均价格的影响就不同了,当购买0.8元的西瓜数量较大时,平均价格相对而言就比较低了。
2. 加权调和平均数
加权调和平均数适用于分组数列。其计算公式为H=∑ni=1mi∑ni=1mixi(39)式中: H为调和平均数;xi为各组组中值;mi为各组观察值的总量,即权数。
【例310】根据员工工资水平及工资总额资料计算总平均工资,如表35所示。表35员工工资水平及工资总额资料
月工资额/元组中值X/元各组工资总额m/元各组人数m/x6 000以下5 00025 00056 000~8 0007 000105 000158 000~10 0009 000180 0002010 000~12 00011 00088 000812 000以上13 00026 0002合计—424 00050将表35中的数据代入加权调和平均数公式,计算结果如下:H=∑ni=1mi∑ni=1mixi=424 000/50=8 480(元)这一结果与加权算术平均法的计算结果相同。由此可见,在根据分组资料计算平均数时,若已知条件为各组的变量值(xi)及其各组变量值总和(mi)时,可采用加权调和平均法计算平均数;若已知条件为各组的变量值(xi)及其各组的频数(fi),则可采用加权算术平均法计算平均数。对于同一种资料,两种算法是一致的。
在实际应用中,调和平均数多作为算术平均数的变形使用。在某些场合,所给的统计资料不能直接计算算术平均数,只能用另一种形式的平均数——调和平均数来计算。这时,调和平均数与算术平均数的计算结果相同,实际意义也完全相同,只是由于所掌握的资料不同,计算过程不同而已。
调和平均数的缺点是: 在某些领域集中量指标非调和平均数不可,但是它的使用有限制,若参与计算的变量值有一个为零,就无法计算;参与计算的变量值倒数和为零也无法计算;等等,所以它的应用范围也比算术平均数窄。
3.1.5几何平均数
几何平均数是另一种形式的平均数,它是几个变量值连乘积的n次方根,用G来表示。当几个变量的连乘积等于总比率或总速度时,都必须用几何平均数的形式来计算平均比率和平均速度。因此它主要用于计算平均比率和平均数度。计算公式为G=nx1·x2·x3·…·xn=n∏ni=1xi(310)式中: G为几何平均数;xi为变量值;n为变量值的项数;∏为连乘符号。
【例311】某水泥厂连续3年的产量增长率分别为9%、16%和20%,如表36所示。求这3年的平均增长率。表36某水泥厂连续3年的产量
年度2012201320142015产量/万t100.00109.00126.44151.73发展速度xi/%—109116120增长速度/%—91620该厂的产量平均增长率为G=n∏ni=1xi-1=3109%×116%×120%-1
≈114.91%-1=14.91%在某些领域集中量指标非几何平均数不可,它包含的信息量较大,但是其使用有一些限制。若参与计算的变���值有一个为零,结果就为零;变量乘积为负,开偶次根没有意义;等等,所以它的应用范围比算术平均数窄。
3.1.6众数、中位数和均值的关系
众数、中位数和均值都是反映被研究现象数量分布集中趋势的。它们之间存在着一定的关系,这种关系可以用来反映总体数量分布的特征和相互之间的估算。
1. 对称分布
图31表示对称的钟型分布中mo、me和x-的位置。可见,mo=me=x-。
图31对称的钟型分布中众数、中位数和均值的关系
2. 左偏分布
图32表示左偏的钟型分布中mo、me和x-的位置。可见,x-<me<mo。
图32左偏的钟型分布中众数、中位数和均值的关系