淘宝数据:数据背后的价值
淘宝的数据分析一直走在电子商务领域的前沿,你知道淘宝是如何在大数据中做数据分析的吗?不看平均,看数据分布。因为凡是和“总和”或者“平均”类的统计有关的数据都会丢失掉很多重要的信息。例如,李嘉诚来我们公司参观,这一时间我们公司办公室里的个人“平均资产”就会因为李嘉诚一个人被抬高到人均几亿身家。如果有人根据这个“平均资产”数据来判定说我们办公室的人都是豪华游艇的潜在顾客,这是很荒谬的。
可实际上,我们每天都在做着类似的判断,比如,当我们听到说顾客“平均在线时间”是3分34秒,就可能根据这个时间来进行业务决策。例如设置“停留时间超过3分34秒为高价值流量”,或者设置系统,在用户停留了3分34秒还没有下单的话就弹出在线客服服务窗口。我们设置这些时间点的根据是“平均���留时间”,在我们的想象里,我们的每个顾客都有着“平均的”表现,停留时间大致都是3分34秒。可实际上真正的顾客访问时间有长有短,差别较大:在一些数据中我们可以看出,访客平均停留在页面的时间是非常的短暂。
例如,我们看到上个月平均订单金额500元/单,这个月也是500元/单,可能会觉得数字没有变化。可是实际上有可能上个月5万单都是400~600元,而这个月5万单则是2万单300元,2万单400元,5千单500元,5千单超过2500元 ——客户购买习惯已经发生了巨大变化:一方面可能是客户订单在变少(可能是因为产品单价上升,采购数量减少,或者客户选择了比较便宜的替代品);另一方面,出现了一些相对较大的订单(可能是中小企业采购,或者是网站扩充产品线见效了)——看数据分布可以让我们更容易发现这些潜在的变化并及时的做出应对。这些隐藏在数据背后的价值,只有深刻洞察数据分布变化,才能充分利用数据分析做出相应的决策。
如何挖掘数据及其价值,本项目我们将从数据统计的基本概念出发,探讨可用于统计分析的数据类型,通过对数据的描述统计和推断统计使得数据解释和统计分析工作更具有实际价值和有意义。
我们经常会在各类媒体的报道中看到下面各种报道:
2018年11月30日**统计局服务业调查**和中国物流与采购联合会发布了中国采购经理指数。11月份,制造业PMI为500%,环比小幅回落02个百分点,处于临界点。本月主要特点:(1)价格指数明显回落。受近期部分大宗商品价格下行等因素影响,主要原材料购进价格指数和出厂价格指数均降至年内低点,分别为503%和464%,比上月回落77和56个百分点。(2)生产保持稳定,需求扩张减缓。生产指数为519%,比上月微落01个百分点,持续位于景气区间。新订单指数为504%,低于上月04个百分点,高于临界点,表明企业产品订货量增速有所放缓。(3)制造业多数行业处于扩张区间。其中,食品及酒饮料精制茶、纺织服装服饰、医药、铁路船舶航空航天设备、电气机械器材等制造业PMI位于520%及以上相对较高运行水平。受部分地区采暖季加大环境治理力度等因素影响,高耗能行业PMI降至484%。(4)进出口景气度继续低位运行。新出口订单指数和进口指数为470%和471%,均持续位于临界点以下,表明在全球经济复苏放缓和贸易摩擦不确定性增加的影响下,近期进出口下行压力有所加大。
(数据来源:**统计局网站,20181130)
中国网民以青少年、青年和中年群体为主。截至2018年6月,10~39岁群体占总体网民的708%。其中20-29岁年龄段的网民占比*高,达279%;10~19岁、30~39岁群体占比分别为 182%、247%,与 2017 年末基本保持一致。30~49岁中年网民群体占比由 2017 年末的 367%扩大至 399%,互联网在中年人群中的渗透加强。
(数据来源:中国网信网,2018820)
数据显示,2016年以来,人民币汇率小幅贬值,汇率弹性明显增强。截至9月末,人民币对美元汇率中间价为 6152 5元,比上年末贬值556个基点,贬值幅度为09%。虽然总体上看,是贬值的,但是在每天的汇率波动中,人民币一改以往的单向趋势,有升有贬的走势越来越明显。以今年上半年为例,119个交易日中51个交易日升值、68个交易日出现贬值。
(央视新闻,201612)
肥胖可使人减寿。美国一项新研究显示,身高体重指数大于40的严重肥胖者比正常体重者的平均寿命*多要短近14年,因为他们更容易出现癌症、心脏病、中风、糖尿病和肝脏疾病等健康问题并因此过早死亡。
(作者:Cari Kitahara;资料来源:《PLoS医学》2014724)
上述报道中,引用了数值事实,我们把这类报道称之为统计资料,也称统计信息。通过这些信息,可以帮助我们了解自然科学动态以及经济活动的情况。我们把搜集、分析、表述和解释数据进而认识客观现象数量规律的方法称为统计学(statistic)。特别是商务活动和经济研究领域,搜集、分析和解释数据旨在帮助管理者和决策者更好地理解商务活动和经济环境的变化,从而更科学、准确地作出决策。通过本书,我们可以看到统计学在各领域的广泛应用,以及它是如何影响我们的生活的。因此,统计学的学习更注重在实际工作中的应用,以及使用计算机对数据进行分析和处理。
11统计学在经济活动中的应用
111财务管理
公司的财务数据是投资者的重要参考依据。会计事务所和投资咨询公司根据公司提供的财务数据进行统计分析,为投资者提供参考。特别是股票市场,投资者可以根据上市公司提供的包括市盈率和股息等财务数据来判断某只股票的价值是高估还是低估,从而做出买卖还是持股的决策。例如,2015年10月时,高盛将携程股票评级上调为“买入”,它认为携程的每股收益2016年将下降超过50%,降至68美分,到2017年回升到191美元。携程目前的股价是高盛每股收益估值191美元的22倍。高盛给出的目标价为60美元,这意味着携程还有40%的上涨空间。
112市场营销
从商业本质上说,营销的过程就是满足市场需求、提供客户服务价值、完成交易实现利润的过程。互联网的迅速发展,改变了消费者的消费模式和行为习惯,也飞速改变着传统的商业模式,数据营销已成为市场营销的新手段。例如,顺丰速运每天数以百万计的包裹信息通过其终端POS扫描后,源源不断地汇总到数据**,经过大约10道工序、12个小时后,顾客就可以收到自己的包裹。而支撑每天数以百万计的包裹快速到达的是顺丰速运庞大的信息系统和数据业务处理的**运转。
113质量管理
产品质量管理是统计学在生产管理活动中的一项重要应用。各种统计质量管理图用于监测生产过程和产品质量。特别是六西格玛管理,已经成为一种重要的管理理念。而统计数据是实施六西格玛管理的重要工具,以数字说明一切。所有的生产表现、执行力等,都量化为具体的数据。例如,海尔认识到改进其产品质量的重要性,提出的目标是出厂的产品每百万件出现质量缺陷的概率不超过34,这个质量水平就是六西格玛质量水平。
114经济预测
人们经常要求经济学家对未来的经济和某一方面的发展做出预测,他们在预测时需要用到各种统计信息。例如,在预测通货膨胀时,利用如市场价格指数、失业率、制造业开工率等统计数据,借助于统计分析方法可以预测经济发展趋势。
115人力资源管理
借助于数据统计和分析工具,公司对人力资源的管理更加**。例如,Google作为*受欢迎的IT公司之一,每月收到数十万份以上的求职简历,该如何筛选出*合适的简历呢?Google借助了大数据技术,让所有在职员工各完成一份300道问题的问卷,并根据问卷结果建立出来一套模型,这套模型让Google发现哪些是有潜力的申请者。IBM是人力资源管理的行业领先者,他们通过Professional Marketplace数据库,找到雇员成本和绩效水平*佳的资源配置方式,这种方法使IBM的项目经理组建项目团队就像订机票一样简单。
12统计中的几个基本概念
数据(date)是描述和解释研究对象而搜集、分析和汇总的事实和数字。应用于特定对象而搜集的所有数据称为研究的数据集。表11是我国制造业上市公司分行业的平均市盈率的数据集。通过对全部制造业上市公司的市盈率深度分析,可为投资者提供了投资建议和投资依据。
表11上市公司行业平均市盈率统计表(部分)
行业编码
门类大类行业名称公司数量
静态市盈率滚动市盈率
加权平均中位数加权平均中位数
A农、林、牧、渔业244201508630453016
A01农业83291308833422653
A02林业2736773675555
A03畜牧业7545251933254286
A04渔业6355316123372712
A05农、林、牧、渔服务业1NANA48224822
B采矿业25183834211434206
B06煤炭开采和洗选业61041116381691
B07石油和天然气开采业12351235117681768
B08黑色金属矿采选业26036NANANA
B09有色金属矿采选业62881324626152752
B10非金属矿采选业143243233643364
(数据来源:国证网,20181130)
121总体与个体
总体(population)是指客观存在的、在同一性质基础上集合起来的许多单位的整体。构成总体的这些单位称为总体单位。在表11中,总体就是所有上市公司。
确定总体与总体单位,需注意以下两个方面:
(1) 构成总体的单位必须是同质的,不能把不同质的单位混在总体之中。例如,研究职工的工资水平,就只能将靠工资收入的职工列入统计总体的范围。同时,也只能对职工的工资收入进行考察,对职工由其他方面取得的收入就要加以排除,这样才能正确反映职工的工资水平。
(2) 总体与总体单位具有相对性,随着研究任务的改变而改变。同一单位可以是总体也可以是总体单位。例如,要了解全国工业企业职工的工资收入情况,那么全部工厂是总体,各个工厂是总体单位。如果旨在了解某个企业职工的工资收入情况,则该企业就成了总体,每位职工的工资就是总体单位了。
个体(element)是指构成总体数据的每一个子体。在表11中,每一个行业可以分割成一个个体,数据集由行业个体构成。
122变量与参数
变量(variable)是统计学研究对象的特征,变量值就是变量的具体表现。表11的数据集中有以下3个变量:
(1) 公司数量;
(2) 静态市盈率;
(3) 滚动市盈率。
参数(parameter)是描述总体特征的概括性数字度量,它是研究者想要了解的总体的某种特征值。在表11中,描述农业类上市公司有24家,加权平均的静态市盈率是4201,加权平均的滚动市盈率是3045,这些数字度量被称为参数。在一项研究中,收集的个体变量观测量值形成的集合,称为一个观测值。在表中,我们看到的**个观测值的测量值集合是24,4201,5086,3045,3016。
123统计标志与指标
1统计标志
统计标志简称标志,是指统计总体各单位所具有的共同特征的名称。从不同角度考察,每个总体单位可以有许多特征。例如,每个职员可以有性别、年龄、国籍、服务年限等特征。这些都是职员的标志。
总体单位是统计标志的直接承担者,是载体;统计标志依附于总体单位并说明总体单位的属性和特征。依附于某个总体单位的标志可以有多个。当一个统计标志在各个单位的具体表现都相同时,这个标志称为不变标志;当一个标志在各个单位的具体表现有可能不同时,这个标志称为可变标志或变异标志。
例如,中国第六次人口普查规定:“人口普查的对象是具有中华人民共和国国籍并在中华人民共和国国境内常住的人。”按照这一规定,在作为调查对象的人口总体中,国籍和在国境内居住是不变标志,而性别、年龄、民族、职业等则是变异标志。不变标志是构成统计总体的基础,因为至少必须有一个不变标志将各总体单位联结在一起,才能使它具有“同质性”,从而构成一个总体。变异标志是统计研究的主要内容,因为如果标志在各总体单位之间的表现都相同,那就没有进行统计分析研究的必要了。
标志根据其性质分类,可以分为品质标志和数量标志。品质标志表示事物的质的特性,是不能用数值表示的。例如雇员的性别、国籍、工种等。数量标志表示事物的量的特性,是可以用数值表示的,如雇员年龄、工资、服务年限等。品质标志主要用于分组,将性质不相同的总体单位划分开来,便于计算各组的总体单位数,计算结构和比例指标。数量标志既可用于分组,也可用于计算标志总量及其他各种质量指标。
2统计指标
统计指标简称指标,是反映同类社会经济现象总体数量特征的范畴及其具体数值。
统计指标通常有两种理解和使用方法:一是用来反映总体现象总体数量状况的基本概念。例如,年末全国人口总数、全年国内生产总值、国内生产总值年度增长率等。二是反映现象总体数量状况的概念和数值。例如,2010年我国年末总人口数为137 627万人,全社会固定资产投资增长率为13%等。
(1) 统计指标按照其反映的内容或其数值表现形式,可以分为总量指标、相对指标和平均指标三种。总量指标是反映现象总体规模的统计指标,通常以**数的形式来表现,因此又称为**数。例如,土地面积、国内生产总值、财政收入等。总量指标按其反映的时间状况不同,又可以分为时期指标和时点指标。时期指标又称时期数,它反映的是现象在一段时期内的总量,如产品产量、能源生产总量、财政收入、商品零售额等。时期数通常可以累积,从而得到更长时期内的总量。时点指标又称时点数,它反映的是社会经济现象在某一时刻上的总量,如年末人口数、科技机构数、公司员工数、股票价格等。时点数通常不能累积,各时点数累计后没有实际意义。
相对指标又称相对数,是两个**数之比,如经济增长率、物价指数、全社会固定资产增长率等。相对数的表现形式通常为比例和比率两种。
平均指标又称平均数或均值,它反映的是社会经济现象在某一空间或时间上的平均数量状况,如人均国内生产总值、人均利润等。
(2) 统计指标按其所反映总体现象的数量特性的不同,可分为数量指标和质量指标。数量指标是反映社会经济现象总规模水平和工作总量的统计指标,一般用**数表示。如职工人数、工业总产值、工资总额等。
质量指标是反映总体相对水平或平均水平的统计指标,一般用相对数或平均数表示。如计划完成程度、平均工资等。
由于统计指标反映一定社会经济范畴的内容,因此,统计指标的确定,一方面,必须和经济理论对范畴所作的一般概括相符合,要以经济理论为指导,设置科学的统计指标;另一方面,统计指标又必须是对社会经济范畴的进一步具体化,才能确切地反映社会经济现象的数量关系。如经济学对劳动生产率作了一般的概括说明,即劳动生产率是表明单位劳动时间所创造的使用价值。但劳动生产率作为一个统计指标时,就必须明确规定其劳动时间是指雇员的劳动时间。
(3) 统计指标按管理功能作用不同,可以分为描述指标、评价指标和预警指标。描述指标主要是反映社会经济运行的状况、过程和结果,提供对社会经济总体现象的基本认识,是统计信息的主题。例如,反映社会经济条件的土地面积指标、自然资源拥有量指标、社会财富指标、劳动资源指标、科技力量指标;反映生产经营过程和结果的国民生产总值指标、工农业总产值指标���国民收入指标、固定资产指标、流动资金指标、利润指标;反映社会物质文化娱乐设施指标、**床位数指标等。
评价指标是用于对社会经济运行的结果进行比较、评估和考核,以检查工作质量或其他定额指标的结合作用。包括国民经济评价指标和企业经济活动评价指标。
预警指标一般是用于对宏观经济运行进行监测,对国民经济运行中即将发生的失衡、失控等进行预报、警示。通常选择国民经济运行中的关键性、敏感性经济现象,建立相应的监测指标体系。
3标志与指标的关系
标志是说明总体单位特征的,而指标是说明总体特征的;指标都能用数值表示,而标志中的品质标志是用属性表示的;指标数值是经过一定的汇总取得的,而标志中的数量标志不一定经过汇总,可直接取得;标志一般不具备时间地点等条件限制,但作为一个完整的统计指标,一定要讲时间、地点、范围。有许多统计指标的数量值是从总体单位的数量标志值汇总而来的。两者存在着一定的变换关系(由于研究的目的不同,原来的统计总体如果变成了总体单位,则相应的统计指标也就变成了数量指标)。
13数据的测量尺度与类型
131数据的测量尺度
搜集的数据需要按下列测量尺度来度量:定类尺度、定序尺度、定距尺度和定比尺度。
(1) 定类尺度。对数据类别或属性的一种测度。特点是其值只能代表事物的类别和属性,不能比较各类别之间的大小。所以各类别之间没有顺序或者等级,一般以字符、文字表示。
例如,国民经济按其经济类型,可以分为国有经济、集体经济、私营经济、个体经济等类,并用(01)代码表示国有经济,(02)表示集体经济,(03)表示私营经济,(04)表示个体经济。并且用(011)代表国有经济中的国有企业,(012)代表国有联营企业;用(021)表示集体经济中集体企业,(022)表示集体联营企业;用(031)表示私营经济中的私营独资企业,(032)表示私人合伙企业,(033)表示私营有限责任公司;用(041)表示个体经济中的个体工商户,(042)表示个人合伙等。其中两位代码表示经济大类,而三位代码则表示各类中的构成。不同代码反映同一水平的各类(组)别,并不反映其大小顺序。各类中虽然可以计算它的单位数,但不能反映**类的一个单位可以相当于第二类的几个单位,等等。
上述实例中应用了数字代码,但此时的测量尺度仍是定类尺度。使用定类变量对事物进行分类,必须符合穷尽和互斥原则。穷尽就是每个个体都能归为一个类别,互斥就是每个个体只能归为一个类别。
(2) 定序尺度。对数据之间等级或者顺序的一种测度。其计算结果只能排序,不能进行算术运算。这类数据具有定类数据的性质,并且数据的顺序或等级的意义明确,这类数据的测量尺度就是定序尺度。这种尺度的主要数学特征是“>”或“<”。
例如,对合格产品按其性能和好坏,分成优等品、一等品、合格品等。这种尺度虽然也不能表明一个单位一等品等于几个单位二等品,但却明确表示一等品性能高于二等品,而二等品性能又高于三等品等。
定序尺度除了用于分类(组)外,在对定序数据的分析中还可以确定中位数、四分位数、众数等指标的位置。
(3) 定距尺度.对数据次序之间间距的测度。其特点为不仅能够对数据进行排序,还能准确计算之间的差距是多少。生活中*典型的定距尺度是温度计。定距尺度可以用众数、中位数或者算术平均值来描述,数据具有顺序数据的性质,测量结果表现为数值,可以进行加或减的运算。
例如,学生某门课程的考分,可以从高到低分类排序,形成90分、80分、70分,直到零分的序列。这个数列不仅有明确的高低之分,而且可以计算差距,90分比80分高10分,比70分高20分等。
(4) 定比尺度。对两个观测值之间比值的一种测度。定比尺度与定距尺度*大区别是有一固定的**“零点”,而定距尺度没有。定距变量中“0”不表示没有,只是一个测量值;而定比变量中“0”就是表示没有。定比尺度的主要数学特征是可以进行乘或除的运算。
例如,将某地区人口数和土地面积对比计算人口密度指标,说明人口相对的密集程度。甲地区人口可能比乙地区多,但甲地区的土地更广阔,用人口密度指标就可以说明甲地区人口不是多而是少。又如将一个**(地区)的国内生产总值与该国(地区)居民数对比,计算人均国内生产总值,可以反映**(地区)的综合经济能力。
132统计数据类型
1分类型数据和数量型数据
按照所采用的计量尺度不同,可以将统计数据分为分类数据、顺序数据和数值型数据。
归属于某一类别的数据称为分类型数据(categorical data),其结果均表现为类别,也称为品质数据(quality data)。
描述现象的数量、大小或多少的数据称为数量型数据(quantitative data),由于定距尺度和定比尺度属于同一测量层次,所以可以把后两种尺度测度的数据看作是同一类数据,统称为定量数据或数值型数据。数值型数据可能是离散的,也可能是连续的,在一定区间内可以任意取值的变量叫连续型变量。其数值是连续不断的,相邻两个数值可作无限分割,即可取无限个数值。例如,生产零件的规格尺寸、人体测量的身高、体重、胸围等为连续型变量,其数值只能用测量或计量的方法取得。如果数值只能用自然数或整数单位计算的则为离散型变量。例如,企业个数、职工人数、设备台数等只能按计量单位数计数,这种变量的数值一般用计数方法取得。
区分测量的层次和数据的类型十分重要,因为对不同类型的数据将采用不同的统计方法来处理和分析。既有适用于低层次测量数据的统计方法,也有适用于较高层次的测量数据,因为后者具有前者的数学特性。比如:在描述数据的集中趋势时,对分类型数据通常是计算众数;反之,适用于高层次测量数据的统计方法,则不能用于较低层次的测量数据,因为低层次数据不具有高层次测量数据的数学特性。比如,测度数量型数据可以计算平均数,但对于分类型数据则不能计算平均数。