在统计学中均值、中间值和众数这三个指标均可以用来表示数据的集中趋势,集中趋势在统计学中是指一组数据向某一中心值靠拢的程度,即该组数据围绕着哪个数值分布。均值均值即算术平均值,是表示数据集中趋势的最常见指标,计算方法非常简单,将所有数据的数值加总求和然后除以数据的总个数即可。比如有一组数据3,7,6,29,19,31,2,均值=(3+7+6+29+19+31+2)/7=13.86中位数中位数是将数据按大小排序形成一个数列,取数列中间位置的数据为中位数。如果数据的个数为奇数,在整列数据中正中间位置上的数据就是中位数。还是以前面那组数据3,7,6,29,19,31,2为例,先按照从小到大的顺序排列,结果为2,3, 6,7, 19, 29, 31,因为数据的个数为7个,7正好处于整列数据的第4个也就是正中间的位置上,因此中位数为7。但如果数据的个数为偶数,那么在数列的中间位置上就会有两个数据,中位数就等于这两个数据的均值。比如在前面那组数据3,7,6,29,19,31,2的基础上加上11,数据的个数就成了8个,排序后为2,3, 6,7, 11,19, 29, 31,7和11处于中间的位置上,因此中位数=(7+11)/2=9众数众数是整组数据中出现频率最高的数据,比如每100个家庭所拥有的宠物数量:狗:69只猫:45只金鱼:22条鹦鹉:2只兔子:1只其中每100个家庭所拥有的狗的数量最多,因此“狗”就是该组数据中的众数。再比如,某家鞋店里男皮鞋的销售情况如下:鞋号销售量(双)24.534256125.53772621026.5119278725.75148可见,25.5号鞋的销售量最大,也就是该数据出现的频率最高。如果计算均值,那么平均鞋号为25.75号,销量均值为148双,可这两个均值没啥意义,因此直接用25.5号鞋377双的销量就能直接说清楚皮鞋销售的集中趋势,简单又明了,不容易产生误解。注意:众数在表述的时候总是跟分类有关,而不是出现的频率,比如前面家庭宠物数量的案例中,众数是“狗”,而不是狗的数量即狗作为宠物在统计中出现的频率69;皮鞋销量的案例中,“25.5号鞋”是众数,而不是25.5号鞋的销量377,377也是25.5号鞋在统计中出现的频率。一组数据中可以有众数,也可以没有众数,这一点与均值和中位数不同,任何一组数据肯定会有均值与中位数。比如最前面那组数据3,7,6,29,19,31,2中,各数据出现的频率是一致的,因此没有众数;如果将其中的7替换成6 ,该组数据就变成3,6,6,29,19,31,2,可见6出现了两次,而其他数值均只出现一次,因此6就成了该组数据中的众数。中位数和众数基本上不受极端值的影响,但均值受极端值的影响很大,比如最前面那组数据3,7,6,29,19,31,2的均值为13.86,如果将31替换成299,那么均值=(3+7+6+29+19+299+2)/7=52.14,但该组数据的中位数仍是7。可见,如果一组数据中含有极端值,用中位数来描述该组数据的集中分布趋势是再合适不过的。比如,在统计美国家庭收入情况时,最常用的方法就是看一下美国家庭收入中位数的情况,因为如果是计算家庭收入均值,很容易被占人口总数很小的高收入家庭所干扰,比如比尔盖茨和扎克伯格等。以某交易日11:23至11:33期间欧元/美元的市场报价为例,假设每分钟报价一次,在此期间共有11个报价,汇率的均值为1.1699,中位数为1.1710,1.1728的报价出现三次,因此期间汇率的众数为1.1728日期欧元/美元均值低高排序中位数众数11:231.16041.169911:231.160411:241.165311:241.165311:251.169711:311.166711:261.173811:301.169211:271.174411:251.169711:281.172811:321.17101.171011:291.172811:281.17281.172811:301.169211:291.172811:311.166711:331.172811:321.171011:261.173811:331.172811:271.1744报价走势图为在外汇市场中经常会发生报价出错的情况,也就是系统报价严重偏离市场正常的波动范围,假设11:33系统将本属正常的1.1710错误地报成1.7110,那么可以看到汇率的均值会从1.1699变成1.2190,中位数从1.1710变成1.1728,而汇率的众数仍为1.1728,可见均值受极端错误报价的影响有多大,而中位数和众数表现基本稳定。日期欧元/美元均值低高排序中位数众数11:231.16041.219011:231.160411:241.165311:241.165311:251.169711:311.166711:261.173811:301.169211:271.174411:251.169711:281.172811:281.17281.172811:291.172811:291.17281.172811:301.169211:331.172811:311.166711:261.173811:321.711011:271.174411:331.172811:321.7110报价走势图上错误报价严重偏离正常波动区间。但有的情况下,汇率虽然与前一个报价相差甚远,并非由于报错价,而是市场汇率本身确实发生了大的波动,比如重大经济指标公布后经常会见到汇率突然突破某个关键阻力位,然后一路上行,这种情况下,在汇率均值随之波动的同时,汇率的中位数可能变动不大,但众数会发生大的变化,甚至有双众数的情况发生。日期欧元/美元均值低高排序中位数众数11:231.16041.173311:231.160411:241.165311:241.165311:251.169711:301.169211:261.173811:251.169711:271.174411:281.17281.172811:281.172811:291.17281.172811:291.172811:261.173811:301.169211:271.174411:311.180711:311.18071.180711:321.180711:321.180711:331.186011:331.1860小结:
- 均值、中间值和众数这三个指标均可以用来表示数据的集中趋势;
- 均值的计算最简单,但数列中任何一个值的变化对均值均有影响,因此容易受到极端数值的干扰;
- 在计算中位数之前,需要先对数据按大小进行排列,然后选取中间的数值,如果数据个数为偶数,中位数则为中间两个数据的算术平均值;
- 中位数比较适用于数列中含有极端值的情况;
- 任何一组数据,不管数据的格式是偶数还是奇数,一定有均值与中位数;
- 众数与出现的频率有关;
- 一组数据中可以有众数,甚至是双众数,也可以没有众数;
- 众数总是跟归类有关,而不是出现的频率;
- 在对极端数据的敏感度方面,中间值<众数<均值。