在统计学中均值、中间值和众数这三个指标均可以用来表示数据的集中趋势,集中趋势在统计学中是指一组数据向某一中心值靠拢的程度,即该组数据围绕着哪个数值分布。
均值
均值即算术平均值,是表示数据集中趋势的最常见指标,计算方法非常简单,将所有数据的数值加总求和然后除以数据的总个数即可。比如有一组数据3,7,6,29,19,31,2,均值=(3+7+6+29+19+31+2)/7=13.86
中位数
中位数是将数据按大小排序形成一个数列,取数列中间位置的数据为中位数。如果数据的个数为奇数,在整列数据中正中间位置上的数据就是中位数。还是以前面那组数据3,7,6,29,19,31,2为例,先按照从小到大的顺序排列,结果为2,3, 6,7, 19, 29, 31,因为数据的个数为7个,7正好处于整列数据的第4个也就是正中间的位置上,因此中位数为7。
但如果数据的个数为偶数,那么在数列的中间位置上就会有两个数据,中位数就等于这两个数据的均值。比如在前面那组数据3,7,6,29,19,31,2的基础上加上11,数据的个数就成了8个,排序后为2,3, 6,7, 11,19, 29, 31,7和11处于中间的位置上,因此中位数=(7+11)/2=9
众数
众数是整组数据中出现频率最高的数据,比如每100个家庭所拥有的宠物数量:
狗:69只
猫:45只
金鱼:22条
鹦鹉:2只
兔子:1只
其中每100个家庭所拥有的狗的数量最多,因此“狗”就是该组数据中的众数。
再比如,某家鞋店里男皮鞋的销售情况如下:
鞋号 | 销售量(双) |
24.5 | 34 |
25 | 61 |
25.5 | 377 |
26 | 210 |
26.5 | 119 |
27 | 87 |
25.75 | 148 |
可见,25.5号鞋的销售量最大,也就是该数据出现的频率最高。如果计算均值,那么平均鞋号为25.75号,销量均值为148双,可这两个均值没啥意义,因此直接用25.5号鞋377双的销量就能直接说清楚皮鞋销售的集中趋势,简单又明了,不容易产生误解。
注意:众数在表述的时候总是跟分类有关,而不是出现的频率,比如前面家庭宠物数量的案例中,众数是“狗”,而不是狗的数量即狗作为宠物在统计中出现的频率69;皮鞋销量的案例中,“25.5号鞋”是众数,而不是25.5号鞋的销量377,377也是25.5号鞋在统计中出现的频率。
一组数据中可以有众数,也可以没有众数,这一点与均值和中位数不同,任何一组数据肯定会有均值与中位数。比如最前面那组数据3,7,6,29,19,31,2中,各数据出现的频率是一致的,因此没有众数;如果将其中的7替换成6 ,该组数据就变成3,6,6,29,19,31,2,可见6出现了两次,而其他数值均只出现一次,因此6就成了该组数据中的众数。
中位数和众数基本上不受极端值的影响,但均值受极端值的影响很大,比如最前面那组数据3,7,6,29,19,31,2的均值为13.86,如果将31替换成299,那么均值=(3+7+6+29+19+299+2)/7=52.14,但该组数据的中位数仍是7。
可见,如果一组数据中含有极端值,用中位数来描述该组数据的集中分布趋势是再合适不过的。比如,在统计美国家庭收入情况时,最常用的方法就是看一下美国家庭收入中位数的情况,因为如果是计算家庭收入均值,很容易被占人口总数很小的高收入家庭所干扰,比如比尔盖茨和扎克伯格等。
以某交易日11:23至11:33期间欧元/美元的市场报价为例,假设每分钟报价一次,在此期间共有11个报价,汇率的均值为1.1699,中位数为1.1710,1.1728的报价出现三次,因此期间汇率的众数为1.1728
日期 | 欧元/美元 | 均值 | 低高排序 | 中位数 | 众数 | |
11:23 | 1.1604 | 1.1699 | 11:23 | 1.1604 | ||
11:24 | 1.1653 | 11:24 | 1.1653 | |||
11:25 | 1.1697 | 11:31 | 1.1667 | |||
11:26 | 1.1738 | 11:30 | 1.1692 | |||
11:27 | 1.1744 | 11:25 | 1.1697 | |||
11:28 | 1.1728 | 11:32 | 1.1710 | 1.1710 | ||
11:29 | 1.1728 | 11:28 | 1.1728 | 1.1728 | ||
11:30 | 1.1692 | 11:29 | 1.1728 | |||
11:31 | 1.1667 | 11:33 | 1.1728 | |||
11:32 | 1.1710 | 11:26 | 1.1738 | |||
11:33 | 1.1728 | 11:27 | 1.1744 |
报价走势图为
在外汇市场中经常会发生报价出错的情况,也就是系统报价严重偏离市场正常的波动范围,假设11:33系统将本属正常的1.1710错误地报成1.7110,那么可以看到汇率的均值会从1.1699变成1.2190,中位数从1.1710变成1.1728,而汇率的众数仍为1.1728,可见均值受极端错误报价的影响有多大,而中位数和众数表现基本稳定。
日期 | 欧元/美元 | 均值 | 低高排序 | 中位数 | 众数 | |
11:23 | 1.1604 | 1.2190 | 11:23 | 1.1604 | ||
11:24 | 1.1653 | 11:24 | 1.1653 | |||
11:25 | 1.1697 | 11:31 | 1.1667 | |||
11:26 | 1.1738 | 11:30 | 1.1692 | |||
11:27 | 1.1744 | 11:25 | 1.1697 | |||
11:28 | 1.1728 | 11:28 | 1.1728 | 1.1728 | ||
11:29 | 1.1728 | 11:29 | 1.1728 | 1.1728 | ||
11:30 | 1.1692 | 11:33 | 1.1728 | |||
11:31 | 1.1667 | 11:26 | 1.1738 | |||
11:32 | 1.7110 | 11:27 | 1.1744 | |||
11:33 | 1.1728 | 11:32 | 1.7110 |
报价走势图上错误报价严重偏离正常波动区间。
但有的情况下,汇率虽然与前一个报价相差甚远,并非由于报错价,而是市场汇率本身确实发生了大的波动,比如重大经济指标公布后经常会见到汇率突然突破某个关键阻力位,然后一路上行,这种情况下,在汇率均值随之波动的同时,汇率的中位数可能变动不大,但众数会发生大的变化,甚至有双众数的情况发生。
日期 | 欧元/美元 | 均值 | 低高排序 | 中位数 | 众数 | |
11:23 | 1.1604 | 1.1733 | 11:23 | 1.1604 | ||
11:24 | 1.1653 | 11:24 | 1.1653 | |||
11:25 | 1.1697 | 11:30 | 1.1692 | |||
11:26 | 1.1738 | 11:25 | 1.1697 | |||
11:27 | 1.1744 | 11:28 | 1.1728 | 1.1728 | ||
11:28 | 1.1728 | 11:29 | 1.1728 | 1.1728 | ||
11:29 | 1.1728 | 11:26 | 1.1738 | |||
11:30 | 1.1692 | 11:27 | 1.1744 | |||
11:31 | 1.1807 | 11:31 | 1.1807 | 1.1807 | ||
11:32 | 1.1807 | 11:32 | 1.1807 | |||
11:33 | 1.1860 | 11:33 | 1.1860 |
小结:
均值、中间值和众数这三个指标均可以用来表示数据的集中趋势;
均值的计算最简单,但数列中任何一个值的变化对均值均有影响,因此容易受到极端数值的干扰;
在计算中位数之前,需要先对数据按大小进行排列,然后选取中间的数值,如果数据个数为偶数,中位数则为中间两个数据的算术平均值;
中位数比较适用于数列中含有极端值的情况;
任何一组数据,不管数据的格式是偶数还是奇数,一定有均值与中位数;
众数与出现的频率有关;
一组数据中可以有众数,甚至是双众数,也可以没有众数;
众数总是跟归类有关,而不是出现的频率;
在对极端数据的敏感度方面,中间值<众数<均值。