什么是中位数和众数(均值、中位数和众数之间的区别在哪?)

时间:2024-07-18 08:46:02

在统计学中均值、中间值和众数这三个指标均可以用来表示数据的集中趋势,集中趋势在统计学中是指一组数据向某一中心值靠拢的程度,即该组数据围绕着哪个数值分布。


均值

均值即算术平均值,是表示数据集中趋势的最常见指标,计算方法非常简单,将所有数据的数值加总求和然后除以数据的总个数即可。比如有一组数据3,7,6,29,19,31,2,均值=(3+7+6+29+19+31+2)/7=13.86

中位数

中位数是将数据按大小排序形成一个数列,取数列中间位置的数据为中位数。如果数据的个数为奇数,在整列数据中正中间位置上的数据就是中位数。还是以前面那组数据3,7,6,29,19,31,2为例,先按照从小到大的顺序排列,结果为2,3, 6,7, 19, 29, 31,因为数据的个数为7个,7正好处于整列数据的第4个也就是正中间的位置上,因此中位数为7。

但如果数据的个数为偶数,那么在数列的中间位置上就会有两个数据,中位数就等于这两个数据的均值。比如在前面那组数据3,7,6,29,19,31,2的基础上加上11,数据的个数就成了8个,排序后为2,3, 6,7, 11,19, 29, 31,7和11处于中间的位置上,因此中位数=(7+11)/2=9

众数

众数是整组数据中出现频率最高的数据,比如每100个家庭所拥有的宠物数量:

狗:69只

猫:45只

金鱼:22条

鹦鹉:2只

兔子:1只

其中每100个家庭所拥有的狗的数量最多,因此“狗”就是该组数据中的众数。

再比如,某家鞋店里男皮鞋的销售情况如下:

鞋号

销售量(双)

24.5

34

25

61

25.5

377

26

210

26.5

119

27

87

25.75

148

可见,25.5号鞋的销售量最大,也就是该数据出现的频率最高。如果计算均值,那么平均鞋号为25.75号,销量均值为148双,可这两个均值没啥意义,因此直接用25.5号鞋377双的销量就能直接说清楚皮鞋销售的集中趋势,简单又明了,不容易产生误解。

注意:众数在表述的时候总是跟分类有关,而不是出现的频率,比如前面家庭宠物数量的案例中,众数是“狗”,而不是狗的数量即狗作为宠物在统计中出现的频率69;皮鞋销量的案例中,“25.5号鞋”是众数,而不是25.5号鞋的销量377,377也是25.5号鞋在统计中出现的频率。

一组数据中可以有众数,也可以没有众数,这一点与均值和中位数不同,任何一组数据肯定会有均值与中位数。比如最前面那组数据3,7,6,29,19,31,2中,各数据出现的频率是一致的,因此没有众数;如果将其中的7替换成6 ,该组数据就变成3,6,6,29,19,31,2,可见6出现了两次,而其他数值均只出现一次,因此6就成了该组数据中的众数。

中位数和众数基本上不受极端值的影响,但均值受极端值的影响很大,比如最前面那组数据3,7,6,29,19,31,2的均值为13.86,如果将31替换成299,那么均值=(3+7+6+29+19+299+2)/7=52.14,但该组数据的中位数仍是7。

可见,如果一组数据中含有极端值,用中位数来描述该组数据的集中分布趋势是再合适不过的。比如,在统计美国家庭收入情况时,最常用的方法就是看一下美国家庭收入中位数的情况,因为如果是计算家庭收入均值,很容易被占人口总数很小的高收入家庭所干扰,比如比尔盖茨和扎克伯格等。

以某交易日11:23至11:33期间欧元/美元的市场报价为例,假设每分钟报价一次,在此期间共有11个报价,汇率的均值为1.1699,中位数为1.1710,1.1728的报价出现三次,因此期间汇率的众数为1.1728

















日期

欧元/美元

均值

低高排序

中位数

众数

11:23

1.1604

1.1699

11:23

1.1604

11:24

1.1653

11:24

1.1653

11:25

1.1697

11:31

1.1667

11:26

1.1738

11:30

1.1692

11:27

1.1744

11:25

1.1697

11:28

1.1728

11:32

1.1710

1.1710

11:29

1.1728

11:28

1.1728

1.1728

11:30

1.1692

11:29

1.1728

11:31

1.1667

11:33

1.1728

11:32

1.1710

11:26

1.1738

11:33

1.1728

11:27

1.1744

报价走势图为

在外汇市场中经常会发生报价出错的情况,也就是系统报价严重偏离市场正常的波动范围,假设11:33系统将本属正常的1.1710错误地报成1.7110,那么可以看到汇率的均值会从1.1699变成1.2190,中位数从1.1710变成1.1728,而汇率的众数仍为1.1728,可见均值受极端错误报价的影响有多大,而中位数和众数表现基本稳定。





















日期

欧元/美元

均值

低高排序

中位数

众数

11:23

1.1604

1.2190

11:23

1.1604

11:24

1.1653

11:24

1.1653

11:25

1.1697

11:31

1.1667

11:26

1.1738

11:30

1.1692

11:27

1.1744

11:25

1.1697

11:28

1.1728

11:28

1.1728

1.1728

11:29

1.1728

11:29

1.1728

1.1728

11:30

1.1692

11:33

1.1728

11:31

1.1667

11:26

1.1738

11:32

1.7110

11:27

1.1744

11:33

1.1728

11:32

1.7110

报价走势图上错误报价严重偏离正常波动区间。

但有的情况下,汇率虽然与前一个报价相差甚远,并非由于报错价,而是市场汇率本身确实发生了大的波动,比如重大经济指标公布后经常会见到汇率突然突破某个关键阻力位,然后一路上行,这种情况下,在汇率均值随之波动的同时,汇率的中位数可能变动不大,但众数会发生大的变化,甚至有双众数的情况发生。


















日期

欧元/美元

均值

低高排序

中位数

众数

11:23

1.1604

1.1733

11:23

1.1604

11:24

1.1653

11:24

1.1653

11:25

1.1697

11:30

1.1692

11:26

1.1738

11:25

1.1697

11:27

1.1744

11:28

1.1728

1.1728

11:28

1.1728

11:29

1.1728

1.1728

11:29

1.1728

11:26

1.1738

11:30

1.1692

11:27

1.1744

11:31

1.1807

11:31

1.1807

1.1807

11:32

1.1807

11:32

1.1807

11:33

1.1860

11:33

1.1860

小结:

  • 均值、中间值和众数这三个指标均可以用来表示数据的集中趋势;

  • 均值的计算最简单,但数列中任何一个值的变化对均值均有影响,因此容易受到极端数值的干扰;

  • 在计算中位数之前,需要先对数据按大小进行排列,然后选取中间的数值,如果数据个数为偶数,中位数则为中间两个数据的算术平均值;

  • 中位数比较适用于数列中含有极端值的情况;

  • 任何一组数据,不管数据的格式是偶数还是奇数,一定有均值与中位数;

  • 众数与出现的频率有关;

  • 一组数据中可以有众数,甚至是双众数,也可以没有众数;

  • 众数总是跟归类有关,而不是出现的频率;

  • 在对极端数据的敏感度方面,中间值<众数<均值。