Как находится медиана. Структурные средние величины. Мода и медиана. Их вычисление в дискретных и интервальных вариационных рядах

Как находится медиана. Структурные средние величины. Мода и медиана. Их вычисление в дискретных и интервальных вариационных рядах

Зарплат в различных отраслях экономики, температуру и уровень осадков на одной и той же территории за сопоставимые периоды времени, урожайность выращиваемых культур в разных географических регионах и т. д. Впрочем, средняя является отнюдь не единственным обобщающим показателем - в ряде случае для более точной оценки подходит такая величина как медиана. В статистике она широко применяется в качестве вспомогательной описательной характеристики распределения какого-либо признака в отдельно взятой совокупности. Давайте разберемся, чем она отличается от средней, а также чем вызвана необходимость ее использования.

Медиана в статистике: определение и свойства

Представьте себе следующую ситуацию: на фирме вместе с директором работают 10 человек. Простые работники получают по 1000 грн., а их руководитель, который, к тому же, является собственником, - 10000 грн. Если вычислить среднее арифметическое, то получится, что в среднем зарплата на данном предприятии равна 1900 грн. Будет ли справедливым данное утверждение? Или возьмем такой пример, в одной и той же больничной палате находится девять человек с температурой 36,6 °С, и один человек, у которого она равна 41 °С. Арифметическое среднее в этом случае равно: (36,6*9+41)/10 = 37,04 °С. Но это вовсе не означает, что каждый из присутствующих болен. Все это наталкивает на мысль, что одной средней часто бывает недостаточно, и именно поэтому в дополнение к ней используется медиана. В статистике этим показателем называют вариант, который расположен ровно посередине упорядоченного вариационного ряда. Если посчитать ее для наших примеров, то получится соответственно 1000 грн. и 36,6 °С. Другими словами, медианой в статистике называется значение, которое делит ряд пополам таким образом, что по обе стороны от нее (вниз или вверх) расположено одинаковое число единиц данной совокупности. Из-за этого свойства данный показатель имеет еще несколько названий: 50-й перцентиль или квантиль 0,5.

Как найти медиану в статистике

Способ расчета данной величины во многом зависит от того, какой тип вариационного ряда мы имеем: дискретный или интервальный. В первом случае, медиана в статистике находится довольно просто. Все, что нужно сделать, это найти сумму частот, разделить ее на 2 и затем прибавить к результату ½. Лучше всего будет пояснить принцип расчета на следующем примере. Предположим, у нас есть сгруппированные данные по рождаемости, и требуется выяснить, чему равна медиана.

Номер группы семей по кол-ву детей

Кол-во семей

Проведя нехитрые подсчеты, получим, что искомый показатель равен: 195/2 + ½ = варианта. Для того чтобы выяснить, что это означает, следует последовательно накапливать частоты, начиная с наименьшей варианты. Итак, сумма первых двух строк дает нам 30. Ясно, что здесь 98 варианты нет. Но если прибавить к результату частоту третьей варианты (70), то получится сумма, равная 100. В ней как раз и находится 98-я варианта, а значит медианой будет семья, у которой есть двое детей.

Что же касается интервального ряда, то здесь обычно используют следующую формулу:

М е = Х Ме + i Ме * (∑f/2 - S Me-1)/f Ме, в которой:

  • Х Ме - первое значение медианного интервала;
  • ∑f - численность ряда (сумма его частот);
  • i Ме - величина медианного диапазона;
  • f Ме - частота медианного диапазона;
  • S Ме-1 - сумма кумулятивных частот в диапазонах, предшествующих медианному.

Опять же, без примера здесь разобраться довольно сложно. Предположим, есть данные по величине

Зарплата, тыс. руб.

Накопленные частоты

Чтобы воспользоваться вышеприведенной формулой, вначале нам нужно определить медианный интервал. В качестве такого диапазона выбирают тот, накопленная частота которого превышает половину всей суммы частот или равна ей. Итак, разделив 510 на 2, получаем, что этому критерию соответствует интервал со значением зарплаты от 250000 руб. до 300000 руб. Теперь можно подставлять все данные в формулу:

М е = Х Ме + i Ме * (∑f/2 - S Ме-1)/f Ме = 250 + 50 * (510/2 - 170) / 115 = 286,96 тыс. руб.

Надеемся, наша статья оказалась полезной, и теперь вы имеете ясное представление о том, что такое медиана в статистике и как ее следует рассчитывать.

Медиана - это такое значение признака, которое разделяет ранжированный ряд распределения на две равные части - со значениями признака меньше медианы и со значениями признака больше медианы. Для нахождения медианы, нужно отыскать значение признака, которое находится на середине упорядоченного ряда.

Посмотреть решение задачи на нахождение моды и медианы Вы можете

В ранжированных рядах несгруппированные данные для нахождения медианы сводятся к поиску порядкового номера медианы. Медиана может быть вычислена по следующей формуле:

где Хm - нижняя граница медианного интервала;
im - медианный интервал;
Sme- сумма наблюдений, которая была накоплена до начала медианного интервала;
fme - число наблюдений в медианном интервале.

Свойства медианы

  1. Медиана не зависит от тех значений признака, которые расположены по обе стороны от нее.
  2. Аналитические операции с медианой весьма ограничены, поэтому при объединении двух распределений с известными медианами невозможно заранее предсказать величину медианы нового распределения.
  3. Медиана обладает свойством минимальности. Его суть заключается в том, что сумма абсолютных отклонений значений х, от медианы представляет собой минимальную величину по сравнению с отклонением X от любой другой величины

Графическое определение медианы

Для определения медианы графическим методом используют накопленные частоты, по которым строится кумулятивная кривая. Вершины ординат, соответствующих накопленным частотам, соединяют отрезками прямой. Разделив поп олам последнюю ординату, которая соответствует общей сумме частот и проведя к ней перпендикуляр пересечения с кумулятивной кривой, находят ординату искомого значения медианы.

Определение моды в статистике

Мода - значение признака , имеющее наибольшую частоту в статистическом ряду распределения.

Определение моды производится разными способами, и это зависит от того, представлен ли варьирующий признак в виде дискретного или интервального ряда.

Нахождение моды и медианы происходит путем обычного просматривания столбца частот. В этом столбце находят наибольшее число, характеризующее наибольшую частоту. Ей соответствует определенное значение признака, которое и является модой. В интервальном вариационном ряду модой приблизительно считают центральный вариант интервала с наибольшей частотой. В таком ряду распределения мода вычисляется по формуле :

где ХМо - нижняя граница модального интервала;
imo - модальный интервал;
fм0, fм0-1, fм0+1 — частоты в модальном, предыдущем и следующем за модальным интервалах.

Модальный интервал определяется по наибольшей частоте.

Мода широко используется в статистической практике при анализе покупательного спроса, регистрации цен и т. д.

Соотношения между средней арифметической, медианой и модой

Для одномодального симметричного ряда распределения , медиана и мода совпадают. Для асимметричных распределений они не совпадают.

К. Пирсон на основе выравнивания различных типов кривых определил, что для умеренно асимметричных распределений справедливы такие приближенные соотношения между средней арифметической, медианой и модой:

Мода и медиана – особого рода средние, которые используются для изучения структуры вариационного ряда. Их иногда называют структурными средними, в отличие от рассмотренных ранее степенных средних.

Мода – это величина признака (варианта), которая чаще всего встречается в данной совокупности, т.е. имеет наибольшую частоту.

Мода имеет большое практическое применение и в ряде случаев только мода может дать характеристику общественных явлений.

Медиана – это варианта, которая находится в середине упорядоченного вариационного ряда.

Медиана показывает количественную границу значения варьирующего признака, которой достигла половина единиц совокупности. Применение медианы наряду со средней или вместо нее целесообразно при наличии в вариационном ряду открытых интервалов, т.к. для вычисления медианы не требуется условное установление границ отрытых интервалов, и поэтому отсутствие сведений о них не влияет на точность вычисления медианы.

Медиану применяют также тогда, когда показатели, которые нужно использовать в качестве весов, неизвестны. Медиану применяют вместо средней арифметической при статистических методах контроля качества продукции. Сумма абсолютных отклонений варианты от медианы меньше, чем от любого другого числа.

Рассмотрим расчет моды и медианы в дискретном вариационном ряду:

Определить моду и медиану.

Мода Мо = 4 года, так как этому значению соответствует наибольшая частота f = 5.

Т.е. наибольшее число рабочих имеют стаж 4 года.

Для того, чтобы вычислить медиану, найдем предварительно половину суммы частот. Если сумма частот является числом нечетным, то мы сначала прибавляем к этой сумме единицу, а затем делим пополам:

Медианой будет восьмая по счету варианта.

Для того, чтобы найти, какая варианта будет восьмой по номеру, будем накапливать частоты до тех пор, пока не получим сумму частот, равную или превышающую половину суммы всех частот. Соответствующая варианта и будет медианой.

Ме = 4 года.

Т.е. половина рабочих имеет стаж меньше четырех лет, половина больше.

Если сумма накопленных частот против одной варианты равна половине сумме частот, то медиана определяется как средняя арифметическая этой варианты и последующей.

Вычисление моды и медианы в интервальном вариационном ряду

Мода в интервальном вариационном ряду вычисляется по формуле

где Х М0 - начальная граница модального интервала,

h м 0 – величина модального интервала,

f м 0 , f м 0-1 , f м 0+1 – частота соответственно модального интервала, предшествующего модальному и последующего.

Модальным называется такой интервал, которому соответствует наибольшая частота.

Пример 1

Группы по стажу

Число рабочих, чел

Накопленные частоты

Определить моду и медиану.

Модальный интервал , т.к. ему соответствует наибольшая частота f = 35. Тогда:

Хм 0 =6, 0 =35

Наряду со средними величинами в качестве статистических характеристик вариационных рядов распределения рассчитываются структурные средние – мода и медиана .
Мода (Mo) представляет собой значение изучаемого признака, повторяющееся с наибольшей частотой, т.е. мода – значение признака, встречающееся чаще всего.
Медианой (Me) называется значение признака, приходящееся на середину ранжированной (упорядоченной) совокупности, т.е. медиана – центральное значение вариационного ряда.
Главное свойство медианы заключается в том, что сумма абсолютных отклонений значений признака от медианы меньше, чем от любой другой величины ∑|x i - Me|=min.

Определение моды и медианы по несгруппированным данным

Рассмотрим определение моды и медианы по несгруппированным данным . Предположим, рабочие бригады, состоящей из 9 человек, имеют следующие тарифные разряды: 4 3 4 5 3 3 6 2 6 . Так как в данной бригаде больше всего рабочих 3-го разряда, этот тарифный разряд будет модальным. Mo = 3.
Для определения медианы необходимо провести ранжирование: 2 3 3 3 4 4 5 6 6 . Центральным в этом ряду является рабочий 4-го разряда, следовательно, данный разряд и будет медианным. Если ранжированный ряд включает четное число единиц, то медиана определяется как средняя из двух центральных значений.
Если мода отражает наиболее распространенный вариант значения признака, то медиана практически выполняет функции средней для неоднородной, не подчиняющейся нормальному закону распределения совокупности. Проиллюстрируем ее познавательное значение следующим примером.
Допустим, нам необходимо дать характеристику среднего дохода группы людей, насчитывающей 100 человек, из которых 99 имеют доходы в интервале от 100 до 200 долларов в месяц, а месячные доходы последнего составляют 50000 долларов (табл. 1).
Таблица 1 - Месячные доходы исследуемой группы людей. Если воспользоваться средней арифметической, то получим средний доход, равный примерно 600 – 700 долларов, который имеет мало общего с доходами основной части группы. Медиана же, равная в данном случае Me = 163 доллара, позволит дать объективную характеристику уровня доходов 99 % данной группы людей.
Рассмотрим определение моды и медианы по сгруппированным данным (рядам распределения).
Предположим, распределение рабочих всего предприятия в целом по тарифному разряду имеет следующий вид (табл. 2).
Таблица 2 - Распределение рабочих предприятия по тарифному разряду

Расчет моды и медианы для дискретного ряда

Расчет моды и медианы для интервального ряд

Расчет моды и медианы для вариационного ряда

Определение моды по дискретному вариационному ряду

Используется построенный ранее ряд значений признака, отсортированных по величине. Если объем выборки нечетный, берем центральное значение; если объем выборки четный, берем среднее арифметическое двух центральных значений.
Определение моды по дискретному вариационному ряду : наибольшую частоту (60 человек) имеет 5-й тарифный разряд, следовательно, он и является модальным. Mo = 5.
Для определения медианного значения признака по следующей формуле находят номер медианной единицы ряда (N Me): , где n - объем совокупности.
В нашем случае: .
Полученное дробное значение, всегда имеющее место при четном числе единиц совокупности, указывает, что точная середина находится между 95 и 96 рабочими. Необходимо определить, к какой группе относятся рабочие с этими порядковыми номерами. Это можно сделать, рассчитав накопленные частоты. Рабочих с этими номерами нет в первой группе, где всего лишь 12 человек, нет их и во второй группе (12+48=60). 95-й и 96-й рабочие находятся в третьей группе (12+48+56=116), следовательно, медианным является 4-й тарифный разряд.

Расчет моды и медианы в интервальном ряду

В отличие от дискретных вариационных рядов определение моды и медианы по интервальным рядам требует проведения определенных расчетов на основе следующих формул:
, (5.6)
где x 0 – нижняя граница модального интервала (модальным называется интервал, имеющий наибольшую частоту);
i – величина модального интервала;
f Mo – частота модального интервала;
f Mo -1 – частота интервала, предшествующего модальному;
f Mo +1 – частота интервала, следующего за модальным.
(5.7)
где x 0 – нижняя граница медианного интервала (медианным называется первый интервал, накопленная частота которого превышает половину общей суммы частот);
i – величина медианного интервала;
S Me -1 – накопленная интервала, предшествующего медианному;
f Me – частота медианного интервала.
Проиллюстрируем применение этих формул, используя данные табл. 3.
Интервал с границами 60 – 80 в данном распределении будет модальным, т.к. он имеет наибольшую частоту. Использую формулу (5.6), определим моду:

Для установления медианного интервала необходимо определять накопленную частоту каждого последующего интервала до тех пор, пока она не превысит половины суммы накопленных частот (в нашем случае 50 %) (табл. 5.11).
Установили, что медианным является интервал с границами 100 – 120 тыс. руб. Определим теперь медиану:

Таблица 3 - Распределение населения РФ по уровню среднедушевых номинальных денежных доходов в марте 1994г.
Группы по уровню среднедушевого месячного дохода, тыс. руб. Удельный вес населения, %
До 20 1,4
20 – 40 7,5
40 – 60 11,9
60 – 80 12,7
80 – 100 11,7
100 – 120 10,0
120 – 140 8,3
140 –160 6,8
160 – 180 5,5
180 – 200 4,4
200 – 220 3,5
220 – 240 2,9
240 – 260 2,3
260 – 280 1,9
280 – 300 1,5
Свыше 300 7,7
Итого 100,0

Таблица 4 - Определение медианного интервала
Таким образом, в качестве обобщенной характеристики значений определенного признака у единиц ранжированной совокупности могут быть использованы средняя арифметическая, мода и медиана.
Основной характеристикой центра распределения является средняя арифметическая, для которой характерно то, что все отклонения от нее (положительные и отрицательные) в сумме равняются нулю. Для медианы характерно, что сумма отклонений от нее по модулю является минимальной, а мода представляет собой значение признака, которое наиболее часто встречается.
Соотношение моды, медианы и средней арифметической указывает на характер распределения признака в совокупности, позволяет оценить его асимметрию. В симметричных распределениях все три характеристики совпадают. Чем больше расхождение между модой и средней арифметической, тем более асимметричен ряд. Для умеренно асимметричных рядов разность между модой и средней арифметической примерно в три раза превышает разность между медианой и средней, т.е.:
|Mo –`x| = 3 |Me –`x|.

Определение моды и медианы графическим методом

Моду и медиану в интервальном ряду можно определить графически . Мода определяется по гистограмме распределения. Для этого выбирается самый высокий прямоугольник, который является в данном случае модальным. Затем правую вершину модального прямоугольника соединяем с правым верхним углом предыдущего прямоугольника. А левую вершину модального прямоугольника – с левым верхним углом последующего прямоугольника. Из точки их пересечения опускаем перпендикуляр на ось абсцисс. Абсцисса точки пересечения этих прямых и будет модой распределения (рис. 5.3).


Рис. 5.3. Графическое определение моды по гистограмме.


Рис. 5.4. Графическое определение медианы по кумуляте
Для определения медианы из точки на шкале накопленных частот (частостей), соответствующей 50 %, проводится прямая, параллельная оси абсцисс до пересечения с кумулятой. Затем из точки пересечения опускается перпендикуляр на ось абсцисс. Абсцисса точки пересечения является медианой.

Квартили, децили, перцентили

Аналогично с нахождением медианы в вариационных рядах распределения можно отыскать значение признака у любой по порядку единицы ранжированного ряда. Так, например, можно найти значение признака у единиц, делящих ряд на четыре равные части, на 10 или на 100 частей. Эти величины называются «квартили», «децили», «перцентили».
Квартили представляют собой значение признака, делящее ранжированную совокупность на 4 равновеликие части.
Различают квартиль нижний (Q 1), отделяющий ¼ часть совокупности с наименьшими значениями признака, и квартиль верхний (Q 3), осекающий ¼ часть с наибольшими значениями признака. Это означает, что 25 % единиц совокупности будут меньше по величине Q 1 ; 25 % единиц будут заключены между Q 1 и Q 2 ; 25 % - между Q 2 и Q 3 , а остальные 25 % превосходят Q 3 . Средним квартилем Q 2 является медиана.
Для расчета квартилей по интервальному вариационному ряду используются формулы:
, ,
где x Q 1 – нижняя граница интервала, содержащего нижний квартиль (интервал определяется по накопленной частоте, первой превышающей 25 %);
x Q 3 – нижняя граница интервала, содержащего верхний квартиль (интервал определяется по накопленной частоте, первой превышающей 75 %);
i – величина интервала;
S Q 1-1 – накопленная частота интервала, предшествующего интервалу, содержащему нижний квартиль;
S Q 3-1 – накопленная частота интервала, предшествующего интервалу, содержащему верхний квартиль;
f Q 1 – частота интервала, содержащего нижний квартиль;
f Q 3 – частота интервала, содержащего верхний квартиль.
Рассмотрим расчет нижнего и верхнего квартилей по данным табл. 5.10. Нижний квартиль находится в интервале 60 – 80, накопленная частота которого равна 33,5 %. Верхний квартиль лежит в интервале 160 – 180 с накопленной частотой 75,8 %. С учетом этого получим:
,
.
Кроме квартилей в вариационных радах распределения могут определяться децили – варианты, делящие ранжированный вариационный ряд на десять равных частей. Первый дециль (d 1) делит совокупность в соотношении 1/10 к 9/10, второй дециль (d 1) – в соотношении 2/10 к 8/10 и т.д.
Вычисляются они по формулам:
, .
Значения признака, делящие ряд на сто частей, называются перцентилями. Соотношения медианы, квартилей, децилей и перцентилей представлены на рис. 5.5.

Для вычисления медианы в MS EXCEL существует специальная функция МЕДИАНА() . В этой статье дадим определение медианы и научимся вычислять ее для выборки и для заданного закона распределения случайной величины.

Начнем с медианы для выборок (т.е. для фиксированного набора значений).

Медиана выборки

Медиана (median) – это число, которое является серединой множества чисел: половина чисел множества больше, чем медиана , а половина чисел меньше, чем медиана .

Для вычисления медианы необходимо сначала (значения в выборке ). Например, медианой для выборки (2; 3; 3; 4 ; 5; 7; 10) будет 4. Т.к. всего в выборке 7 значений, три из них меньше, чем 4 (т.е. 2; 3; 3), а три значения больше (т.е. 5; 7; 10).

Если множество содержит четное количество чисел, то вычисляется для двух чисел, находящихся в середине множества. Например, медианой для выборки (2; 3; 3 ; 6 ; 7; 10) будет 4,5, т.к. (3+6)/2=4,5.

Для определения медианы в MS EXCEL существует одноименная функция МЕДИАНА() , английский вариант MEDIAN().

Медиана не обязательно совпадает со . Совпадение имеет место только в том случае, если значения в выборке распределены симметрично относительно среднего . Например, для выборки (1; 2; 3 ; 4 ; 5; 6) медиана и среднее равны 3,5.

Если известна Функция распределения F(х) или функция плотности вероятности p (х) , то медиану можно найти из уравнения:

Например, решив аналитическим способом это уравнение для Логнормального распределения lnN(μ; σ 2), получим, что медиана вычисляется по формуле =EXP(μ). При μ=0, медиана равна 1.


Самое обсуждаемое
Практическое применение Явления полного отражения Практическое применение Явления полного отражения
Православные школы: достижения и проблемы Православные школы: достижения и проблемы
Формы глаголов в английском языке Формы глаголов в английском языке


top