Коэффициент асимметрии случайной величины. Вычисление асимметрии и эксцесса эмпирического распределения в Excel Асимметрия нормального распределения

2.6 Асимметрия и эксцесс

В математической статистике для выяснения геометрической формы плотности вероятности случайной величины используются две числовые характеристики, связанные с центральными моментами третьего и четвертого порядков.

Определение 2.22 Коэффициентом асимметрии выборки x 1 , x 2 , …, x n называется число , равное отношению центрального выборочного момента третьего порядка к кубу стандартного отклонения S :

Так как и , то коэффициент асимметрии выражается через центральные моменты следующей формулой:

Отсюда получается формула, выражающая коэффициент асимметрии через начальные моменты:

, которая облегчает практические вычисления.

Соответствующая теоретическая характеристика вводится с помощью теоретических моментов.

Определение 2.23 Коэффициентом асимметрии случайной величины X называется число равное отношению центрального момента третьего порядка к кубу стандартного отклонения :

Если случайная величина X имеет симметричное распределение относительно математического ожидания μ, то её теоретический коэффициент асимметрии равен 0, если же распределение вероятностей несимметрично, то коэффициент асимметрии отличен от нуля. Положительное значение коэффициента асимметрии говорит о том, что большая часть значений случайной величины расположена правее математического ожидания, то есть правая ветвь кривой плотности вероятности более удлинена, чем левая. Отрицательное значение коэффициента асимметрии говорит о том, что более длинная часть кривой расположена слева. Данное утверждение иллюстрирует следующий рисунок.

Рисунок 2.1 – Положительная и отрицательная асимметрия

распределений

Пример 2.29 Найдем выборочный коэффициент асимметрии по данным исследования стрессовых ситуаций из примера 2.28.

Пользуясь ранее вычисленными значениями центральных выборочных моментов, получим

.

Округлим = 0,07. Найденное отличное от нуля значение коэффициента асимметрии показывает скошенность распределения относительно среднего. Положительное значение говорит о том, что более длинная ветвь кривой плотности вероятности расположена справа.

Особенности распределения значений случайной величины вокруг её модального значения Х мод характеризует следующая постоянная.

Определение 2.24 Эксцессом выборки x 1 , x 2 , …, x n называется число , равное

,

где – выборочный центральный момент четвёртого порядка,

S 4 – четвёртая степень стандартного отклонения S .

Теоретическое понятие эксцесса является аналогом выборочного.

Определение 2.25 Эксцессом случайной величины X называется число е, равное

,

где теоретический центральный момент четвёртого порядка,

четвёртая степень стандартного отклонения .

Значение эксцесса е характеризует относительную крутость вершины кривой плотности распределения вокруг точки максимума. Если эксцесс является положительным числом, то соответствующая кривая распределения имеет более острую вершину. Распределение с отрицательным эксцессом имеет сглаженную и более плоскую вершину. Следующий рисунок иллюстрирует возможные случаи.

Рисунок 2.2 – Распределения с положительным, нулевым и отрицательным значениями эксцессов

Асимметрия вычисляется функцией СКОС. Ее аргументом является интервал ячеек с данными, например, =СКОС(А1:А100), если данные содержатся в интервале ячеек от А1 до А100.

Эксцесс вычисляется функцией ЭКСЦЕСС, аргументом которой являются числовые данные, заданные, как правило, в виде интервала ячеек, например: =ЭКСЦЕСС(А1:А100).

§2.3. Инструмент анализа Описательная статистика

В Excel имеется возможность вычислить сразу все точечные характеристики выборки с помощью инструмента анализа Описательная статистика , который содержится в Пакете анализа .

Описательная статистика создает таблицу основных статистических характеристик для совокупности данных. В этой таблице будут содержаться следующие характеристики: среднее, стандартная ошибка, дисперсия, стандартное отклонение, мода, медиана, размах варьирования интервала, максимальное и минимальное значения, асимметрия, эксцесс, объем совокупности, сумма всех элементов совокупности, доверительный интервал (уровень надежности). Инструмент Описательная статистика существенно упрощает статистический анализ тем, что отпадает необходимость вызывать каждую функцию для расчета статистических характеристик отдельно.

Для того, чтобы вызвать Описательную статистику , следует:

1) в меню Сервис выбрать команду Анализ данных ;

2) в списке Инструменты анализа диалогового окна Анализ данных выбрать инструмент Описательная статистика и нажать ОК.

В окне Описательная статистика необходимо:

· в группе Входные данные в поле Входной интервал указать интервал ячеек, содержащих данные;

· если первая строка во входном диапазоне содержит заголовок столбца, то в поле Метки в первой строке следует поставить галочку;

· в группе Параметры вывода активизировать переключатель (поставить галочку) Итоговая статистика , если нужен полный список характеристик;

· активизировать переключатель Уровень надежности и указать надежность в %, если необходимо вычислить доверительный интервал (по умолчанию надежность равна 95%). Нажать ОК.

В результате появится таблица с вычисленными значениями указанных выше статистических характеристик. Сразу, не сбрасывая выделения этой таблицы, выполните команду Формат ®Столбец ®Автоподбор ширины .

Вид диалогового окна Описательная статистика :

Практические задания

2.1. Вычисление основных точечных статистических характеристик с помощью стандартных функции Excel

Одним и тем же вольтметром было измерено 25 раз напряжение на участке цепи. В результате опытов получены следующие значения напряжения в вольтах:

32, 32, 35, 37, 35, 38, 32, 33, 34, 37, 32, 32, 35,

34, 32, 34, 35, 39, 34, 38, 36, 30, 37, 28, 30.

Найти среднюю, выборочные и исправленные дисперсию, стандартное отклонение, размах варьирования, моду, медиану. Проверить отклонение от нормального распределения, вычислив асимметрию и эксцесс.

Для выполнения этого задания проделайте следующие пункты.

1. Наберите результаты эксперимента в столбец А.

2. В ячейку В1 наберите «Среднее», в В2 – «Выборочная дисперсия», в В3 – «Стандартное отклонение», в В4 – «Исправленная дисперсия», в В5 – «Исправленное стандартное отклонение», в В6 – «Максимум», в В7 – «Минимум», в В8 – «Размах варьирования», в В9 – «Мода», в В10 – «Медиана», в В11 – «Асимметрия», в В12 – «Эксцесс».

3. Выровняйте ширину этого столбца с помощью Автоподбора ширины.

4. Выделите ячейку С1 и нажмите на кнопку со знаком «=» в строке формул. С помощью Мастера функций в категории Статистические найдите функцию СРЗНАЧ, затем выделите интервал ячеек с данными и нажмите ОК.

5. Выделите ячейку С2 и нажмите на знак =в строке формул. С помощью Мастера функций в категории Статистические найдите функцию ДИСПР, затем выделите интервал ячеек с данными и нажмите ОК.

6. Проделайте самостоятельно аналогичные действия для вычисления остальных характеристик.

7. Для вычисления размаха варьирования в ячейку С8 следует ввести формулу: =C6-C7.

8. Добавьте перед вашей таблицей одну строку, в которую наберите заголовки соответствующих столбцов: «Наименование характеристик» и «Численные значения».

Для получения приблизительного представления о форме распределения случайной величины строят график её ряда распределения (полигон и гистограмму), функции или плотности распределения. В практике статистических исследований приходится встречаться с самими различными распределениями. Однородные совокупности характеризуются, как правило, одновершинными распределениями. Многовершинность свидетельствует о неоднородности изучаемой совокупности. В этом случае необходима перегруппировка данных с целью выделения более однородных групп.

Выяснение общего характера распределения случайной величины предполагает оценку степени его однородности, а также исчисление показателей асимметрии и эксцесса. В симметричном распределении, в котором математическое ожидание равно медиане, т.е. , можно считать асимметрия отсутствует. Но чем заметнее асимметрия, тем больше отклонение между характеристиками центра распределения – математическим ожиданием и медианой.

Простейшим коэффициентом асимметрии распределения случайной величины можно считать , где - это математическое ожидание, - медиана, а - стандартное отклонение случайной величины.

В случае правосторонней асимметрии , левосторонней – . Если , считается, что асимметрия низкая, если – средняя, а при – высокая. Геометрическая иллюстрация правосторонней и левосторонней асимметрии приведена на рисунке ниже. На нём изображены графики плотности распределений соответствующих типов непрерывных случайных величин.

Рисунок. Иллюстрация правосторонней и левосторонней асимметрии на графиках плотностей распределений непрерывных случайных величин.

Существует и другой коэффициент асимметрии распределения случайной величины. Можно доказать, что отличие от нуля центрального момента нечётного порядка свидетельствует об асимметрии распределения случайной величины. В предыдущем показателе мы использовали выражение , аналогичное моменту первого порядка . Но обычно в этом другом коэффициенте асимметрии используют центральный момент третьего порядка , а для того, чтобы этот коэффициент стал безразмерным его делят на куб стандартного отклонения. Получается такой коэффициент асимметрии: . Для этого коэффициента асимметрии, как и для первого в случае правосторонней асимметрии , левосторонней – .

Эксцесс случайной величины

Эксцесс распределения случайной величины характеризует степень сосредоточенности её значений около центра распределения: чем более высокая такая сосредоточенность, тем выше и уже будет график плотности её распределения. Показатель эксцесса (островершинности) рассчитывается по формуле: , где - это центральный момент 4 порядка, а – это стандартное отклонение, возведённое в 4 степень. Поскольку степени числителя и знаменателя одинаковы эксцесс является безразмерной величиной. При этом принято за эталон отсутствия эксцесса, нулевого эксцесса, брать нормальное распределение. Но можно доказать, что для нормального распределения . Поэтому в формуле для вычисления эксцесса из этой дроби число 3 вычитается.

Таким образом, для нормального распределения эксцесс равен нулю: . Если эксцесс больше нуля, т.е. , то распределение более островершинное, чем нормальное. Если эксцесс меньше нуля, т.е. , то распределение менее островершинное, чем нормальное. Предельным значением отрицательного эксцесса является значение ; величина положительного эксцесса может быть бесконечно большой. Как выглядят графики островершинных и плосковершинных плотностей распределения случайных величин в сравнении с нормальным распределением, показано на рисунке.

Рисунок. Иллюстрация островершинных и плосковершинных плотностей распределения случайных величин в сравнении с нормальным распределением.

Асимметрия и эксцесс распределения случайной величины показывают, насколько она отклоняется от нормального закона. При больших асимметриях и эксцессах применять формулы вычислений для нормального распределения не следует. Каким является уровень допустимости асимметрии и эксцесса для использования формул нормального распределения в анализе данных конкретной случайной величины должен определять исследователь на основе своих знаний и опыта.

Определение. Модой М 0 дискретной случайной величины называется ее наиболее вероятное значение. Для непрерывной случайной величины мода – такое значение случайной величины, при которой плотность распределения имеет максимум.

Если многоугольник распределения для дискретной случайной величины или кривая распределения для непрерывной случайной величины имеет два или несколько максимумов, то такое распределение называется двухмодальным или многомодальным .

Если распределение имеет минимум, но не имеет максимума, то оно называется антимодальным .

Определение. Медианой M D случайной величины Х называется такое ее значение, относительно которого равновероятно получение большего или меньшего значения случайной величины.

Геометрически медиана – абсцисса точки, в которой площадь, ограниченная кривой распределения делится пополам.

Отметим, что если распределение одномодальное, то мода и медиана совпадают с математическим ожиданием.

Определение. Начальным моментом порядка k случайной величины Х называется математическое ожидание величины Х k .

Для дискретной случайной величины: .

.

Начальный момент первого порядка равен математическому ожиданию.

Определение. Центральным моментом порядка k случайной величины Х называется математическое ожидание величины

Для дискретной случайной величины: .

Для непрерывной случайной величины: .

Центральный момент первого порядка всегда равен нулю, а центральный момент второго порядка равен дисперсии. Центральный момент третьего порядка характеризует асимметрию распределения.

Определение. Отношение центрального момента третьего порядка к среднему квадратическому отклонению в третьей степени называется коэффициентом асимметрии .

Определение. Для характеристики островершинности и плосковершинности распределения используется величина, называемая эксцессом.

Кроме рассмотренных величин используются также так называемые абсолютные моменты:

Абсолютный начальный момент: .

Абсолютный центральный момент: .

Квантилем , отвечающий заданному уровню вероятности Р , называют такое значение, при котором функция распределения принимает значение, равное Р , т.е. где Р - заданный уровень вероятности.

Другими словами квантиль есть такое значение случайной величины, при котором

Вероятность Р , задаваемая в процентах, дает название соответствующему квантилю, например, называется 40%-ым квантилем.

20. Математическое ожидание и дисперсия числа появления события в независимых опытах.

Определение. Математическим ожиданием непрерывной случайной величины Х, возможные значения которой принадлежат отрезку , называется определенный интеграл

Если возможные значения случайной величины рассматриваются на всей числовой оси, то математическое ожидание находится по формуле:

При этом, конечно, предполагается, что несобственный интеграл сходится.

Математическим ожиданием дискретной случайной величины называется сумма произведений ее возможных значений на соответствующие им вероятности:

М (Х ) =х 1 р 1 +х 2 р 2 + … +х п р п . (7.1)

Если число возможных значений случайной величины бесконечно, то
, если полученный ряд сходится абсолютно.

Замечание 1. Математическое ожидание называют иногдавзвешенным средним , так как оно приближенно равно среднему арифметическому наблюдаемых значений случайной величины при большом числе опытов.

Замечание 2. Из определения математического ожидания следует, что его значение не меньше наименьшего возможного значения случайной величины и не больше наибольшего.

Замечание 3. Математическое ожидание дискретной случайной величины естьнеслучай-ная (постоянная) величина. В дальнейшем увидим, что это же справедливо и для непре-рывных случайных величин.

Свойства математического ожидания.

    Математическое ожидание постоянной равно самой постоянной:

М (С ) =С. (7.2)

Доказательство. Если рассматривать С как дискретную случайную величину, принимающую только одно значениеС с вероятностьюр = 1, тоМ (С ) =С ·1 =С .

    Постоянный множитель можно выносит за знак математического ожидания:

М (СХ ) =С М (Х ). (7.3)

Доказательство. Если случайная величина Х задана рядом распределения

x i

x n

p i

p n

то ряд распределения для СХ имеет вид:

С x i

С x 1

С x 2

С x n

p i

p n

Тогда М (СХ ) =Сх 1 р 1 +Сх 2 р 2 + … +Сх п р п =С ( х 1 р 1 +х 2 р 2 + … +х п р п ) =СМ (Х ).

Математическим ожиданием непрерывной случайной величины называется

(7.13)

Замечание 1. Общее определение дисперсии сохраняется для непрерывной случайной величины таким же, как и для дискретной (опр. 7.5), а формула для ее вычисления имеет вид:

(7.14)

Среднее квадратическое отклонение вычисляется по формуле (7.12).

Замечание 2. Если все возможные значения непрерывной случайной величины не выходят за пределы интервала [a , b ], то интегралы в формулах (7.13) и (7.14) вычисляются в этих пределах.

Теорема. Дисперсия числа появлений события в независимых испытаниях равна произведению числа испытаний на вероятности появления и непоявления события в одном испытании: .

Доказательство. Пусть – число появлений события в независимых испытаниях. Оно равно сумме появлений события в каждом испытании: . Так как испытания независимы, то и случайные величины – независимы, поэтому .

Как было показано выше, , а .

Тогда , а .

В этом случае, как уже упоминалось ранее, среднее квадратичное отклонение .

При анализе распределения численностей значительный интерес представляет оценка отклонения данного распределения от симметричного, или, иначе говоря, его скошенность. Степень скошенности (асимметрия) является одним из наиболее важных свойств распределения численностей. Существует целый ряд статистических показателей, предназначенных для вычисления асимметрии. Все они отвечают как минимум двум требованиям, предъявляемым к любому показателю скошенности: он должен быть безразмерным и равным нулю, если распределение симметрично.

На рис. 2 а, б приведены кривые двух асимметричных распределений численностей, одна из которых скошена влево, а другая -вправо. Качественно показано взаимное расположение моды, медианы и среднего. Видно, что один из возможных показателей скошенности может быть построен с учетом расстояния на котором находятся друг от друга средняя и мода. Но учитывая сложность определения моды по эмпирическим данным, а с другой стороны, известное соотношение (3) между модой, медианой и средним, была предложена следующая формула для вычисления показателя асимметрии:

Из этой формулы следует, что распределения скошенные влево, имеют положительную асимметрию, а скошенные вправо - отрицательную. Естественно, что для симметричных распределений, для которых среднее и медиана совпадают, асимметрия равна нулю.

Вычислим показатели асимметрии для данных, приведенных в табл. 1 и 2. Для распределения длительности сердечного цикла имеем:

Таким образом, это распределение имеет небольшую левостороннюю скошенность. Полученное значение для асимметрии является приближенным, а не точным, так как для ее расчета использовались значения и, рассчитанные упрощенным способом.

Для распределения сульфгидрильных групп сыворотки крови имеем:

Таким образом, это распределение имеет отрицательную асимметрию, т.е. скошено вправо.

Теоретически показано, что величина, определяемая по формуле 13, лежит в пределах 3. Но практически эта величина очень редко достигает своих предельных значений, и для умеренно асимметричных одновершинных распределений она по модулю обычно меньше единицы.

Показатель асимметрии может быть использован не только для формального описания распределения численностей, но и для содержательной интерпретации полученных данных.

В самом деле, если наблюдаемый нами признак формируется под воздействием большого числа независимых друг от друга причин, каждая из которых вносит относительно небольшой вклад в величину этого признака, то в соответствии с некоторыми теоретическими предпосылками, обсуждавшимися в разделе по теории вероятностей, мы вправе ожидать, что получаемое в результате эксперимента распределение численностей будет симметричным. Однако, если для экспериментальных данных получена значительная величина асимметрии (численное значение As по модулю в пределах нескольких десятых), то можно предположить, что условия, указанные выше, не соблюдаются.

В этом случае имеет смысл предположить либо существование какого-то одного или двух факторов, вклад которых в формирование наблюдаемой в эксперименте величины существенно больше, чем остальных, либо постулировать наличие специального механизма, отличного от механизма независимого влияния множества причин на величину наблюдаемого признака.

Так, например, если изменения интересующей нас величины, соответствующие действию некоторого фактора, пропорциональны самой этой величине и интенсивности действия причины, то получаемое при этом распределение будет всегда скошено влево, т.е. иметь положительную асимметрию. С таким механизмом сталкиваются, например, биологи, оценивая величины, связанные с ростом растений и животных.

Другой способ оценки асимметрии основан на методе моментов, который будет обсуждаться в главе 44. В соответствии с этим методом для расчета асимметрии используют сумму отклонений всех значений ряда данных относительно средней, возведенных в третью степень, т.е.:

Третья степень обеспечивает равенство нулю числителя этого выражения для симметричных распределений, так как в этом случае суммы отклонений в большую и меньшую сторону от средней в третьей степени будут равны и иметь противоположные знаки. Деление на обеспечивает безразмерность для показателя асимметрии.

Формула (14) может быть преобразована следующим образом. В предыдущем параграфе были введены стандартизованные величины:

Таким образом, мера скошенности представляет собой среднее значение стандартизованных данных, возведенных в куб.

Для тех же данных, для которых по формуле (13) была рассчитана асимметрия, найдем показатель по формуле (15). Имеем:

Естественно, что показатели асимметрии, вычисленные по разным формулам, отличаются друг от друга по величине, но одинаково указывают на характер скошенности. В пакетах прикладных программ для статистического анализа при расчете асимметрии используют формулу (15), как дающую более точные значения. Для предварительных же расчетов с использованием простейших калькуляторов можно пользоваться формулой (13).

Эксцесс. Итак, мы рассмотрели три из четырех групп показателей, с помощью которых описываются распределения численностей. Последней из них является группа показателей островершинности, или эксцесса (от греческого - горбатый). Для вычисления одного из возможных показателей эксцесса используется следующая формула:

Используя тот же подход, который был применен при преобразовании формулы асимметрии (14) легко показать, что:

Теоретически было показано, что величина эксцесса для нормальной (гауссовой) кривой распределения, играющей в статистике, также как и в теории вероятностей большую роль, численно равна 3. Исходя из целого ряда соображений заостренность этой кривой принимают за стандарт, и поэтому в качестве показателя эксцесса используют величину:

Найдем значение островершинности для данных, приведенных в табл. 1. Имеем:

Таким образом, кривая распределения длительности сердечных циклов уплощена по сравнению с нормальной кривой, для которой.

В табл. 3 приведено распределение числа краевых цветков у одного из видов хризантем. Для этого распределения

Эксцесс может принимать очень большие значения, как это видно из приведенного примера, но его нижняя граница не может быть меньше единицы. Оказывается, что если распределение двувершинно (бимодально), то значение эксцесса приближается к своей нижней границе, так что стремится к -2. Таким образом, если в результате расчетов оказывается, что значение меньше -1-1,4, можно быть уверенным, что имеющиеся в нашем распоряжении распределение численностей по крайней мере бимодально. Это особенно важно учитывать, когда экспериментальные данные, минуя стадию предварительной обработки, анализируются с помощью ЦВМ и перед глазами исследователя нет непосредственно графического изображения распределения численностей.

Двувершинность кривой распределения опытных данных может возникать по многим причина. В частности, такое распределение может появиться за счет объединения в единую совокупность двух наборов разнородных данных. Для иллюстрации этого мы искусственно объединили данные о ширине раковин двух видов ископаемых моллюсков в одну совокупность (табл. 4, рис. 3).

На рисунке явно видно наличие двух мод, так как смешаны два набора данных из разных совокупностей. Расчет дает для величины эксцесса 1,74, и, следовательно, =-1,26. Таким образом, расчетная величина показателя островершинности указывает, в соответствии с ранее высказанным положением, что распределение имеет две вершины.

Здесь нужно сделать одно предостережение. Действительно, во всех случаях, когда распределение численностей будет иметь два максимума, величина эксцесса будет близка к единице. Однако из этого факта нельзя автоматически делать вывод о том, что анализируемая совокупность данных представляет собой смесь двух разнородных выборок. Во-первых, такая смесь в зависимости от численности составляющих ее совокупностей может и не иметь двух вершин, и показатель эксцесса будет значительно больше единицы. Во-вторых, две моды может иметь и однородная выборка, если, например, нарушены требования к отбору экспериментальных данных. Таким образом, в этом, как, впрочем, и в других случаях вслед за формальным расчетом различных статистик должен осуществляться тщательный профессиональный анализ, который позволит дать полученным данным содержательную интерпретацию.