🏁 Статистика 2

🚩 Z-Оценка


Стандартизированная оценка (z-оценка) — это относительная мера, которая показывает, на сколько среднеквадратичных отклонений наблюдаемое значение отличается от среднего значения распределения. Знак z-оценки показывает, находится ли значение левее среднего (–) или правее среднего (+).
Важено в единицах расстояния от среднего


Для генеральной совокупности:


z = {X – μ} / {σ}


Для выборки:


z = {X – M} / {s}

Пример


Представьте, что нам нужно сравнить результаты тестирования двух групп студентов, которые сдавали разные экзамены по английскому языку. Первая группа писала тест, оцениваемый по шкале от до , а вторая — от до . С теми студентами, которые набрали максимальное количество баллов или наоборот умудрились получить — все просто. Их оценки мы можем сравнить друг с другом. А дальше начинаются вопросы — лучше ли оценка из чем из ? Тут нам и помогут стандартизированные распределения. После того как мы найдем z-оценку для каждого оригинального значения переменной в двух группах, мы сможем сравнить оценки между собой.

Важное свойство


Через z-оценки мы можем описать пропорции нормального распределения:


Если в случае с интерквартильным размахом мы знаем, что он дает нам информацию о разбросе в центральных 50% выборки, то теперь мы можем оценивать и количество данных в частях нормального распределения. Так в интервале от минус одного до плюс одного среднеквадратичного отклонения располагается примерно 68% выборки (см. правило трех сигм и почему именно 68%) — то есть самые типичные для нее значения. Знание этих пропорций пригодится и при разговоре о тестировании гипотез, когда мы будем оценивать вероятность случайного получения некоторых значений.

🚩 Выбросы


Выброс — это аномальное значение в данных, которое значительно отличается от значения, выраженного мерой центральной тенденции.


Мы можем выразить выбросы и через квартили.
нижняя граница = Q1 - 1.5IQR
верхняя граница = Q3 + 1.5IQR

🚩 Корреляция — это мера линейной взаимосвязи между двумя величинами.


В ходе корреляционного анализа мы можем выявить только линейную взаимосвязь.


Сила корреляции (взаимосвязи) выражается числом, которое называется коэффициентом корреляции


Для того чтобы оценить силу и направление линейной взаимосвязи, мы будем рассчитывать коэффициент корреляции Пирсона (обычно его обозначают маленькой буквой r) по следующей формуле:


r = {\sum (x-M_x) (y-M_y)} / {\sqrt{\sum (x-M_x)^2 \sum(y-M_y)^2}}

Свойства корреляции


  1. Изменяется от -1 до 1. Классификация Чеддока: слабая — от 0,1 до 0,3; умеренная — от 0,3 до 0,5; заметная — от 0,5 до 0,7; высокая — от 0,7 до 0,9; весьма высокая (сильная) — от 0,9 до 1


  1. Положительный коэффициент корреляции свидетельствует о прямой зависимости


  1. Отрицательный коэффициент корреляции свидетельствует об обратной зависимости

Применение


  1. Прогнозирование. Если мы знаем, что две переменные связаны определенным образом, то мы можем прогнозировать значение одной по значению другой.


  2. Для оценки валидности разных тестов. Например, если психолог разработал тест для определения уровня тревоги, то его результаты должны показывать сильную корреляцию с другими показателями, которые точно идентифицируют тревожность (например, физиологические индикаторы).


  3. Вычислить надежность оценочных инструментов. Предположим, некий студент сдает экзамен, чтобы получить сертификат по английскому языку. Если он сдает его два раза через небольшие промежутки времени, то его результаты должны быть практически одинаковые, если экзамен действительно хорошо составлен и условия проведения не изменились. Поэтому для оценки надежности теста можно провести его на группе людей, а потом повторить процедуру. Если корреляция между результатами сильная, то можно говорить о надежности инструмента.

Регрессия


Общее направление взаимосвязи можно описать с помощью линейной функции (уравнения регрессии):
y = b_o +b_1 * x


b = {\sum ((x-M_x) * (y-M_y)} / (x-M_x)^2


a = M_y - b * M_x

MSE (среднеквадратичная ошибка)


Из реальных значений вычитаем предсказанные и возводим в квадрат.


Далее, как в дисперсии, делим сумму квадратов на количество наблюдений.


Для MSE у нас нет границ, которые определяют: хорошая это модель или нет, так как значение метрики зависит от единиц, в которых измеряется зависимый признак. Но с помощью MSE мы можем сравнивать разные модели и выбирать наилучшую — ту, у которой среднеквадратичная ошибка минимальна.

🚩 Тестирование гипотез

Центральная предельная теорема


Распределение выборочных средних выборок заданного размера всегда будет стремиться к форме нормального распределения, а его среднее будет равно среднему генеральной совокупности.


Среднеквадратичное отклонение такого распределения будет равно среднеквадратичному отклонению генеральной совокупности, разделенного на квадратный корень из размера выборки.


Математическим ожиданием выборочного среднего - среднее распределения выборочных средних


Стандартной ошибкой выборочного среднего - стандартное отклонение математического ожидания выборочного среднего


Центральная предельная теорема: для любой генеральной совокупности со средним и среднеквадратичным отклонением распределение выборочных средних выборок размера n будет иметь среднее μ и среднеквадратичное отклонение {σ} / {\sqrt{n}}, а его форма будет стремиться к нормальной при n стремящемся к бесконечности.

Постановка и тестирование гипотез


1. Выдвижение гипотезы


Гипотез у нас две — нулевая и альтернативная.


Нулевой гипотезы всегда предполагает отсутствие разницы или отсутствие изменений. Ее обозначают как H_0 - гипотеза «нулевого эффекта».


Альтернативная гипотеза — это гипотеза о наличии эффекта. Она может быть направленная и ненаправленная — мы можем здесь говорить как и о конкретном изменении в определенную сторону так и просто выдвигать гипотезу, что изменения есть и они отличны от 0. Например, Н_1: μ ≠ 175


В направленной гипотезе мы бы использовали знаки сравнения или даже могли бы проверять конкретную разницу между двумя значениями.


Статистический процесс проверки гипотез — это как раз процесс принятия решения об отвержении нулевой гипотезы в пользу альтернативной.

2. Определение критериев проверки гипотезы


Мы должны решить на основании каких критериев мы сможем отвергнуть нулевую гипотезу — т.е. утверждать, что найденная в данных разница действительно а) значима, б) не является результатом получения «неудачной» выборки (такой чьи характеристики очень отличны от параметров генеральной совокупности).


Один из критериев, который мы выбираем перед тестированием гипотезы — уровень статистической значимости α («альфа»).


Уровень статистической значимости — вероятность получить очень маловероятную выборку (максимально отличную по своим характеристикам от генеральной совокупности). Уровень статистической значимости определяет границы критической области — области распределения содержащей такие маловероятные выборки. Если статистика выборки (например, среднее) попадает в критическую область — нулевая гипотеза отвергается.


По сути критическая область – это такая область распределения выборочных средних, получить выборку из которой очень маловероятно.

3. Сбор данных и подсчет статистик


Представьте, что мы все-таки опросили 100 случайных студентов во время сессии и выяснили, что в среднем они выпивают 192 миллилитра кофе в день. Теперь осталось узнать — достаточно ли этого, чтобы отвергнуть нулевую гипотезу при α = 0.05


Рассчитаем z-оценку для найденного среднего. Будем считать, что дисперсия генеральной совокупности σ равна 15:


z = {M - \mu} / {\sigma_M}


z = {192 - 175} / {15 / \sqrt{100}} = {17} / {1.5} = 11.3


Наши пограничные значения для критической области z = ± 1.96. Потому что 95% значений выборки располагаются в пределах ± 1.96. Сравниваем полученные значения:
11.3 > 1.96


А значит, наше найденное среднее попадает в критический регион — получить выборку со средним 192 для распределения с математическим ожиданием 175 (которое бы соответствовало нашей нулевой гипотезе, что сессия не влияет на количество выпиваемого кофе) очень и очень маловероятно.


Поэтому мы можем отвергнуть нулевую гипотезу в пользу альтернативной, но есть 5% вероятность, что мы взяли неудачную выборку.


Обратите внимание, что такой статистический тест позволяет нам говорить только о статистической значимости, но не измеряет величину эффекта. Поэтому на очень больших выборках статистическими значимыми могут стать даже минимальные изменения в величине статистик. Поэтому если вас интересует не просто тот факт, что студенты во время сессии пьют больше кофе, а то, что они пьют значительно больше кофе — понадобятся дополнительные тесты.


Другой нюанс — для вычисления z-статистики для выборочного среднего мы использовали параметры генеральной совокупности — среднее и среднеквадратичную ошибку. Однако в реальной жизни, мы часто не знаем чему равны этим параметры, а значит и формулу применить не сможем. Далее в нашем курсе по познакомимся с другими статистиками, которые нам помогут решить эту проблему.

Типы ошибок при тестировании гипотез


Ошибка первого типа связана с тем, что мы отвергаем нулевую гипотезу, когда она на самом деле корректна.
Эта ошибка напрямую связана со статистическим уровнем значимости α. Ведь по сути выбирая «альфу» — мы как раз выбираем вероятность, что мы совершаем ошибку первого типа (что мы находим эффект, которого на самом деле не существует из-за того, что нам попалась выборка отличная от генеральной совокупности). А значит, чем меньше уровень статистической значимости — тем меньше вероятность эту ошибку совершить.


Ошибка второго типа связана с тем, что мы не отвергаем нулевую гипотезу, хотя на самом деле некоторая разница или взаимосвязь существует.
В отличие от ошибки первого типа, у нас нет какого-то критерия, который выражает вероятность ее совершения. Ошибка второго типа может быть, например, связана с тем, что размер эффекта такой маленький, что его сложно зафиксировать на выборке небольшого размера.

Непараметрические критерии. Критерий согласия хи-квадрат


Статистические критерии для проверки гипотез делятся на две больших категории — параметрические и непараметрические.


Параметрические критерии основываются на предположениях о некоторых характеристиках (параметрах) генеральных совокупностей. Так, например, для одного из тестов, который мы будем разбирать далее, мы будем делать предположения, что данные в генеральной совокупности распределены нормально. Поэтому такие критерии называются параметрическими. Еще одна особенность таких критериев — для их расчета нам нужны количественные признаки.


Непараметрические критерии - обычно не нуждаются в предположениях о параметрах генеральной совокупности или форме ее распределения. Также подходят они и для работы с категориальными и номинальными признаками. (Например, хи-квадрат).

хи-квадрат


Предпосылки, при которых мы можем использовать критерий хи-квадрат для проверки статистических гипотез:

  1. Наблюдения должны быть независимы (например, каждый объект в наших данных должен присутствовать ровно один раз).
  2. Ожидаемые частоты для каждой из категорий не должны быть меньше 5.
  3. В целом рекомендуется использовать такой тест для выборок, в которых не меньше 100 наблюдений.

С помощью критерия согласия хи-квадрат (критерий согласия Пирсона) мы на основании выборки проверяем гипотезу о форме или пропорциях распределения генеральной совокупности. Этот статистический тест определяет, насколько распределение выборки близко к форме или пропорциями распределения, описанного в нулевой гипотезе.
Главное ограничение — использовать этот критерий рекомендуется с выборками, в которых не меньше 100 наблюдений.


Чтобы рассчитать критерий согласия Пирсона, нам нужно найти разницу между наблюдаемым (фактическим) и ожидаемым (теоретическим) количеством наблюдений в интересующих нас категориях. Наблюдаемыми частотами ( f_o — observed frequencies) соответственно будут те, которые мы рассчитаем на основе выборки, а теоретическими (f_e — expected frequencies) — те, которые мы рассчитаем на основе нулевой гипотезы.



Критерий согласия хи-квадрат:


chi^2 = \sum{{(f_o - f_e)^2} / {f_e}}


Чтобы понять, можем ли мы отвергнуть нулевую гипотезу, нам нужно понять находится ли значение в критической области.


Распределение хи-квадрат статистик в отличие от распределения выборочных средних, о котором мы говорили раньше, — положительно скошенное. Но все равно известны значения критерия, которые делят его на области — 95% распределения, 99%... Их можно посмотреть в специальной таблице.


Критерий независимости хи-квадрат


Тестирование гипотез о независимости предполагает, что мы смотрим на распределение наблюдений по категориям, определенным двумя признаками. Для проверки таких гипотез мы будем строить таблицы сопряженности — то есть группировать наши данных по двум категориальным переменным.


С помощью критерия независимости хи-квадрат (критерий независимости Пирсона) мы на основании выборки проверяем наличие зависимости между двумя признаками в генеральной совокупности. Каждое наблюдение в выборке принадлежит к одной из категорий обоих интересующих нас признаков, что позволяет нам упорядочить данные в виде таблицы сопряженности. Распределение частот принадлежности к категориям в выборке используется для того, чтобы протестировать гипотезы о распределении частот в генеральной совокупности.


Нулевая гипотеза в этом случае говорит, что между двумя переменными отсутствует зависимость.


Две переменных независимы друг от друга, если между ними не существует постоянной, предсказуемой взаимосвязи. В случае с категориальными переменными — частотное распределение одного признака не зависит от категорий второго признака.


Критерий считается по той же формуле, что и критерий согласия, но загвоздка в том, что из нулевой гипотезы мы не знаем значение теоретических частот.


Ожидаемые (теоретические) частоты для таблицы сопряженности можно и по формуле:


f_e = {f_c * f_r} / {n}
где f_c — наблюдаемые частоты в ряду, а f_r — наблюдаемые частоты в колонке.