:check: 3. Сбор данных и подсчет статистик
Представьте, что мы все-таки опросили 100 случайных студентов во время сессии и выяснили, что в среднем они выпивают 192 миллилитра кофе в день. Теперь осталось узнать — достаточно ли этого, чтобы отвергнуть нулевую гипотезу при α = 0.05
Рассчитаем z-оценку для найденного среднего. Будем считать, что дисперсия генеральной совокупности σ равна 15:
z = {M - \mu} / {\sigma_M}
z = {192 - 175} / {15 / \sqrt{100}} = {17} / {1.5} = 11.3
Наши пограничные значения для критической области z = ± 1.96. Потому что 95% значений выборки располагаются в пределах ± 1.96. Сравниваем полученные значения:
11.3 > 1.96
А значит, наше найденное среднее попадает в критический регион — получить выборку со средним 192 для распределения с математическим ожиданием 175 (которое бы соответствовало нашей нулевой гипотезе, что сессия не влияет на количество выпиваемого кофе) очень и очень маловероятно.
Поэтому мы можем отвергнуть нулевую гипотезу в пользу альтернативной, но есть 5% вероятность, что мы взяли неудачную выборку.
Обратите внимание, что такой статистический тест позволяет нам говорить только о статистической значимости, но не измеряет величину эффекта. Поэтому на очень больших выборках статистическими значимыми могут стать даже минимальные изменения в величине статистик. Поэтому если вас интересует не просто тот факт, что студенты во время сессии пьют больше кофе, а то, что они пьют значительно больше кофе — понадобятся дополнительные тесты.
Другой нюанс — для вычисления z-статистики для выборочного среднего мы использовали параметры генеральной совокупности — среднее и среднеквадратичную ошибку. Однако в реальной жизни, мы часто не знаем чему равны этим параметры, а значит и формулу применить не сможем. Далее в нашем курсе по познакомимся с другими статистиками, которые нам помогут решить эту проблему.