Please enable JavaScript.
Coggle requires JavaScript to display documents.
"Голая статистика" (Чарльз Уилан) - Coggle Diagram
"Голая статистика" (Чарльз Уилан)
О чем книга?
В идеальных условиях статистический анализ редко позволяет выявить "истину". Обычно выстаивается некая версия, основаная на косвенных доказательствах, базирующихся на несовершенных данных
Задача книги - доходчиво объяснить самые важные статистические концепции в их непосредственной связи с повседневной жизнью
Основы теории вероятностей
Теория вероятностей дает нам инструменты для борьбы с неопределенностями в жизни
Концепция вероятности не является детерминистской
Математическое ожидание - это среднее значение случайной величины. Мат ожидание (отдача, функция выигрыша) от некоторого события - это сумма всех разных исходов, весовыми коэффициентами при каждом из которых являются вероятность исхода и выигрыш
Загадка Монти Холла
Зачем изучать статистику?
распознавать ситуации, которые позволяют уточнить метод решения тех или иных задач: от продажи подгузников до поимки преступников
оценивать эффективность тех или иных социальных программ, лекарственных препаратов, медицинских процедур и других инноваций
находить ответы на важные социальные вопросы
принимать более эффективные решения
обобщать огромные массивы данных
Описательная статистика
Любое упрощение порождает манипулирование
Среднеквадратическое отклонение - показатель разброса данных по отношению к их среднему значению (показатель рассредоточенности наблюдений)
Корень квадратный из дисперсии
Дисперсия сама по себе редко используется в качестве описательной статистики
Описательная статистика - это всегда упрощение, подразумевающее потерю нюансов и деталей
Для многих типичных распределений данных высокая доля наблюдений располагается в пределах одного среднеквадратического отклонения
Нормальное распределение - закон, согласно которому данные располагаются симметрично относительного своего среднего значения, причем это распределение имеет колоколообразную форму
Описание и интерпретация
Множество статистических манипуляций являются следствием сравнения "яблок и апельсинов"
"Статистические преступления" не являются следствием математических ошибок (заумные математические расчеты способны скрыть неблаговидные намерения)
Точность может маскировать - случайно или вполне намеренно - недостоверность
Корреляция
Корреляция, равная 1, означает, что каждому изменению одной переменной соответсвует эквивалентное изменения другой переменной в том же направлении
Корреляция, равная -1, означает, что каждому изменению одной переменной соответсвует эквивалентное изменения другой переменной в противоположном направлении
Корреляция измеряет степень связи между двумя явлениями
Корреляция не предполагает причинно-следственной связи
Проблемы с вероятностью
Статистическая дискриминация (установление различия в статистическом смысле)
Непонимание, когда события ДЕЙСТВИТЕЛЬНО независимы друг от друга
Наша способность анализировать данные развилась значительно больше, чем понимание того, как нам следует поступать с результатами анализа
Предполагается, что события независимы, тогда как на самом деле они зависимы друг от друга
Почему так важны данные
Наращивание размера выборки не позволяется компенсировать ошибки, допущенные при выборе ее структуры (т.н. систематическая ошибка)
Рандомизация - процесс, посредством которого объекты изучения произвольным образом распределяются либо в подопытную, либо в контрольную группу
Самая простая репрезентативная выборка = простая случайная выборка
Примеры "Мусор на входе - мусор на выходе"
Систематическая ошибка публикации (позитивные результаты обнародуют охотнее, чем негативные)
Систематическая ошибка памяти (мы ищем в памяти причины и внедряем их в память)
Систематическая ошибка выбора (люди, которые согласились ответить на вопросы, наверняка существенно будут отличатся от тех, кто вас проигнорировал)
Систематическая ошибка здорового человека
Центральная предельная теорема
Вероятность того, что какая-либо выборка будет существенно разниться с генеральной совокупностью, крайне низка
Средние значения выборок будут распределены относительно среднего значения совокупности примерно по нормальному закону
Базовый принцип ЦПТ - большая и хорошо сформированная выборка будет похожа на совокупность, из которой она извлечена
Стандартная ошибка (SE) измеряет разброс средних значений выборок
SE = s / √n
, где s - среднеквадратичное отклонение генеральной совокупности
В отношении крупных выборок можно предположить, что их среднеквадратическое отклонение довольно близко к среднеквадратическому отклонению генеральной совокупности
ЦПТ применима только в случае большой выборки (не менее 30)
Опрос общественного мнения
Ключевые методологические вопросы, которые важно задать
Позволяет ли формулировка вопросов получить точную информацию по интересующим нас темам?
Говорят ли респонденты правду?
Действительно ли данная выборка является репрезентативной из совокупности, настроения которой мы пытаемся выяснить?
Статистические выводы
Проверка гипотез - самый распространенный инструмент статистического вывода (исследователи часто формулируют нулевую гипотезу в надежде, что им удасться ее отвергнуть)
Уровень значимости - пороговое значение; вероятность отклонить нулевую гипотезу при условии, что она истинна (5%); ошибка первого рода
Статистическая значимость ничего не говорит о степени связи
Вывод об "отсутствии статистически значимой связи" между двумя переменными означает, что любую связь между этими переменными можно объяснить исключительно чистой случайностью
Когда мы можем отвергнуть нулевую гипотезу с некоторым. разумным уровнем значимости, соответсвующие результаты считаются "статистически значимыми"
Статистический вывод - это процесс, посредством которого данные позволяют нам делать обоснованные заключения
Доверительный интервал - интервал значений, в пределах которого с доверительной вероятностью 95% находится истинное среднее популяции (генеральное среднее)
Регрессионный анализ
Главная трудность - определить, какие именно переменные следует рассматривать в этом анализе
Регрессионный анализ обычно использует методологию под названием стандартный метод наименьших квадратов (МНК)
Регрессионный анализ позволяет измерить величину зависимости между какой-то переменной и интересующим нас исходом, зафиксировав действие всех прочих факторов (вычленить влияние одной переменной, сохраняя на постоянном уровне действие других переменных)
Типичные регрессионные ошибки
Корреляция и причинно-следственные зависимости - не одно и то же
Обратная причинно-следственная зависимость (статистическая зависимость между А и В не доказывает, что А - причина)
Использование регрессии для анализа нелинейной связи
Систематическая ошибка, вызванная пропущенной переменной
Слишком много переменных, которые теоретически не обоснованы
Сильно коррелированные объясняющие переменные (мультиколлинеарность)