_2023_12_17 Вебинар Работа с данными, статистика часть 2

Модель: упрощенная схема реального процесса (объекта), отражающая часть значимых свойств/параметров

Визуальная

Схематичная

Табличная

Моделирование по нарастающей

  1. Список информативных параметров
  1. Построение модели

1) Модель "черного ящика" - система во внешней среде, имеющая входы (внешние воздействия) и выходы (реакции системы). Внутреннее устройство нас не интересует

Интерпретируемая модель, раскрывающая структуру

Типы решаемых задач

Задача классификации

Разделение совокупности по нескольким заранее определенным классам

Задача кластеризации

Выделение существенных классов (категорий)

Пример: сегментация рынка

Регрессионный анализ

Поиск зависимостей одних параметров от других

пример: решение с помощью машинного обучения

Прогнозирование

поиск временных закономерностей и их экстраполяция в будущее

Результат работы: готовые алгоритмы, реализованные в программах

Статистика

Основной принцип: каждый представитель выборки с определенной вероятностью ведет себя так же, как вся популяция в среднем

При решении задачи генеральная совокупность сужается до некоторой выборки

при этом должна быть обеспечена репрезентативность выборки

Прогнозы, выходящие за рамки выборки, недостоверны

Простой метод: случайная выборка из генеральной совокупности
(simple random sample)

Управляемый отбор: стратифицированная выборка

Принудительно добавляем в выборку примерно одно количество объектов всех рассматриваемых классов

Групповая выборка (cluster sample)

при формировании присутствует сложность выбора кластеров, но снижается объем выборки

Каждый признак может рассматриваться как случайная величина

Распределение может описываться частотными гистограммами

по виду распределения можно делать вывод о характере (аппроксимировать неким законом)

можно делать быстрые выводы о зависимости или случайности признаков

Характеристики совокупности

Меры центральной тенденции

Мода (mode) - наиболее часто встречающееся значение

может отсутствовать, либо можно увидеть несколько возможных

Медиана - центральный элемент (или полусумма двух центральных, для четной выборки) упорядоченной выборки

хорошо борется с выбросами ("более устойчива к выбросам")

Среднее арифметическое

Для нормального распределения все меры будут близки

соответствует максимально высоким столбцом гистограммы

Меры изменчивости

Размах: разница между крайними значениями

Подвержен выбросам

Дисперсия

Более удобно - среднеквадратичное отклонение

Нормирование

Z-преобразование: перевод к распределению с модой М=0 и дисперсией D=1

image

Внешний вид гистограммы при этом не меняется

Удобно проверить правило 3 сигма

Распределение

Нормальное

Биноминальное

Равномерное

Необходимо проверять, применима ли статистика к имеющейся выборки

Коэффициент корреляции

Мера наличия связи между параметрами

формула по Пирсону для вещественных параметров

image

по Спирману - если один из признаков невещественный

Тепловая карта корреляции (=поверхность отклика)