Please enable JavaScript.
Coggle requires JavaScript to display documents.
Анализ данных - Coggle Diagram
Анализ данных
О данных
Формы представления данных
Неструктурированные
Структурированные
Слабоструктурированные
Типы данных
Числовой (целый и вещественный)
Символьный или строковый
Логический
Дата/Время
Типы измерительных шкал
Шкала наименований
Шкала порядка
Интервальная шкала
Шкала отношений
По характеру варьирования
Дискретные
Непрерывные
Представления наборов данных
Упорядоченные
Неупорядоченные
Транзакционные
Подготовка данных к анализу
Качество исходных данных
Принципы сбора и подготовки данных
Особенности бизнес-данных
Редко накапливаются специально для решения задач анализа
Содержат ошибки, выбросы, противоречия и пропуски
Объемы очень велики
Формализация данных
Абстрагироваться от существующих систем и имеющихся в наличии данных
Экспертно оценить значимость каждого фактора
Описать все факторы, потенциально влияющие на анализируемый процесс/объект
Определить способ представления информации
Собрать легкодоступные факторы
Собрать наиболее значимые, с точки зрения экспертов, факторы
Оценить сложность и стоимость сбора средним и наименее важных по значимости факторов
Методы сбора данных
Получение из учетных систем
Получение из косвенных источников информации
Использование открытых источников
Приобретение данных у специализированных компаний
Проведение собственных мероприятий по сбору данных
Ввод данных вручную
Информативность данных
Признаки, содержащие только одно значение
Признаки, содержащие в основном одно значение
Признаки с уникальными значениями
Признаки, между которыми имеет место сильная корреляция
Требования к данным
Временные ряды
Сезонность/цикличность
Данные хотя бы за один полный сезон/цикл с возможностью варьирования интервалов (понедельное, помесячное и т.д.)
Макс. горизонт прогнозирования зависит от объема данных: 1.5 года - 1 мес, 2-3 года - 2 мес
Неупорядоченные данные
Кол-во примеров (прецедентов) должно быть значительно больше кол-ва факторов (столбцов)
Желательно, чтобы данные покрывали как можно больше ситуаций реального процесса
Транзакционные данные
300-500 объектов - от 10 тыс. транзакций
500-1000 объектов - большее 300 тыс. трназакций
Составляющие процесса
Моделирование
Фильтрация
Исследование
Преобразование
Концепции
Классические подходы
Идентификация модели
Риски
Неправильный выбор параметров модели
Вычислительная математика
Этапы
Задача
Модель
Данные
Анализ
Результаты, интерпретация
Риски
Неправильный выбор модели
Неправильный выбор параметров модели
Разведочный анализ данных Дж. Тьюки
Этапы
Разведочный
Подтверждающий или конфирматорный
Итоговый (результаты, интерпретация)
Задача
Данные
Модель
Современное понятие
Этапы
Проблема
Понимание динамики системы
Определение проблемы
План
Измерительная система
Дизайн выборки
Обработка данных
Управление данными
Данные
Сбор данных
Подготовка данных
Очистка данных
Анализ
Исследование данных
Плановые исследования
Незапланированные исследования
Генерация гипотез
Выводы
Интерпретация
Результаты исследования
Новые представления
Коммуникация