Please enable JavaScript.
Coggle requires JavaScript to display documents.
Глава 2: Что такое данные? - Coggle Diagram
Глава 2: Что такое данные?
Работа с данными
Хранение
Облака (AWS, Google Cloud, Azure)
Хранилища данных (Data Warehouse)
Базы данных
Подготовка признаков
Отбор важных признакей
Генерация новых переменных
Feature engineering
Преобразование
Логарифмирование
Нормализация
One-hot кодирование
Очистка
Коррекция форматов
Удаление дубликатов
Обработка пропусков
Особенности реальных данных
Данные могут быть предвзятыми
Предвзятые метки
Ошибки сбора
Смещённая выборка
Не все данные полезны
Множество бесполезных переменных
Шум против информативных признаков
Грязные данные — это норма
Ошибки
Выбросы
Пропуски
Источники данных
Социальные сети
Анализ комментариев и взаимодействий
Пользовательские действия
IoT / Сенсоры
Сбор данных с устройств
Датчики температуры, движения и т.д.
Внешние
Веб-скрейпинг
API
Публичные датасеты
Внутренние
Логи серверов
ERP
CRM
Форматы хранения
Текстовые
Документы
Сообщения
Логи
Мультимедийные
Видео
Аудио
Изображения
Иерархические
XML
JSON
Табличные
SQL / Базы данных
Excel
CSV
Уровни измерения
Относительный шкала (есть абсолютный ноль)
Интервальный шкала (равные интервалы, нет абсолютного нуля)
Ординальный шкала (есть порядок, нет равных интервалов)
Номинальный шкала (именование без порядка)
Типы данных
Временные
Временной ряд
Время
Дата
Категориальные
Ординальные (например, низкий/средний/высокий)
Номинальные (например, цвет, пол)
Количественные
Непрерывные (например, температура, вес)
Дискретные (например, количество заказов)
Основные понятия
Знания — это интерпретация информации
Информация — это данные с контекстом
Данные — это зафиксированная информация