Please enable JavaScript.
Coggle requires JavaScript to display documents.
Процесс работы с данными журналиста данных (Анализ данных (Оценка времени,…
Процесс работы с данными журналиста данных
Получение и сбор данных
Получение данных
Скачивание готовых датасетов из интернета
Получение данных по запросу и/ или с помощью API
Использование технических аппаратов, которые физически генерируют данные (например, в научных экспериментах)
Генерация данных неким компьютерным программным обеспечением
Ввод данных вручную человеком
Переформатирование и очистка данных
Проверка данных на наличие ошибок и их исправление
Определение типов ошибок
Поиск и установление объектов, содержащих ошибки
Устранение ошибок
Модификация процедур получения данных для предотвращения ошибок в будущем
Поиск пропущенных значений и попытка предварительно оценить полноту и достаточность данных. Возвращение к ветви "Получение данных" в случае их недостаточности
Получение технически корректных данных
Каждое значение принадлежит известной переменной
Каждое значение представлено корректным типом данных
Каждая переменная представлена столбцом, где данные отформатированы единообразно
Каждое наблюдение представляет строку
Каждая наблюдаемая единица (объект) образует таблицу
Названия переменных информативны (осмысленны) и не содержат значения
Нет беспричинно дублирующихся данных
Нет необрабатываемо и беспричинно пропущенных значений
Переменные не «склеены» друг с другом (например, «Вася 15 лет» указано не в одной ячейке, а в двух разных)
Наблюдения и измерения распределены по разным таблицам, но могут, при необходимости, ссылаться и связываться по ключам (уникальным значениям)
Данные упорядочены
Анализ данных
Создание скрипта / программы / алгоритма по анализу данных
Применение созданных скриптов / программ / алгоритмов
Попытка промежуточного анализа и получения «инсайтов»
Дополнение данных и возвращение к стадии 1 в случае недостаточности или выявленной неполноты имеющихся данных
Идентификация и избавление от ошибок и неудачных решений в скриптах / программах / алгоритмах (дебаггинг)
Оценка времени, затрачиваемого на исполнение кода/ алгоритма, и попытка его сократить. Причины торможения:
Слишком много данных
Сам по себе алгоритм медленный
Каждое маленькое изменение приводит к постепенному удлинению процесса исполнения кода
Ошибки, содержащиеся в самом коде/ алгоритме
Изменение скриптов / программ / алгоритмов и повторный запуск до достижения наиболее удовлетворяющего решения
Рефлексия и распространение
Рефлексия
Делать заметки в ходе процесса и агрегировать их в неком общем пространстве
Создавать графики в процессе, отражающие разные аспекты анализа
Сравнивать решения и подходы с целью нахождения оптимального варианта
Выдвигать новые гипотезы, предлагать новые действия
Встречаться с коллегами и прислушиваться к их советам и замечаниям
Пробовать альтернативные решения
Делать и агрегировать выводы
Распространение
Написать отчёт/ журналистскую статью
Сделать красивые визуализации результатов
Делиться кодом и решениями с коллегами и в интернете
Архивировать эксперименты и делиться решениями: как удачными, так и неудачными, с указаниями, почему от того или иного хода алгоритма было решено отказаться
Периодически заново анализировать как данные, так и алгоритм их обработки, ввиду постоянно обновляющегося программного обеспечения и других факторов.