Please enable JavaScript.
Coggle requires JavaScript to display documents.
2024_01_15 Pipeline машинного обучения, Валидационный датасет, Нулевая …
2024_01_15 Pipeline машинного обучения
Pipeline - Цепочка процессов
в данном случае - однонаправленный
источники данных
открытые
веб
статданные
книги, пресса
закрытые
авторизованный доступ, разрешения, лицензии
корпоративные данные
госданные
персональные
данные
Структура данных
структурированные
неструктурированные
полуструктурированные
получение выборки данных
Парсер - спец ПО, обращающееся к источнику данных и добывающее их
часто на Python
requests, beautifulsoup, selenium
При работе с веб-источниками желательно использовать решения, снижающая нагрузку
ETL (extract, transform, load)
в случае, если данные подвергаются типовой обработке
Data Quality (Верификация и обеспечение качества)
Проверка и фильтрация данных, исправление ошибок, приведение к единообразию
Часто Python + доп библиотеки
хранение данных
БД
5 more items...
Валидационный датасет
новые данные, ранее не использованные в модели
Нулевая гипотеза от заказчика
Нулевая гипотеза на основе выявленных закономерностей