Please enable JavaScript.
Coggle requires JavaScript to display documents.
Cloud Services - Coggle Diagram
Cloud Services
data lake
-
Источник данных
CRM- или ERP-систем, продуктовых каталогов, банковских программ, датчиков или умных устройств
Аудитория
Часто озера используют для хранения важной информации, которая пока не используется в аналитике. Или даже для данных, которые кажутся бесполезными, но, вероятно, пригодятся компании в будущем.
Суть
-
-
Таким образом, озера данных нужны для гибкого анализа данных и построения гипотез. Они позволяют собрать как можно больше данных, чтобы потом с помощью инструментов машинного обучения и аналитики сопоставлять разные факты, делать невероятные прогнозы, анализировать информацию с разных сторон и извлекать из данных все больше пользы.
Примеры решений
Вы внедряете IoT, интернет вещей — установили датчики для контроля за состоянием оборудования. Данные с этих датчиков можно собирать в Data Lake без фильтрации. Когда данных накопится достаточно, вы сможете их проанализировать и понять, из-за чего случаются поломки и как их предотвратить.
Например, в ритейле и e-commerce можно хранить в data lake разрозненную информацию о клиентах: время, проведенное на сайте, активность в группе в соцсетях, тон голоса при звонках менеджеру и регулярность покупок. Потом эту информацию можно использовать для глобальной и масштабной аналитики и прогнозирования поведения клиентов.
Итого
Data lake — это озеро данных, хранилище, в котором собрана неструктурированная информация любых форматов из разных источников.
Озера данных дешевле обычных баз данных, они более гибкие и легче масштабируются.
Озера данных можно использовать для любых целей: анализов, прогнозов, оптимизации бизнес-процессов.
Данные можно извлекать из озера по определенным признакам или анализировать прямо внутри озера, используя системы аналитики.
Если собирать слишком много данных «просто так» и никак с ними не работать, озеро может стать бесполезным болотом. Поэтому важно заранее определить, для чего именно вы собираете данные, и не накапливать их просто так.
Понятия
-
Chief Data Officer, CDO.
В компании должен быть отдельный сотрудник, ответственный за data governance
-
ПО
Hadoop
программное обеспечение, позволяющее обрабатывать большие объемы данных различных типов и структур. С его помощью собранные данные можно распределить и структурировать, настроить аналитику для построения моделей и проверки предположений, использовать машинное обучение.