Please enable JavaScript.
Coggle requires JavaScript to display documents.
Современные подходы к управлению данными - Coggle Diagram
Современные подходы к управлению данными
Введение
концепция складирования данных
На стыке:
технологии баз данных (БД),
систем поддержки принятия решений (СППР)
компьютерного анализа данных,
пригодна для широкого круга приложений в бизнесе, науке и технологии
data warehousing
метод решения информационно-аналитических задач в области принятия и поддержки решений
Системы, построенные на основе ИТ складирования данных, выделяются в новый класс ИС в силу следующих особенностей
Системы, построенные на основе ИТ складирования данных, выделяются в новый класс ИС в силу следующих особенностей
интегрированность хранимых в ней данных, собираемых из различных источников,
инвариантность этих данных во времени
относительно высокая стабильность данных,
необходимость поиска компромисса в избыточности данных.
Хранилище данных
место складирования собираемых в системе данных и информационным источником для решения задач анализа данных и принятия решений
управляет большим объемом данных
Бизнес-анализ
категория приложений и технологий для сбора, хранения, анализа и публикации данных, позволяющая корпоративным пользователям принимать лучшие решения
системами поддержки принятия решений (СППР)
Подсистема анализа может быть построена на основе
подсистемы информационно-поискового анализа на базе реляционных СУБД и статических запросов с использованием языка SQL
подсистемы оперативного анализа с помощью технологии оперативной аналитической обработки данных OLAP
подсистемы интеллектуального анализа, реализующие методы и алгоритмы Data Mining.
Сбор и хранение информации, а также решение задач информационно-поискового запроса эффективно реализуются средствами СУБД.
В OLTP-подсистемах реализуется транзакционная обработка данных.
Предпосылки создания концепции складирования данных
Падение производительности аналитики на больших объемах данных
Противоречие в целевой направленности систем операционной обработки и систем анализ
необходимость поддержки архивов и доступа к ним
Системы, доставшиеся в наследство, трудно перенести на новые аппаратно-программные платформы
Перенос данных из централизованного ВЦ на рабочий стол бизнес-аналитика
Но аналитик не должен решать задачи управления данными
Возникает опасная тенденция несогласованности коллективно используемых данных
Интенсивное использование СППР и управленческих ИС, обладающих особенностями
данные представлены в стандартных терминах бизнеса, понятных обычным пользователям;
данные обрабатываются в контексте стандартных бизнес-правил;
допускается консолидированное представление данных по таким категориям, как продукт, производитель и рынок
Развитие технологий, интернета.
Структурные изменения в бизнесе
Появление стандартов для программного обеспечения бизнеса
Требования пользователей
Основные факторы, повлиявшие на разработку концепции хранилищ данных
Факторы развития ПО
Унаследованные системы
Стандарты представления данных
Требования коллективного пользования СППР и ИСР
Факторы технологий
Мощная аппаратная платформа
Архитектура клиент-сервер
Факторы бизнеса
Глобализация экономии
Стандарты ведения бизнеса
Требования пользователей
Производители ПО
Промышленные СУБД
CASE средства для проектирования и разработки
Инструменты анализа данных
Концепция хранилищ данных
Элементы
Извлечение данных из операционных систем в отдельную систему складирования данных.
Необходимость интегрирования данных из нескольких OLTP-систем
Данные в системах складирования остаются неизменными
Данные в ХД хранятся значительно более длительное время, чем в OLTP-системах
Основные причины разделения данных для анализа и оперативной обработки
Различные цепи систем
Извлечение данных из источников
Неизменность данных
Длительное время хранения
Отличия использования данных в OLAP и OLTP системах
Частота обновления данных
Данные структурируются с целью обеспечения
Оптимизируется для обеспечения процесса
предметно-ориентированная, интегрированная, неизменяемая и поддерживающая хронологию электронная коллекция данных для обеспечения процесса принятия решений
Предметная ориентированность
Информация в ХД организована в соответствии с бизнес-процессами
Интегрированность.
Исходные данные извлекаются из операционных БД, проверяются, очищаются, приводятся к единому виду, в нужной степени агрегируются и загружаются в ХД.
Привязка ко времени
Неизменяемость.
Попав в определенный исторический слой ХД, данные уже никогда не будут изменены
Трехуровневая архитектура
Нижний уровень
содержит сервер базы данных
Средний уровень
содержит сервер OLAP, который преобразует данные в более подходящую для анализа структуру.
Верхний уровень
уровень клиента
инструменты, используемые для высокоуровневого анализа данных, создания отчетов и анализа данных
Модели хранилищ данных
виртуальное хранилище
набор отдельных баз данных, которые можно использовать совместно, чтобы пользователь мог эффективно получать доступ ко всем данным
Избыточность информации можно свести к нулю
+
минимизация объема хранимых данных
работа с текущими, актуальными данными
-
более высокое, по сравнению с физическим ХД время обработки запросов;
необходимость постоянной доступности всех OLTP-источников
снижение быстродействия OLTP-систем
OLTP-системы не ориентированы на хранение данных за длительный период времени
витрина данных
Требования
Она должна извлекать любые данные из удаленных источников по запросу
Пользователь может сам строить запросы к любым данным
Пользователь не обязан знать, откуда взяты те или иные данные
Витрина не должна хранить все данные в одном хранилище
Концептуальная модель
Тезаурус, содержащий определения терминов, в которой бизнес описывает свою деятельность и связь
Интерфейс пользователя
Правила извлечения и преобразования
В административном интерфейсе происходит привязка источников данных к элементам концептуальной модели, настройка правил из извлечения и трансформации
Механизм запросов к данным
Представление результатов
Результат запроса собирается из сведений, полученных от разных источников, и помещается в:
база данных BI-системы
OLAP - куб
экспортируется в виде файла и т.д.
благодаря внедрению бизнес получает
Расширение видов доступной аналитики
Радикальное сокращение времени и затрат на поиск и преобразование данных в процессе выполнения анализа
Возможность принимать обоснованные решения, опирающиеся на знания
Возможность использовать разносторонюю информацию в качестве основы для построения оптимизационных, прогнозных моделей
корпоративное хранилище данных
Enterprise Data Warehouse
EDW
предполагает хранение агрегированных данных, охватывающих всю организацию
хранилище данных как сердце ИС предприятия с интегрированными данными всех бизнес-единиц
Модель озера данных
необработанные данные в их оригинальном формате до тех пор, пока они не понадобятся
пользователи должны знать:
Конкретные типы данных и источники, в которых они нуждаются
Сколько данных им нужно.
Когда им это нужно.
Методы аналитики, которые будут применяться к этим данным
предоставляют бизнес-пользователям и техническим пользователям возможность запрашивать меньшие, более актуальные и более гибкие наборы данных.
время запросов может сократиться
Digital Hoarding
страсть к накопительству данных
Чтобы озеро не стало болотом, нужно наладить в компании процесс управления данными
отсекать источники с заведомо недостоверными данными
ограничить доступ на загрузку для сотрудников, у которых нет на это прав;
проверять некоторые параметры файлов
Облачные архитектуры хранилищ данных
Amazon Redshift
это облачное представление традиционного хранилища данных
Google BigQuery
Panoply
обеспечивает комплексное управление данными как услуга
Проблемы при настройке
Загрузка данных в облачные хранилища данных нетривиальна, а для крупномасштабных конвейеров данных требуется настройка, тестирование и поддержка процесса ETL
Обновления, вставки и удаления могут быть сложными и должны выполняться осторожно, чтобы не допустить снижения производительности запросов
С полуструктурированными данными трудно иметь дело — их необходимо нормализовать в формате реляционной БД, что требует автоматизации больших потоков данных
Вложенные структуры обычно не поддерживаются в облачных хранилищах данных, их необходимо преобразовать в форматы, понятные хранилищу данных
Оптимизация кластера
Для достижения оптимальной работы, необходимо постоянно пересматривать и при необходимости дополнительно настраивать конфигурацию;
Оптимизация запросов
пользовательские запросы могут не соответствовать передовым методам
Резервное копирование и восстановление
данные нетривиально настраиваются и они требуют мониторинга и пристального внимания.