Please enable JavaScript.
Coggle requires JavaScript to display documents.
Процедура очищення даних ( очищення даних - це процедура коригування даних…
Процедура очищення даних ( очищення даних - це процедура коригування даних, які в будь-якому сенсі не задовольняють визначеним критерям якості, тобто містять порушення структури даних, протиріччя, пропуски, дублікати, неправильні формати і т. ін. )
- Аналіз даних – виявлення видів помилок і невідповідностей, що підлягають видаленню. Поряд з ручною перевіркою даних або їхніх шаблонів, треба використовувати аналітичні програми для отримання метаданих про властивості даних і виявлення проблем якості даних.
-
- Визначення послідовності і правил перетворення даних. Залежно від кількості джерел даних, ступеня їхньої неоднорідності та забрудненості даних, вони можуть вимагати достатньо широкого перетворення та очищення. Іноді для відображення джерел для загальної моделі даних використовується трансляція схеми; для сховищ даних, зазвичай, використовується реляційне зображення.
- Підтвердження – правильність і ефективність процесу і визначення перетворення. Це здійснюється шляхом тестування та оцінювання. Під час аналізу, проектування та підтвердження може знадобитися безліч ітерацій, наприклад, з огляду на те, що деякі помилки стають помітні тільки після певних перетворень.
- Перетворення – виконання перетворень або в процесі ETL для завантаження і оновлення сховища даних, або при відповіді на запити з множини джерел. Процес перетворення вимагає великих обсягів метаданих – наприклад, схем, характеристик даних рівня схеми, означень технологічного процесу тощо.
Витягання значень з атрибутів вільного формату (розщеплювання атрибутів). Атрибути вільного формату часто містять безліч окремих значень, що підлягають витяганню для підвищення точності подання і підтримки подальших етапів очищення, таких, як зіставлення елементів даних і вилучення дублікатів. Парсинґ – це граматичний або лексичний аналіз тексту. При виконанні парсинґу ведеться поділ полів на атомарні значення.
Перевірка допустимості і виправлення. На цьому етапі кожен елемент даних джерела даних досліджується на наявність помилок, а виявлені помилки за можливості автоматично виправляються. Перевірка орфографії на основі перегляду словника потрібна для ідентифікації і виправлення помилок у написанні слів.
Стандартизація. Для співвідношення та інтеграції елементів даних, значення атрибутів треба перетворити в узгоджений і уніфікований формат. Текстові дані можуть бути стиснені та уніфіковані за допомогою виявлення кореня, видалення префіксів, суфіксів і ввідних слів. Абревіатури і зашифровані схеми підлягають узгодженому розшифруванню за допомогою спеціального словника синонімів або застосування зазначених правил конверсії.
- Попереднє опрацювання даних – комплекс методів і алгоритмів, які застосовуються в аналітичному додатку з метою підготовки даних до виконання конкретного завдання і приведення їх у відповідність до вимог, що обумовлені специфікою завдання і способами його виконання.
-
- Протитечія очищених даних – заміна забруднених даних у першоджерелах на очищені. Після того, як помилки (окремого джерела) видалені, очищені дані мають замістити забруднені дані в початкових джерелах, щоб покращені дані потрапили і в успадковані застосування і надалі при витяганні не вимагали додаткового очищення. Для сховищ даних очищені дані містяться в області зберігання даних.
-