Please enable JavaScript.
Coggle requires JavaScript to display documents.
Перетворення публічної інформації у формат відкритих даних - Coggle Diagram
Перетворення публічної інформації у формат відкритих даних
Конвертація даних у рекомендований формат
Перелік деяких програмних засобів, що дозволяють конвертувати файли з одного формату в інший
Microsoft Word, Microsoft Excel, Microsoft Access;
Графічні формати та PDF: Adobe Photoshop, Adobe Acrobat Reader, Foxit PDF Reader, Paint.NET, Corel Draw;
Текстові дані: Notepad++;
Онлайн інструменти: JSON to CSV, CSV to JSON, JSON to C#;
Очщення HTML документів від Word стилів:
https://word2cleanhtml.com
Програмні засоби: SPSS, Microsoft Azure ML, Matlab;
Вибір формату для оприлюднення даних
Типи даних та формати
Архів даних ZIP, 7z, Gzip, Bzip2
Дані, розроблені з використанням програми Macromedia Flash SWF, FLV
Аудіодані MP3, WAV, MKA
Відеодані MPEG, MKV, AVI, FLV, MKS, MK3D
Графічні дані GIF, TIFF, JPG (JPEG), PNG
Геопросторові дані GeoTIFF, SHP, DMF, MID/MIF, DXF, ХML, GeoJSON, GPX, LOC, ARINC, AIXM
Структуровані дані RDF, XML, JSON, CSV, XLS(X), ODS, YAML
Текстові дані TXT, RTF, ODT, DOC(X), PDF (з текстовим змістом, нескановане зображення), (X)HTML
Інтерфейс прикладного програмування (АРІ)
Якщо набір даних містить великий обсяг інформації й часто оновлюється, доступ до нього
варто запровадити за допомогою інтерфейсу прикладного програмування (АРІ).
Підготовка даних до оприлюднення у формі
відкритих даних
Структурування
Правила структурування
Усі змінні записані у стовпчиках;
Усі спостереження записані у рядках;
У таблиці немає об’єднаних комірок, один запис займає лише одну комірку;
У таблиці немає об’єднаних записів, одна комірка містить лише один запис.
Очищення даних
Чистими вважаються дані, у яких:
Немає помилок чи одруківок, зайвих символів або пропусків;
Для запису назв, дат, чисел вживається уніфікований формат;
Для позначення відсутніх записів використовується NA, а не “0”, “–” чи інші аналоги;
У межах однієї змінної вживається лише один тип даних, тобто в одному стовпчику не змішуються, наприклад, числові й текстові значення.
Валідації набору даних
Структуру набору даних можна використовувати для валідації, тобто перевірки коректності.В описі структури набору даних можна зазначати, які значення може набувати та чиінша змінна.
Достовірність
Аудит даних
Аудит дає змогу розпоряднику дослідити й зрозуміти, у якомустані наразі дані і що потрібно зробити, щоб налагодити процес оприлюднення необхіднихнаборів у форматі відкритих даних
Допомагає також виявити дублювання зусиль розпорядників щодо збору та оприлюднення даних, виявляє проблемні ділянки, які потребують додаткової роботи, що дає змогу краще розподілити ресурси.
Переваги та недоліки відкритих форматів
CSV
Недоліки. Не має можливості представити ієрархічні дані. Відсутня технологія створення структур. Неможливо вбудувати семантику даних.
Переваги. Самий простий спосіб. Надання даних у табличній формі.
XML
Переваги. Зручний формат для додатків. Можливості для представленнялюбих типів даних
Недоліки. Необхідні відповідні компетенції при перетворенні даних.
JSON
Переваги. Відмінно підходить для додатків. Можливості для представлення любих типів даних.
Недоліки. Необхідні відповідні компетенції при перетворенні даних. Слабі опції для створення структури даних. Неможливо вбудувати семантику