Please enable JavaScript.
Coggle requires JavaScript to display documents.
карту-схему складових наборів даних (паспорт, структура, дані), вимог до…
карту-схему складових наборів даних (паспорт, структура, дані), вимог до складових
Рекомендовані формати
- Найкращим форматом для неструктурованих текстових даних (тексти законів, розпоряджень, довідкових даних) є формат Markdown або TXT. На відміну від TXT, Markdown може містити додаткову розмітку - заголовки, абзаци, посилання, зображення тощо. Варто пам'ятати, що існує декілька різновидів Markdown, тому варто вказувати який саме різновид використовується. Гіршим варіантом є формат HTML, найгіршими - doc/docx, pdf/tiff (окрім випадків, коли потрібна копія оригінального документа із підписом та печаткою).
- Для табличних даних потрібно використовувати формат CSV, в гіршому випадку - XLS/XLSX.
- Для відсканованих документів найкращий формат є TIFF, потім - PDF.
- Великі файли або групи файлів потрібно архівувати у форматі ZIP/7Z. Для файлів, що перевищують розмір 4 ГБ, - RAR.
- Якщо дані змінюються постійно і формуються онлайн, то такі файли бажано не оприлюднювати у вигляді файлів, а надавати доступ через інтерфейс прикладного програмування (далі - API) з відповідним описом такого інтерфейсу. Рекомендованими форматами для доступу через API є JSON/XML/RDF, але зберігати файли в цих форматах не потрібно (окрім випадків, коли дані зберігаються в цих форматах з самого початку).
-
-
Реляційні бази даних
Дуже часто в органах влади дані обробляються в реляційних базах даних (набір таблиць, між якими встановлені зв'язки за допомогою числових кодів). Експортування даних з таких баз даних для подальшого оприлюднення може мати два підходи:
- експортування даних різних таблиць в один файл, наприклад csv;
- експортувати дані з кожної таблиці в окремий файл. Тобто, набір даних складається з декількох файлів, які будуть мати один паспорт набору даних.
Рекомендованим є другий підхід, адже у разі експорту даних у декілька файлів відповідно до кількості таблиць, такий набір матиме малу збитковість, менший фінальний обсяг, простішу перевірку на цілісність, готовність до доступу через API.
При оприлюдненні такого набору даних структура та призначення кожного файлу повинні бути описані окремо. Якщо розмір хоча б одного файлу великий, то допускається публікація всіх файлів у вигляді одного архівного файлу (але з детальним описом всіх файлів).