Please enable JavaScript.
Coggle requires JavaScript to display documents.
Карта-схема (процедура) перетворення публічної інформації у формат…
Карта-схема (процедура) перетворення
публічної інформації у формат відкритих даних
1. Вибір формату для оприлюднення даних
2. Конвертація даних у рекомендований формат
3. Підготовка даних до оприлюднення у формі відкритих даних
Оприлюднення даних за допомогою API та
робота з даними великого обсягу:
Data Hub (сховище даних);
API.
кодування файлів
Репеляційні бази даних
експортування даних різних таблиць в один файл
експортувати дані з кожної таблиці в окремий файл. Набір даних складається з декількох файлів, які будуть мати один паспорт набору даних
деперсоніфікація даних
архівація наборів даних
-
історичні дані
усі факти набору, що мають розмір більше 50 Мб
застарілі версії наборів даних, якщо є доступ до оновлених версій набору відкритих даних
якщо публікується багатотомний набір, тоді рекомендується всі томи не копіювати і зберігати в одному архів
періодичність даних:
частооновлювальні:
більше одного разу в день, кожного дня, кожного тижня.
рідкооновлювальні:
кожного місяця, кожного кварталу, кожних півроку, кожного року, по мірі зміни даних
Оприлюднення схожих даних з різними
структурами:
у випадку, якщо структура файлів значно відрізняється, то такі файли потрібно розглядати як незалежні один від одного;
якщо структура даних всіх файлів схожа і має незначні відмінності, то приймається за основу одна структура (яка складатиметься з усіх стовпців всіх файлів), а відсутні дані заповнюються пустими значеннями.
Перелік деяких програмних засобів, що дозволяють конвертувати файли з одного формату в інший:
Microsoft Word, Microsoft Excel, Microsoft Access;
графічні формати та PDF: Adobe Photoshop, Adobe Acrobat Reader, Foxit PDF Reader, Paint.NET, Corel : Draw;
онлайн інструменти: JSON to CSV, CSV to JSON;
текстові дані: Notepad++;
очищення HTML документів від Word;
програмні засоби: SPSS, Microsoft Azure ML, Matlab.
Текстові формати:
TXT
- формат, що містить текстові дані, які, як правило, організовані у вигляді рядків. Цей формат є основою для багатьох більш спеціалізованих форматів, таких як CHM, PHP, XML, CSV, та може бути переглянутий будь-яким текстовим редактором;
Markdown
- полегшена мова розмітки, створена з метою написання максимально читабельного і зручного для редагування тексту, але придатного для перетворення в мови для публікації (HTML, Rich Text).
Текстово-графічні формати:
HTML
- стандартна мова розмітки документів в Інтернеті;
DOCX
- формат файлу для зберігання електронних документів. Є zip-архівом, що містить текст у вигляді XML, графіку і інші дані, які можуть бути переведені в послідовність біті;
PDF
- формат файлу, який використовується для надійного уявлення і обміну документами, незалежно від програмного і апаратного забезпечення або операційної системи. Можуть містити посилання і кнопки, поля форм, аудіо- та відеоелементи. Підтримують можливість електронного підпису і можуть переглядатися за допомогою безкоштовного програмного забезпечення Acrobat Reader DC.
Графічні формати:
TIFF - популярний формат для зберігання зображень з великою глибиною кольору;
JPEG - один з популярних графічних форматів, який застосовується для зберігання фотозображень і подібних до них зображень;
PNG - формат зберігання графічної інформації, що використовує стиснення без втрат за алгоритмом Deflate. Розроблений для заміни форматів GIF та TIFF. Для редагування графіки, зберігає графічну інформацію в стислому вигляді, причому це стиснення графічної інформації проводиться безвтрат.
Табличні формати:
- CSV - текстовий відкритий формат, призначений для представлення таблиць (масивів, наборів) даних, де кожний рядок-це запис таблиці, а значення окремих полів у рядку розділені спеціальними символами, зазвичай комами. Щоб завантажити записи таблиці за найменуванням полів, додатково потрібно мати опис її структури - назви та формат полів;
XLS/XLSX - електронна таблиця, створена в Microsoft Excel. Дані зберігаються в комірках, кожна з яких має певну адресу (колонки нумеруються англійськими літерами, рядкицифрами, наприклад: А-1-ліва верхня клітина)
Формати представлення даних через API:
- XML - текстовий відкритий формат, як основний для обміну інформацією в Інтернет. Гіпертекстова розмітка (HTML)-це один із різновидів XML. Разом з таблицями каскадних стилів CSS, які формують зовнішній вигляд документів, вони є тими основними форматами, що обумовлюють розвиток технологій;
JSON - текстовий відкритий формат, призначений для обміну даними в Інтернеті між сервером та клієнтом або сервером і сервером;
RDF - модель для представлення даних, особливо, метаданих. Представляє твердження про ресурси у вигляді, придатному для машинної обробки.
Формати даних для роботи з геопросторовими даними:
GeoJSON - відкритий формат, призначений для зберігання графічних структур даних, заснований на форматі JSON;
растрові формати: ADRG, RPF, CADRG, CIB, Digital raster graphic (DRG), ECRG, Esri grid, GroTIFF, IMG-ERDAS, JPEG2000, MrSID, netCDFCF;
KML - геоінформаційний формат Google MapsKML-мова розмітки на основі XML для представлення тривимірних геопросторових даних в програмі "Google Earth";
формати GIS: просторова або геометрична інформація, інформація про атрибути, інформація про відображення;
векторні формати: .shp-головний файл; містить набори геометричних об'єктів, .shx-індексний файл; який використовується для зв'язку між файлами .dbf і .shp, .dbf-атрибутний файл; містить атрибути об'єктів, описаних в .shp файлі у форматі dBaseIV.