Please enable JavaScript.
Coggle requires JavaScript to display documents.
Карта-схема (процедура) перетворення публічної інформації у формат…
Карта-схема (процедура) перетворення публічної інформації у
формат відкритих даних
Вибір формату для оприлюднення відкритих даних
Табличні формати
CSV
(Comma-Separated Values)CSV (від англ. Comma-Separated Values - значення, що розділені комами) - текстовий відкритий формат, призначений для представлення таблиць (масивів, наборів) даних, де кожний рядок - це запис таблиці, а значення окремих полів у рядку розділені спеціальними символами (delimiter), зазвичай комами. Щоб завантажити записи таблиці за найменуванням полів (а не за порядковими номерами), додатково потрібно мати опис її структури - назви та формат полів.
XLS/XLSX
(Document Office Open XML). Файл XLSX - електронна таблиця, створена в Microsoft Excel - додатку для роботи з таблицями. Дані в документі зберігаються в комірках, кожна з яких має певну адресу (колонки нумеруються англійськими літерами, рядки - цифрами, наприклад: A1 - ліва верхня клітинка).
Формати представлення даних через API
JSON
(від англ. JavaScript Object Notation) - текстовий відкритий формат, оснований на Javascript-представлені та призначений для обміну даними в Інтернет між сервером та клієнтом або сервером і сервером. Хоча він позиціонується, як незалежний від системи і мови програмування, частіше за все використовується за допомогою програм на Javascript, але як і інші текстові формати, легко може були прочитаний людиною.
XML
(від англ. eXtensible Markup Language - мова розмітки, що розширюється) - мабуть найстаріший текстовий відкритий формат, створений в 1994 році та рекомендований Консорціумом Всесвітньої павутини (W3C), як основний для обміну інформацією в Інтернет. Гіпертекстова розмітка (HTML) - це один з різновидів XML. Разом з таблицями каскадних стилів CSS, які формують зовнішній вигляд документів, вони є тими основними форматами, що обумовлюють розвиток технологій.
RDF
- це розроблена консорціумом Всесвітньої павутини модель для представлення даних, особливо, метаданих. RDF представляє твердження про ресурси у вигляді, придатному для машинної обробки. RDF є частиною концепції семантичної павутини..
Формати даних для роботи з геопросторовими даними
Формати
GIS
Просторова або геометрична інформація
Інформація про відображення
Інформація про атрибути
Векторні формати
.shx
- індексний файл; який використовується для зв'язку між файлами .dbf і .shp
.dbf
- атрибутивний файл; містить атрибути об'єктів, описаних в .shp файлі у форматі dBase IV.
.shp
- головний файл; містить набори геометричних об'єктів
Растрові формати:
ADRG, RPF, CADRG, CIB, Digital raster graphic (DRG), ECRG, ECW, Esri grid, GeoTIFF, IMG - ERDAS IMAGINE, JPEG2000, MrSID, netCDF-CF.
KML
- геоінформаційний формат Google MapsKML (від англ. Keyhole Markup Language) - мова розмітки на основі XML для представлення тривимірних геопросторових даних в програмі "Google Earth".
GeoJSON
- відкритий формат, призначений для зберігання графічних структур даних, заснований на форматі JSON.
TopoJSON
Графічні формати
JPEG
(англ. Joint Photographic Experts Group, за назвою організації - розробника) - один з популярних графічних форматів, застосовуваний для зберігання фотозображень і подібних до них зображень. Файли даних JPEG,
PNG
(англ. Portable network graphics) - растровий формат зберігання графічної інформації, що використовує стиснення без втрат за алгоритмом Deflate. Формат PNG розроблений для заміни форматів GIF та TIFF. Формат PNG позиціонується передусім для використання в Інтернеті і редагування графіки. Формат PNG зберігає графічну інформацію в стислому вигляді, причому це стиснення графічної інформації проводиться без втрат.
TIFF
(англ. Tagged Image File Format) - формат зберігання растрових графічних зображень. TIFF став популярним форматом для зберігання зображень з великою глибиною кольору. Він використовується при скануванні, відправлення факсів, розпізнаванні тексту, в поліграфії, широко підтримується графічними додатками. TIFF був обраний в якості основного графічного формату операційної системи NeXTSTEP і з неї підтримка цього формату перейшла в Mac OS X.
Текстові формати
TXT
- це формат, що містить текстові дані, які, як правило, організовані у вигляді рядків. Цей формат є основою для багатьох більш спеціалізованих форматів, таких як CHM, PHP, XML, CSV, та може бути переглянутий будь-яким текстовим редактором.
Markdown
- полегшена мова розмітки, створена з метою написання максимально читабельного і зручного для редагування тексту, але придатного для перетворення в мови для публікацій (HTML, Rich Text і ін.).
Текстово-графічні формати
HTML
(від англ. Hyper Text Markup Language - "мова гіпертекстової розмітки") - стандартна мова розмітки документів у Всесвітній павутині.
DOCX
(Document Office Open XML) - формат файлу для зберігання електронних документів пакетів офісних додатків, зокрема, Microsoft Office. Формат є zip-архівом, що містить текст у вигляді XML, графіку і інших даних, які можуть бути переведені в послідовність бітів (серіалізовані) із застосуванням захищених патентами довічних форматів, специфікації яких були опубліковані Microsoft для користувачів на умовах Microsoft Open Специфікація Promise (англ.).
Формат переносного документа (
PDF
) - це формат файлу, який використовується для надійного уявлення і обміну документами, незалежно від програмного і апаратного забезпечення або операційної системи. В даний час формат PDF, винайдений компанією Adobe, є відкритим стандартом, підтримуваним Міжнародною організацією зі стандартизації (ISO). Файли PDF можуть містити посилання і кнопки, поля форм, аудіо- та відеоелементи, а також бізнес-логіку. Вони також підтримують можливість електронного підпису і можуть переглядатися за допомогою безкоштовного програмного забезпечення Acrobat Reader DC.
Конвертація даних у рекомендований форматПерелік деяких програмних засобів, що дозволяють конвертувати файли з одного формату в інший (перелік не є вичерпним):
Microsoft Word, Microsoft Excel, Microsoft Access;
графічні формати та PDF: Adobe Photoshop, Adobe Acrobat Reader, Foxit PDF Reader, Paint.NET, Corel Draw;
текстові дані: Notepad++;
програмні засоби: SPSS, Microsoft Azure ML, Matlab;
онлайн інструменти: JSON to CSV, CSV to JSON, JSON to C#;
очищення HTML документів від Word стилів:
https://word2cleanhtml.com
.
Підготовка даних до оприлюднення у формі відкритих даних
Кодування файлів
Реляційні бази даних
експортування даних різних таблиць в один файл, наприклад csv
експортувати дані з кожної таблиці в окремий файл. Тобто, набір даних складається з декількох файлів, які будуть мати один паспорт набору даних.
Деперсоніфікація даних
Архівація наборів даних
історичні дані (наприклад, курси валют за попередній рік чи десятиліття);
усі файли набору, що мають розмір більше 50 МБ.
застарілі версії наборів даних, якщо є доступ до оновлених версій набору відкритих даних;
якщо публікується багатотомний набір, тоді рекомендується всі томи не копіювати і зберігати в одному архіві.
Періодичність даних
частооновлювані
більше одного разу в день;
кожного дня;
кожного тижня.
рідкооновлювальні
кожного місяця;
кожного кварталу;
кожних півроку;
кожного року;
по мірі зміни даних.
Оприлюднення схожих даних з різними структурами
якщо структура даних всіх файлів схожа і мають незначні відмінності, то приймається за основу одна структура (яка складатиметься з усіх стовпців всіх файлів), а відсутні дані заповнюються пустими значеннями;
у випадку, якщо структура файлів відрізняється значно, то такі файли потрібно розглядати як незалежні один від одного.
Оприлюднення даних за допомогою API та робота з даними великого обсягу
Data Hub (сховище даних)
API