Please enable JavaScript.
Coggle requires JavaScript to display documents.
Карта-схема (процедура) перетворення публічної інформації у формат…
Карта-схема (процедура) перетворення публічної інформації у формат відкритих даних
1. Вибір формату для оприлюднення відкритих даних
Табличні формати
CSV - текстовий відкритий формат, призначений для представнення таблиць (масивів, наборів) даних, де кожний рядок - це запис таблиці, а значення окремих полів у рядку розділені спеціальними символами, зазвиай комами. Щоб завантажити записи таблиці за найменуванням полів, додатково потрібно мати опис її структури - назви та формат полів
XLS/XLSX. Файл XLS X- це електронна таблиця, створена в Microsoft Excell - додатку для роботи з таблицями. Дані в документі зберігаються в комірках, кожна з яких має певну адресу (колонки нумеруються англійськими літерами, рядки - цифрами)
Формати даних для роботи з геопросторовими даними
Растрові формати: ADRG, RPF, CADRG, CIB, Digital raster graphic (DRG), ECRG, ECW, Esri Grid, Geo Tiff, IMG - ERDAS IMAGINE, JPEG2000, MrSID, netCDF-CF
Векторні формати
.shp - головний файл; містить набори геометричних об"єктів
.shx - індексний файл, який використовується для зв"язку між файлами .dbf i .shp
.dbf - атрибутивний файл; містить атрибути об"єктів, описаних в .shp файлі у форматі dBase IV
KML - геоінформаційний формат GoogleMaps KML - мова розмітки на основі XML для представлення тривимірних геопросторових даних в програмі Google Earth
Формати GIS
Інформація про відображення
Просторова або геометрична інформація
Інформація про атрибути
TopoJSON
GeoJSON - відкритий формат, призначений для зберігання графічних структурних даних, заснований на форматі JSON
Текстові формати
TXT - це формат, що містить текстові дані, які, як правило, організовані у вигляді рядків. Цей формат є основою для багаатьох більш спеціалізованих форматів, таких як СНМ, РНР, XML, CSV, та може бути переглянутий будь-яким текстовим редактором
Markdown - полегшена мова розмітки, створена з метою написання максимально читабельного і зручного для редашгування тексту, але придатного для переторення в мови для публікацій
Графічні формати
JPEG - один з популярних графічних форматів, застосовуваний для зберігання фотозображень і подібних до них зображень
PNG - растровий формат зберігання графічної вінформації , що використовує стиснення без втрат за алгоритмом Deflate. Формат розроблений для заміни форматів GIF та TIFF.
TIFF - формат зберігання растрових графічних зображень. Формат став популярним для зберігання зображень з великою глибиною кольору. Використовується прискануванні, відправленн факсів, розпізнаванні тексту, в поліграфії, широко підтримується графічними додатками.
Формати предтавлення даних через АРІ
JSON - текстовий відкритий формат, оснований на javascript - представлений та призначений для обміну даними в інтернеті між сервером та клієнтом або сервером та сервером. Хоч він позтціонується як незалежний від системи і мови програмування, частіше за все використовується за допомогою програм на Javascript, але як і інші текстові формати - може легко бути прочитаний людиною
XML - мабуть найстаріший текстовий відкритий формат, створений в 1984році та рекомендований Консорціумом Всесвітньої Павутини як основний для обміну інформацією в Інтернет. Гіпертекстова розмітка (HTML) - це один з різновидів XML. РАзом з таблицями каскадних стилів CSS, які формують зовнішній вигляд документів, вони є тими основними форматами, що обумовлюють розвиток технологій.
RDF - це розроблена Консорціумом світової павутини модель дл представлення даних, особливо метаданих. Представляє твердження про ресурси у вигляді, придатному для машинної обробки.Є частиню концепції семантичної павутини.
Текстово-графічні формати
HTML - стандартна мова розмітки документів у Всесвітній павутині
DOCX - формат файлу для зберігання електонних документів пакетів офісних додатків, зокрема Microsoft Office. Формат є zip-архівом, що містить текст у вигляді XML, графіку і інших даних, які можуть бути переведені у послідовність бітів (серіалізовані) із застосуванням захищених патентам довічних форматів, специфікації яких були опубліковані microsoft для користувачів на умовах Microsoft Office.
Формат переносного документа (PDF) - це формат файлу, який використовується для надійсного уявлення і обміну документами, незалежно від програмного і апаратного забезпечення, або операційної системи. В даний час формат PDF, винайдений компанією Adobe, є відкритим стандартом, підтримуваним МІжнародною організацією стандартизації (ISO).
2. Конвертація даних у рекомендований формат.
Перелік деяких програмних засобів, що дозволяють конвертувати фацли з одного формату в інший (невичепний перелік)
Microsoft Word, Microsoft Excell, Microsoft Access;
графічні формати та PDF: Adobe Photoshop, Adobe Acrobat Reader, Foxit PDF Reader,Corel Draw
текстові дані: Notepad++;
програмні засоби: SPSS, Microsoft Azure ML, Matlab;
3. Підготовка даних до оприлюднення у формі відкритих даниих
Кодування файлів
Реляційні бази даних
експортування даних різних таблиць в один файл, напр. CSV
експортування даних з кожної таблиці в окремий файл. Тобто набір даних складається з кількох файлів, кі будуть мати один паспорт набору даних.
Деперсоніфікація даних
Архівація наборів даних
історичні дані (напр. курси валют за попередній рікк чи десятиліття)
усі файли набору, що мають розмір більше 50 МБ
засторілі версії наборів даних, якщо є доступ до оновлених версій набору відкритих даних
якщо публікується багатотомний набір, тоді рекомендується всі томи не корпіювати, а зберігати в одному архіві
Періодичність даних
Частооновлювані
більше 1 разу в день
кожного дня
кожного тижня
Рідкооновлювані
кодного місяця
кожного кварталу
кожних півроку
кожного року
по мірі зміни даних
Оприлюднення схожих даних з різними структурами
якщо структура даних всіх файлів схлжаі мають незначні відмінності, то приймається за основу одна структура (яка складатиметься з усіх стовпців всіх файлів), а відсутні дані заповнюються пустими значеннями
у випадку, якщо структура файлів відрізняється значно, то такі файли потрібно розглядати як незалежні один від одного
Оприлюднення даних за допомогою АРІ та робота з даними великого обсягу
АРІ
Data HUB - сховище даних