Please enable JavaScript.
Coggle requires JavaScript to display documents.
Карта-схема (процедура) перетворення публічної інформації у формат…
Карта-схема (процедура) перетворення публічної інформації у формат відкритих даних
Вибір формату для оприлюднення наних
Текстові формати
TXT - формат, що містить текстові дані, які, як правило організовані у вигляді рядків. Цей формат є основою для багатьох більш спеціалізованих форматів, таких як CHM, PHP, XML, CSV, та може бути переглянутий будь-яким текстовим редактором.
Markdown - полегшена мова розмітки, створена з метою написання максимально читабельного і зручного для редагування тексту, але придатного для перетворення з мови для публікації (HTML, Rich Text)
Графічні формати
JPEG - один з популярних графічних форматів, який застосовується для зберігання фотозобржень і подібних до них зображень.
PNG - формат зберігання графічної інформації, що викоричтовує стиснення без втрат за алгоритном Deflate.Розроблений для заміни форматів GIF та TIFF. Для редагування графіки, зберігає графічну інформацію в стислому вигляді, причому це стиснення графічної інформації проводиться без втрат.
TIFF- популярний формат для зберігання зображень з великою глибиною кольору.
Текстово-графічні формати
HTML - стандартна мова розмітки документів в Інтернеті.
DOCX - формат файлу для зберігання електронних документів. Є zip-архівом, що містить текст у вигляді XML, графіку і інші дані, які можуть бути переведені в послідовність бітів.
PDF - формат файлу, який використовується для надійного уявлення і обміну документами, незалежно від програмного і апаратного забезпечення або операційної системи. Можуть містит посилання і кнопки, поля форм, айдіо- та відеоелементи. Підтримують можливість електронного підпису і можуть переглядатися за допомогою безкоштовного програмного забезпечення Acrobat Reader DC.
Табличні формати
CSV - текстовий відкритий формат, призначений для представлення таблиць (масивів, наборів) даних, де кожний рядок це запис таблиці, а значення окремих полів у рядку розділені спеціальними символами, зазвичай комами. Щою завантажити записи таблиці за найменуванням полів, додатково потрібно мати опис її структури - назви та формат полів.
XLS/XLSX - електронна таблиця, створена в Microsoft Excel. Дані зберігаються в комірках, кожна з яких має певну адресу (колонки нумеруються англійськими літерами, рядки - цифрами, напр., А-1-ліва верхня клітина)
Формати представлення даних через АРІ
XML - текстовий відкритий формат, як основний для обміну інформацією в Інтернет. Гіпертекстова розмітка (HTML) - це один із різновидів XML. Разом з таблицями каскадних стилів CSS, які формують зовнішній вигляд документів, вони є тими основними форматами, що обумовлюють розвиток технологій.
JSON - текстовий відкритий формат, призначений для обміну даними в Інтернеті між сервером та клієнтом або сервером і сервером.
RDF - модель для представлення даних, особливо метаданих. Представляє твердження про ресурси у вигляді, придатному для машинної обробки.
Формати даних для роботи з геопросторовими даними
векторні формати
.shp-головний файл, містить набори геометричних об"єктів
.shx-індексний файл, який використовується для зв"язку між файлами .dbf і .shp
.dbf-атрибутний файл, містить атрибути об"єктів, описаних в .shp у форматі dBaselV
Формати GIS
просторова або геометрична інформація
інформація про атрибути
інформація про відображення
KML- геоінформаційний формат Google Mars KML - мова розмітки на основі XML для представлення тривимірних геопросторових даних в програмі "Google Earth"
растрові формати: ADRG, RPF, CADRG,CIB,Digital raster graphic (DRG), ECRG, Esri grid, GroTIFF,IMG-ERDAS,JPEG2000, MrSID, netCDF-CF
GeoJSON- відкритий формат, призначений для зберігання графічних структур даних, заснований на форматі JSON.
Конвертація даних у рекомендований формат
Перелік деяких програмних засобів, що дозволяють конвертувати файли з одного формату в інший
очищення HTML документів від Word
онлайн інструменти: JSON to CSV, CSV to JSON
програмні засоби: SPSS, Microsoft Azure ML, Matlab
Microsoft Word, Microsoft Excel, Microsoft Access
текстові дані: Notepad++
графічні формати та PDF: Adobe Photoshop, Adobe Acrobat Reader, Foxit PDF Reader, Paint NET, Corel Draw
Підготовука даних до оприлюднення у формі відкритих даних
Періодичність даних
частооновлювальні
більше одного разу в день
кожного дня
кожного тижня
рідкооновлювальні
кожного місяця
кожного кварталу
кожних півроку
кожного року
по мірі зміни даних
Репеляційні бази даних
еспортування даних різних таблиць в один файл
експортувати дані з кожної таблиці в окримий файл. Набір даних складається з декількох файлів, які будуть мати один паспорт набору даних
Деперсоніфікація даних
кодування файлів
Оприлюднення схожих даних з різними структурами
у випадку якщо структура файлів значно відрізняється, то такі файли потрібно розглядати як незалежні один від одного
якщо структура даних всіх файлів схожа і має незначні відмінності, то приймається за основу одна структура (яка складатиметься з усіх стовбців всіх файлів), а відсутні дані заповнюються пустими значеннями
Оприлюднення даних за допомогою АРІ та робота з даними великого обсягу
Data Hub (сховище даних)
АРІ
архівація наборів даних
історичні дані
усі факти набору, що мають розмір більше 50 Мб
застарілі версії наборів даних, якщо є доступ до оновлених версій набору відкритих даних
якщо публікується багатотомний набір, тоді рекомендується всі томи не копіювати і зберігати в одному архіві