Please enable JavaScript.
Coggle requires JavaScript to display documents.
ВІДКРИТІ ДАНІ - Coggle Diagram
ВІДКРИТІ ДАНІ
ФОРМАТИ ВІДКРИТИХ ДАНИХ ДЛЯ ОПРИЛОЮДНЕННЯ:
Текстові дані
TXT, RTF, MD, ODT
, DOC(X), (X)HTML
Відеодані
MPEG, MKV, AVI, FLV, MKS, MK3D
Аудіодані
MP3, WAV, MKA
Графічні дані
GIF
, TIFF, JPG (JPEG)
, PNG*, GTFS, GTFS-RT
Структуровані дані
RDF
, XML
, JSON
, CSV
, XLS(X), ODS
, YAML
Дані, розроблені з використанням програми Macromedia Flash
SWF, FLV
Архів даних
ZIP
, 7z
, Gzip
, Bzip2
Геопросторові дані
GeoTIFF, SHP, DMF, MID/MIF, DXF, XML, GeoJSON, GPX, LOC, ARINC, AIXM.
CSV — переваги
• простий • компактний • є прямокутною таблицею • можна відкрити навіть текстовим редактором • людиночитаний
CSV — недоліки
• не стандартизований • легко пошкоджується • є прямокутною таблицею (не підтримує ієрархію) • типи даних відсутні • проблеми з кодуванням та MS Excel
JSON – переваги
• стандартизований • компактний і структурований • підтримує вкладення • підтримує типи даних (рядок, число, null) • людиночитаний
JSON – недоліки
• не розширюється • підтримує обмежену кількість типів даних • людиночитаний лише із форматуванням
YAML – переваги
• дуже гнучкий формат • підтримка типів • псевдо і якоря • зручний для читання формат • різні форми запису структур • складні ключи • зберігання двійкових (binary) даних
YAML – недоліки
• не розповсюджений • дуже специфічний синтаксис, чутливий до відступів • це не просто потужно, це надто потужно
XML – переваги
• використання для перевірки структури DTD (Document Type Definition) • для перевірки даних - XSD (XML Schema Definition) • дуже гнучкий формат • генерація документів за допомогою XSLT (eXtensible Stylesheet Language Transformations)
XML – недоліки
• відсутність підтримки типів даних без XSD • «важкий» формат
Це публічна інформація у форматі, придатному для автоматизованої обробки електронними засобами, інакше кажучи, у форматі, який може опрацювати програмне забезпечення без участі людини.
Найлегше їх знайти на Єдиному державному порталі відкритих даних. На порталі є понад 33 тисячі наборів даних, які посортовано за розпорядниками, групами, тематиками тощо.
Робота з відкритими даними на українському ринку базується на декількох законодавчих актах:
закон України «Про доступ до публічної інформації»,
постанова Кабінету Міністрів України № 835 «Про затвердження Положеня про набори даних, які підлягають оприлюдненню у формі відкритих даних»,
Міжнародна хартія відкритих даних,
ІНСТРУМЕНТИ ДЛЯ ПЕРЕТВОРЕННЯ ІНФОРМАЦІЇ У ВІДКРИТІ ДАНІ :
Microsoft Word, Microsoft Excel, Microsoft Access;
графічні формати та PDF: Adobe Photoshop, Adobe Acrobat Reader, Foxit PDF Reader, Paint.NET, Corel Draw;
текстові дані: Notepad++;
програмні засоби: SPSS, Microsoft Azure ML, Matlab;
онлайн інструменти: JSON to CSV, CSV to JSON, JSON to C#;
очищення HTML документів від Word стилів;
ПРОЦЕДУРА ПІДГОТОВКИ ТІ ОПРИЛЮДНЕННЯ ДАНИХ :
Кодування файлів
Стандарт кодування є схемою нумерації, яка призначає числовому значенню текстовий символ із набору символів. Набір символів може містити абеткові символи, числа та інші символи. Різні мови зазвичай складаються з різних наборів символів, тому існує багато різноманітних стандартів кодування для відображення наборів символів, які використовуються в різних мовах.
Реляційні бази даних
Дуже часто в органах влади дані обробляються в реляційних базах даних (набір таблиць, між якими встановлені зв'язки за допомогою числових кодів). Експортування даних з таких баз даних для подальшого оприлюднення може мати два підходи:
експортування даних різних таблиць в один файл, наприклад csv;
експортувати дані з кожної таблиці в окремий файл. Тобто, набір даних складається з декількох файлів, які будуть мати один паспорт набору даних.
2.3. Деперсоніфікація даних
Окремі набори даних в органах влади можуть містити персональні дані. Це, найчастіше, стає причиною для не оприлюднення такого набору даних.
2.4. Архівація наборів даних
Архівація наборів даних необхідна для зменшення обсягів цих даних та, відповідно, необхідних ресурсів для зберігання оприлюднених даних на порталі, а також з метою зменшення трафіку при завантаженні цих наборів даних кінцевими споживачами.
2.5. Періодичність даних
Відповідно до Постанови КМУ розпорядник самостійно встановлює періодичність оновлення набору даних. Згідно загальносвітової практики набори відкритих даних поділяються на частооновлювані (висока періодичність актуалізації даних - частіше ніж 1 раз в тиждень) та рідкооновлювані (рідше, чим раз в тиждень).