Please enable JavaScript.
Coggle requires JavaScript to display documents.
Перетворення публічної інформації у формат відкритих даних - Coggle Diagram
Перетворення публічної інформації у формат відкритих даних
ВИБІР ФОРМАТУ ДЛЯ ОПРИЛЮДНЕННЯ ДАНИХ
КОНФЕРТАЦІЯ ДАНИХ У РЕКОМЕНДОВАНИЙ ФОРМАТ
ПІДГОТОВКА ДО ОПРИЛЮДНЕННЯ ВІДКРИТИХ ДАНИХ
3.1. Кодування файлів
3.2. Реляційні бази даних
експортування даних різних таблиць в один файл, наприклад csv;
експортувати дані з кожної таблиці в окремий файл. Тобто, набір даних складається з декількох файлів, які будуть мати один паспорт набору даних.
3.3. Деперсоніфікація даних
3.4. Архівація наборів даних
3.5. Встановлення частоти оновлення даних
Microsoft Word, Microsoft Excel, Microsoft Access;
графічні формати та PDF: Adobe Photoshop, Adobe Acrobat Reader, Foxit PDF Reader, Paint.NET, Corel Draw;
текстові дані: Notepad++;
програмні засоби: SPSS, Microsoft Azure ML, Matlab;
онлайн інструменти: JSON to CSV, CSV to JSON, JSON to C#;
очищення HTML документів від Word стилів:
Структуровані дані
RDF, XML, JSON, CSV, XLS(X), ODS, YAML
Геопросторові дані
GeoTIFF, SHP, DMF, MID/MIF, DXF, ХML,
GeoJSON, GPX, LOC, ARINC, AIXM
Текстові дані
TXT, RTF, ODT, DOC(X), PDF (з текстовим
змістом, нескановане зображення), (X)HTML
Графічні дані
GIF, TIFF, JPG (JPEG), PNG
Аудіодані
MP3, WAV, MKA
Дані, розроблені з використанням програми
Macromedia Flash
SWF, FLV
Відеодані
MPEG, MKV, AVI, FLV, MKS, MK3D
Архів даних
ZIP, 7z, Gzip, Bzip2
Перш ніж публікувати дані, потрібно провести їх ревізію. Якщо треба оприлюднити набори
даних, визначені Постановою Кабінету Міністрів України №835 (зі змінами), за цим переліком
наборів даних потрібно скластитабличку, у якій зазначити такі пункти:
Назва набору даних;
• Розпорядник набору даних;
• Відповідальна особа за ведення набору даних;
• Формат ведення і збереження набору даних (наприклад, автоматизована інформаційна
система, файл у форматі XLS(X), один або кілька файлів у форматі DOC(X));
• Тип даних у наборі (наприклад, текстові чи структуровані);
• Частота оновлення даних;
• Наявність/відсутність у наборі персональних даних службової інформації або іншої
інформації, що не підлягає оприлюдненню.
ФОРМАТИ ВІДКРИТИХ ДАНИХ
HTML
ПЕРЕВАГИ:
• легко вивчити та використовувати,
• безкоштовний
• підтримується всіма браузерами
• простий для редагування
• може легко інтегруватися з іншими мовами
• є базовим для всіх мов програмування
НЕДОЛІКИ:
• оскільки це статична мова, вона не може генерувати динамічний результат.
• пропонує обмежені функції безпеки.
XML
ПЕРЕВАГИ:
• використання для перевірки структури DTD (Document Type Definition)
• для перевірки даних - XSD (XML Schema Definition) • дуже гнучкий формат
• генерація документів за допомогою XSLT (eXtensible Stylesheet Language Transformations)
НЕДОЛІКИ:
• відсутність підтримки типів даних без XSD
• «важкий» формат
ФОРМАТИ ВІДКРИТИХ ДАНИХ
CSV
ПЕРЕВАГИ:
• простий
• компактний
• є прямокутною таблицею
• можна відкрити навіть текстовим редактором
• людиночитаний
НЕДОЛІКИ:
• не стандартизований
• легко пошкоджується
• є прямокутною таблицею (не підтримує ієрархію)
• типи даних відсутні
• проблеми з кодуванням та MS Excel
JSON
ПЕРЕВАГИ:
• стандартизований )
• компактний і структурований
• підтримує вкладення
• підтримує типи даних (рядок, число, null)
• людиночитаний
НЕДОЛІКИ:
• не розширюється
• підтримує обмежену кількість типів даних
• людиночитаний лише із форматуванням
YAML
ПЕРЕВАГИ:
• дуже гнучкий формат
• підтримка типів
• зручний для читання формат
• різні форми запису структур
• складні ключи
• зберігання двійкових (binary) даних
НЕДОЛІКИ:
• не розповсюджений
• дуже специфічний синтаксис, чутливий до відступів
• це не просто потужно, це надто потужно