Please enable JavaScript.
Coggle requires JavaScript to display documents.
Практична №2 завдання 2.4, Перетворення публічної інформації у формат…
Практична №2 завдання 2.4
Перетворення публічної інформації у формат відкритих даних
Конвертація даних у рекомендований
формат
Перелік деяких програмних засобів, що
дозволяють конвертувати файли з одногоформату в іншій
графічні формати та PDF: Adobe
Photoshop, Adobe Acrobat Reader, Foxit PDF Reader, Paint.NET, Corel Draw
онлайн інструменти: JSON to CSV, CSV to
JSON
Microsoft Word, Microsoft Excel, Microsoft
Access
програмні засоби: SPSS, Microsoft Azure
ML, Matlab
очищення HTML документів від Word
текстові дані: Notepad++
Вибір формату для оприлюднення даниїх
Формати даних для роботи з
геопросторовими даними
векторні формати
dbf-атрибутний файл; містить атрибути
об'єктів, описаних в .shp файлі у форматі dBaseIV
shp-головний файл; містить набори
геометричних об'єктів
shx-індексний файл; який
використовується для зв'язку між файлами .dbf і .shp
формати GIS
просторова або геометрична інформація
інформація про атрибути
інформація про відображення
растрові формати:ADRG, RPF, CADRG,
CIB, Digital raster graphic (DRG), ECRG, Esrigrid, GroTIFF, IMG-ERDAS, JPEG2000,
MrSID, netCDF-CF
KML - геоінформаційний формат Google
MapsKML-мова розмітки на основі XML дляпредставлення тривимірних
геопросторових даних в програмі "Google Earth".
GeoJSON - відкритий формат, призначений
для зберігання графічних структур даних,
заснований на форматі JSON.
Табличні формати
XLS/XLSX - -електронна таблиця, створена в
Microsoft Exce
CSV - текстовий відкритий формат,
призначений для представлення (масивів, наборів) даних
Графічні формати
JPEG - один з популярних графічних
форматів, який застосовується для зберігання фотозображень і подібних до
них зображень
TIFF - популярний формат для зберігання
зображень з великою глибиною кольору
PNG*
-формат зберігання графічної
інформації, що використовує стиснення без втрат за алгоритмом Deflate.
Формати представлення даних через API
JSON - текстовий відкритий формат,
призначений для обміну даними в Інтернеті між сервером та клієнтом або сервером і
сервером.
XML - текстовий відкритий формат, як
основний для обміну інформацією вІнтернет. Гіпертекстова розмітка (HTML)-це
один із різновидів XML.
Текстово-графічні формати
DOCX - формат файлу для зберігання електронних документів
HTML-стандартна мова розмітки
документів в Інтернеті.
PDF -формат файлу. Підтримують
можливість електронного підпису і можуть переглядатися за допомогою
безкоштовного програмного Acrobat Reader DC
Текстові формати
TXT - -формат, що містить текстові дані, які,
як правило, організовані у вигляді Цей формат є основою для багатьох більш
спеціалізованих форматів, таких як CHM, PHP, XML, CSV, та може бути
переглянутий будь-яким редактором
Markdown - полегшена мова розмітки,
створена з метою написання максимальночитабельного і зручного для редагування
тексту, але придатного для перетворення в
мови для публікації (HTML, Rich Text)
Підготовка даних до оприлюднення у
формі відкритих даних
Оприлюднення даних за допомогою API та
робота з даними великого обсягу
API
Data Hub (сховище даних)
Кодування файлів
деперсоніфікація даних
Репеляційні бази даних
експортування даних різних таблиць в один
файл
експортувати дані з кожної таблиці в
окремий файл. Набір даних складається з
декількох файлів, які будуть мати один
паспорт набору даних
архівація наборів даних
усі факти набору, що мають розмір більше
50 Мб
застарілі версії наборів даних, якщо є
доступ до оновлених версій наборувідкритих даних
якщо публікується багатотомний набір, тоді
рекомендується всі томи не копіювати і
зберігати в одному архіві
історичні дані
періодичність даних
більше одного разу в день
кожного дня
кожного тижня
кожного місяця
кожного кварталу
кожних півроку
кожного року
по мірі зміни даних
Оприлюднення схожих даних з різними
структурами
якщо структура даних всіх файлів схожа і
має незначні відмінності, то приймається за основу одна структура (яка
складатиметься з усіх стовпців всіх файлів), а відсутні дані заповнюються
пустими значеннями
у випадку, якщо структура файлів значно
відрізняється, то такі файли потрібно розглядати як незалежні один від одного
переваги та недоліки відкритих форматів
Вимоги до даних
Валідність
Конкретність
Очищення
Достовірність
Коректність
Формати відкритих даних
JSON
Переваги
Підтримує типи даних
Стандартизований
Ієрархічний
Універсальний
Недоліки
Не-людиночитний
Не розширюється
Підтримує обмежену кількість даних
CSV
Недоліки
Має табличний вигляд;
Може бути відкритий текстовим редакторо
Людиночитаний
Простий
Переваги
Не підтримує стандартизацію
Не підтримує ієрархію
Не призначений для роботи з типами даних
XML
Недоліки
Можливість перевірки даних та структури
Гнучкий
Підходить для перетворення даних на
інформацію
Переваги
Відсутність підтримки типів баз даних без XSD
YAML
Недоліки
Мало розповсюджений
Синтаксичні особливості
Переваги
Зручний для читання
Підтримка типів
Зберігання бінарних даних
Гнучкий формат
RDF - модель для представлення даних,
особливо, метаданих. Представляє твердження про ресурси у вигляді,
придатному для машинної обробки.