Please enable JavaScript.
Coggle requires JavaScript to display documents.
Перетворення публічної інформації у формат відкритих даних, Недоліки,…
Перетворення публічної інформації у формат відкритих даних
Вибір формату для оприлюднення відкритих даних
Табличні формати
CSV (від англ. Comma-Separated Values - значення, що розділені комами) - текстовий відкритий формат, призначений для представлення таблиць (масивів, наборів) даних, де кожний рядок - це запис таблиці, а значення окремих полів у рядку розділені спеціальними символами (delimiter), зазвичай комами. .
Не підтримує ієрархію даних. • Не підтримує зв’язок між даними. • Придатний лише для таблиць. • Заголовки в таблиці не є обов’язковими.
можна легко імпортувати; простий та відносно компактний формат даних; доволі легко сприймається людиною; можна відкрити величезною кількістю програм
Файл XLSX - електронна таблиця, створена в Microsoft Excel - додатку для роботи з таблицями.
Формати представлення даних через API
JSON (від англ. JavaScript Object Notation) - текстовий відкритий формат, оснований на Javascript-представлені та призначений для обміну даними в Інтернет між сервером та клієнтом або сервером і сервером.
стандартизований (ECMA-404, RFC 7159) • компактний і структурований • підтримує вкладення • підтримує типи даних (рядок, число, null) • людиночитаний
не розширюється • підтримує обмежену кількість типів даних • людиночитаний лише із форматуванням
XML (від англ. eXtensible Markup Language - мова розмітки, що розширюється) - текстовий відкритий формат, як основний для обміну інформацією в Інтернет. Гіпертекстова розмітка (HTML) - це один з різновидів XML.
гнучкість; крім основних даних можна розміщати метадані (описи, характеристики, реквізити), вкладені файли (наприклад, картинки, стилі тексту), довідники тощо;
відсутність підтримки типів даних без XSD • «важкий» формат
RDF - це модель для представлення даних, особливо, метаданих. RDF представляє твердження про ресурси у вигляді, придатному для машинної обробки. RDF є частиною концепції семантичної павутини.
Формати даних для роботи з геопросторовими даними
Векторні формати
.shp - головний файл; містить набори геометричних об'єктів
.shx - індексний файл; який використовується для зв'язку між файлами .dbf і .shp
.dbf - атрибутивний файл; містить атрибути об'єктів, описаних в .shp файлі у форматі dBase IV.
Формати GIS
просторова або геометрична інформація, яка містить положення і форми конкретних географічних об'єктів
інформація про атрибути, яка забезпечує описову інформацію (числову, текстову, логічну) про кожний об'єкт
інформація про відображення, яке може описувати спосіб оформлення об'єкту
Растрові формати. Прикладами растрових форматів є: ADRG, RPF, CADRG, CIB, Digital raster graphic (DRG), ECRG, ECW, Esri grid, GeoTIFF, IMG - ERDAS IMAGINE, JPEG2000, MrSID, netCDF-CF.
KML - геоінформаційний формат Google Maps
GeoJSON - відкритий формат, призначений для зберігання графічних структур даних, заснований на форматі JSON.
Графічні формати
JPEG (англ. Joint Photographic Experts Group, за назвою організації - розробника) - формат, застосовуваний для зберігання фотозображень і подібних до них зображень. Файли даних JPEG,
зазвичай мають розширення .jpg, .jfif, .jpe або .jpeg.
PNG (англ. Portable network graphics) - растровий формат зберігання графічної інформації, що використовує стиснення без втрат за алгоритмом Deflate. Формат PNG розроблений для заміни форматів GIF та TIFF.
TIFF (англ. Tagged Image File Format) - формат зберігання растрових графічних зображень. TIFF став популярним форматом для зберігання зображень з великою глибиною кольору. Він використовується при скануванні, відправлення факсів, розпізнаванні тексту, в поліграфії, широко підтримується графічними додатками.
Текстові формати
Markdown - полегшена мова розмітки, створена з метою написання максимально читабельного і зручного для редагування тексту, але придатного для перетворення в мови для публікацій (HTML, Rich Text і ін.)
TXT - це формат, що містить текстові дані, які, як правило, організовані у вигляді рядків. Цей формат є основою для багатьох більш спеціалізованих форматів, таких як CHM, PHP, XML, CSV, та може бути переглянутий будь-яким текстовим редактором.
Текстово-графічні формати
HTML (HyperText Markup Language)
DOCX (Document Office Open XML) - формат файлу для зберігання електронних документів пакетів офісних додатків, зокрема, Microsoft Office.
Формат переносного документа (PDF) - це формат файлу, який використовується для надійного уявлення і обміну документами, незалежно від програмного і апаратного забезпечення або операційної системи.
Конвертація даних у рекомендований формат
Перелік деяких програмних засобів, що дозволяють конвертувати файли з одного формату в інший (перелік не є вичерпним):
Microsoft Word, Microsoft Excel, Microsoft Access;
графічні формати та PDF: Adobe Photoshop, Adobe Acrobat Reader, Foxit PDF Reader, Paint.NET, Corel Draw;
текстові дані: Notepad++;
програмні засоби: SPSS, Microsoft Azure ML, Matlab;
онлайн інструменти: JSON to CSV, CSV to JSON, JSON to C#;
очищення HTML документів від Word стилів:
Підготовка даних до оприлюднення у формі відкритих даних
Кодування файлів
Реляційні бази даних
експортувати дані з кожної таблиці в окремий файл.
експортування даних різних таблиць в один файл, наприклад csv;
Деперсоніфікація даних
Архівація наборів даних
Періодичність даних
частооновлювані:
більше одного разу в день
кожного дня
кожного тижня
рідкооновлювальні:
кожного місяця
кожного кварталу
кожних півроку
кожного року
по мірі зміни даних
Оприлюднення схожих даних з різними структурами
Оприлюднення даних за допомогою API та робота з даними великого обсягу
Недоліки
Переваги
Переваги
Недоліки
Переваги
Недоліки