Please enable JavaScript.
Coggle requires JavaScript to display documents.
Карта -схема перетворення публічної інформації у формат відкритих даних…
Карта -схема перетворення публічної інформації у формат відкритих даних
1.Вибір формату для оприлюднення даних
Табличні формати
CSV (від англ. Comma-Separated Values - значення, що розділені комами) - текстовий відкритий формат, призначений для представлення таблиць (масивів, наборів) даних, де кожний рядок - це запис таблиці, а значення окремих полів у рядку розділені спеціальними символами (delimiter), зазвичай комами.
Файл XLSX - електронна таблиця, створена в Microsoft Excel - додатку для роботи з таблицями. Дані в документі зберігаються в комірках, кожна з яких має певну адресу (колонки нумеруються англійськими літерами, рядки - цифрами, наприклад: A1 - ліва верхня клітинка).
Формати представлення даних через API
JSON (від англ. JavaScript Object Notation) - текстовий відкритий формат, оснований на Javascript-представлені та призначений для обміну даними в Інтернет між сервером та клієнтом або сервером і сервером.
XML (від англ. eXtensible Markup Language - мова розмітки, що розширюється) - Гіпертекстова розмітка (HTML) - це один з різновидів XML. Разом з таблицями каскадних стилів CSS, які формують зовнішній вигляд документів, вони є тими основними форматами, що обумовлюють розвиток технологій.
RDF - це розроблена консорціумом Всесвітньої павутини модель для представлення даних, особливо, метаданих. RDF представляє твердження про ресурси у вигляді, придатному для машинної обробки. RDF є частиною концепції семантичної павутини
Формати даних для роботи з геопросторовими даними
Формати GIS
інформація про відображення, яке може описувати спосіб оформлення об'єкту.
просторова або геометрична інформація, яка містить положення і форми конкретних географічних об'єктів;
інформація про атрибути, яка забезпечує описову інформацію (числову, текстову, логічну) про кожний об'єкт;
Векторні формати- Багато додатків GIS засновані на векторній технології через її широке застосування. Вони є складними, тому що інформацію можливо описати безліччю способів: для зберігання координат, атрибутів, зав'язків, структур баз даних та відображення інформації.
Растрові формати-використовуються для зберігання інформації зображення у вигляді сканованих паперових карт чи аерофотозйомки.
KML - геоінформаційний формат Google Maps-мова розмітки на основі XML для представлення тривимірних геопросторових даних в програмі "Google Earth".
GeoJSON - відкритий формат, призначений для зберігання графічних структур даних, заснований на форматі JSON.
Графічні формати
JPEG (англ. Joint Photographic Experts Group, за назвою організації - розробника) - один з популярних графічних форматів, застосовуваний для зберігання фотозображень і подібних до них зображень. Файли даних JPEG, зазвичай мають розширення .jpg, .jfif, .jpe або .jpeg. Однак з них .jpg є найпопулярнішим на всіх платформах.
PNG (англ. Portable network graphics) - растровий формат зберігання графічної інформації, що використовує стиснення без втрат за алгоритмом Deflate.
Текстові формати
TXT - це формат, що містить текстові дані, які, як правило, організовані у вигляді рядків. Цей формат є основою для багатьох більш спеціалізованих форматів, таких як CHM, PHP, XML, CSV, та може бути переглянутий будь-яким текстовим редактором.
Markdown - полегшена мова розмітки, створена з метою написання максимально читабельного і зручного для редагування тексту, але придатного для перетворення в мови для публікацій (HTML, Rich Text і ін.).
Текстово-графічні формати
HTML (від англ. Hyper Text Markup Language - "мова гіпертекстової розмітки") - стандартна мова розмітки документів у Всесвітній павутині.
DOCX (Document Office Open XML) - формат файлу для зберігання електронних документів пакетів офісних додатків, зокрема, Microsoft Office.
Формат переносного документа (PDF) - це формат файлу, який використовується для надійного уявлення і обміну документами, незалежно від програмного і апаратного забезпечення або операційної системи.
Підготовка даних до оприлюдення у форматі відкритих даних
Деперсоніфікація даних
Архівація наборів даних- необхідна для зменшення обсягів цих даних та, відповідно, необхідних ресурсів для зберігання оприлюднених даних на порталі, а також з метою зменшення трафіку при завантаженні цих наборів даних кінцевими споживачами.
Реліяційні бази даних.
Експортування даних з таких баз даних для подальшого оприлюднення може мати два підходи:
експортування даних різних таблиць в один файл, наприклад csv;
експортувати дані з кожної таблиці в окремий файл. Тобто, набір даних складається з декількох файлів, які будуть мати один паспорт набору даних
Оприлюднення схожих даних з різними структурами
Періодичність даних
Кодування файлів- Стандарт кодування є схемою нумерації, яка призначає числовому значенню текстовий символ із набору символів. Набір символів може містити абеткові символи, числа та інші символи.
Оприлюднення даних за допомогою API та робота з даними великого обсягу
Конвертація даних у рекомендований формат
Microsoft Word, Microsoft Excel, Microsoft Access;
графічні формати та PDF: Adobe Photoshop, Adobe Acrobat Reader, Foxit PDF Reader, Paint.NET, Corel Draw;
текстові дані: Notepad++;
програмні засоби: SPSS, Microsoft Azure ML, Matlab;
онлайн інструменти: JSON to CSV, CSV to JSON, JSON to C#;
очищення HTML документів від Word стилів: