Please enable JavaScript.
Coggle requires JavaScript to display documents.
создание корпуса древнеславянских текстов (высокоуровневые задачи…
создание корпуса древнеславянских текстов
данные
Имеющиеся источники:
manuscripts.ru
минеи XI - XVI вв
420 рукописей по
200 листов по
1000 знаков
JPG
Великие Минеи Четьи (ВМЧ), XVIв
12томов х 1300 листов,
JPG
Зеленые минеи, 2,5млн словоупотреблений
распознавание (OCR)
символы, графемы
почерк
индексация визуальных последовательностей (ключевые слова)
индексация визуальных контекстов
разметка
лемматизация
грамматическая / морфологическая
составление "словника" - всех лексем корпуса
с указанием части речи, словоформ
структурная
каталог текстов с
поиском и навигацией
навигация внутри текста
по микротекстам
высокоуровневые задачи
определение авторства служб
эволюция языка в зависимости от
времени и местности
составление/уточнение словаря
древнеславянского языка
перевод с/на древнеславянский язык
Предложения игумена Пантелеймона
Отделить киноварные тексты (указания) от чернильных (реально звучащих в храме).
В основной части книг это размечено, где-то это можно сделать на основании обученной модели.
Перепроверить словарь и разметку ruscorpora на сбои в определении омонимов.
Найти почти идентичные микротексты на основании расстояния Левенштейна.
Найти сходные микротексты на основании n-gram'ов.
Сопоставить с «Зелёными Минеями», найти в них тексты, которые не идентичны ничему из имевшегося.
Среди них найти похожие на что-то и непохожие ни на что.
Построить метрику не только между микротекстами, но и между целыми службами.
Найти сходные по этой метрике.
Найти сходные по стилометрии.
Построить цикл по выравниванию межъязыковых корпусов:
построение словаря для выравненных микротекстов ->
выравнивание c учётом словаря ->
уточнение словаря -> …
Цель: собрать корпус древнеславянского языка, доступный и удобный для лингвистов, историков и разработчиков технологий ИИ
возможности использования технологий ИИ
распознавание текста
обучение языковых моделей (ELMo- и BERT-подобные)
порождающие модели
морфологический анализ