Please enable JavaScript.
Coggle requires JavaScript to display documents.
Автоматическое определение тематики сообщений на интернет форумах…
Автоматическое определение тематики сообщений на интернет форумах
Программная часть
Функцию автоматического определения тематики сообщения будет выполнять искусственный интеллект в основе которого будет:
Машинное обучение
(и используемые в нём алгоримы)
Теория графов
(графы используются при написании
рубрикатора для нахождения пути
от каждого найденного ключевого
слова до вершины)
Теория построения бинарных деревьев
Алгоритм Рабина — Карпа. Отличительная особенность алгоритма – эффективная работа с очень большими наборами слов.
Алгоритм "Волна" - используется для подсчёта
частотности слова, включая все его грамматические формы
Рубрикатор - обрабатывает данные, полученные
парсером и при помощи нейросети определяет тему сообщения
Определения темы сообщения происходит
в результате работы нейросети на основании частотности
употребления определённых слов и других факторов.
В процессе обучения нейросети точность определения постоянно повышается.
Язык программирования Python 3
(И причины его использования)
Исторически является наиболее
распространенным языком в сфере
машинного обучения и обработки
текста
Наличие большого количества библиотек
как для работы с текстом так и для
создания искусственного интеллекта
NumPy
(математические вычисления
для работы с нейросетями)
SciPy
(библиотека для работы с ИИ)
Pandas
(библиотека для обработки
и анализа данных)
NLTK
(библиотека для обработки
текста)
Pytils
(расширение для обработки
русского текста)
Язык программирования PHP 7
(И причины его использования)
Направленность языка на работу
с текстом
Множество инструментов для работы с
WEB страницами
Парсер контента WEB страниц
(программа для выделения текста с WEB страницы,
а затем его разделения на отдельные сообщения)
Для его реализации используются:
PHP библиотека libcurl, для работы
с командной строкой сайта через
протоколы HTTP и HTTPS
Лингвистическая часть
Лигвистическая часть работы подразумевает проблематику, связанную с созданием механизма обработки текста и подхода к нему, непосредственно как к продукту речевой деятельности. В связи с этим уместно будет выделить три основных направления работы в этом направлении.
Грамматический аспект
Морфология
Для выполнения работы также необходимо учитывать грамматическую форму каждого слова, поскольку это влият на качество идентификации ключевых для определения тематики текста слов.
Грамматический аспект важен для определения тематики потому, что непосредственно связан со структурой текста. В нем можно выделить два подраздела.
Синтаксис
Необходимо учитывать синтасис каждого предложения, так как он несет важную смысловую и структурную функцию.
Лексико-семантический аспект
Поскольку целью работы является создание программы, способной определять тематику сообщения, важно понимать природу тематики текста как таковой. Очевидно, что это явление в первую очередь лексико-семантическое, поскольку заключает в себе некоторый смысл, значение текста.
Когнитивный аспект
Важным также является когнитивный аспект. Непосредственное влияние на успешность определения тематики сообщения оказывает правильное понимание механизмов, с помощью которых автор текста излагает то, что он хочет донести до читающего.