Please enable JavaScript.
Coggle requires JavaScript to display documents.
Сканирование сайтов (Сканер страниц (Получение информации со страницы (На…
Сканирование сайтов
Сканер страниц
Получение информации со страницы
На странице есть форма регистрации
Отмечаем ссылку и домен в базе
На странице есть капчка?
Проходим регистрацию. Сохраняем данные пользователя в базу.
Распознаванием капчи
Известный тип капчи
Передаем на распознавание
Неизвестный тип капчи
На странице нету формы
регистрации или авторизации
Отмечаем ссылку в базе
На странице есть форма авторизации
Если мы на сайте зарегистрированы, проходим авторизацию
На странице есть капчка?
Авторизация пользователя
сканируем страницы сайта
Если мы на сайте не зарегистрированы, то ищем форму регистрации.
Передача информации в базу данных
База данных
Таблицы для хранения данных
Домены
столбцы
url докумена - первичный ключ
дата последнего сканирования главной страницы
дата последнего сканирования какой либо страницы домена
содержимое страницы html код
код ответа сервера на get запос
Страницы сайтов
Столбцы
Код ответа сервера на get запрос
url страницы - первичный ключ
указатель на домен
дата последнего сканирования
html код страницы
Другие таблицы....
Таблицы очереди. Для передачи информации между модулями проекта
Очередь страниц для сканирования сканером
Столбцы
url страницы - первичный ключ
дата добавления в очередь
Триггеры
Внешние связи
Очередь страниц, которые содержат капчу
Столбцы
url страницы - первичный ключ
дата добавления в очередь
Триггеры
Внешние связи
Очередь изображений - капч для распознования
Триггеры
Внешние связи
Столбцы
дата добавления в очередь
идентификатор запроса на распознавание капчи
url страницы с которой получена капча