Please enable JavaScript.
Coggle requires JavaScript to display documents.
Создать датасет :link (Разметить происхождение пептидов (сделать более…
Создать датасет
:link
Разметить происхождение пептидов
Скрипт который для каждого организма и для каждого имя антибиотика что-то ищет в ncbi, говорит сколько всего результатов и сколько результатов что оба в название, ссылку на первое подходящее название :check:
Составить список организмов(взять просто csv) :check:
Список пептидов(опять csv)
Link Title
:check:
Оставить только уникальные :check:
Загуглить как использовать ncbi
API
:check:
Победить ошибку
429
:check:
Проверка найденного с использованием старых результатов.
Сделать более чистую таблицу
Удалить там где 0 с текстом из того и из другого
Объединить в одну таблицу.
сделать более менее аккруратные названия для пептидов :check:
Если первое имя antibiotic :check:
Если какие-то буквы и цифры, то нужны и то и другое скленное вместе :check:
Но если это antibiotic или содержит .,(" то нахрен такие слова :check:
Если начинается с не буквы, то говорим что вбить XXX :check:
Если в начали какие-то стремные скобочки, то их нужно удалить и все что внутри них :check:
E' text' удалить в начале и в конце бяку :check:
и числа все-таки оставлять. :check:
Удалять "" в начале и конце :check:
От ,; брать только первую часть, с тире сложнее... :check:
Тире если первое слово больше 5, то удалить тире :check:
Скобочка это тоже плохо. :check:
Попробовать икать в google scohal, проверить, есть ли API.
Link Title
google scholar don't have API and ask CAPTCH :red_cross:
https://pypi.org/project/scholarly/
Написать скрипт, который гуглит
установить API :check:
скопировать скрипт для ncbi :check:
переделать под новый API :check:
Проблема, начал выдавать ошибку StopIteration, другие люди тоже на это жалуются
Медленно, другой вариант, это сдеать вручную
https://stackoverflow.com/questions/13200709/extract-google-scholar-results-using-python-or-r
Попробовать
https://github.com/venthur/gscholar
, может будет быстрее :red_cross:
Ничего не находит, видимо нужен автор или titel, а так долго :red_cross:
Можно попытаться использовать
https://github.com/ckreibich/scholar.py
Нужно приодолеть ограничения, что бы не показыввли капчу.
Установить links