Please enable JavaScript.
Coggle requires JavaScript to display documents.
NEWS SCRAPER (Crawler di articoli (Archivi storici :flag-it: (:check:…
NEWS SCRAPER
Crawler di articoli
Manualmente da siti web :flag-it:
Librerie / API :flag-gb:
Newspap3r
NewsApi
Archivi storici :flag-it:
:check: Migliaia di articoli
:check: Sezioni, topic, keywords custom
:red_cross: Solo titolo e pdf
Feed RSS :flag-it:
:check: Feed sezioni
:red_cross: Numero limitato (circa 20)
:red_cross: Tempo limitato (qualche giorno)
Esperimento modello titolo/sezione (corriere)
100k titoli (5 sezioni da 20k)
Preprocessing: Tokening, Tagging, Stemming (Treetagger)
Bag of word, feature vector
Training multi-classifier: Bayes, SVM, NN
Scraper articolo da url
Titolo, testo, autore...
Newspap3r :flag-gb: :flag-it:
Sezione (topic)
da URL
da NLP
Da HTML (tag, titolo sezione...)