Please enable JavaScript.
Coggle requires JavaScript to display documents.
Regresja liniowa w przetwarzaniu tekstu (Metody wykorzystywane w…
Regresja liniowa w przetwarzaniu tekstu
Przykłady zastosowań
Prognoza wartości akcji firmy na podstawie komunikatów giełdowych
Klasyfikacja artykułów/wiadomości do odpowiednich kategorii
Analiza wydźwięku (np. SPAM/ nie SPAM)
Pozycjonowanie stron
Tłumaczenie maszynowe
Opisywanie obrazów
Vector Space Model
Sposób przedstawienia dokumentu za pomocą wekora wag odpowiednich słów
Możemy wybrać jakie słowa chcemy brać pod uwagę w modelu VSM
Na wagę słowa składają się
:star: częstotliwość z jaką słowo powtarza się w danym dokumencie
:star:
odwrotna częstotliwość słowa
, im mniej dokumentów zawiera dane słowo, tym lepiej (jeżeli w każdym dokumencie pada dane słowo, to znakiem tego wnosi mało informacji)
Przykład:
Mając dostępne recenzje filmów z ocenami punktowymi, stworzyć model który nowej recenzji przyporządkowałby ocenę punktową
KROK I: Dla każdej recenzji budujemy vector space model (uwaga, w tym wypadku dla wszystkich dokumentów powinniśmy rozważać ten sam słownik)
KROK II: Każdemu vsm przyporządkowujemy ocenę punktową
KROK III: Zbuduj model regresji liniowej na tak opisanych danych
Klasyfikacja
Problem przyporządkowania badanym obiektom właściwych dla nich klas
W zależności czy mamy do czynienia z uczeniem z czy bez nadzoru, liczba klas może być z góry sprecyzowana lub nie
SPAM/NIE SPAM
nowotwór złośliwy/ nowotwór łagodny
Analiza rynku (CRM) - analiza skupień
Segmentacja obrazu
Metody wykorzystywane w klasyfikacji
Regresja liniowa (rzadziej)
Regresja logistyczna
Sieci neuronowe
Maszyny wektorów nośnych (SVM)
Analiza skupień
Analiza dyskryminacyjna
K najbliższych sąsiadów
Naiwny klasyfikator Bayesa
Podejście generatywne
, na pytanie czy email jest spamem jeżeli zawiera słowa "milion złotych" (p(y=1|x))
próbujemy odpowiedzieć nie wprost.
Obliczamy prawdopodobieństwo, że
SPAM zawiera słowa "milion złotych" (p(x|y=1))
i
prawdopodobieństwo, że jakikolwiek email jest spamem (p(y=1)) (prawdopodobieństwo a priori).
Szukane prawdopodobieństwo
p(y=1|x)=(p(x|y=1)*p(y=1)) / (p(x))
,
gdzie
p(x)=p(x|y=1)*p(y=1)+p(x|y=0)p(y)
Prosta, łatwa w implementacji metoda
Często stosowana jako baseline przy tworzeniu bardziej skomplikowanych modeli
Bag of Words Model
Sposób reprezentowania dokumentów jako "worka"
(kolejność nie ma znaczenia)
słów z odpowiadającymi im wartościami liczbowymi (np. częstość wystąpienia słowa w danym dokumencie)
Możemy wyróżnić słowa które nas interesują.
Do sklasyfikowania danego dokumentu możemy użyć naiwnego klasyfikatora Bayesa
d-zbiór słów reprezentowanych przez bag of words model
d=x1,x2,...,xn
k-klasa
p(k|d)=p(d|k)p(k)/p(d)
BARDZO WAŻNE ZAŁOŻENIE
zakładamy że wystąpienie każdego słowa jest niezależne od wystąpienia innych słów
jest to duże uproszczenie, które pozwala obliczyć nam p(x1,x2,...,xn|c) jako iloczyn poszczegolych prawdopodobienstw warunkowych
p(x1,x2,...,xn|c)=p(x1|c)p(x2|c)...p(xn|c)