Please enable JavaScript.
Coggle requires JavaScript to display documents.
Metodi Avanzati – Sinonimia ed Espansione della Query, - Coggle Diagram
Metodi Avanzati – Sinonimia ed Espansione della Query
Nei sistemi di Information Retrieval (IR), come motori di ricerca o sistemi di ricerca documentale, la sinonimia è uno dei problemi principali: diverse parole possono esprimere lo stesso concetto
Per mitigare il problema si applica l’espansione della query, cioè si aggiungono alla query originale dei termini correlati o sinonimi
Espansione della Query
Consiste nell'arricchire la query con:
varianti morfologiche
termini correlati semanticamente
termini co-occorrenti in contesti simili
sinonimi
Lo scopo è:
✔ aumentare il recall (recuperare più documenti pertinenti)
✖ senza ridurre troppo la precisione (evitare rumore)
Esistono tecniche automatiche e semiautomatiche (le seconde richiedono che l'utente selezioni i termini migliori).
Fonti dei Termini Correlati
A. Vocabolari controllati (WORDNET)
Sono risorse linguistiche strutturate, con:
sinonimi (synset)
iperonimi/iperonimi
meronimi
relazioni semantiche varie
Pro: relazioni affidabili linguisticamente Contro: non tengono conto del contesto specifico della query
B. Raccolte di testi
Si analizza il comportamento delle parole all’interno della collezione stessa.
Si possono estrarre termini correlati da:
documenti pertinenti noti
documenti recuperati nella prima ricerca
co-occorrenze in finestre locali (frase, paragrafo, testo vicino)
Espansione basata su Thesaurus
È l’espansione automatica basata su un vocabolario generale controllato (ad esempio WordNet).
Limite principale:
❌ non prende in considerazione il contesto specifico della query.
Espansione basata su Co-occorrenza (Recurrence/Co-occurrence Query Expansion)
Questa tecnica sfrutta la statistica dei termini nei documenti.Le parole che co-occorrono frequentemente con il termine di query in documenti simili sono probabilmente correlate.
Possiamo calcolare correlazioni tramite misure come:
TF-IDF combinato tra termini
Punto di Mutual Information (PMI)
Chi-square
Jaccard
Dice coefficient
Modelli basati su embedding (moderno)
Queste misure possono essere applicate:
sull’intero documento
su parti: frasi, paragrafi, finestre scorrevoli
Viene calcolata sulla collezione reale di documenti, quindi tiene conto del contesto specifico del dominio.
Dice’s Coefficient
Il coefficiente di Dice misura quanto due parole tendono a comparire negli stessi documenti, rispetto a quante volte compaiono complessivamente.
Dove:
n {{a}} = numero di documenti che contengono la parola a
n{{b}} = numero di documenti che contengono b
n{{ab}} = numero di documenti che contengono entrambi
✔ Interpretazione intuitiva
Se a e b appaiono quasi sempre negli stessi documenti, allora n{{ab}} ,n{{ab}} è alto e Dice è vicino a 1.
Se compaiono in documenti distinti, n{{ab}} ,n{{ab}} è basso e Dice è vicino a 0.
Dice quindi misura una correlazione simmetrica semplice, basata sul conteggio.
Mutual Information (MI)
La Mutual Information misura quanto la co-occorrenza di due parole è più informativa rispetto a ciò che ci si aspetterebbe se fossero indipendenti.
✔ Formula
Dove:
P(a) probabilità che la parola a compaia in una finestra di testo
P(b) probabilità che b compaia
P(a,b): probabilità che a e b compaiano insieme
✔ Interpretazione intuitiva
Se compaiono insieme più spesso del caso, MI > 0
Se compaiono insieme come ci si aspetta, MI = 0
Se compaiono insieme meno del previsto, MI < 0
La MI misura quanto sapere a ci dice su b, in senso informativo.