Please enable JavaScript.
Coggle requires JavaScript to display documents.
Linguistica 6 - Coggle Diagram
Linguistica 6
FONTI TEXT MINING
I Web Data (siti web)
Internet> principale "media" attraverso cui è possibile ottenere documenti, dati ed informazioni. I siti web liberamente raggiungibili via Internet sono fonti principali della documentazione da analizzare (filtraggio informazioni)
Banche dati online
Le banche dati online= collezioni informazioni specializzate, generalmente accessibili via Internet tramite abbonamento. Esempi sono quelle dedicate alle pubblicazioni, ai brevetti o agli articoli scientifici >disponibili in modo diretto o attraverso information broker.
Sorgenti informative private
Una banca dati privata di documenti elettronici>essere disponibile ed essere usata insieme alle altre sorgenti informative. Il formato ed i contenuti dei documenti di una banca dati privata= generalmente differenti da quelli dei documenti ottenuti attraverso le banche dati online.
E-mail
Le e-mail >forma più ricca dal punto di vista informativo e più semplice da analizzare. E’ il mezzo attraverso cui persone comunicano all’interno ed all’esterno di aziende ed organizzazioni. Possono analizzate sia le e-mail interne organizzazione sia ricevute dall’esterno od inviate all’esterno dell’organizzazione.
Opinion surveys Spesso le opinion surveys analizzate con cura nella parte codificata> prevista la risposta: SI, NO, o numerica. Sono invece analizzate in maniera superficiale parte testuale> raccolgono risposte in testo libero alle domande aperte.
Newsgroups, Chatlines, Mailing Lists
Importanti e ricche fonti di informazione> riguardano i temi più disparati, dai consumi alla politica. Il problema con questo tipo di informazione= l’informazione pertinente è all’interno di frasi e/o affermazioni di scarsa importanza, espresse con linguaggio gergale. Grazie al text mining queste possono essere analizzate e filtrate al fine di conoscere quali sono le opinioni di chi scrive. Recupero informazione → estrazione informazione → analisi → interpretazione
Approfondimento il processo
Information retrieval> information extraction,> information meaning> interpretazione(tutto anche al contrario)
Contenuto di un elemento
Può essere costituito da:
- Testo libero non contenente altri elementi (dati tipo carattere)
<titolo>le avventure di Pinocchio</titolo>
- Altri elementi(detti figli)
<capitolo>
<titolo>capitolo primo</titolo>
<capoverso>c’era una volta..</capoverso>
<capoverso>un re!- diranno subito i miei piccoli lettori</capoverso>
<capitolo>
- Contenuto misto(elementi+testo)
<titolo>le avventure di pinocchio
<sottotitolo>storia di un burattino</sottotitolo
<titolo>
- Il contenuto di un elemento> essere vuoto. Ci sono due modi di denotare un elemento vuoto:
• Coppia di delimitatori di apertura e chiusura
<salto_pagina></salto_pagina>
• Etichetta di elemento vuoto
<salto_pagina/>
GLI ATTRIBUTI
Gli elementi XML possono essere dotati di attributi
• Gli attributi= informazioni aggiuntive che specificano alcune caratteristiche dell'elemento ( ma che non fanno parte del contenuto del testo )
nome_attributo = “valore”
• <capoverso num=1> c’era una volta..</capoverso>
• Nome_attributo
•Stesse restrizioni definite per i nomi elementi
• I valori degli attributi> sempre racchiusi tra virgolette ( singole o doppie)
•nel caso in cui un valore contenga al suo interno delle i virgolette= obbligatorio differenziarle da quelle più esterne
• Un attributo ricorrere al massimo una volta all'interno di un elemento
• Attenzione!!!!! → Gli attributi comparire solo nei tag di apertura
ELEMENTI VS ATTRIBUTI
Elemento= “contenitore” e “classificatore” del dato testuale
Attributo= glossa associata al dato testuale
No sempre facile stabilire quando preferire codifica in termini di elementi o in termini di attributi
- Gli elementi ricorrere più volte mentre attributo massimo una volta all'interno di un elemento
- Per gli elementi possibile specificare l'ordine in cui devono apparire nel testo> ciò no possibile per gli attributi
- Un attributo non può descrivere strutture complesse ( il valore di un attributo XML è semplicemente una stringa di caratteri )> tratto caratterizzante degli elementi
COMMENTI
Ogni documento XML può contenere una o più “note a margine”>gergo tecnico, commenti.
• Queste non riguardano direttamente i dati da annotare, e come tali sono ignorate da eventuali applicazioni
• Forniscono info preziose riguardo intenzione dell'annotatore, a suoi eventuali dubbi, promemoria ecc. Il loro destinatario>n lettore umano.
- I commenti apparire in qualunque punto all'interno del testo con le seguenti eccezioni
- No apparire all'interno di un delimitatore di apertura o chiusura di un elemento
• No apparire all'interno di un commento.
• <!questo è un commento XML>
STRUMENTI PER L'ANALISI LINGUISTICA DEI TESTI DIGITALI
MINING (TESTI E DATI): QUANTO GRANDE È GRANDE? (COSTANTINO, 2020)
Data Mining ( termini riferimento alla metafora della miniera) → tale metafora >vedere con la mole di dati che ci si trova online. Su internet> eccesso di info= rischio di perdersi. Ecco, il lavoro di mining che fa lo scavatore nella miniera, sta nel trovare sotto lo strato di roccia le gemme → metafora visibile il lavoro che si deve fare. Internet=contenitore enorme di dati, e noi trovare i contenuti che ci servono. In internet ci sono:
• più dati di quanti una persona possa analizzare in un ragionevole lasso di tempo
• dati che richiedono interventi computazionali possa recuperare un senso
No necessariamente quando si parla di data mining riferimento a ricerche su grandi scale> anche ricerche su numeri bassi. Implica l'utilizzo di queste tecniche, set di dati o nuove metodologie che non significa necessariamente scegliere di ‘fare in grande’
MINATORI IN RETE
Analogia tra estrazione mineraria e reperimento informazioni in Internet
come è necessario rimuovere un’enorme quantità di rifiuti prima che i diamanti o l’oro trovati= computer e gli strumenti di data mining, automaticamente trovare l’unica informazione-diamante tra le tonnellate di dati-rifiuti nel database
DISTINZIONI
Il processo di KDD ( knowledge discovery in databases) si divide in
- DM (Data Mining)
• estrazione di informazione da dati strutturati
- TM (Text Mining) o KDT (Knowledge Discovery in Texts)
• estrazione di informazione da databases testuali non strutturati
TEXT MINING
(1) Il Text Mining o Text Data Mining (TM o TDM) = estensione del Data Mining tradizionale su dati testuali non strutturati
Obiettivo=estrazione di informazione implicitamente contenuta in un insieme di documenti e visualizzazione grossi set di testi.
Il TM campo più complicato del DM= lavora con i testi che non sono strutturati= campo multidisciplinare, che impiega:
• l’Information Retrieval (la raccolta di informazioni)
• l’analisi testuale
• l’Information Extraction (l’estrazione di informazioni)
• il clustering → Grouping a set of documents into clusters of similar documents. Documents within a cluster should be similar. Documents from different clusters should be dissimilar → raggruppamento insieme di documenti, in cluster, di documenti simili, facendo in modo che siano tutti omogenei.
• le tecniche di visualizzazione
• le tecniche di trattamento dei database
• l’apprendimento artificiale
• il Data Mining (l’accoppiamento della tecnologia della lingua con gli algoritmi del data mining)
ESEMPI DI CLUSTERING
1 → WORD CLOUDS = dato un tema, una parola chiave e all'interno di una serie di testi che io definisco, quali parole emergono in relazione al tema che io ho definito inizialmente.
2 → clustering per aree tematiche, si procede quindi per temi. Ci sono delle isole ( cluster)
PERCHÉ' HA SUCCESSO
Le ragioni successo del text mining ricercarsi:
• nei recenti progressi delle tecniche di NLP (Natural Language Processing) e loro formalizzazione matematica
• disponibilità di applicazioni complesse e di potenza elaborativa attraverso gli ASPs (Application Services Providers)
• attenzione corrente di accademici, multinazionali del software, produttori di motori di ricerca verso tecniche di gestione della lingua= prevedere forte sviluppo di questa tecnologia
APPLICAZIONI
Le tecniche di text mining applicabili a qualsiasi ambito di indagine In generale> applicazione tutte le volte di fronte a grandi quantità di dati e l'esigenza di conoscerne il contenuto. → tecniche che si utilizzano per selezionare dati da una fonte molto vasta.
Alcune applicazioni più comuni sono:
Segmentazione della clientela (Database Marketing)
applicazione di tecniche di clustering= individuare gruppi omogenei in termini di comportamento d'acquisto e di caratteristiche socio-demografiche; l'individuazione delle diverse tipologie di clienti= effettuare campagne di marketing diretto e di valutarne gli effetti, nonché di ottenere indicazioni su come modificare la propria offerta>possibile monitorare nel tempo l'evoluzione della propria clientela e l'emergere di nuove tipologie
Analisi delle associazioni (Basket Analysis)
applicazione di tecniche di individuazione di associazioni a dati di vendita= conoscere prodotti sono acquistati congiuntamente; questo tipo d'informazione> migliorare l'offerta dei prodotti (disposizione sugli scaffali) e di incrementare le vendite di alcuni prodotti tramite offerte sui prodotti ad essi associati
Analisi testuale (Text Mining)
applicazione di tecniche di clustering= individuare gruppi omogenei di documenti in termini di argomento trattato; consente di accedere più velocemente all'argomento di interesse e di individuarne i legami con altri argomenti
Technology Watch (Competitive Intelligence)
applicazione tecniche di clustering a banche dati di tipo tecnico-scientifico al fine di individuare gruppi tematici principali (nel caso di banche dati di brevetti, gruppo tematico indica particolare tecnologia), le loro relazioni, l'evoluzione temporale, le persone o le aziende coinvolte
Applicazioni in rete
nei motori di ricerca o di tecniche di filtraggio di informazioni indesiderate (es. POESIA Project)
IE IN INTERNET
Un sistema di IE> utile come passo successivo per motori di ricerca per il Web nell’adempiere alle necessità del ritrovamento di informazione. L’IE> sviluppare metodologie capaci elaborare testo dei vari documenti e di estrarre concetti permettono di descrivere il contenuto del documento stesso.
Il processo relativo sistema di Information Extraction due parti principali:
- sistema estrae fatti individuali dal documento attraverso analisi locale del testo;
- fatti estratti integrati con l’analisi di coreferenza e di inferenza. Infine fatti pertinenti tradotti nel formato di output richiesto
FASI DEL PROCESSO
Analisi lessicale
• consente assegnare alle singole parole part-of-speech ed altre caratteristiche attraverso l’analisi morfologica Riconoscimento di nomi
• scopo identificare nomi ed altre speciali strutture lessicali (date, locuzioni, ecc.)
Analisi sintattica (completa o parziale)
• individuare gruppi nominali, verbali, altre strutture sintattiche di interesse, e teste di tali gruppi
Individuazione dei fatti di interesse
• i fatti integrati e combinati con altri fatti presenti nel documento, attraverso l’analisi del discorso. Tale analisi risolve relazioni di coreferenza che vi sono>esempio fra pronomi o descrizioni multiple di stesso evento> anche "inferiti" nuovi fatti a partire da quelli già esplicitamente asseriti nel testo
Generazione dei template
• i dati infine ordinati e rappresentati sotto forma di una tabella di output
IE: ANALISI LESSICALE
Il testo diviso in frasi e token. Ciascun token ricercato all’interno di un dizionario per determinarne i possibili part-of-speech ed altre caratteristiche. Generalmente tali dizionari includono raccolta di nomi di società, abbreviazioni, suffissi di compagnie ed altro. Questa fase>identificazione del linguaggio, dalla tokenizzazione, dall’analisi morfologica e dal part-of-speech tagging.
IE: RICONOSCIMENTO DI NOMI
La fase successiva identifica vari tipi di nomi propri ed altre forme speciali dati e cifre. I nomi propri> frequentemente in molti tipi di testi e la loro identificazione e classificazione semplifica le successive fasi di elaborazione. I nomi identificati tramite set di pattern (espressioni regolari) espresse nei termini del part-of-speech, caratteristiche sintattiche caratteristiche ortografiche (l’iniziale maiuscola).
IE: ANALISI SINTATTICA
identificazione di legami sintattici elementari fra i diversi elementi della frase. Un’analisi sintattica profonda frase>risultato foresta di alberi di derivazione sintattica, ciascuno fornisce possibile interpretazione sintatticamente corretta della frase stessa.
Gli argomenti da estrarre spesso corrispondono a frasi di nomi nel testo, mentre relazioni di solito a relazioni grammaticali. Alcuni sistemi di IE>costruire parsing completo della frase. La maggior parte di questi ultimi falliscono in ciò, e costruiscono, diversi strati di parsing.
più importanti strutture, formate da più parole> possono facilmente riconoscere dopo la fase di "part-of-speech tagging"= semplice frase nominale ( porzione di frase compaiono nomi, ma non verbi) in quanto l’individuazione di strutture sintattiche complete=piuttosto difficile.
LE ORIGINI
- 1969 → Charles Goldfarb sviluppo di GML
- 1974 → // inventa SGML, il padre dei linguaggi di marcatura
- 1986 → SGML diventa standard ISO
4.1989 → Tim Berners Lee inventa HTML
- 1995 → fondazione del World Wide Web consortium ( W3C)
- 1996 → inizio sviluppo di XML presso il W3C
- 1998 → XML 1.0 diventa raccomandazione W3C
- 1996 – oggi → sviluppo di standard associati ad XML
- 2002 → XML 1.diventa una raccomandazione candidata W3C ( il consorzio internazionale per la standardizzazione di linguaggi e strumenti per il web)
I TRATTI CARATTERIZZANTI DI XML
• Marcatura dichiarativa → usa etichette di marcatura> indicano funzione astratta assolta dalla porzione di testo a cui si riferiscono
• Marcatura strutturata → raggruppare porzioni del testo= definirle come unità strutturali complesse, che riflettono l'organizzazione interna del testo
• marcatura gerarchica → le strutture identificate nel testo combinarsi in maniera gerarchica
• Un'unità strutturale del testo>contenere altre strutture incassate= gerarchia di strutture definibili a livelli incrementali di dettaglio
I componenti della marcatura XML
gli elementi >rappresentano i blocchi costitutivi in cui si articola un testo.
Ogni elemento marcato in modo esplicito nel testo inserendo delimitatore di apertura all’inizio dell’elemento e chiusura alla fine
Es. <autore> Carlo Collodi</autore>
I nomi degli elementi
Ogni tipo di elemento è identificato nome (etichetta o tag) il nome associato ad ogni tipo di elemento= identificatore generico(GI)
XLM è case-sensitive
• l’identificatore generico sempre specificato con lo stesso tipo di carattere, maiuscolo o minuscolo
• <tag>…</tag>, <TAG>…</TAG>
Norme per la sintassi del nome degli elementi
- Possono contenere solo lettere,cifre, . “”
- Possono iniziare solo con una lettere o con_
• Nomi consentiti <autore.libro>, <_autore>, <AUTORE-LIBRO>, <autore_1>
• Nomi proibiti <1autore>, < autore libro>, autore;@libro
- Non esiste limite di lunghezza per il nome
ELEMENTO RADICE
Ogni documento XML ben formato contenere elemento che contiene tutti gli altri elementi (elemento radice)
struttura mal formata= in XML no avere più elementi a livello di radice
Ogni elemento XML contenere un solo elemento radice
L'elemento radice è“orfano” e “ senza fratelli”
Relazione tra elementi
- Struttura XML mal formato= esiste un elemento “a cavallo” di due elementi (annidamento improprio)
- In XML no consentita sovrapposizione tra elementi
- Un elemento figlio essere completamente incluso nell’elemento padre
- Due elementi XML possono essere annidati l’uno nell’altro
- L’elemento più esterno=elemento genitore, più interno elemento figlio
- Questo meccanismo di annidamento degli elementi permette> rappresentazione di strutture gerarchiche di profondità variabile
RELAZIONI TRA ELEMENTI
Due elementi XML possono essere annidati l'uno nell'altro
Questo meccanismo di annidamento degli elementi= rappresentazione di strutture gerarchiche di profondità variabile
INFORMATION RETRIEVAL
Localizzare e recuperare documenti considerati rilevanti alla luce degli obiettivi prefissati. L’utente del sistema specificare il set di documenti, ma l’operazione necessita> sistema che filtri i testi irrilevanti.
Solitamente termine “Information Retrieval” si identifica la raccolta di testi tra quelli che ipotizziamo trattare lo stesso argomento> genericamente intendere semplice raccolta di informazioni testuali per successiva analisi.> obiettivo selezione sottoinsieme rilevante di documenti da un insieme più grande e tenta di rappresentare contenuto informativo forte parte delle informazioni contenute nel testo.
Il termine IR>riferimento all’attività di ricerca di documenti attraverso parole chiavi o composizioni logiche delle stesse (query), le quali sono utilizzate per indicizzare i documenti.
INFORMATION EXTRACTION
Estrazione di informazioni dai documenti selezionati=tratta di riempire specifici template di informazioni, ma in questa fase> anche tutte tecniche di pruning e di estrazione di conoscenza generica.
• Template: tabelle contengono dati semi-strutturati. Possono informazioni quantitative e qualitative. Solitamente template di base che compilato per ogni documento testuale che viene analizzato.
• Pruning: letteralmente significa “potatura”> applicazione serie di tecniche atte a pulire i dati da elementi non interessanti per alleggerirne il trattamento L’IE= considerata attività di supporto all’IR.
L’IR riferimento all’attività di ricerca di documenti attraverso parole chiavi, ma spesso questo no recupero di documenti interessanti per scopo= chiavi scelte da terzi>L’IE cerca superare questa differenza tra due logiche= avere meccanismo di ricerca basato su rappresentazione oggettiva della conoscenza.