Please enable JavaScript.
Coggle requires JavaScript to display documents.
Linguistica 10 - Coggle Diagram
Linguistica 10
MODULO 5 – CORPORA DI ITALIANO
IL CORPUS REPUBBLICA
Il corpus “Repubblica” corpus di testi giornalistici raccoglie tutti articoli pubblicato nel quotidiano “la Repubblica” dal 1985 al 2000.
Il corpus “Repubblica” disponibile online sito web del Dipartimento di Interpretazione e Traduzione di Forlì(UniversitàAlma Mater Studiorum di Bologna). Il corpus è pubblicato su web tramite piattaforma No Sketch Engine, la versione gratuita software proprietario per creazione e gestione di corpora
ACCEDERE AL CORPUS REPUBBLICA
- Accedete al sito: corpora.dipintra.it
- Cliccate pulsante blu “Public” per accedere a NoSketchEngine
- Nel menùa tendina in alto, selezionate “Repubblica”
ESEGUIRE UNA QUERY
Una query> ricerca tramite un motore di ricerca (di corpus o database). Letteralmente, query> “richiesta” fatta al motore di ricerca di cercare (nel corpus o nel database) dati che rispettano i vincoli di ricerca che inserito (specifica sequenza di caratteri, o combinazione di più parametri, es. tutte occorrenze di “lo” etichettato come articolo).
Per eseguire una query> inserire del testo in uno dei campi di ricerca (una o più parole); i risultati dipendono dal campo utilizzato:
• Simple query: cerca sequenza di caratteri ovunque nei dati
• Lemma: cercare tutte le forme di un lemma
• Word form: cerca specifica forma di parola
• Character: cerca sequenza di caratteri, anche all’interno della parola
• CQL: ricerche complesse, combinando più vincoli, tramite il Corpus Query ,Language (CQL) di NoSketchEngine
CONCORDANZE E KEYWORD-IN-CONTEXT (KWIC)
I risultati di query visualizzati in una lista, di solito visualizzazione Keyword- in-context (KWIC). Nella visualizzazione KWIC, le concordanze (singole righe dei risultati, “concordanti” perché riproducono parola o sequenza di parole cercata) sono incolonnate sequenza di testo cercata (la keyword) al centro, contornata da porzioni di testo immediatamente precedenti (contesto sinistro) e seguenti (contesto destro).
CONTESTO / CO-TESTO Quello qui chiamato contesto (sinistro o destro), noi definito col termine (più specifico e appropriato) di co-testo>l’insieme degli elementi testuali compresenti con porzione di messaggio che stiamo analizzando. Di solito si usa termine di co-testo>indicare parti di testo che precedono o seguono una frase o locuzione analizzata (quindi il termine ideale per indicare parti prima e dopo la keyword riprodotte nelle concordanze, ma termine “contesto” entrato nell’uso comune in linguistica dei corpora);
usato anche per indicare il rapporto tra elementi diversi in messaggio multimodale, ad es. l’immagine rappresenta il co-testo delle parole dello slogan in una pubblicità, occhiello e didascalie sono il co-testo di un articolo di giornale ecc.
METADATI
Cliccando sul codice identificativo al margine sinistro della concordanza (numero in blu), si apre un box giallo con metadati relativi al testo (in basso nella finestra):
• Autore del testo
• Genere testuale
• Sezione del quotidiano
• Anno
• Titolo dell’articolo
• Conteggio parole
RICERCA DI COLLOCATI
Le collocations> sequenze di tokens (i.e. parole) che cooccorrono in un corpus. Si parla di collocazioni quando combinazione di n elementi (n-grams) mostra grado di solidarietà semantica tale che la combinazione risulta sensibilmente più frequente e lessicalmente appropriata rispetto ad altre combinazioni possibili tra uno degli elementi della collocazione e altri possibili sostituti (condurre un’indagine vs. fare un’indagine). Esistono diversi tipi e gradi di solidarietà semantica (collocazioni, locuzioni, polirematiche etc.).
Misura statistica individua collocati in termini di tipicalità. (collocato tipico, un collocato forte → alto grado di solidarietà semantica) Si basa su frequenza del nodo e del collocato e su frequenza della collocazione (nodo +collocato). Non dipende dalla grandezza del corpus e può essere usato con corpora di diversa grandezza>buona misura nei corpora di grandi dimensioni
MI-SCORE E T-SCORE
- → Quello meno indicativo. Misura con cui le parole ricorrono contemporaneamente, rispetto al numero di volte in cui appaiono separatamente; influenzato dalla frequenza. Es: parole a bassa frequenza= punteggio MI alto, che può essere fuorviante dato che sono parole a bassa frequenza
- → Certezza con cui si può sostenere che esiste un associazione tra parole= loro cocorrenza no casuale. Più è alto, più è alta la certezza che c'è un legame tra le parole
COLLOCATI CANDIDATI
La maschera di ricerca per le collocations usa denominazione “Collocation candidates”= lista risultante solo indicare presenza di elementi cooccorrenti con frequenza significativa , ma non può - da sola - individuare reali rapporti di solidarietà semantica> pertengono all’analisi dell’osservatore.
QUERY SU PIÙLIVELLI
La ricerca di collocati fatta anche tramite maschera di partenza, usando Corpus Query Language.
es. individuare combinazioni di baby seguito da un nome, possiamo combinare le query:
- [word = “baby”]
- [tag = “NOUN”]
CORPUS QUERY LANGUAGE (CQL)
permette elaborare queries molto più complesse della ricerca semplice, combinando più elementi in sequenza e più livelli di codifica/annotazione dei dati.
Alcuni esempi:
• [word= “lo” & tag= “ART”] Individua occorrenze di lo come articolo
non abbiamo le parentesi ma l'&= tag riferito a lo.
• [word = “baby”] [tag = “NOUN”] Individua tutte occorrenze di baby seguito da un nome
• [lemma= “condurre”] [ ] [lemma= “indagine”] Individua occorrenze del lemma condurre (in qualsiasi sua forma) seguita, dopo un’altra parola qualsiasi, dal lemma indagine
TAGSET DEL CORPUS REPUBBLICA
Il corpus Repubblica annotato integralmente per lemma e per parte del discorso.
LA RICERCA NEI CORPORA: ALCUNI STRUMENTI PRATICI
info pratiche per individuare espressioni regolari. ( la regolarità nell'uso di alcune espressioni che che scelgo)
Abbiamo corpus query language ( CQL)>tipo di linguaggio sviluppato dal gruppo di Corpora e Lessico, Università di Stoccarda. E' sintassi per costruire ricerche usando espressioni regolari, gli attributi e dei valori. Le espressioni regolari saranno scritte tra barrette oblique // (aiutarci visivamente)
espressione regolare= schema che corrisponde ad qualche tipo di sequenza nel testo. Può essere composto
• Caratteri o stringhe di testo
• caratteri speciali
• Gruppi Es: trova corrispondenza con stringa che inizia con lettera 'S' e finisce con 'ane'
DELIMITARE LE REGEX
Caratteri speciali indicare l’inizio e la fine
- /^man/ => qualsiasi sequenza che inizia con “man”; man manning, manned
- /man$/ => qualsiasi sequenza che termina con man; doberman, policeman
- /^man$/ => qualsiasi sequenza che contenga solo man
Mettere ^ significa indicare qualsiasi sequenza, nel caso sopra, che inizia con man
Mettere $ significa indicare qualsiasi sequenza, nel caso sopra, che finisce con man
Mettere sia ^ che $ significa cercare qualsiasi sequenza che contenga man
GRUPPI DI CARATTERI E SCELTE
/[wh]ood/ quindi o ‘w’ o ‘H’
- Corrisponde a wood o hood
- […]significa una scelta di caratteri
/[^wh]ood/
- Corrisponde a wood, food ma non a wood o hood
- /[^…]/ significa qualsiasi carattere con l’eccezione di quelli tra parentesi
INTERVALLO
Alcuni gruppi di carattere possono essere espressi in termini di intervalli:
/[a-z]/
- Qualsiasi carattere alfabetico minuscolo
/[0-9]/
- Qualsiasi numero tra 0 e 9
/[a-zA-Z]/
- Qualsiasi carattere alfabetico minuscolo o maiuscolo
QUANTIFICATORI
/ba*/
- Corrisponde a b, baa, baaa
- /*/ significa zero o più del carattere o del gruppo di caratteri predente
/(ba){1,3}/
- Corrisponde a ba, ba ba, o ba ba ba
- {n,m} significa tra n e m del carattere o del gruppo di caratteri predenti
/(ba){2}/
- Corrisponde a ba ba
- {n} significa esattamente n del carattere o del gruppo di caratteri
/ba+/
- Corrisponde a ba, baa, baaa
- Il più corrisponde a quel carattere e nient’altro
/(inkiss )+/
- Corrisponde a inkiss, inkiss inkiss
- Notare lo spazio bianco nella regex
/+/ significa uno o più del carattere o del gruppo di caratteri precedente
DISGIUNZIONE E JOLLY
/ba./
- Corrisponde a bat, bad
- /./ significa ogni singolo carattere alfanumerico
- Avendo solo un punto vicino a “ba” significa che avremo parole solo di 3 lettere
/gruppo(ylies)/
- Gruppy or gruppies
- /(x|y)/ significa o x o y
- Importante usare la parentesi
- La barretta verticale e le parentesi, indicano un’opzione o x o y
CQL SINTASSI
Ricerche CQL espressioni regolari rispetto ad attribute (parole, lemmi o tag)
Regex rispetto a parole
- [word= “it” ] [word= “resulted”][word= “that”] l’unione di queste tre> risultato esattamente la stringa si queste tre espressioni
Regex rispetto a parole con caratteri spaciali
- [word=”it”][word= “result.*”][word= “that”] dato che dopo resulted abbiamo punto e asterisco= resulted e results
Regex rispetto ad un lemma
- [word= “it”][lemma= “result”][word= “ that”] se aggiungiamo un lemma= varie forme/declinazioni che la parola results può avere
È possibile cambiare query con parole, lemma e tag
- [word= “it”][lemma= “result”& tag= “V.*] it seguito da qualsiasi variante morfologica del lemma results il cui tag inizia con un verbo
Le parentesi quadrate vuote= “qualsiasi corrispondenza.”
L’uso di quantificatori complessi per corrispondenza rispetto ad intervalli:
[word= “confus” & tag= “V.”][] {0,2} [word= “by”]
- Verbo che inizia con confus taggato come verbo, seguito dalla parola by, con parole informatizzate in nuemeri da 0 a 2
- Confused by (the problem)
- Confused Jhon by (sayng that)
- Confused Jhon Smith by (saying that)
ULTIMO CORSPUS
LA PROGETTAZIONE DI KIPARLA
La differenziazione geografica è preminente nel caratterizzare variazione sociolinguistica dell'italiano; anche nelle produzioni più controllate di parlanti colti> possibile riscontrare presenza di tratti regionali
Nel corpus raccolti dati linguistici nelle città di Bologna e Torino.
Quali sono le situazioni sociolinguistiche delle città?
- Compresenza di italiano e dialetto
- Entrambe sono meta di mobilità interna, cosı̀ come di flussi migratori esterni I parlanti coinvolti nelle registrazioni differenziati primariamente per
• Età
• Titolo di studio
• Occupazione
Parametri significativi individuare collocazione sociale individui
Sono presenti vari tipi di interazione
• Interviste semistrutturate e in contesto universitario, lezioni ed esami, differenziati in base a parametri situazionali
• relazione simmetrica/asimmettrica
• Presenza/ assenza di un argomento pre definito
• Presenza/ assenza di norme per la presa di turno
Età dei parlanti
• Minori di 35
• dai 35 ai 65
• sopra i 65
Tutti i dati registrati a microfono palese: le persone consapevoli registrate= non sappiamo se lingua è veramente autentica. Le registrazioni trascritte con il software ELAN=allineare trascrizione con la traccia audio. Per le trascrizioni, è stata adottata versione semplificata del sistema Jefferson, frequentemente usato nell'analisi della conversazione. uno dei sistemi più usati per l'analisi della conversazione
SISTEMA JEFFERSON
, intonazione ascendente
. intonazione discendente
: suono prolungato
(.) pausa breve
ciao< pronuncia più veloce<ciao> pronuncia più lenta
[ciao] sovrapposizione tra parlanti
(ciao) testo di difficile comprensione (ipotesi del trascrivente)
XXX testo non comprensibile
((ride)) comportamento non verbale
= unità unite prosodicamente
MODULARITA' INCREMENTALE
Qui c'è un organizzazione interne del corpus in moduli indipendenti> possibile aggiungere nuovi moduli nel tempo> I moduli> diversi corpora di italiano parlato che condividono stesso design e insieme comune di metadati, trascritti da Elan e resi disponibili NoSketch engine. I moduli concentrarsi su diverse dimensioni della variazione linguistica e raccogliere dati da diverse aree geografiche La natura stessa del corpus KIPARLA= potenziale monitor corpus, aperto a integrazioni e aggiornamenti nel tempo
corpus KIPARLA è costituito da due moduli
- Il modulo KIP: registrazioni realizzate nelle università di Torino e Bologna in 5 tipi di situazioni comunicative. I tipi di interazioni considerate sono; lezioni universitarie (25h: 45m: 12s), esami, ricevimenti studenti, interviste semi strutturate a studenti, conversazione libera
- Modulo parlaTO; conversazioni che coinvolgono più di un centinaio di parlanti con diversa provenienza geografica e diversa collocazione sociale
IL TEST DEL CHI-QUADRO
Obiettivo: capire se differenze tra i campioni casuali o significative= statistica inferenziale ci permette di trarre conclusioni a partire da un campione causale:
1 Ipotesi nulla H0: differenza totalmente casuale, posso accettarlo o rifiutarlo fissando margine di errore
2 Ipotesi alternativa H1: differenza tra le frequenza osservate significativa=relazione tra genere del parlante (variabile indipendente) e frequenza d’uso di mother (variabile dipendente).
primo passaggio arrivare al test del chi-quadro =costruire due tabelle di contingenza con i valori attesi (frequenza attese) basati sui valori osservati (frequenze osservate)
Come si calcolano i valori attesi?= corrispondono alla frequenza della parola mother se uomini e donne la usassero indipendentemente dal loro genere
• La parola mother pronunciata 899 volte nel totale di 4.307.885 parole (M e F)
• numerosità totale del campione maschile= 1.714.433= frequenza attesa è 1.714.433 x (899 /4.307.885) =358
• Per le donne la frequenza attesa 2.593.452 x (899/4.307.885)= 541
•> calcolati i valori attesi anche per tutte le altre parole, no mother, pronunciate dagli uomo: 1.714.433 x (4.306.986/4.307.885)=1.714.075
• E dalle donne: 2.592.825 x (4.306.986/4.307.885)= 2.592.911
• Adesso procedere al test del chi-quadrato =stimare probabilità che rapporto tra due variabili statisticamente significativo (non casuale). Lo usiamo0-.j. confrontare valori osservati (rilevati) con i valori attesi. L’equazione matematica del chiquadrato è:
(scrivo formula a mano)
ulteriore passo>considerare i gradi di libertà= numero di osservazioni indipendenti possibili> in questo caso=prodotto numero di righe meno uno per il numero di colonne meno uno: df= (N rows-1) x (N columns -1)= 1. Nel nostro caso (2- 1)*(2-1)=1
Per gradi di libertà=1, il valore del chi-quadrato deve maggiore di 3.84 per accettare oltre ogni ragionevole dubbio l’ipotesi alternativa H1. Concludiamo c’è differenza significativa tra uomini e donne uso parola mother.
I software usano chi-quadrato per confronto tra corpora o funzione di log-verosimiglianza = curva alternativa a quella del chi-quadrato preferita da alcuni=importante sapere che procedimento statistico adottato consente di stabilire relazione di dipendenza tra due variabili (esempio, genere del parlante e frequenza d’uso).
3.3 LETTURA DELLE CONCORDANZE E COLLOCATI
Oltre liste di frequenza, l’altro strumento essenziale alla linguistica dei corpora >concordanze= indice (elenco) di tutte le occorrenze di una parola, o forma verbale, nell’ambiente testuale che la circonda, o cotesto/contesto. I collocati> quelli che in italiano> solidarietà semantica= fatto che determinate parole più frequentemente si colleghino all’uso di altre parole.
La parola o altra forma target chiamata nodo > solitamente associata alla modalità di visualizzazione delle concordanze>formato KWIC o Key-word-in-context> nodo è allineato al centro a distanza fissa dalle porzioni di testo che lo precedono e lo seguono immediatamente>possono ricercare parole solo per contesto destro o sinistro. i dati possono elaborati automaticamente con l’aiuto software: l’estensione del contesto> misurata in caratteri e variare a seconda del tipo di osservazioni.
La concordanza ordinata in diversi modi, secondo l’ordine di occorrenza nel corpus (voglio vedere l’ordine parola compare nel corpus), alfabeticamente a destra o a sinistra, inoltre utile nelle ricerche in corpora molto grandi.
L’esito più innovativo dell’osservazione dei dati tramite concordanze>teoria della collocazione> sviluppata linguista Sinclair, insieme al superamento tradizionale dicotomia tra grammatica e lessico.
obiettivo teoria della collocazione= mostrare significato di una parole è in parte derivabile dal suo contesto d’uso= se io vedere i contesti parola viene usata e a capire come costruiti questi contesti= fare generalizzazioni sul modo in cui usata.
Si basa sulla linguistica di base= vado a vedere:
- contesto verbale immediatamente precedente e successivo (l’espressione dell’asse sintagmatico)
- Contesto più astratto derivante dalla ripetizione di tale contesto in un elenco di concordanze (l’asse verticale o paradigmatica)
Queste due dimensioni insieme rispondere di usi e restrizioni situazionali (contesto)
Contesto da una parte e cotesto dall’altra> servire a disambiguare sensi di parole molto comuni in lingua e polisemiche, riducendo al minino contributo individuale di ogni lessema ed enfatizzando natura non discreta significato, ma prosodica> metafora preda in prestito dalla fonetica.
Il corpus, letto tramite delle concordanze= modo di scardinare l’idea secondo cui l’unità di senso è la singola parola=> abituati sempre a parlare della semantica della parola, ma conto di quanto la semantica della parola derivi dal contesto, da tutto ciò che gli sta attorno.
=nuova concezione del significato: meaning shift unit o MSU (unità di passaggio di senso)>estensione della nozione di collocazione a comprendere la coselezione di più elementi concomitanti e la ripetizione lungo l’asse delle scelte possibili=> per significato di una parola>prendere in considerazione ciò che sta prima e dopo, quali le scelte possibili tra quello che c’è prima e quella che c’è dopo. (es: capo, cooccorre con parola nominare, indossare e cospargere; mentre con parola testa cooccorre parola perdere)
Il ruolo di primo piano nell’individuazione del significato è giocato dalla frequenza con cui certe combinazioni occorrono in un corpora=ripetitività parlati fanno scelta d’uso di determinata parola in un contesto (la parole), tanto più si tende al sistema (langue)=determina che una parola usata in un determinato modo.
L’assunto alla base= frequenza di un fenomeno no casuale ma condizione sufficiente all’individuazione dei sensi di una parola= condizione necessaria
Le numerose concordanze analizzate e raccolte da Sinclair, scritti teorici sull’unità di senso>luce ricorrenze lessico-grammaticali significative sul piano numerico> emergere pattern (schemi) strutturali e semantici evidenziando>linguaggio funzioni non tanto per parole ma per frasi (fraseologica).
La lettura delle concordanze tratte da corpora molto ampi= ricorrenza di pochi elementi a sinistra e a destra sufficienti a disambiguare almeno i significati più frequenti, distinguere tra usi concreti e figurati>inoltre come significato meno frequenti spesso associati a restrizioni di tipo situazionale o dipendenti dal contesto.
Di nuovo> ruolo di primo piano nell’individuazione dei significati che è giocato dalla frequenza (base di tutte le conclusioni trarre dai corpora) con cui certe combinazioni occorrono in un corpus.
conto osservando vocabolario>sono molte poche le scelte libere che non sono condizionate da fattori contestuali o cotestuali, poche le libertà che possiamo prenderci usando una lingua.
Il concetto di collocazioni> esteso a teoria del significato> analizzare sistematicamente seguenti componenti:
4 La collocazione= ci siano delle ricorrenze lessicali più frequenti in un orizzonte di non più di 4 parole
5 La Colligazione= focus sulle funzioni grammaticali, le classi o le parti del discorso a cui appartengono i collocati> parola pianta soggetto di qualche frase
6 La preferenza semantica= è l’insieme a cui riconducibili diverse lessicalizzazioni dei collocati, indipendentemente dalla classe grammaticale> richiede l’astrazione dell’osservatore per essere individuato>verbi che riguardano azioni
7 La prosodia semantica= è l’aura di significato di cui si colora una parola in ragione dei suoi collocati.>cooccorra spesso con determinate parole>emergere determinati significati rispetto ad altri. Espressione di valutazione del parlante.
In questa analisi la frequenza ruolo fondamentale> superamento della divisione artificiosa tra grammatica e lessico, che divengono parti integranti di un’unica operazione linguistica e proposta di descrizione linguistica innovativa che procede per segmentazione del testo in frammenti portatori di senso (o chunk).
L’importanza dell’analisi dei collocati nel disambiguare il senso di una parola> sottolineata per lo studio del cambiamento linguistico.
Quest’idea di collocazione sinclairiana> enfasi su ripetizione e frequenza con cui parole co-occorrono> recentemente sintetizzata nella formula collocation-viaconcordance (collocazione tramite concordanza).
CONFRONTO TRA CORPORA: LE PAROLE CHIAVE >elementi determinanti di tutto questo aspetto >legato parole chiave. La nozione parola chiave> base del confronto tra corpora e si deve alla ricerca di Mike Scott> legata allo sviluppo di un software per interrogazione dei testi e la possibilità di confrontare distribuzioni di frequenza associate a corpora diversi.
Parola chiave: caratterizzano corpus e ne rappresentano deviazione rispetto a una norma presa come riferimento. dati due corpora, interessa:
1 verificare se distanza tra di essi, misurata in differenza tra le frequenze osservate> significativa oppure no
2 verificare se rappresentano campioni casuali stessa popolazione o differenze osservate dicono qualcosa naturale variazione del linguaggio.
strumenti statistici più diffusi>misurare variazione linguistica in corpora diversi e valutare significatività differenze numeriche osservate=testo del chi-quadrato o cui quadro.
—>ci sono diversi numeri, diverse frequenze in corpora diversi, questa differenza>casuale o è legata a qualche elemento significativo del linguaggio?:
ESEMPIO: voler analizzare l’uso della parola ‘mother’> gruppi di diversi parlanti e supponiamo usata piu frequentemente nel parlato donne rispetto uomini: 627 volte in un corpus di 2.593.452 parole di parlato di donne e 272 volte in un campione di parlato degli uomini di 1.714.433 parole.
=esiste differenza significativa tra uomini e donne rispetto frequenza con cui usiamo la parola mother?>confrontiamo due frequenze domandandoci>valori dovuti al caso o differenza osservata è differenza significativa.
mother: variabile aleatoria