italiano COMUNICAZIONE ISTITUZIONALE
ppppp
italiano lingua che è cambiata di più in Europa dopo l'unità ma non tutto l’italiano perche l’italiano istituzionale rimane uguale
TESTI AMMINISTRATIVI
+difficili perché:
chi scrive vuole mantenere la gerarchia rispetto a chi legge
non c’è interesse a farsi capire
per abitudine (sappiamo che dobbiamo usare una lingua diversa da quella che usiamo giornalmente)
Traduzione endolinguisitca : all’interno della stessa lingua
discussione del 500 in cui viene pragmata la grammatica del italiano
CALVINO definisce l'italiano amministrativo ANTILINGUA
tutti i giorni migliaia di persone avvocati carabinieri giornalisti traducono da un italiano comprensibile ad un italiano inesistenti e incomprensibile
Per Calvino questo uccide la comunicazione
VOCABOLARIO DI BASE
7000 parole (che hanno la maggiore frequenza statistica)
Vocabolario fondamentale:1.991 parole +usate in ita
Vocabolario di alto uso: 2.750 parole molto usate
Vocabolario di alta disponibilità: 2.337 parole usate +nella lingua parlata
LIP: italiano parlato
nel 2016 de mauro ha scritto il NUOVO VOCABOLARIO DI BASE
parole che una volta non si utilizzavano e ora sono di uso comune come internet, caso o anglicismi
INDICI DI LEGIBILITà
formule matematiche che ci danno una valutazione della semplicità della sintassi e del lessico di un testo, non necessariamente della sua chiarezza e completezza
In Italia l’indice +usato: GULPEASE
I limiti: Non capisce la difficoltà semantica o se la retorica è sbagliata
CORPORATESE
Ogni azienda sviluppa il suo gergo ma in generale il corporatese non è molto diverso dal burocratese
CARATTERISTICHE DELL'LINGUAGGIO AMMINSTRATIVO
complessità
oscurità
rappresenta la formalità -> il valore del testo
Iniziative a livello italiano ed europeo
FIGHT THE FOG
iniziativa inglese per dare dei consigli per scrivere in maniera +chiara i testi dell'Unione europea
REI – Rete di eccellenza dell’italiano istituzionale
ICOMA
perchè vale la pena scrivere chiaro:
va a vantaggio di chi legge e di chi scrive, lo vogliono le norme, curando la forma si migliora la sostanza
ERRORI FONDAMENTALI
non si assume la prospettiva del destinatario
Prigionieri dell’inerzia: si è sempre fatto cosi continuiamo a fare così
Si cerca l’eleganza a scapito della chiarezza
livelli di analisi
TESTUALITà
concatenazione delle informazioni e gestione del rapporto utente-destinatario
MORFOLOGIA E SINTASSI
LESSICO
l’italiano amministrativo giuridico è debitore del modello sillogistico della cassazione francese che costruisce i documenti con la parte dispositiva cioè premesse all’inizio e gli ordini alla fine
sintassi: stile commatico (frasi uniche x saturare tutte le valenze dei verbi x garantire interpretazione unica ), nominalizazzione, molti incise con secondarie, deaggettivazione e passivazione
astratto concentrato su categorie invece che individui
formale aulico e difficile, modi di riferirsi al destinatario che tendono all’arcaismo e parole più ricercate spesso in maniera non giustificata
parole inesistenti astratte
talvolta compare lessico tecnico che se non può andare sostituito va spiegato
impersonale
parole in disuso o non esistenti nel vocabolario, finta ricerca di precisione
tecnicismi collaterali (parole che sembrano più specifiche ma in realtà non hanno un significato + specifico)
analisi del testo: 1partire dal contesto. 2 analizzare se ci sono tutte le informazioni e se l’ordine delle info è efficace per lo scopo. 3 sintassi e l’ordine delle parole. 4 morfologia. 5 lessico
LINGUISTICA DEI CORPORA
CORPORA
La linguistica dei corpora non ha tanto a che vedere con il concetto di madrelingua ma ha a che fare con la performance, i testi effettivamente prodotti dai madrelingua. Non si basa sulle regole astratte ma sulla realizzazione di enunciati.
La linguistica dei corpora non ha a che vedere con la competenza ma con la performance ovvero l’effettivo comportamento linguistico da parte della popolazione
CORPUS
In maniera ingenua si intende spesso un insieme di testi che hanno una caratteristica comune
Questa definizione non è accurata perché se questa fosse la definizione di corpus gli estensori del vocabolario della Crusca già avevano fatto ricerca dei corpora
Leach 1996 “a helluva lot of text, stored on a computer”
Il vocabolario è stato costruito selezionando una lista di autori, ritenuti autorevoli, e in base a come le parole erano utilizzate in questo tipo di testi se ne è dedotto il significato
elementi necessari sono le dimensioni e il computer, che possono gestire molte più informazioni degli esseri umani-> analisi automatica
In italia i primi esempi di linguistica dei corpora risalgono agli anni ’90 e sono
LIP lessico italiano parlato
LIF lessico italiano di frequenza che analizza testi scritti
defnizione di barbera: raccolta di testi (scritti orali o multimediali) o parti di essi in numero finito in formato elettronico trattati in modo uniforme (ossia tokenizzati ed addizionati di markup adeguato) così da essere gestibili ed interrogabili informaticamente; se (come spesso) le finalità sono linguistiche (descrizione di lingue naturali o loro varietà), i testi sono perlopiù scelti in modo da essere autentici e rappresentativi
Le finalità non sono sempre linguistiche
pre-corpora (no grandi dimensioni, no analisi
automatica)
token : parola, contare le parole è la prima operazione da fare
Tokenizzare significa dare delle informazioni standard
Mark-up: informazioni esterne e interne al testo
l'informazione prnciple va all'inizio.Quando vi è un annuncio generale: Prima le informazioni che riguardano la maggioranza/tutti, poi le informazioni riguardanti un sottogruppo.
non usare mai eventuali) crea una contraddizione con il testo
focalizzazione:prima mettere le informazioni più generali, poi quelle più specifiche
STILE COMMATICO
Caratteristico delle leggi, satura tutte le valenze del verbo e tutte le teste dei sintagmi per garantire un’interpretazione univoca
0iohob o
L'OGGETTO
L'oggetto deve permettere di identificare l’argomento e la funzione del testo, non deve essere troppo generico
brevi ma esaurienti
se un testo ci arriva senza molte informazioni noi tendiamo ad inserire delle informazioni per renderlo coerente->il titolo deve dare delle informazioni per aiutarci a decodificare il testo
IL RINVIO ALLE NORME
comunicazioni burocratiche fanno riferimento alle leggi-> sono dei testi secondi che si riferiscono ad altri testi
si trovano spesso in incisi che interrompono l'ordine normale sov->possiamo metterli tra parentesi o in nota. è opportuno specificare il titolo della legge o l’argomento
Intertestualità
Standard di editing
aspetti grafici: non leggibilità, centrato-> modo più difficile per leggere. tutto in maiuscolo è più difficile da leggere
scelte che devono essere sempre uguali dando degli standard di editing. cose che vanno regolamentate x ogni azienda
Problemi a livello sintattico:
ipotassi: abuso di alcuni modi verbali che la determinano
gerundio:vincolo di dover avere lo stesso soggetto della principale,è un modo flessibile dal punto di vista sintattico, molte funzioni e permette di compattare le informazioni
participio: permette di risparmiare spazio perche sostituisce una relativa
incisi e parentiche: cambiano il normale ordine sov-> devono essere spostate prima dopo così da evitare di invertire l'ordine sov
Nominalizazzione: caratteristica del registro alto, compatta le info e occulta l'agente, formano cumuli nominali
verbi di significato generico seguito da pronominale
litote: figura retorica in cui si nega qualcosa invece di affermare un concetto. + negazioni mettono difficoltà
Lunghezza delle frasi: massimo 25 parole su carta/ 15 su schermo per farsi capire. una frase = un informazione.
Spersonalizzazione: forme impersonali o passivanti al posto dell'agente come soggetto. se non abbiamo un soggetto agente specifico si può ricorrere ad espressioni generiche (agente generico: il/la richiedente)
tra sintassi e morfologia
Il congiuntivo è complicato per gli italiani per cui è meglio evitarlo se scriviamo testi x la popolazione media
Futuro deontico: il futuro può essere utilizzato x indicare un dovere
Participio presente: in italiano contemporaneo non si usa +, espilicitare con una relativa con senso verbale
POS tagging: assegnazione delle classi nominali
Lemmatizzazione
Riconoscimento delle unità lessicale superiori o polirematiche: parole uniche, il significato complessivo è diverso dalla somma dei significati singoli, non si possono avere altre collocazioni e non si possono separare
Ambiguità e polisemia :
Difficile stabilire se una cosa è un participio presente o un nome o un aggettivo
L’analisi dei corpora non è sempre votata all’analisi della lingua, molto spesso viene utilizzata per analizzare i contenuti
La prima applicazione linguistica su ampia scala è la grammatica edita da Fries che si basava sulla trascrizione di conversazioni telefoniche (descriveva alcuni fenomeni della lingua)
Il primo corpus moderno (1954) è il Brown Corpus of American Written English compilato alla Brown University del Rhode Island, che aveva lo scopo di rappresentare l’americano scritto dell’inizio degli anni ’60.
Quando si fa ricerca sui corpora si possono distinguere 2 atteggiamenti:
Corpus-based
corpus-driven
ho un’ipotesi in mente, costruisco il corpus per verificare questa ipotesi in base ai dati che ricavo
Ho un corpus (ad es di italiano giornalistico) e faccio delle misurazioni e scopro delle cose
LIMITI
Non è possibile studiare una lingua in sé e per sé con la statistica. La lingua è illimitata, non osservabile e instabile
+ampio il campione considerato, + i risultati sono affidabili
La popolazione (in questo caso la lingua) non è osservabile, non è limitata e quindi la lingua (intesa come performance, produzione linguistica) non è logisticamente osservabile
Come si contano le parole:
types V (modello astratto) and token N (occorrenze di qualcosa, caso singolo)
se metto in ordine decrescente per frequenza il vocabolario V del corpus avrò il vocabolario di frequenza.
Apaxh parola che compare una volta sola nel corpus.
di solito nei testi orali la parola piu frequente è che, nei testi scritti è di.
le parole di frequenza + alta sono le parole grammaticali
quando incontro due forme grafiche che hanno la stessa frequenza esse segnano il confine tra le parole di alta frequenza e le parole di media frequenza
poi troviamo il primo salto di frequenza che segnala il salto tra le parole di media e bassa frequenza.
più grande è il corpus più è indagabile. empiricamente gli statistici dicono che se nel corpus il rapporto tra le forme grafiche e le occorrenze è meno del 20%, ogni 5 parole ne trovo una che non avevo visto prima, e la percentuali di apax su V è meno del 50% allora il corpus è scientificamente caotico da essere studiato in maniera statistica.
Legge di Zipf : qualsiasi corpus è sempre ordinato in questo modo: poche parole che sono molto molto frequenti, un buon numero di parole che si ripetono abbastanza di frequente (di solito di significato generale e che individuano il tipo di testo), tantissime parole poco frequenti, un po meno della metà delle parole del corpus che si ripetono una volta sola. anche se il corpus si allunga non cambierà la linea e il rapporto.
riassunto: la linguistica dei corpora ci può permettere di individuare delle tendenze di fondo difficilmente percepibili con un'analisi qualitativa perché richiedono una grossa mole di dati per essere estrapolati, problema principale è quella di confrontare i termini di paragonare che ci permettono di valutare il significato. la lingua per sé non è indagabile.