italiano COMUNICAZIONE ISTITUZIONALE

ppppp

italiano lingua che è cambiata di più in Europa dopo l'unità ma non tutto l’italiano perche l’italiano istituzionale rimane uguale

TESTI AMMINISTRATIVI

+difficili perché:

chi scrive vuole mantenere la gerarchia rispetto a chi legge

non c’è interesse a farsi capire

per abitudine (sappiamo che dobbiamo usare una lingua diversa da quella che usiamo giornalmente)

Traduzione endolinguisitca : all’interno della stessa lingua

discussione del 500 in cui viene pragmata la grammatica del italiano

CALVINO definisce l'italiano amministrativo ANTILINGUA

tutti i giorni migliaia di persone avvocati carabinieri giornalisti traducono da un italiano comprensibile ad un italiano inesistenti e incomprensibile

Per Calvino questo uccide la comunicazione

VOCABOLARIO DI BASE

7000 parole (che hanno la maggiore frequenza statistica)

Vocabolario fondamentale:1.991 parole +usate in ita

Vocabolario di alto uso: 2.750 parole molto usate

Vocabolario di alta disponibilità: 2.337 parole usate +nella lingua parlata

LIP: italiano parlato

nel 2016 de mauro ha scritto il NUOVO VOCABOLARIO DI BASE

parole che una volta non si utilizzavano e ora sono di uso comune come internet, caso o anglicismi

INDICI DI LEGIBILITà

formule matematiche che ci danno una valutazione della semplicità della sintassi e del lessico di un testo, non necessariamente della sua chiarezza e completezza

In Italia l’indice +usato: GULPEASE

I limiti: Non capisce la difficoltà semantica o se la retorica è sbagliata

CORPORATESE

Ogni azienda sviluppa il suo gergo ma in generale il corporatese non è molto diverso dal burocratese

CARATTERISTICHE DELL'LINGUAGGIO AMMINSTRATIVO

complessità

oscurità

rappresenta la formalità -> il valore del testo

Iniziative a livello italiano ed europeo

FIGHT THE FOG

iniziativa inglese per dare dei consigli per scrivere in maniera +chiara i testi dell'Unione europea

REI – Rete di eccellenza dell’italiano istituzionale

ICOMA

perchè vale la pena scrivere chiaro:

va a vantaggio di chi legge e di chi scrive, lo vogliono le norme, curando la forma si migliora la sostanza

ERRORI FONDAMENTALI

non si assume la prospettiva del destinatario

Prigionieri dell’inerzia: si è sempre fatto cosi continuiamo a fare così

Si cerca l’eleganza a scapito della chiarezza

livelli di analisi

TESTUALITà

concatenazione delle informazioni e gestione del rapporto utente-destinatario

MORFOLOGIA E SINTASSI

LESSICO

l’italiano amministrativo giuridico è debitore del modello sillogistico della cassazione francese che costruisce i documenti con la parte dispositiva cioè premesse all’inizio e gli ordini alla fine

sintassi: stile commatico (frasi uniche x saturare tutte le valenze dei verbi x garantire interpretazione unica ), nominalizazzione, molti incise con secondarie, deaggettivazione e passivazione

astratto concentrato su categorie invece che individui

formale aulico e difficile, modi di riferirsi al destinatario che tendono all’arcaismo e parole più ricercate spesso in maniera non giustificata

parole inesistenti astratte

talvolta compare lessico tecnico che se non può andare sostituito va spiegato

impersonale

parole in disuso o non esistenti nel vocabolario, finta ricerca di precisione

tecnicismi collaterali (parole che sembrano più specifiche ma in realtà non hanno un significato + specifico)

analisi del testo: 1partire dal contesto. 2 analizzare se ci sono tutte le informazioni e se l’ordine delle info è efficace per lo scopo. 3 sintassi e l’ordine delle parole. 4 morfologia. 5 lessico

LINGUISTICA DEI CORPORA

CORPORA

La linguistica dei corpora non ha tanto a che vedere con il concetto di madrelingua ma ha a che fare con la performance, i testi effettivamente prodotti dai madrelingua. Non si basa sulle regole astratte ma sulla realizzazione di enunciati.

La linguistica dei corpora non ha a che vedere con la competenza ma con la performance ovvero l’effettivo comportamento linguistico da parte della popolazione

CORPUS

In maniera ingenua si intende spesso un insieme di testi che hanno una caratteristica comune

Questa definizione non è accurata perché se questa fosse la definizione di corpus gli estensori del vocabolario della Crusca già avevano fatto ricerca dei corpora

Leach 1996 “a helluva lot of text, stored on a computer”

Il vocabolario è stato costruito selezionando una lista di autori, ritenuti autorevoli, e in base a come le parole erano utilizzate in questo tipo di testi se ne è dedotto il significato

elementi necessari sono le dimensioni e il computer, che possono gestire molte più informazioni degli esseri umani-> analisi automatica

In italia i primi esempi di linguistica dei corpora risalgono agli anni ’90 e sono

LIP lessico italiano parlato

LIF lessico italiano di frequenza che analizza testi scritti

defnizione di barbera: raccolta di testi (scritti orali o multimediali) o parti di essi in numero finito in formato elettronico trattati in modo uniforme (ossia tokenizzati ed addizionati di markup adeguato) così da essere gestibili ed interrogabili informaticamente; se (come spesso) le finalità sono linguistiche (descrizione di lingue naturali o loro varietà), i testi sono perlopiù scelti in modo da essere autentici e rappresentativi

Le finalità non sono sempre linguistiche

pre-corpora (no grandi dimensioni, no analisi
automatica)

token : parola, contare le parole è la prima operazione da fare

Tokenizzare significa dare delle informazioni standard

Mark-up: informazioni esterne e interne al testo

l'informazione prnciple va all'inizio.Quando vi è un annuncio generale: Prima le informazioni che riguardano la maggioranza/tutti, poi le informazioni riguardanti un sottogruppo.

non usare mai eventuali) crea una contraddizione con il testo

focalizzazione:prima mettere le informazioni più generali, poi quelle più specifiche

STILE COMMATICO
Caratteristico delle leggi, satura tutte le valenze del verbo e tutte le teste dei sintagmi per garantire un’interpretazione univoca

0iohob o

L'OGGETTO

L'oggetto deve permettere di identificare l’argomento e la funzione del testo, non deve essere troppo generico

brevi ma esaurienti

se un testo ci arriva senza molte informazioni noi tendiamo ad inserire delle informazioni per renderlo coerente->il titolo deve dare delle informazioni per aiutarci a decodificare il testo

IL RINVIO ALLE NORME

comunicazioni burocratiche fanno riferimento alle leggi-> sono dei testi secondi che si riferiscono ad altri testi

si trovano spesso in incisi che interrompono l'ordine normale sov->possiamo metterli tra parentesi o in nota. è opportuno specificare il titolo della legge o l’argomento

Intertestualità

Standard di editing

aspetti grafici: non leggibilità, centrato-> modo più difficile per leggere. tutto in maiuscolo è più difficile da leggere

scelte che devono essere sempre uguali dando degli standard di editing. cose che vanno regolamentate x ogni azienda

Problemi a livello sintattico:

ipotassi: abuso di alcuni modi verbali che la determinano

gerundio:vincolo di dover avere lo stesso soggetto della principale,è un modo flessibile dal punto di vista sintattico, molte funzioni e permette di compattare le informazioni

participio: permette di risparmiare spazio perche sostituisce una relativa

incisi e parentiche: cambiano il normale ordine sov-> devono essere spostate prima dopo così da evitare di invertire l'ordine sov

Nominalizazzione: caratteristica del registro alto, compatta le info e occulta l'agente, formano cumuli nominali

verbi di significato generico seguito da pronominale

litote: figura retorica in cui si nega qualcosa invece di affermare un concetto. + negazioni mettono difficoltà

Lunghezza delle frasi: massimo 25 parole su carta/ 15 su schermo per farsi capire. una frase = un informazione.

Spersonalizzazione: forme impersonali o passivanti al posto dell'agente come soggetto. se non abbiamo un soggetto agente specifico si può ricorrere ad espressioni generiche (agente generico: il/la richiedente)

tra sintassi e morfologia

Il congiuntivo è complicato per gli italiani per cui è meglio evitarlo se scriviamo testi x la popolazione media

Futuro deontico: il futuro può essere utilizzato x indicare un dovere

Participio presente: in italiano contemporaneo non si usa +, espilicitare con una relativa con senso verbale

POS tagging: assegnazione delle classi nominali

Lemmatizzazione

Riconoscimento delle unità lessicale superiori o polirematiche: parole uniche, il significato complessivo è diverso dalla somma dei significati singoli, non si possono avere altre collocazioni e non si possono separare

Ambiguità e polisemia :
Difficile stabilire se una cosa è un participio presente o un nome o un aggettivo

L’analisi dei corpora non è sempre votata all’analisi della lingua, molto spesso viene utilizzata per analizzare i contenuti

La prima applicazione linguistica su ampia scala è la grammatica edita da Fries che si basava sulla trascrizione di conversazioni telefoniche (descriveva alcuni fenomeni della lingua)

Il primo corpus moderno (1954) è il Brown Corpus of American Written English compilato alla Brown University del Rhode Island, che aveva lo scopo di rappresentare l’americano scritto dell’inizio degli anni ’60.

Quando si fa ricerca sui corpora si possono distinguere 2 atteggiamenti:

Corpus-based

corpus-driven

ho un’ipotesi in mente, costruisco il corpus per verificare questa ipotesi in base ai dati che ricavo

Ho un corpus (ad es di italiano giornalistico) e faccio delle misurazioni e scopro delle cose

LIMITI

Non è possibile studiare una lingua in sé e per sé con la statistica. La lingua è illimitata, non osservabile e instabile

+ampio il campione considerato, + i risultati sono affidabili

La popolazione (in questo caso la lingua) non è osservabile, non è limitata e quindi la lingua (intesa come performance, produzione linguistica) non è logisticamente osservabile

Come si contano le parole:

types V (modello astratto) and token N (occorrenze di qualcosa, caso singolo)

se metto in ordine decrescente per frequenza il vocabolario V del corpus avrò il vocabolario di frequenza.

Apaxh parola che compare una volta sola nel corpus.

di solito nei testi orali la parola piu frequente è che, nei testi scritti è di.

le parole di frequenza + alta sono le parole grammaticali

quando incontro due forme grafiche che hanno la stessa frequenza esse segnano il confine tra le parole di alta frequenza e le parole di media frequenza

poi troviamo il primo salto di frequenza che segnala il salto tra le parole di media e bassa frequenza.

più grande è il corpus più è indagabile. empiricamente gli statistici dicono che se nel corpus il rapporto tra le forme grafiche e le occorrenze è meno del 20%, ogni 5 parole ne trovo una che non avevo visto prima, e la percentuali di apax su V è meno del 50% allora il corpus è scientificamente caotico da essere studiato in maniera statistica.

Legge di Zipf : qualsiasi corpus è sempre ordinato in questo modo: poche parole che sono molto molto frequenti, un buon numero di parole che si ripetono abbastanza di frequente (di solito di significato generale e che individuano il tipo di testo), tantissime parole poco frequenti, un po meno della metà delle parole del corpus che si ripetono una volta sola. anche se il corpus si allunga non cambierà la linea e il rapporto.

riassunto: la linguistica dei corpora ci può permettere di individuare delle tendenze di fondo difficilmente percepibili con un'analisi qualitativa perché richiedono una grossa mole di dati per essere estrapolati, problema principale è quella di confrontare i termini di paragonare che ci permettono di valutare il significato. la lingua per sé non è indagabile.