metodi digitali 4
Capitolo 5: l'analisi del contenuto
Il web 2.0 può essere una vasta raccolta di testi interconnessi che ricercatore digitale può navigare. Il testo è un insieme di segni appartenenti a uno o più codici, può essere un libro, una fotografia, un'e-mail, un post, un video, un tweet. La tecnica privilegiata per l'analisi dei significati socioculturali dei dati testuali è l'analisi del contenuto (manifesto e latente) attraverso la valutazione dei simboli e dei temi chiave al fine di comprenderne i significati e il possibile effetto sui fruitori.
5.1 Approcci quantitativi e qualitativi
• Approccio quantitativo: sistematica e replicabile disamina dei simboli della comunicazione ai quali sono stati assegnati i valori numerici sulla base di rigorose regole di misurazione e l'analisi delle relazioni tra questi valori attraverso metodi statistici al fine di descrivere la comunicazione, il suo significato e il suo contesto di produzione e consumo.
Questo evidenzia due aspetti: la quantificazione delle unità simboliche e l'implementazione di regole di misurazione. L'obiettivo è la conversione delle entità testuali in variabili numeriche tra le quali stabilire relazioni statistiche e testare ipotesi.
Il disegno della ricerca prevede:
• La formulazione della domanda e delle ipotesi
• La definizione delle categorie di codifica
• La raccolta dei dati
• Il campionamento
• L'analisi e l'interpretazione dei risultati
L'analisi del contenuto etnografica sviluppata da David Altheide (1987) e uno specifico approccio di analisi qualitativa del contenuto che non impedisce la quantificazione ma incoraggia l'emergere delle pratiche di analisi del contenuto dalla lettura dei testi. Il ricercatore è esortato a definire uno schema di codifica allineato alle categorie emiche di chi ha prodotto il testo piuttosto che a categorie imposte da teorie pre-esistenti.
Il disegno della ricerca dell’analisi del contenuto etnografica prevede fasi analoghe a quelle dell’approccio quantitativo ma le diverse fasi sono reversibili e iterative cioè legate reciprocamente tra loro in una relazione di tipo circolare.
L'intento è essere sistematici ma non rigidi perché categorie e variabili guidano lo studio ma possono emergerne altre durante lo studio. L'analisi del contenuto etnografica è in costante scoperta e One in secondo piano gli aspetti del conteggio della misurazione per concentrarsi sulla comprensione dei significati che gli attori sociali attribuiscono ai testi, su utilizzi pratici e sulle narrazioni culturali che emergono da essi.
5.2 Software per l'analisi del contenuto
Esistono due principali tipi di software:
• Software for semi-automatic analisys of texts (SSAAT): sono più utilizzati nel caso dell'analisi qualitativa perché utili per esplorare lunghi testi i cui temi non sono conosciuti da ricercatore, ad esempio, una vasta raccolta di articoli di giornale selezionati casualmente. Eseguono automaticamente operazioni statistiche come l'analisi delle co-occorrenze o occorrenze.
• Computer-aided qualitative data analisys software: indicati per le analisi etnograficche perché agevolano la navigazione di testi più brevi con temi già conosciuti, consentono di accelerare le operazioni di etichettatura.
5.3 Combinare analisi del contenuto e metodi digitali
Vogliamo illustrare le modalità di applicazione dell'analisi del testo all'esplorazione qualitativa dei testi digitali. La possibilità di coniugare analisi del testo e metodi digitali consente di ripensare le affordance come device che influenzano la produzione di contenuti e come metodi nativi digitali attraverso i quali analizzare gli stessi contenuti. L'analisi del contenuto combinate metodi digitali presenta due caratteristiche:
• Trae vantaggio dai tool digitali al fine di estrarre automaticamente dati testuali dalle piattaforme organizzare i dati in dataset strutturali (es Excel) ma permette anche di effettuare operazioni basiche di data management.
• Consente ai ricercatori di sfruttare i metadati trasformandoli in risorse metodologiche utili a campionare i dati testuali e a definire le categorie di codifica.
5.4 L'analisi del contenuto nell era dei big data
I big data sono una grande massa di testi interconnessi continuamente prodotta e riprodotta da attori umani e non umani. Questa mole è accessibile ricercatore grazie a software che raccolgono dati da pagine web o che interrogano le API delle piattaforme. Emergono nuove sfide per la disciplina dell’analisi del contenuto come la difficoltà di gestire una grande quantità di dati e la capacità di sfruttare i metodi digitali e le loro analitiche.
Zamith e Hermida (2013) propongono un approccio per far fronte a questa sfida basato sui metodi digitali e sviluppato nell'ambito del digital journalism (motivo per cui gli autori si concentrarono su Twitter: news medium per eccellenza). I dati di Twitter sono facilmente accessibili e processabili grazie alla loro struttura semplice di soli 280 caratteri combinati una serie limitata di funzioni. Bisogna però implementare un approccio ibrido di analisi del contenuto che unisca metodi computazionali e manuali così gli autori suggeriscono che le funzioni strutturali dei nuovi media devono essere sottoposte all’analisi algoritmica mentre contesti socioculturali necessitano l'attenzione dei metodi manuali (ibid).
I metodi computazionali sono promettenti per la codifica del contenuto manifesto e metodi manuali sono superiori per la codifica del contenuto latente.
Lewis e colleghi sviluppano un progetto di ricerca ad hoc finalizzato ad analizzare l'attività di Twitter di Andy Carvin, giornalista che ha avuto un ruolo centrale nella copertura online della primavera araba nel 2011. L' intento è quello di studiare le pratiche di acquisizione delle fonti giornalistiche da parte di Andy al fine di documentare l'eventuale evoluzione di tali pratiche all'interno di un ambiente digitale.
La procedura adottata per l'esecuzione del progetto: i ricercatori hanno sviluppato uno script con il linguaggio di programmazione Python interrogasse le api di Twitter e raccogliesse i tweet generali di Andy banco hanno ottenuto un primo dataset di tweet incrociato con un secondo dataset fornito direttamente da Carvin che aveva richiesto ottenuto da Twitter la lista di tweet da lui pubblicati nel periodo di interesse.
Dopo aver organizzato i dati in un foglio Excel gli autori si sono occupati della campionatura dei dati attraverso procedure di natively digital hanno cioè estratto un campione di tweet non in maniera probabilistica ma sfruttando i metadati contenuti nel dataset. Hanno selezionato tutti i tweet generati durante il periodo della primavera araba e a partire da questo campione hanno generato nuovi dataset usando un secondo script di Python programmato per identificare e separare i tweet contenenti il simbolo RT da tutti gli altri ( i primi sono broadcast message e secondi engagement massage).
Per ottenere un campione di dati da sottoporre all' analisi manuale hanno deciso di codificare i profili che costituivano almeno lo 0,09% delle fonti retweettate e il 0,25% delle fonti non retweettate ottenendo così un campione finale di 330 fonti. Gli autori hanno dimostrato che attraverso l'applicazione di procedure computazionale è possibile ottenere in breve tempo e con pochi click un output.
Le 330 fondi sono stati sottoposti allo scrutinio di analisi umane con l'incarico di codificare manualmente i vari profili Twitter per distinguere fonti mainstream da fonti alternative attraverso un approccio etnografico che prevede la valutazione delle fonti sulla base dell'analisi delle bio di Twitter e dei link in esse riportate. Questo studio ha messo in luce le nuove pratiche di acquisizione delle fonti del giornalismo contemporaneo evidenziando la tendenza del giornalista a sostenere con continuità attori esterni al circolo dell'élite dell'informazione dando spazio a visibilità e voci alternative. Le tecniche di seguito illustrate sono replicabili con dati raccolti da tutti i social media.
5.5 Mappare il discorso vegano su Twitter
Per esaminare come le tecniche di analisi del contenuto possono essere combinate metodi digitali consideriamo un dataset di tweet sul veganesimo. Abbiamo scelto di raccogliere analizzare questi dati in modo esplorativo e descrittivo senza specifiche domande di ricerca.
5.5.1 La raccolta dei dati
L'obiettivo è quello di mappare il macro-discorso del veganesimo su Twitter. Occorre raccogliere dati che rispondono a questo obiettivo. Grazie uno script in linguaggio Python sviluppato ad hoc siamo stati in grado di estrarre da Twitter un data set di 6593 tweet contenenti l'#vegan.
5.5.2 Il campionamento
6593 Twitter non sono dei big data ma è comunque troppo vasto per l'analisi manuale qualitativa e la natura qualitativa del progetto ci impedisce di ricorrere a tecniche di campionamento casuale quindi sfrutteremo i metadati per costruire un campione di dati socialmente rilevanti attraverso procedure di campionamento automatico. Per semplificare prendere in considerazione solo tre tipi di metadati caratteristici di Twitter:
• Data e ora: informazioni utili per identificare i picchi di attività degli utenti. Gli eventi esogeni a Twitter sono quelli che innescano una maggior partecipazione. Lanciando uno script ad hoc che conteggia il numero di tweet pubblicati per giorno abbiamo rilevato un'elevata concentrazione il 19 novembre ma nessun evento particolare ha catalizzato l'attenzione degli utenti, il picco di attività è dato dall'altra ricorrenza di tweet contenenti l#farm365 una comunità vegana su Facebook.
• Menzioni: individuare e seguire le menzioni () permette di costruire campioni di messaggi derivanti da conversazioni dirette tra utenti. Questa strategia consente di studiare i processi attraverso i quali gli utenti discutono. Nel nostro studio elaboriamo uno script di Python per la selezione delle menzioni. A Abbiamo ottenuto un campione di 885 messaggi poco numeroso è adatto per l'analisi qualitativa in profondità.
• Retweet: isolando i retweet otteniamo un campione dei messaggi che gli utenti fanno circolare maggiormente sul social e che considerano quindi più rilevanti. Abbiamo tenuto un campione di 1467 messaggi che abbiamo ridotto a 129 selezionando i tweet con almeno 5 retweet, una numerosità che consente l'analisi manuale dei dati e garantisce la copertura di opinioni sia centrali che marginali.
5.5.3 L'analisi dei dati
Una volta ottenuto un campione significativo possiamo procedere per investigare ai contenuti manifesti che quelli latenti ricorrendo a diversi tipi di analisi del contenuto. Illustriamo tre tecniche utili per mutuare l'immaginario che circonda un oggetto in un determinato ambiente digitale:
• L'analisi del sentiment: misura l'atteggiamento emotivo espresso da un testo digitale nei confronti di un dato oggetto (es prodotto, marchio, tema, personaggio...). Le tre categorie principali sono positivo, negativo e neutrale. Questa analisi può essere eseguita sia automaticamente sia manualmente e si basa su due principali approcci:
dictionary-based (il codificatore algoritmico individua il sentiment sulla base di un vocabolario precompilato di parole classificate come positive, negative o neutrali) e machine-learning (si basa sul lavoro di codificatori umani che classificano manualmente testi come positivi, negativi o neutrali per poi addestrare l'algoritmo a riconoscere il sentiment di un testo).
In generale analisi automatica del sentiment è efficace per elaborare grandi test tuttavia tale tecnica si dimostra deficitaria sul piano dell'esame dei contenuti latenti, come l'ironia o le intenzioni comunicative. L'analisi manuale del sentiment non è applicabile a grandi serie di testi ma efficace per la comprensione del contenuto latente e per la ricostruzione del contesto.
Attraverso l'analisi del sentiment manuale al nostro #vegean abbiamo notato l'assenza di tweet critici, l'# attrae una formazione sociale omogenea e informazioni positive. Perciò abbiamo deciso di concentrare l'analisi sull'umore generale trasmesso dei tweet, piuttosto che sull’atteggiamento verso l'#. Abbiamo osservato che determinati argomenti catalizzano un sentimento negativo (i tweet che parlano dei diritti degli animali) altri ne scatenano uno positivo (tweet che parlano di ricette).
Il negativo installa repulsioni mentre il positivo mira ad attrarre nuovo pubblico verso lo stile di vita vegano. Abbiamo anche una significativa percentuale di tweet neutrali (contenuti mediatici sulla cultura vegana) ma nonostante il loro tono neutrale esercitano una funzione positiva.
L'analisi manuale del sentiment consiste nel ponderarlo in base alla reputazione degli utenti che producono il messaggio. La posizione dell’utente che genera il tweet influenza il sentiment del tweet stesso (i tweet fatti da un marchio di fast food hanno una minore centralità affettiva nella comunità se paragonati alla pornostar vegano la quale ha un impatto culturale inferiore rispetto all'attivista vegana).
La ponderazione quantitativa del sentiment può basarsi ad esempio sul numero di follower dell'utente mentre quella qualitativa può tener conto del ruolo che un utente ricopre nella rete. È buona pratica combinare parametri di ponderazione quantitativi e qualitativi.
• L'analisi del topic: individuare i temi ricorrenti in una serie di tecniche digitali. Può essere seguita sia da codificatori algoritmici che umani. L'individuazione automatica è più complessa perché la dimensione dei temi è molto sensibile al contesto e quindi difficilmente gestibile dagli algoritmi.
L'analisi manuale del topic è più indicata per la ricerca qualitativa perché può beneficiare dei metadati semantici come gli # che possono essere oggetto di ricerca e metodi analitici.
Pratiche di analisi manuale dei topic: attraverso uno script Python ad hoc abbiamo estratto e conteggiato tutti gli # contenuti nel nostro dataset di tweet (24111 #, 2982 # unici classificati in ordine decrescente in base alla loro ricorrenza. Il ricercatore può servirsi dell'elenco per interpretare i temi principali che compongono il macro-discorso sul veganismo.
Abbiamo raggruppato gli # in base alla loro affinità semantica identificando 9 argomenti principali: emozioni, copertura mediatica non si regola alimentazione, salute, politica, animali, ambiente, meta # e altro.
un modo più complesso per applicare l'analisi dei topic a un dataset di tweet consiste nell analisi dei co #: misurare le associazioni semantiche tra # che appaiono in uno stesso tweet invece di contare le loro occorrenze.
Nel nostro caso di studio abbiamo sviluppato l'analisi di co # attraverso uno script Python per rilevare la compresenza di asta che nei tweet fornire la rete di queste associazioni. Una volta ottenuta la rete l'abbiamo importata nel programma Gephi attraverso l'algoritmo di community detection che consente l'identificazione dei sottogruppi di nodi più densi e meno densi. L'algoritmo ha convertito la rete di #insieme di 41 cluster di questi solo quattro racchiudono una percentuale significativa di #.
Abbiamo identifichiamo così quattro dimensioni semantiche principali: salute, politica e media, edonismo e emozioni. anche in questo caso l'analisi risulta tuttavia superficiale perché non permette di identificare i temi specifici che compongono il macro-discorso vegano. Occorre implementare un'analisi più approfondita.
Siamo dunque tornati al campione di retweet abbiamo esaminato i testi dei tweet per identificare le categorie che definiscono gli argomenti principali del macro-discorso. Il processo di costruzione delle categorie è stato guidato da risultati precedenti che ci hanno fornito i temi più ricorrenti nel discorso vegano, abbiamo così ottenuto 36 argomenti molto specifici raggruppandoli in 8 macro-argomenti (animali: informazioni a generare empatia verso gli animali. Media: condividono contenuti multimediali come documentari, divulgano la cultura vegana autentica.
Alimentazione: mirano a diffondere ricette vegane svirgola stuzzicano l'appetito. Attivismo: divulgare le attività politiche nel movimento vegano come eventi o petizioni. Consumo: informazioni sulle abitudini di consumo dei vegani. Salute: l'impatto positivo sulla salute del regime dietetico vegano. Ambiente: impatto positivo del regime alimentare vegano sull ambiente. Altro: difficile classificazione) che ci hanno permesso di comunicare al lettore i temi ricorrenti e le strategie comunicative degli utenti che riproducono.
I risultati di questo tipo di analisi sono più approfonditi accurati perché abbiamo identificato con maggior precisione i contenuti e le strategie.
5.5.4 L’analisi delle narrazioni
Questa tipologia di analisi del contenuto mira a esplorare quei tweet gli utenti usano come self expression per promuovere una determinata rappresentazione del sé ho una particolare visione del mondo. E un'analisi quali quantitativa simile all' analisi del discorso che si concreta sulle rappresentazioni culturali veicolate dai testi e indaga le rappresentazioni culturali del veganismo che gli utenti hanno trasmesso utilizzando #vegan.
Abbiamo catalogato i tweet dividendoli tra:
• Informativi: messaggi che condividono link di blog o articoli di cultura vegana.
• Narrativi: gli utenti fanno delle micronarrazioni attraverso testo, link o foto sulla loro esperienza vegana. Mira a trasmettere una rappresentazione dell'identità vegana autentica.
L’analisi ha evidenziato la presenza di alcuni pattern ricorrenti nelle strategie di self-expression attraverso le quali cercano di legittimare il loro stile di vita di fronte a un pubblico visibile. Una strategia frequente è quella di mostrare disgusto nei confronti del consumo di carne o delle persone che la mangiano o anche quella di mostrarsi amanti degli animali, sono molto ricorrenti anche foto di piatti vegani consumati in circostanze allegre. I vegani mostrano anche l'impatto positivo del loro regime alimentare non solo sull’organismo ma anche per il bene del pianeta.
5.5.5 Interpretazione dei dati
Essere vegani non riguarda semplicemente l'adesione a un certo regime alimentare perché la cultura vegana è un sistema olistico che comprende diverse dimensioni in equilibrio. Il vegano autentico non può salvaguardare i diritti degli animali semplicemente astenendosi dal mangiare carne deve impegnarsi attivamente nell’attività politica come eventi e campagne.
. Non solo per trarne benefici personali ma anche collettivi promuovendo un regime alimentare che limita la deforestazione lo spreco idrico. Lo stile di vita vegano va oltre il consumo di cibo, essere vegani significa appartenere a una comunità felice composta da persone che amano cibo gustoso e colorato feste e vita sociale. In conclusione gli utenti che twittano con #vegan tendono a costruire un immaginario culturale eticamente sostanziale e socialmente attraente.
5.6 In sintesi
Abbiamo illustrato l'applicazione pratica di un approccio di analisi del contenuto combinata ai metodi digitali. Approccio che può essere efficacemente impiegato per lo studio dei processi culturali dispiegati sui social media e per la mappatura degli immaginari culturali. Le procedure computazionali sono più adatte per le caratteristiche strutturali dei media mentre le procedure manuali sono utili per esplorare i contesti socioculturali degli ambienti digitali.
Implementare un approccio native digital per investigare il contenuto significa sfruttare i metadati dei testi digitali estratti dalle piattaforme digitali mediante tecniche di scraping o interrogazioni delle API. I metadati sono risorse sia per il campionamento dei dati sia per la costruzione delle categorie.
Tre principali tecniche qualitative:
• L'analisi manuale del sentiment: determina se un testo valuta un tema positivamente o negativamente e comprende le ragioni di tale valutazione all'interno di una data rete.
• L'analisi manuale dei topi che rileva i temi principali e ricorrenti sfruttando i campioni ad hoc costruiti attraverso metadati specifici (retweet) e metadati semantici e come # per la costruzione delle categorie.
• L'analisi delle narrazioni: consente di indagare testi che gli utenti utilizzano come mezzo di self-expression. Attraverso la combinazione di queste tecniche il ricercatore fa emergere la rete di significati dei macro-discorsi intorno un dato oggetto e interpreta le culture emergenti degli ambienti digitali.
Capitolo sei conclusione:
situare i metodi digitali I metodi per condurre una ricerca evolvono ogni giorno e il ricercatore è chiamato a restare sempre attento alle novità che emergono da un punto di vista tecnologico ma anche epistemologico perché il contesto è dinamico e vivace. È importante tenere presente a quali tipi di conoscenza i dati digitali danno accesso e cose è possibile o non è possibile fare con essi.
I metodi digitali offrono opzioni precedentemente inaccessibili ai ricercatori e permettono di materializzare e visualizzare le forme di socialità e di produzione culturale di costruzione dell'identità e di relazione con la tecnologia di cui i media digitali sono il campo di ricerca. La dimensione teorica e quella empirico pratica sono imprescindibilmente legate nell’analisi del dato digitale che non sostituisce la teoria ma ne fa da complemento e supporto.