Please enable JavaScript.
Coggle requires JavaScript to display documents.
metodi digitali 3 - Coggle Diagram
metodi digitali 3
3.1.1 Quali fenomeni possiamo dunque indagare attraverso la ricerca digitale?
È necessario affrontare la classificazione delle unità di analisi della ricerca digitale. Fare ricerca attraverso i dati digitali significa condurre analisi post-demografiche cioè che non tengono conto delle caratteristiche demografiche tradizionali. Il singolo utente non è l'unità di analisi della ricerca digitale, è considerato parte di aggregati sociali non riconducibili a categorie sociodemografiche ma ad attività (es. gli utenti che commentano una determinata pagina).
Quello che la ricerca digitale ci permette di osservare sono le attività tra utente e device. Gli ambienti digitali non sono una finestra sui comportamenti individuali ma sono un punto di osservazione delle attività di comunicazione. Possiamo cogliere la cultura condivisa dagli utenti rispetto a fenomeni sociali diversi: dalla cultura di consumo alla cultura politica, dalle pratiche di produzione peer-topeer alle strategie di comunicazione in risposta agli algoritmi.
3.2 La formulazione della domanda di ricerca
Come formulare una domanda di ricerca adeguata per un progetto di ricerca digitale?
La domanda può seguire un approccio:
• Data driven: si sviluppa a partire dal modo in cui i dati digitali vengono naturalmente organizzati, i risultati emergono dall' osservazione e dalla descrizione delle modalità attraverso le quali le affordance organizzano e fanno circolare i testi digitali (es. Twitter funziona più come un social network o un news media?, in che modo l'algoritmo di youtube seleziona i contenuti presenti nella home page?
• Theory driven: Il ricercatore parte da un assunto o un problema teorico che in seguito traduce in una specifica domanda a cui rispondere interrogando i dati digitali. Partendo da una teoria i dati digitali vengono usati come banco di prova empirico (es. Rogers (2009) si domanda se lo scetticismo nei confronti del cambiamento climatico è un discorso centrale o periferico. I risultati restituiti da Google in relazione a query compilate usando nomi di famosi scettici si posizionavano a livelli molto bassi della SERP = perifericità dello scetticismo.
3.3 Selezione delle fonti delle keyword
Dopo aver formulato la domanda di ricerca c'è la fase della sua operativizazzione = identificare gli specifici dati che corrispondono al fenomeno che si vuole indagare e che permettono di rispondere alla domanda. Questa fase comprende due passaggi la selezione delle fonti e la selezione delle key word.
Tutto questo porta a circoscrivere il campo digitale di indagine (es. un forum, le foto di Instagram che contengono un determinato #…); scegliere quali keyword definiscono il fenomeno di interesse per metà ricercatore di seguire l'oggetto di studio attraverso le piattaforme digitali. Entrambe le attività di selezione derivano:
• Da decisioni a priori del ricercatore
• Dalle affordance dei social che agiscono sia come limite che come fonte metodologica per cogliere dati digitali che ci interessano (es. esplorazione dei risultati di Twitter dati dalla ricerca della keyword #csr interrogando l'attività degli influencers oppure integrare #più usati nei twitt insieme a #csr.
Individuare il contesto digitale da osservare significa confrontarsi con l'adeguatezza delle tracce digitali in relazione al nostro oggetto di studio. Occorre chiedersi in che misura il fenomeno di interesse si dispiega sulla/ sulle piattaforme o è definito dalla/ dalle keyword.
Diversamente dai metodi tradizionali dove un errore è difficilmente rimediabile i metodi digitali offrono piu flessibilita perché consentono di esplorare le fonti e fare analisi preliminari dei dati, tenendo aperto il riallineamento tra domanda di ricerca e individuazione del contesto appropriato.
La conoscenza dei contesti digitali è imprescindibile.
. Dobbiamo tenere conto degli effetti di omogeneità registro omogeneità delle piattaforme delle tracce digitali perché difficilmente uno stesso fenomeno si sviluppa nella stessa maniera su piattaforme diverse (ogni notizia un ciclo di vita diverso in base alla piattaforma).
3.4 Raccolta dei dati
Estrarre i dati dalle piattaforme in esame può essere fatto con due tecniche:
• Scraping: raccogliere dati dal codice HTML di una pagina
• Interrogazione delle API: sono richieste di dati che vengono fatte direttamente alle piattaforme attraverso un sistema di interfacce (API).
Entrambe le attività richiedono competenze di programmazione perché bisogna usare programmi sviluppati ad hoc attraverso linguaggi di programmazione quali Python o R. Tuttavia, esistono anche dei tool gratuiti.
Nella fase di download dei dati emergono due punti:
1) Definire l'arco temporale (ed eventualmente la provenienza geografica) che vogliamo indagare.
2) Tuttavia, ci sono ostacoli all'accessibilità di dati in funzione delle regole della piattaforma oppure dei tool. I dati digitali sono organizzati dalle piattaforme in database ricercabili attraverso i metadati. Questa pre-organizzazione consente la ricerca e diventa fonte metodologica. Quando si sviluppa un programma o si definiscono i contenuti HTML da scaricare occorre selezionare informazioni di nostro interesse e ristrutturarle in dataset che rispondono alle nostre esigenze analitiche.
Non bisogna dimenticare che le piattaforme hanno precise policy per la raccolta dei dati (alcuni disponibili solo a pagamento).
Per iniziare a muovere i primi passi Netlytic è un'ottima risorsa perché offre gratuitamente la possibilità di esplorare visualizzare in modo intuitivo dati pubblici provenienti da Facebook, Twitter, Instagram, YouTube. Il profilo gratuito permette 5 dataset con 10.000 record ciascuno.
3.5 Analisi dei dati
Introduciamo il lettore all'utilizzo di Netlytic offrendo una breve panoramica dell'analisi del contenuto e del network. Oltre alla possibilità di raccogliere dati questo software permette di scoprire argomenti popolari, esplorare le conversazioni online e analizzare i network di utenti che discutono di un tema.
Netlytic mette a nostra disposizione dati provenienti da diverse fonti, in questo caso, decidiamo di incentrare la nostra ricerca su Twitter
Accettiamo al sito dopo esserci registrati e aver collegato il nostro account personale Twitter nella sezione “my account”. Poi ci dirigiamo nella sezione crea un nuovo dataset, selezioniamo Twitter dalla lista di tool e iseriamo la keyword #madeinitaly. E clicchiamo “import”.
Il sito fornisce gratuitamente solo gli ultimi 1000 tweet contenenti la keyword, un campione troppo esiguo per consentire l'implementazione di un progetto rigoroso ma adeguato ai nostri scopi didattici.
Concluso il processo di raccolta dei dati troveremo il nostro nuovo dataset in elenco. Abbiamo dunque disposizione una matrice (o tabella casi per variabili) da sottoporre ad analisi. Avere immediatamente a disposizione tutti i tweet scaricati in un unico ordinato foglio Excel consente ai ricercatori di svolgere velocemente alcune analisi panoramiche.
3.6 Esplorazione del dataset
Prima di concentrarci sull’analisi del contenuto è buona pratica l'esplorazione del dataset per estrarre informazioni rilevanti per guidare le successive analisi e interpretarne i risultati al meglio. Osserviamo dunque le statistiche nella sezione “report”.
L'analisi dell'andamento temporale dei tweet permette di individuare i picchi discussione: utile sia sul piano metodologico, per orientare scelte di campionamento quando si gestiscono grandi dataset, sia sul piano conoscitivo, per comprendere quali eventi provocano un maggior coinvolgimento degli utenti come si struttura il dibattito su essi.
Il numero di utenti unici “unique posters” presenti nel dataset fornisce un dato sul coinvolgimento: più basso il rapporto tra utenti unici il numero di follower, più alta è la tendenza a pubblicare tweet su uno stesso argomento (nel nostro caso 749 utenti unici hanno pubblicato 1,3 tweet).
L'elenco dei 10 utenti più attivi consente di identificare gli account che ricoprono un ruolo centrale, consente anche di osservare se gli utenti forti nel discorso sono eterogenei e omogenei tra loro.
La geolocalizzazione è utile per identificare alcune tendenze, soprattutto quando maneggiamo grandi quantità di dati. Ma è un dato raramente disponibile: possiamo indagare il risultato della geolocalizzazione del testo considerato analizzando la lingua del testo.
3.8 Analisi dei network
L'ultimo punto di analisi attraverso Nelytic e quello dei network, per analizzarlo abbiamo a disposizione due tool:
1) “Name network”: ricostruisce la rete di interazioni tra utenti tramite mention, reply, retweet.
2) “Chain network”: ricostruisce la rete di interazioni tra utenti tramite reply, consentendoci di misurare i thread discussione tra di essi punto In entrambi i casi otteniamo due output: un file che ci consente di approfondire l'analisi con altri software (es. Gephi), e un'interfaccia di visualizzazione della rete navigabile da sito attraverso la quale possiamo esplorare gli utenti e i testi dei tweet attraverso i quali hanno interagito, possiamo anche personalizzare la visualizzazione della rete, dei nodi e dei loro legami (per nodi più grandi selezioniamo “indegree” per vedere i più attivi selezionando “outdegree”).
Possiamo anche interrogare metriche e informazioni su alcune proprietà di base della rete (ad esempio la modularity, un indice da sera uno che misura la tendenza della rete scomporsi in cluster). Una volta terminata l'analisi delle reti Netlytic aggiorna automaticamente la sezione “report”.
Attraverso l'analisi delle reti si possono notare le caratteristiche del gruppo di utenti che partecipano al discorso: aggiorna gli utenti influenti emergono cluster interazioni numerosi.
3.9 Interpretazione dei risultati
Terminata l'analisi dei dati bisogna comparare i risultati ottenuti per rispondere alle nostre domande di ricerca: il made in Italy è associato principalmente al settore della moda l' #madeinItaly è uno strumento per veicolare il valore della qualità. L'analisi dei contenuti rileva la presenza di narrazioni legate al senso di appartenenza l'identità italiana in questa narrazione giocano un ruolo fondamentale account istituzionali che alimentano il dibattito che oscilla tra i temi dell ‘nnovazione e della tradizione.
3.10 In sintesi
Abbiamo visto le principali fasi del disegno della ricerca proponendo strategie, tecniche e tool utili. Il disegno di ricerca digitale si compone in sei fasi:
1) Domanda di ricerca
2) Selezione delle fonti
3) Selezione delle keyword
4) Raccolta dei dati digitali
5) Analisi dei dati digitali
6) Interpretazione dei risultati
Prima di partire con la domanda di ricerca è bene che il ricercatore sia consapevole dei limiti dei dati e degli ambienti digitali. A tal proposito abbiamo introdotti concetti di esaustività dei dati e di non neutralità dell’ambiente digitale. La formulazione della domanda può seguire due approcci: data driven e theory driven i quali possono anche essere combinati a seconda delle necessità.
Una domanda di ricerca appropriata consente di identificare subito le fonti più appropriate e le parole chiavi più efficaci con cui indagare e poi rispondere.
Nelytic è un tool user-friendly che raccoglie dati da diverse fonti. Permette di svolgere tre tipi di analisi: mappatura generale del database, content analisys, network analysis.
Questo programma è un co ricercatore non umano che sostiene il ricercatore umano nell interpretazione dei dati digitali che consiste nell’identificazione di legami tra i singoli risultati emersi.
3.7 Analisi del testo
L'analisi del testo nel campione di tweet: Netlytic propone due tool:
• Keyword extractor: misura la frequenza delle parole nel corpus dei tweet e analizza le biografie dei profili. Con questa funzione otteniamo tre tipi di output: un file con l'elenco delle parole contenute nei tweet, una nuvola di parole (wordcloud).
• Manual categories: permette di creare manualmente delle categorie e di inserire una serie di parole che identificano quella categoria, il tool categorizzerà i tweet sulla base della presenza del testo delle parole inserite fornendo aree tematiche che compongono un macro-discorso. Netlytic facilita questa procedura consentendoci di creare le categorie cliccando direttamente sulle singole parole della wordcloud. Possiamo importare parole già classificate ad esempio parole positive negative per indagare i sentiment di un tweet. Con questa funzione otteniamo due tipi di output: un file con l'elenco delle categorie ordinate secondo il numero di tweet, una visualizzazione (treemap) che illustra il peso di ciascuna categoria nel discorso.
Attraverso questa categorizzazione rileviamo la salienza dei discorsi, ad esempio, sulla moda nel flusso del macro-discorso del #madeinitay. Navigando la treemap possiamo implementare un'analisi qualitativa del testo. In questo modo è possibile identificare e confrontare le diverse narrazioni sull #madeinitaly (abbiamo trovato le categorie: fashion, design, food, economia innovazione e la cultura).
Capitolo quattro: l'analisi delle reti
In sociologia la disciplina che si concentra sullo studio delle reti sociali è la social network analysis (sna). Precede l'esistenza di internet di quasi un secolo, è utilizzata fin dagli anni 30 del 900 ed è al centro di importanti studi sociologici del ventesimo secolo come la teoria degli small worlds di Milgram (1967) che ha indagato l'esistenza di 6 separazione, e la teoria dei legami deboli di Granovetter (1973) che ha studiato con approccio relazionale l'importanza delle relazioni sociali. La social network Analysis ha trovato il suo principale campo nello studio del capitale sociale a cavallo tra gli anni 80 e 90.
Con la diffusione di internet ha trovato rinnovata popolarità in particolare grazie al lavoro di Wellman teorico del networked individuamislm (individualismo di rete) che descrive la dimensione di prossimità e di temporalità dell’agire sociale. Grazie ai social media e alla loro dimensione la social network analysis ha trovato nuova rilevanza..
4.1 Approcci digitali all’analisi delle reti
La social network analysis consente di studiare le relazioni che esistono tra gli attori sociali in un contesto. Possiamo indagare in che modo la posizione di un attore porta benefici o svantaggi agli attori coinvolti, oppure quali tipi di dinamiche sociali si creano: sinergia o antagonismo.
L'unità dell'analisi delle social network analysis è la relazione sociale (invece che altre variabili tipiche degli approcci qualitativi e quantitativi come il genere l'età e l'istruzione che nelle social network Analysis vengono considerati come attributi o proprietà). La social network Analysis considerano gli attori sociali nodi di una rete.
Una caratteristica dei legami è la possibilità di indicare o non indicare la direzione della relazione (il legame può essere undirected tie oppure directed tie).
È anche possibile che questi questi legami siano reciprocati. Le relazioni tra nodi possono essere anche pesate attraverso paramentri come durata del legame, intensità o importanza; Visualizzati attraverso una linea (più o meno spessa) il cui spessore riflette il valore del parametro. La visualizzazione di una rete sociale con più nodi e legami è definita grafo o socio gramma.
Fra le analisi che la social network analysis permette la più frequente è quella di calcolare e visualizzare la centralità degli attori sociali di una rete utilizzando le “misure di centralità” che indicano le specifiche proprietà di un attore che può essere più o meno centrale nella rete, le più comuni sono:
• La degree centrality: considera il numero di legami che transita complessivamente da e/o per un nodo. Questa è composta da due aspetti: l’in-degree che indica il numero di legami che un certo nodo riceve, l’out-degree che indica il numero dei legami che partono da un nodo verso un altro (es. C in-degree = 1 e out-degree = 3, il nodo B è più rilevante perché ha in-degree 2). L'in-degree è la principale misura per l'analisi della reputazione dei singoli nodi in una rete. La degree centrality indica il possesso di capitale sociale in una rete, un indicatore più generale di influenze.
• La closeness centrality: indica il percorso minimo che porta da un nodo all'altro, infatti, è nota anche come distanza minima. Uno dei più centrali sono quelli che hanno la capacità di distribuire un'informazione in maniera più ampia.
• La betweenness centrality: indica la capacità di un nodo di trovarsi nel percorso più corto tra un nodo e l'altro risultando un intermediario nella rete di relazioni.
• La eigenvector centrality: calcola quanto più nodo è collegato a nodi a loro volta centrali nella rete (si è più influenti se si è collegati a nodi a loro volta più influenti).
4.2 Visualizzare le reti digitali
Nasce come una tecnica quantitativa ma nel momento in cui viene integrata nei metodi digitali diventa un approccio quali quantitativo perché affianca alla quantificazione numerica dei dati relazionali una dimensione più qualitativa di osservazione semantica e di visualizzazione intuitiva delle relazioni tra utenti o tramite dati e delle loro proprietà.
Questo tipo di analisi può essere applicato allo studio delle relazioni tra individui ma anche alle relazioni tra attori sociali umani e non umani. L'evoluzione digitale delle social network analysis tradizionali permette di rappresentare le reti in maniera grafica, dinamica e gradevole attraverso editor di elaborazione grafica. Il software più utilizzato è Gephi: un'applicazione open source che permette di elaborare i grafici di reti a partire da dati di formato .csv; Gephi permette di condurre vari tipi di analisi tra cui le misure di centralità, il clustering e la densità della rete attraverso un'interfaccia grafica che rende gradevole la visualizzazione utilizzando algoritmi dedicati.
Ci sono due tipi di analisi di rete che si possono attuare quando abbiamo un dataset e relazionale (digitale o non):
• In linea teorica può essere effettuata l'analisi dell'intera rete sociale: però ci ragioni di riferimento dei dati però ciò non è possibile punto
• Il modo più accessibile per mappare reti sociali consiste nell’analisi di reti personali, note anche come ego networks: reti generate a partire da legami di un singolo nodo o attore sociale (es. Per studiare le relazioni tra i follower di un determinato profilo).
Caso di studio: così come i profili anche le pagine sono connesse tra loro attraverso i like che ogni pagina mette ad altre pagine. Indagare le reti di like tra pagine è molto utile per mappare immaginari culturali esistenti in un dato contesto ed è molto semplice perché le pagine su Facebook sono pubbliche quindi non presentano limiti di accesso o privacy.
Nel nostro caso di studio abbiamo indagato immaginario culturale indie in Italia. Abbiamo scelto come punto di partenza la pagina di Calcutta abbiamo deciso di studiare la rete di like a partire da questa pagina. Il tool principale per lo scraping diretti su Facebook è Netvizz. Accediamo alla piattaforma utilizzando l’id della pagina di riferimento, lanciamo poi uno scraping con profondità = 1, che ci permette di mappare non solo le pagine a cui la pagina di Calcutta ha messo like, ma ottenere anche una rete di like di secondo livello. Importando i dati raccolti in Gephi otterremo un dataset costituito di 212 nodi.
Caso di studio: abbiamo mappato la rete di canali youtube a partire dalla search query “Brexit”. intento era capire quali sono i principali influencer su youtube intorno a questo topic. Utilizzando il tool “Channel network” e fa parte della suite di youtube data tools Sono risultati 119 canali connessi tra loro come featured channels attraverso 590 legami (abbiamo mantenuto le interazioni a tre e la profondità a uno).
La figura qua sotto mostra i legami fra i diversi nodi con visualizzazione realizzata sulla base del numero di subscribers ( più grande il nodo, maggiore è il numero di subscribers).
In quest'altra figura (sotto) invece notiamo come a diversa misura di centralità possa corrisponde una diversa visualizzazione una differenza a livello di analisi. La rete ottenuta a partire dai medesimi dati mostra le relazioni tra i canali secondo degree centrality. La dimensione dei nodi indica un maggior valore di centralità.
In quest’altra visualizzazione (sotto) notiamo come la rilevanza di alcuni nodi diminuisca mentre risultano esserne più centrali altri come attori istituzionali e alcune figure pubbliche. Da notare l'incremento di centralità di Viceland prima quasi assente. Questo indica un'importanza maggiore di questo canale oltre al semplice valore di in-degree perché l’eigenvector centrality è una misura dedicata all'influenza. La centralità di questo canale emerge in tutta chiarezza confermando il suo ruolo di influencer nel discorso attorno al Brexit su YouTube.
Caso di studio: il #Naturalwine Su Twitter l'analisi di reti digitali permette di indagare non solamente topic di rilevanza internazionale ma anche subculture i fenomeni di nicchia. La figura (sotto) mostra la rete ottenuta da questa raccolta dati costituita da 191 di 200 legami. La visualizzazione ci restituisce un contesto molto frammentato l'analisi non è ovviamente rappresentativa, ma può fornire insight iniziali per proseguire l'analisi attraverso metodi digitali oppure tradizionali ad esempio intervistando.
I nodi sono aggregati per gruppi attraverso la misura chiamata modularità che permette di condurre un altro tipo di analisi semplice ma importante cioè il clustering: visualizzare gruppi di nodi tra loro simili sulla base di determinate proprietà. Il clustering si calcola attraverso un coefficiente che tiene conto delle connessioni complete fra tre nodi (cliques) e ogni nodo possiede. Questo approccio riflettere la densità della rete in particolare dei sottogruppi, dei cluster appunto. La modularità è una misura utile alla community detection cioè all'identificazione dei cluster di interazione comunitaria a seconda dell'oggetto di studio e della domanda di ricerca.
4.3 Le reti semantiche
Non solo i profili individuali o le pagine possono essere sottoposte a social network Analysis. Anche gli #possono essere trattati come noti di una rete per indagare le associazioni semantiche tra essi. Questo avviene attraverso una co-hashtag analysis che determina cluster o gruppi di # visualizzandoli attraverso colori diversi. Questa strategia è molto utile per far emergere le varie sfaccettature di un immaginario culturale a partire da un campione di dati relazionali.
Nell'esempio qua sotto è stata effettuata una raccolta dati dei 1000 post più recenti contenenti l'#ikeaitalia utilizzando uno script ad hoc chiamato “instagram scaper” . L'obiettivo era di indagare quali sono le principali dimensioni culturali che caratterizzano il brand Ikea su Instagram (con un focus sull'Italia).
Se inseriamo i dati ottenuti nell applicazione Gephi eri sottoponiamo a clustering Analysis otterremo 7 cluster principali:
• Home
• Family
• Pets
• Food
• Experience (# che si riferiscono a particolari eventi o a stati d'animo es #christmastime #feliceadesso)
• Fotography
• Meta (# che hanno funzione di socialità es #followforfollow)
Ma possiamo anche indagare immaginari culturali più ampi. Possiamo ad esempio studiare l'immaginario culturale attorno al concetto di nostalgia su Tumblr Utilizzando un tool ad hoc chiamato “tumblrtool” andando a raccogliere tutti i post marcati con l'#nostalgia = 1990 ordinati in un file .csv poi importato su Gephi. Raggruppiamo i tag simili attraverso la misura di modularità. Otterremo così due cluster principali uno più ampio di tipo sub culturale che contiene le sfumature del discorso nostalgico (#retro #90s) e uno più piccolo costituito da illustrazioni e artisti grafici.
Se ci concentriamo sulla grandezza dei nodi pesata per degree nel cluster più ampio emergono insight interessanti (es. #90s indica che probabilmente il campione di utenti è piuttosto giovane.
Studiare i recommender systems: una caratteristica sempre più frequente che contraddistingue le piattaforme di consumo di oggetti culturali come YouTube Spotify sono gli algoritmi di raccomandazione.
Per studiare i pattern di contenuti correlati esiste una varietà di ready-made tool che campionano reti di video canzoni tra loro correlati (es. Spotify artists network disponible su lbs.polsys.net. Qui abbiamo analizzato la rete di artisti correlati Calcutta su Spotify e notiamo come alcuni nodi sono punti di contiguità tra due generi indicano quali artisti fanno danno di collegamento tra so culture musicali.
4.4 In sintesi
Lo strumento della visualizzazione rappresenta un aspetto fondamentale di questa analisi ed è un elemento di distinzione con la social network analysis tradizionale perché è l'analisi di reti digitali è in grado di sfruttare la dimensione estetica come supporto allo studio qualitativo delle reti. Non solo individui o profili possono essere oggetto di social network analysis ma anche metadati come # o attori non umani come algoritmi di raccomandazione punto