Please enable JavaScript.

Coggle requires JavaScript to display documents.

lez. 36 - La regressione semplice: teoria - Coggle Diagram

- - - - possiamo esprimere numericamente quanto la variazione di una variabile sia associata alla variazione dell’altra
      - questo passaggio ci consente una valutazione quantitativa
  - - - variabile dipendente (VD)
        
        La variabile dipendente
        rappresenta il fenomeno che vogliamo spiegare o prevedere
      - variabile indipendente (VI)
        
        è il fattore
        che noi siamo in grado di influenzare
  - - - fornendo uno strumento potente sia per la ricerca
        scientifica sia per le applicazioni pratiche.
  - - - variabile indipendente (VI)
      - variabile dipendente (VD)
      - regressione semplice si differenzia dalla regressione multipla, nella quale il modello considera contemporaneamente più variabili indipendenti
  - - - due variabili molto semplici e intuitive:
        
        variabile indipendente rappresenta il numero di birre consumate
        
        la variabile dipendente corrisponde al numero di sorrisi osservati
        
        L'idea
        
        esplorare se e in che misura la quantità di birre bevute possa influenzare o prevedere il numero di sorrisi, assumendo che un maggiore consumo possa portare a un aumento dell’allegria espressa con il sorriso.
    - - dove ŷi è la stima del valore atteso.
      - a è definita come intercetta, o coefficiente costante, ed è il valore che assume la variabile dipendente (VD) y quando la variabile indipendente (VI) x è fissata al valore 0.
      - ŷi = a + byx · xi
      - byx è il coefficiente angolare (o di regressione) e ci dice di quanto varia la VD y al variare di una unità della VI
- - - - rappresenta il valore previsto della variabile dipendente
      - è espressa nella stessa unità di misura della VD
      - non misura la forza della relazione tra le variabili
    - - dipende dal punto zero scelto per la scala della VI
      - se cambia la scala della VI, cambia anche l’intercetta
      - la relazione complessiva tra le variabili rimane invariata
    - - aggiungere una costante alla VI modifica l’intercetta
      - la retta intercetta l’asse della VD in un punto diverso
      - la pendenza non cambia
    - - equazione: y = a + bx
      - se X = 0, allora bx = 0
      - quindi y = a
  - - - misura la relazione quantitativa tra VI e VD
      - esprime una variazione media attesa della VD
      - non fornisce un valore assoluto della VD
    - - coefficiente positivo → all’aumentare della VI aumenta la VD
      - coefficiente negativo → all’aumentare della VI diminuisce la VD
    - - VI = numero di birre bevute
      - VD = numero di sorrisi
      - il coefficiente indica quanti sorrisi cambiano per ogni birra in più
    - - descrive una tendenza generale
      - non rappresenta ogni singola osservazione
      - alcune osservazioni possono discostarsi dalla previsione
    - - è espresso come unità della VD per ogni unità della VI
      - esempio: centimetri per secondo
      - indica la variazione media della VD per un incremento unitario della VI
    - - mantiene lo stesso significato in ogni punto della scala della VI
      - non dipende dal valore iniziale della VI
    - - aggiungere o sottrarre una costante alla VI non modifica il coefficiente
      - cambia l’intercetta ma non la pendenza
      - la pendenza dipende dalle variazioni relative tra le variabili
  - - - intercetta=0
      - coefficiente positivo
    - - intercetta = 0
      - coefficiente = 0
    - - intercetta positiva
      - coefficiente = 0
    - - intercetta positiva
      - coefficiente positivo
  - - - scale di misura diverse rendono difficile il confronto
      - un’unità della VI può avere significati differenti
      - i coefficienti non sono direttamente comparabili
    - - esempio: stress-sorrisi vs stress-sonno
      - scale differenti influenzano il valore del coefficiente
      - il coefficiente non misura direttamente la forza della relazione
    - - per confrontare relazioni diverse si utilizza il coefficiente Beta standardizzato.
- - - - Le variabili possono essere misurate in unità poco intuitive (es. punteggi di questionari psicometrici)
        
        "Un'unità di variazione" non ha sempre un significato pratico chiaro
      - Non è possibile confrontare direttamente studi diversi che usano scale differenti
        
        Esempio: relazione stress→sorrisi vs. relazione stress→ore di sonno — le scale sono diverse, quindi i b non sono comparabili
    - - Si trasformano sia la VI sia la VD in punteggi z (z-score)
        
        Formula: z = (xi − x̄) / SDx
        
        Si sottrae la media e si divide per la deviazione standard
        
        Questo elimina l'influenza delle unità di misura originali
        
        La stessa trasformazione viene applicata a entrambe le variabili (VI e VD)
    - - Si esegue la regressione lineare sugli z-score invece che sui valori grezzi
        
        Il coefficiente di regressione ottenuto da questa regressione è direttamente il coefficiente β (βyx)
        
        βyx indica di quante deviazioni standard cambia in media la VD quando la VI aumenta di una deviazione standard
    - - L'intercetta nel modello standardizzato è sempre uguale a zero
        
        Motivo: i dati sono centrati rispetto alla loro media, quindi quando la VI vale 0 (cioè è al suo valor medio), anche la VD prevista è al suo valor medio standardizzato, cioè 0
        
        Quindi l'unico parametro rilevante nell'equazione standardizzata è proprio β
      - I risultati sono confrontabili tra studi diversi e tra variabili diverse all'interno dello stesso studio
        
        Non dipendono più dalle unità originarie di misura
    - - Nella regressione semplice (una sola VI), il coefficiente β coincide esattamente con il coefficiente di correlazione r di Pearson tra VI e VD
        
        Esempio dai dati birre–sorrisi: r = 0.898, β = 0.90 (coincidono)
        
        Questa equivalenza vale solo nella regressione semplice, non in quella multipla
- - - - Le osservazioni reali raramente cadono esattamente sulla retta
        
        La distanza verticale tra ciascun punto osservato e il valore previsto dalla retta si chiama errore o residuo (ei)
        
        Rappresenta la parte di variabilità della VD che il modello non riesce a spiegare
        
        Può dipendere da fattori non inclusi nell'analisi, da variabilità casuale, da errori di misurazione
  - - - Formula: SQe = Σ(yi − ŷi)²
        
        Si eleva al quadrato ogni residuo per evitare che i segni si cancellino
      - Il valore di SQe da solo non è immediatamente interpretabile
        
        Dipende dall'unità di misura della VD e dal numero di osservazioni
        
        Per capire se il modello è utile, va confrontato con un errore di riferimento
  - - - L'errore associato a questo modello nullo si chiama Devianza totale di Y (SQy)
        
        Formula: SQy = Σ(yi − ȳ)²
        
        Misura la variabilità complessiva dei dati rispetto alla loro media
  - - - (SQy − SQe) = quota di variabilità della VD spiegata dalla VI grazie alla regressione
        
        Più questa differenza è grande, più il modello è utile rispetto al non usare nulla
  - - - Varia tra 0 e 1
        
        R² vicino a 1 → il modello spiega gran parte della variabilità della VD
        
        R² vicino a 0 → la VI fornisce poche informazioni utili per prevedere la VD
      - Viene definito "proporzione di varianza spiegata"
        
        Rappresenta la varianza "condivisa" tra VI e VD
      - Il complemento (1 − R²) si chiama coefficiente di alienazione
        
        È la quota di varianza che il modello non riesce a spiegare
  - - - Si usa il metodo dei Minimi Quadrati Ordinari (Ordinary Least Squares, OLS)
        
        Tra tutte le possibili rette, si sceglie quella che minimizza la SQe
        
        Cioè quella che riduce al minimo la somma dei quadrati delle distanze verticali tra punti osservati e retta
        
        Il coefficiente byx ottimale è dunque quello che rende SQe il più piccola possibile
      - È la base della maggior parte delle analisi di regressione lineare