Funzione CORRELAZIONE di Excel - Calcola la correlazione statistica

Scarica esempio di cartella di lavoro

Scarica la cartella di lavoro di esempio

Questo tutorial mostra come usare il Funzione CORRELAZIONE di Excel in Excel per calcolare la correlazione.

Panoramica della funzione CORRELAZIONE

La funzione CORRELAZIONE Calcola la correlazione di due serie di numeri.

Per utilizzare la funzione CORRELAZIONE del foglio di lavoro Excel, selezionare una cella e digitare:

(Notare come appaiono gli input della formula)

Funzione CORRELAZIONE Sintassi e input:

1 =CORREL(matrice1,matrice2)

array1 - Matrici di numeri.

Cos'è la funzione CORRELAZIONE?

La funzione CORRELAZIONE di Excel restituisce il coefficiente di correlazione (Pearson's R) di due intervalli di dati.

Cos'è il coefficiente di correlazione?

Il coefficiente di correlazione, di solito indicato come Pearson's R (dal nome di Karl Pearson, la persona che l'ha sviluppato), è una statistica che ti dice quanto siano fortemente correlate due variabili.

di Pearson R è una cifra compresa tra -1 e 1, che può portare a tre possibili interpretazioni: una correlazione positiva, una correlazione negativa e nessuna correlazione.

Correlazione positiva

Una correlazione positiva (R > 0) significa che quando le due variabili sono in tandem - quando si osserva un punteggio elevato in una variabile, si tende a osservare un punteggio elevato anche nell'altra. Allo stesso modo, quando una variabile è bassa, anche l'altra tende ad essere bassa.

Ad esempio, altezza e peso hanno una correlazione positiva. Vedi la tabella qui sotto, che traccia l'altezza e il peso di un piccolo campione di giocatori di baseball:

Il R di questo piccolo campione è 0,73 - una correlazione positiva molto forte. Questo ha senso logicamente: le persone più alte tendono ad essere più pesanti, in media, poiché quell'altezza extra è costituita da ossa, muscoli e altri tessuti che pesano tutti qualcosa.

Ma la correlazione non è perfetta (in una perfetta correlazione con an R di 1, tutti i punteggi cadrebbero sulla linea di tendenza). Alcune persone più basse possono essere più pesanti, magari portano un po' di grasso in più o si allenano in palestra. Allo stesso modo, alcune persone alte potrebbero essere molto magre e pesare meno di molte persone più basse.

La correlazione qui è probabilmente così alta perché abbiamo a che fare con atleti, sarebbe più bassa nella popolazione complessiva. Ricorda di tenerlo a mente quando usi CORREL - il R che ottieni non è definitivo: devi pensare a quali sono i tuoi dati e come li hai ottenuti quando fai le tue interpretazioni.

Correlazione negativa

Una correlazione negativa (R < 0) significa che quando si osserva un punteggio alto in una variabile, si tende ad osservare un punteggio basso nell'altra variabile e viceversa.

Ad esempio, i punteggi dei test degli studenti e il numero di assenze da scuola sono correlati negativamente. Cioè, più giorni perdono, più bassi tendono ad essere i loro punteggi. Meno giorni mancano, più alti sono i punteggi:

Di nuovo, la correlazione non è perfetta (come non lo sono quasi mai). Abbiamo uno studente qui che ha perso 5 giorni, ma è comunque riuscito a segnare l'85%. Ne abbiamo anche uno che ha segnato il 52%, nonostante manchi solo due giorni.

Abbiamo ancora una chiara tendenza negativa. Ma ci sono ancora molte variazioni nei risultati dei test che non possono essere spiegate dalla sola assenza. Ciò potrebbe essere dovuto ad altre variabili, come attitudine, motivazione, salute e molti altri potenziali fattori.

Quindi, quando usi CORREL, tieni presente che c'è un'immagine più ampia che i tuoi dati potrebbero non spiegare completamente.

Nessuna correlazione

Nessuna correlazione (R = 0 o è vicino a 0) significa che non è possibile prevedere il punteggio di una variabile in base a un'altra. Se si tracciano i dati, non si vedrà alcuna tendenza distinguibile e la linea di tendenza sarà piatta o quasi piatta.

Ecco alcuni dati sulla lunghezza dell'anulare e sul QI:

Come puoi vedere, non c'è alcuna connessione tra queste due variabili in questo esempio, quindi possiamo presumere che non siano correlate.

In pratica, è improbabile che tu ottenga un R di esattamente 0. Ricorda che quando si raccolgono i dati, spesso c'è qualche variazione a causa di errori, forse nella misurazione o nel reporting. Quindi solo perché il tuo R non è esattamente 0, non significa che hai trovato qualcosa.

La correlazione non è causalità

È fondamentale tenere presente che CORREL non può dirti quale variabile sta influenzando l'altra - o anche se esiste una relazione causale tra le variabili. Ad esempio, è stata trovata una correlazione tra le seguenti variabili:

  • La quantità di gelati venduti e la quantità di crimini violenti
  • Quanto sei felice e quanto successo hai nella tua carriera
  • Il numero di persone che sono annegate in una piscina e il numero di film in cui Nicolas Cage è apparso all'anno

Il primo esempio è il terzo problema variabile. Naturalmente, il gelato non rende le persone violente, né la violenza innesca il desiderio di latte e zucchero congelati. La terza variabile è il tempo. Quando fa caldo, le persone semplicemente escono di più - c'è più contatto tra le persone e quindi più possibilità di un conflitto. Quando fa caldo, le persone comprano anche più gelato. Quindi vendita di gelati e crimine violento sono correlati solo perché sono entrambi legati a una terza variabile.

Il secondo potrebbe essere un esempio di doppia causalità. Avere successo sul lavoro può essere positivo per la tua felicità: guadagnerai più soldi e in generale avrai più controllo sul lavoro che svolgi e con chi lo fai. Ma la felicità potrebbe essere utile anche per il successo, forse è più facile andare d'accordo con le persone più felici e sviluppare relazioni di lavoro più forti, o forse sono più mentalmente resilienti alle battute d'arresto. In questo caso, entrambe le variabili si influenzano a vicenda.

Il terzo è semplicemente a correlazione spuria. Solo perché due variabili sono correlate nei tuoi dati, non significa che interagiscono comunque nella vita reale.

La linea di fondo è che una correlazione non può dirti se due variabili sono causalmente collegate.

Come usare CORREL

Usa la funzione CORRELAZIONE di Excel in questo modo:

1 =CORREL.(B3:B15,C3:C15)

Con CORREL si definiscono due argomenti: i due intervalli di dati che si desidera correlare.

Ecco alcuni punti chiave da tenere a mente con CORREL:

  • Testo, booleano (VERO/FALSO) e le celle vuote vengono ignorate.
  • Entrambi gli intervalli di dati devono avere un numero uguale di punti dati, altrimenti otterrai un errore #N/A
  • Se uno degli intervalli di dati è vuoto, o se non ci sono variazioni nei dati (cioè, se tutti i punti dati sono lo stesso numero), otterrai un #DIV/0! Errore

Funzione CORRELAZIONE in Fogli Google

La funzione CORRELAZIONE funziona esattamente allo stesso modo in Fogli Google come in Excel:

Note aggiuntive

CORRELAZIONE Esempi in VBA

Puoi anche usare la funzione CORRELAZIONE in VBA. Tipo:
application.worksheetfunction.correl(array1,array2)
Per gli argomenti della funzione (array1, ecc.), puoi inserirli direttamente nella funzione o definire le variabili da utilizzare al loro posto.

Torna all'elenco di tutte le funzioni in Excel

wave wave wave wave wave