person holding blue and clear ballpoint pen

Output dell’analisi di regressione in Excel spiegata

EXCEL ANALISI DELLA REGRESSIONE OUTPUT PARTE PRIMA: STATISTICHE DELLA REGRESSIONE

Queste misure dicono quanto l’equazione di regressione lineare calcolata si adatta ai dati.

R multiplo
Questo è il coefficiente di correlazione. Spiega quanto è forte la relazione lineare. Ad esempio, un valore di 1 significa una relazione positiva perfetta e un valore pari a zero significa nessuna relazione. È la radice quadrata di R al quadrato (vedi # 2).

R al quadrato
Questo è R2, il coefficiente di determinazione. Ti dice quanti punti cadono sulla retta di regressione. Ad esempio, 80% significa che l’80% della variazione dei valori y attorno alla media è spiegata dai valori x. In altre parole, l’80% dei valori si adatta al modello.
Più specificamente, R-quadrato dà la variazione percentuale in y spiegata dalle variabili x. L’intervallo è compreso tra 0 e 1 (ovvero dallo 0% al 100% della variazione in y può essere spiegato dalle variabili x).

R al quadrato corretto
Il quadrato R corretto si adatta al numero di termini in un modello. Consigliamo di utilizzare questo invece di R al quadrato se sono presenti più di una variabile x.

Errore standard della regressione
E’ una stima della deviazione standard dell’errore μ. Non è lo stesso errore standard nelle statistiche descrittive! L’errore standard della regressione è la precisione con cui viene misurato il coefficiente di regressione; se il coefficiente è grande rispetto all’errore standard, allora il coefficiente è probabilmente diverso da 0.

Osservazioni
Numero di osservazioni nel campione.

SPIEGAZIONE DELL’ANALISI DI REGRESSIONE EXCEL PARTE SECONDA: ANOVA

SQ (TSS o SST)
Il Total SS (TSS o SST) ti dice quanta variazione c’è nella variabile dipendente.
Totale SS = Σ (Yi – media di Y)^2.
La somma dei quadrati è una misura di come un set di dati varia intorno a un numero centrale (come la media). Potresti realizzare dalla frase che stai sommando (sommando) quadrati, ma quadrati di cosa? A volte vedrai questa formula:

Altre volte potresti vedere “quadrati” effettivi, come in questa linea di regressione:

Regressione MQ: Regressione SQ / Gradi di libertà di regressione.

MQ residuo: errore quadratico medio (SQ residuo / gradi di libertà residui).

F: Test F complessivo per l’ipotesi nulla.
Un “test F” è un termine generico per qualsiasi test che utilizza la distribuzione F. Nella maggior parte dei casi, quando le persone parlano del test F, ciò di cui stanno effettivamente parlando è il test F per confrontare due varianze. Tuttavia, la statistica f viene utilizzata in una varietà di test, tra cui l’analisi di regressione, il test di Chow e il test di Scheffe (un test ANOVA post-hoc).

Significatività F: il P-value associato alla significatività. Il P-value viene utilizzato nel test delle ipotesi per aiutarti a supportare o rifiutare l’ipotesi nulla. Il valore p è l’evidenza contro un’ipotesi nulla. Più piccolo è il valore p, più forte è l’evidenza che dovresti rifiutare l’ipotesi nulla.


La seconda parte dell’output che in Excel viene utilizzata raramente, rispetto all’output di regressione sopra. Divide la somma dei quadrati in singoli componenti, quindi può essere più difficile utilizzare le statistiche in modo significativo. Se stai solo eseguendo una regressione lineare di base (e non desideri approfondire i singoli componenti), puoi saltare questa sezione dell’output.
Ad esempio, per calcolare R2 da questa tabella, userai la seguente formula:
R2 = 1 -[ somma residua dei quadrati (SQ residuo) / somma totale dei quadrati (SQ totale)].
Nella tabella sopra, la somma residua dei quadrati = 905914999,041388 e la somma totale dei quadrati è 1625079024,70588, quindi:
R2 = 1 – (905914999,041388 / 1625079024,70588) = 0.4425409563


ANALISI DI REGRESSIONE EXCEL PARTE TERZA: INTERPRETARE I COEFFICIENTI DI REGRESSIONE

Questa sezione della tabella fornisce informazioni molto specifiche sui componenti che hai scelto di inserire nell’analisi dei dati. Pertanto la prima colonna (in questo caso, Lavoro/Salario) dirà qualcosa di diverso, a seconda dei dati che inserisci nel foglio di lavoro.

Le colonne sono:

Coefficiente: fornisce la stima dei minimi quadrati.
Errore standard: la stima dei minimi quadrati dell’errore standard.
Statistica T: La statistica T per l’ipotesi nulla rispetto all’ipotesi alternativa.
Valore P: fornisce il valore p per il test di ipotesi.
95% inferiore: il limite inferiore dell’intervallo di confidenza.
95% superiore: il limite superiore dell’intervallo di confidenza.

La parte più utile di questa sezione dà l’equazione di regressione lineare:
y = ax + b.
y = pendenza * x + intercetta.
Per la tabella sopra, l’equazione sarebbe approssimativamente:
y = 17644,1118176525 +226,40X1 + 779X2 +440,9X3.

Prestare attenzione quando si interpretano modelli di regressione che contengono determinati termini.
È impossibile guardare solo al termine lineare (un effetto principale) e trarre una conclusione.
Per esempio:
Un termine polinomiale significativo può rendere difficile l’analisi dei risultati perché la modifica di una variabile predittoria varia a seconda del valore del predittore.
Un termine di interazione significativo indica che la variazione è dovuta al valore di un diverso predittore.

References

Cameron. Excel Multiple Regression. http://cameron.econ.ucdavis.edu/excel/ex61multipleregression.html
Minitab. How to Interpret Regression Analysis Results: P-values and Coefficients.
Salkind, N. (2015). Excel Statistics: A Quick Guide Third Edition. SAGE Publications.

chevron_left
chevron_right
%d blogger hanno fatto clic su Mi Piace per questo: