>> Elettronica Tecnologia >  >> Casa intelligente >> Vita intelligente

Come utilizzare la regressione multipla in Excel

Excel è un potente strumento per l'analisi dei dati, sia che tu stia lavorando con una semplice relazione tra una variabile indipendente e una variabile dipendente o che ci siano più variabili indipendenti da considerare. Imparare come eseguire un'analisi multivariata in Excel, sotto forma di una regressione multipla, e interpretare i risultati è essenziale se si dispone di dati complicati da elaborare. La buona notizia è che Excel è ben configurato per gestire queste attività e devi solo imparare come funziona una funzione per iniziare a dare un senso ai tuoi dati.

Che cos'è la regressione multipla?

La regressione multipla è un modo per mettere in relazione più variabili indipendenti a una singola variabile dipendente trovando un'equazione che descrive come la variabile in questione cambia con ciascuna. Uno strumento più semplice ma simile è la regressione lineare, che mira a studiare il legame tra una variabile indipendente, come l'obesità, su una variabile dipendente come il rischio di cancro, ma raramente le cose sono così semplici. Continuando con l'esempio, anche il numero di sigarette fumate al giorno è correlato al rischio di cancro, così come la quantità di alcol che si beve. Per elaborare una previsione affidabile del rischio di cancro per un individuo, dovresti prendere in considerazione tutti questi fattori (e altro).

La forma generale dell'equazione utilizzata per le regressioni multiple è:

S ^ =un + b x + b x + b x

Quindi la Y ^ è il valore atteso per l'osservazione, il b e così via rappresentano la pendenza della relazione di retta tra x e Y ^ e la x e così via sono le variabili incluse nell'analisi. La a ti dice il punto della y -intercettare. Una regressione multipla implica la scelta dei valori dei coefficienti (b e così via) che minimizzino la differenza tra il valore atteso Y ^ e il valore osservato Y , offrendoti il ​​miglior adattamento tra il modello e i dati.

Cosa ti dice una regressione multipla?

Regressioni multiple mettono valori numerici sull'associazione tra una moltitudine di variabili e un risultato, quindi puoi usarlo per previsioni, per stimare i contributi relativi delle diverse variabili al risultato o per altri scopi come selezionare le variabili più rilevanti da utilizzare in un modello matematico.

Ad esempio, supponiamo di avere dati sui prezzi delle case in una determinata città (la tua variabile dipendente), insieme a informazioni come se ha una piscina, quanti metri quadrati occupa, quante camere da letto ha, quanti bagni ha , e quanti garage ha. Una regressione multipla ti consentirebbe di esaminare come ciascuno di questi fattori è correlato al prezzo della casa, quindi, dopo aver esaminato come si relazionano al prezzo, potresti utilizzare la tua equazione per prevedere il prezzo di una casa sulla base di questi solo punti.

Puoi anche utilizzare questo tipo di analisi di regressione in Excel per vedere come un fattore specifico di molti, ad esempio se la casa ha un pool, influisce sulla variabile dipendente (prezzi delle case) se tutte le altre variabili rimangono costanti. Se si convertono i coefficienti (chiamati "coefficienti di regressione parziale") in coefficienti di regressione parziale standard, che rappresentano quante deviazioni standard Y cambierebbe se cambiassi la variabile corrispondente di una deviazione standard, l'equazione ti dice anche quali fattori sono più importanti nel determinare il risultato.

Come eseguire una regressione multipla in Excel

Puoi eseguire una regressione multivariata in Excel utilizzando una funzione integrata accessibile tramite Analisi dei dati strumento sotto i Dati scheda e l'Analisi gruppo. Fai clic su Analisi dei dati e trova l'opzione per la regressione nella finestra che si apre, evidenzialo e fai clic su OK . Fai clic su seleziona celle accanto all'Intervallo Y di input campo e quindi selezionare la colonna contenente i risultati per la variabile dipendente. Quindi, fai lo stesso per Intervallo di input X campo ma seleziona le colonne multiple per le tue variabili indipendenti. Queste colonne devono essere una accanto all'altra, quindi se non lo sono, devi spostarle prima di produrre la regressione.

La finestra Regressione ha una gamma di opzioni aggiuntive che puoi selezionare per adattare il processo alle tue esigenze. Ad esempio, puoi impostare un livello di confidenza diverso dal 95 percento, se lo desideri, scegliere di visualizzare i residui e specificare dove viene posizionato l'output nella cartella di lavoro. Quest'ultima opzione viene impostata automaticamente su Nuovo foglio di lavoro quindi i risultati vengono visualizzati su un nuovo foglio, ma puoi modificare questa o qualsiasi altra opzione in base alle tue esigenze. Inoltre, controlla le Etichette casella se le colonne per le tue variabili indipendenti hanno etichette in alto, quindi queste vengono visualizzate nell'output.

Fai clic su OK per generare la tua analisi di regressione in Excel ed essere portato al nuovo foglio.

L'output della regressione da Excel

Ci sono tre sezioni principali per l'output che ti viene presentato dopo aver eseguito una regressione multipla in Excel:statistiche di regressione, ANOVA e dettagli sulla retta di regressione stimata. Le statistiche di regressione includono il coefficiente di correlazione multipla ("R multipla") che mostra la direzione e la forza della correlazione, da -1 a +1. Il coefficiente di determinazione, "R quadrato", indica quale percentuale (come decimale) della variazione nella variabile dipendente è spiegata dalle variabili indipendenti. Il "quadrato R rettificato" ti dà un'indicazione del potere esplicativo, ma non è semplice da interpretare, e "Errore standard" ti dà una misura della variazione tra i risultati osservati e la tua retta di regressione.

La sezione ANOVA contiene informazioni statistiche sull'importo della variazione spiegata dalla retta di regressione, con "SS Regression" che indica l'importo spiegato dalla retta e "SS Residual" che rappresenta l'importo non spiegato. Le sezioni "MS" stanno per "Quadrato medio" e la "Statistica F" è la statistica del test utilizzata per verificare un risultato significativo, con la sezione "Significato F" che fornisce il valore P.

Infine, l'ultima sezione illustra le caratteristiche della retta di regressione stimata, in particolare i valori dei coefficienti, se sono legati in modo significativo alla variabile dipendente, e la quantità di variazione che potrebbe esserci in essi. I coefficienti positivi mostrano una relazione positiva tra la variabile in questione e la variabile dipendente, quindi quando uno aumenta, aumenta anche l'altra. I valori negativi indicano che la variabile dipendente diminuisce all'aumentare della variabile indipendente. Quindi, se il coefficiente di "metraggio quadrato" su una regressione multipla dei prezzi di una casa è 300, significa che un metro quadrato di spazio aggiuntivo aumenta il costo della casa in media di $ 300.

Presupposti e limiti della regressione multipla

È importante ricordare che la regressione multipla è solo uno strumento e, come la maggior parte degli strumenti, puoi utilizzarlo solo in alcune circostanze e ci sono alcune cose che semplicemente non può fare.

Uno dei limiti più importanti è che è difficile concludere la causalità sulla base dei risultati. Ad esempio, se hai una regressione multipla con il danno causato da un incendio e molti fattori potenzialmente rilevanti, probabilmente troverai un legame significativo tra il numero di vigili del fuoco presenti e il danno arrecato. Questo non significa che i vigili del fuoco hanno causato il danno perché un altro fattore come la dimensione dell'incendio non incluso nel modello potrebbe spiegare entrambe queste osservazioni.

Due importanti presupposti di un'analisi multivariata in Excel di questo tipo sono i presupposti di linearità e normalità. Stai assumendo una relazione lineare tra le variabili dipendenti e indipendenti, quindi dovresti verificare che sia probabile che sia valida prima di eseguire l'analisi. Puoi guardare la relazione tra ciascuna variabile individualmente per verificare, ma questa non è una strategia perfetta. Allo stesso modo, il test presuppone che le variabili siano distribuite normalmente, quindi dovresti controllare i risultati per ciascuna per la normalità prima di condurre il test.


  1. Come faccio a utilizzare più lettori RFID
  2. Come utilizzare Excel file su un Blackberry
  3. Come utilizzare Wingdings in Excel
  4. Come utilizzare variabili fittizie nella regressione di Excel
  5. Come utilizzare la funzione meno in Excel
  6. Come usare Ctrl + F in Excel