Quins són els defectes d'imputar valors que f alten amb la mitjana?

Quins són els defectes d'imputar valors que f alten amb la mitjana?
Quins són els defectes d'imputar valors que f alten amb la mitjana?
Anonim

La imputación mitjana distorsiona les relacions entre variables Però la imputación mitjana també distorsiona les relacions multivariables i afecta estadístiques com ara la correlació. Per exemple, la següent crida a PROC CORR calcula la correlació entre la variable Orig_Height i les variables Pes i Edat.

Per què utilitzar un mitjà per a les dades que f alten és una mala idea?

Mitjana redueix una variància de les dades Aprofundint en les matemàtiques, una variància més petita condueix a un interval de confiança més estret en la distribució de probabilitat[3]. Això no condueix a res més que introduir un biaix al nostre model.

Per què els valors perduts són un problema?

Les dades que f alten presenten diversos problemes. Primer, l'absència de dades redueix el poder estadístic, que fa referència a la probabilitat que la prova rebutgi la hipòtesi nul·la quan és falsa. En segon lloc, les dades perdudes poden provocar un biaix en l'estimació dels paràmetres. En tercer lloc, pot reduir la representativitat de les mostres.

Per què és dolenta la imputación mitjana?

Problema 1: la imputació mitjana no conserva les relacions entre les variables. És cert que imputar la mitjana conserva la mitjana de les dades observades. Per tant, si les dades f alten completament a l'atzar, l'estimació de la mitjana es manté imparcial.

Hauria de substituir les dades que f alten per la mitjana?

Els punts de dades atípics tindran un impacte significatiu en la mitjana i, per tant, en aquests casos, no es recomana utilitzar la mitjana per substituir els valors que f alten. L'ús de valors mitjans per substituir els valors que f alten pot no crear un model fantàstic i, per tant, es descarta.