Faltan mecanismos de Datos

Como casi cualquier investigador puede dar fe, los datos que faltan son un problema generalizado. Los datos de las encuestas, experimentos, y fuentes secundarias son a menudo faltaban algunos datos. El impacto de los datos que faltan en los resultados de análisis estadístico depende del mecanismo que causó que los datos que se han perdido y la forma en que las ofertas de los analistas de datos con ella. Este es el primero de una serie de tres artículos que aborda temas relacionados con los datos que faltan. En este artículo se describen los mecanismos de la falta de datos y algunos de sus impactos. Artículos posteriores explicarán soluciones comunes pero problemáticos a la falta de datos, nuevas y mejores soluciones, y el software disponible para la implementación de estas soluciones.

Los datos faltan por muchas razones. Los sujetos en los estudios longitudinales a menudo abandonan antes de completar el estudio, ya que han salido de la zona, murió, ya no ven el beneficio personal a participar, o no les gustan los efectos del tratamiento. Encuestas sufren falta de datos cuando los participantes se niegan, o no saber la respuesta a u omitir accidentalmente un elemento. Algunos investigadores de la encuesta incluso diseñar el estudio por lo que algunas preguntas se hacen de sólo un subconjunto de los participantes. Los estudios experimentales han desaparecido los datos cuando un investigador es simplemente incapaz de recoger una observación. Las malas condiciones climáticas pueden hacer que la observación imposible en experimentos de campo. Un investigador se enferma o equipo falla. Los datos pueden faltar en cualquier tipo de estudio debido a un error accidental o entrada de datos. Un investigador deja caer una bandeja de tubos de ensayo. Un archivo de datos se corrompe. La mayoría de los investigadores están muy familiarizados con uno (o más) de estas situaciones.

Los datos que faltan son problemáticos porque la mayoría de los procedimientos estadísticos requieren un valor para cada variable. Cuando un conjunto de datos es incompleta, el analista de datos tiene que decidir cómo tratar con él. La decisión más común es utilizar el análisis de caso completo (también llamado eliminación por lista) - analizar sólo los casos con datos completos. Los individuos con datos faltantes en las variables se eliminan del análisis. Tiene ventajas - es fácil de usar, es muy simple, y es el valor por defecto en la mayoría de los paquetes estadísticos. Pero tiene limitaciones. Este puede reducir sustancialmente el tamaño de la muestra, lo que lleva a una grave falta de poder. Esto es especialmente cierto si hay muchas variables que intervienen en el análisis, cada uno con los datos que faltan para unos pocos casos. También puede conducir a resultados sesgados, dependiendo de por qué los datos que faltan.

Todas las causas de los datos que faltaban encajan en cuatro clases, que se basan en la relación entre el mecanismo de datos faltantes y los desaparecidos y observaron los valores. Estas clases son importantes para entender porque los problemas causados ​​por la falta de datos y de las soluciones a estos problemas son diferentes para las cuatro clases.

La primera se perdidos completamente al azar (MCAR). MCAR significa que el mecanismo de datos faltantes no está relacionado con los valores de las variables, si falta o observado. Los datos que faltan ya que un investigador retiró los tubos de ensayo o de participantes en la encuesta se saltó accidentalmente preguntas es probable que sean MCAR. Si los valores observados son esencialmente una muestra aleatoria del conjunto de datos completo, completo análisis de casos da los mismos resultados que el conjunto de datos tendría. Por desgracia, los datos más que faltan no son MCAR.

En el extremo opuesto del espectro es no ignorable (NI). NI significa que el mecanismo de datos faltantes se relaciona con los valores perdidos. Es comúnmente ocurre cuando la gente no quiere revelar algo muy personal o impopulares sobre sí mismos. Por ejemplo, si las personas con ingresos más altos son menos propensos a revelarlas en una encuesta que son las personas con ingresos más bajos, el mecanismo de datos faltantes para el ingreso es no ignorable. Si el ingreso se encuentra o está observado se relaciona con su valor. Análisis completo caso puede dar resultados muy sesgados para NI datos que faltan. Si los individuos proporcionalmente más bajos y moderados ingresos se quedan en la muestra porque las personas de altos ingresos están perdiendo, una estimación de los ingresos medios será más baja que la media poblacional real.

En medio de estos dos extremos se echa en falta en Random (MAR) y covariables dependientes (CD). Ambas de estas clases requieren que la causa de los datos que faltan no está relacionado con los valores que faltan, pero puede estar relacionado con los valores observados de otras variables. MAR significa que los valores que faltan están relacionados con cualquiera de las covariables observadas o variables de respuesta, mientras que CD significa que los valores que faltan se refieren únicamente a las covariables. Como ejemplo de CD de datos que faltan, faltan datos sobre los ingresos pueden no estar relacionado con los valores de ingresos reales, pero están relacionados con la educación. Tal vez las personas con más educación tienen menos probabilidades de revelar sus ingresos que los que tienen menos educación.

Una distinción clave es si el mecanismo es ignorable (es decir, MCAR, CD o MAR) o no ignorable. Hay excelentes técnicas para el manejo de datos faltantes ignorables. Datos que faltan para no ignorables son más difíciles y requieren un enfoque diferente Restaurant  .;

consulta de trabajo

  1. Cómo obtener la Consulta último del terapeuta Los Gatos?
  2. ¿Cómo afecta la cuenta de comerciante Juegos de Casino en Línea?
  3. Descanse para el éxito
  4. Papel de los Negocios Planes de iniciar un negocio
  5. Muchos aspectos de los viajes modernos fueron por primera vez por los antiguos romanos
  6. Dueños de negocios necesitan para comenzar a crecer en su salida
  7. Trabajo en casa - Top Must Have Características To On line Éxito
  8. 25 consejos para aumentar las tasas de conversión
  9. Alojarse en París Apartamentos a Corto Plazo
  10. Los Gran Department Store Visionarios Creado Mucho más que Vastas Palacios Retail
  11. Lonas para Agricultura e Industrias
  12. ¿Cómo seleccionar Derecha Pizarra Marcadores
  13. Obtenga un punto de apoyo en la sociedad con las subvenciones del gobierno
  14. La mejor Calefacción en Watford
  15. Receta para el problema: El Plan de Negocios
  16. Conozca más acerca de sus clientes Preferencias Uso de Seguimiento Social Media
  17. Tome un día de viaje a los campos de batalla de la Guerra Civil y Sitios Históricos en Virginia - …
  18. ¿Qué es un modelo de negocio?
  19. Cómo encontrar Tradies Melbourne y Sydney?
  20. Entender Los Fundamentos de CFD Trading