Methods of Imputation by Regression, Imputation by Mode, Multiple Imputation and Decision Trees for Categorical Variables in Comparative Perspective

Keywords: Statistics, regression imputation, mode imputation, multiple imputations, decision trees

Abstract

Regression imputation, mode imputation, multiple imputation and decision trees are methods used to deal with missing values in categorical variables. In this context, the objective of the research is to define the criteria for comparing these methods, establishing in the process their conceptual similarities and differences. Methodologically, use was made of the comparative method and epistemological analysis as a condition of possibility to understand the scope and significance of each of these methods, based on the collection of documentary sources of proven scientific value. Although partial and limited, the results obtained support the hypothesis that statistics is a developing science that requires inter-methodological dialogue as a condition of possibility to obtain more accurate results, even when certain data are missing in an equation. Ultimately, this work lays the groundwork for future research that could deepen the comparative perspective of certain research methods and tools, such as those stated in the title of the article.

Downloads

Download data is not yet available.

Author Biographies

Edwin Fernando Mejía-Peñafiel, Escuela Superior Politécnica de Chimborazo, Riobamba, Ecuador.

Docente en la Escuela Superior Politécnica de Chimborazo, Riobamba, Ecuador.

Johanna Enith Aguilar-Reyes, Escuela Superior Politécnica de Chimborazo, Riobamba, Ecuador.

Docente en la Escuela Superior Politécnica de Chimborazo, Riobamba, Ecuador.

Paulina Fernanda Bolaños-Logroño, Escuela Superior Politécnica de Chimborazo, Riobamba, Ecuador.

Docente en la Escuela Superior Politécnica de Chimborazo, Riobamba, Ecuador.

Jorge Rigoberto López-Ortega, Escuela Superior Politécnica de Chimborazo, Riobamba, Ecuador.

Docente Investigador en el Grupo Ciencia de Datos CIDED - Escuela Superior Politécnica de Chimborazo (ESPOCH), Riobamba, Ecuador.

References

Alfaro, R., & Fuenzalida, M. (2009). Imputación múltiple en encuestas microeconómicas. Nota Técnica, (46), 273-288. https://www.scielo.cl/pdf/cecon/v46n134/art07.pdf.

Bacallao Guerra, Jorge & Bacallao Gallestey, Jorge (2010). Imputación múltiple en variables categóricas usando data augmentation y árboles de clasificación. Revista Investigacion Operacional, 31 (02), 133-139. En: file:///D:/Descargas/Dialnet-ImputacionMultipleEnVariablesCategoricasUsandoData-3218968.pdf

Bello, A., Cuta, J., & García, E. (2019). Técnicas de imputación para datos de precipitación máxima mensual en la zona central de Boyacá. Revista Ingeniería, Investigación y Desarrollo, 19 (01), 64-79.

Bunge, M. (2005). La ciencia. Su método y su filosofía . Buenos Aires: Debolsillo.

Dancy, J. (1993). Introducción a la epistemología contemporánea . Madrid: Tecnos.

Guijarro, F. (12 de marzo de 2023). Rpub. Obtenido de Árboles de decisión: https://rpubs.com/fraguima/lonja5

Llano, A. (1991). Gnoseología . Barañáin-Pamplona: Ediciones de la univresidad de Navarra. Medina, F., & Galván, M. (2007). Imputacion de datos: Teoria y práctica. Santiago de Chile. CEPAL. Serie 54. En: https://repositorio.cepal.org/server/api/core/bitstreams/02dd479f-fae2-43c4-b5ec-5419fa7f6190/content

Medium (01 de septiembre de 2020). Árboles de decisión (Práctica). Obtenido de Bootcamp AI: https://bootcampai.medium.com/árboles-de-decisión-práctica-62ee5c578b08

Minguillon, J., & Pujol, J. (2015). Arboles de decisión. Terceras Jornadas de Matemática Discreta y Algorítmica. En:https://idus.us.es/bitstream/handle/11441/75448/Árboles%20de%20decisión.pdf?sequence=1&isAllowed=y

Muñoz, J., & Alvarez, E. (2009). Métodos de imputación para el tratamiento de datos faltantes: Aplicación mediante R/S plus. Revista de Métodos Cuantitativos para la Economía y la Empresa, (07), 03-30.

Novoa-Hernández, P., Cobos-Valdes, D., Samaniego-Mena, E., & Novoa-Pérez, M. (2018). Árboles de decisión para la evaluación del riesgo biológico de procesos biofarmacéuticos. Revista Ciencia Unem, 11 (28), 08-17. https://www.redalyc.org/journal/5826/582661251001/582661251001.pdf.

Piovani, J., & Krawczyk, N. (2017). Los Estudios Comparativos: algunas notas históricas, epistemológicas y metodológicas. Educação & Realidade, Porto Alegre, 42 (03), 821-840. http://dx.doi.org/10.1590/2175-623667609.

Porras, A. (2019). Diplomado en analisis de informacion geoespacial. Conceptos basicos de estadistica. México DF. https://centrogeo.repositorioinstitucional.mx/jspui/bitstream/1012/157/1/13-Conceptos%20Básicos%20de%20Estadística%20%20Diplomado%20en%20Análisis%20de%20Información%20Geoespacial.pdf: Centro publico de investigacion CONACYT.

Radío, G. R. (2017). Los valores perdidos en el muestreo de poblaciones. Vigo. http://eio.usc.es/pub/mte/descargas/ProyectosFinMaster/Proyecto_1468.pdf: Univresidad de la Corunay Univresidad de Vigo.

Rivas, C., Martínez, M. d., & Galindo, P. (2010). La imputación múltiple como alternativa al análisis de la no respuesta en la variable intención de voto. Revista Española de Ciencia Política. Núm. 22, Marzo 2010, pp. 99-118. En: https://www.researchgate.net/publication/235979983_La_imputacion_multiple_como_alternativa_al_analisis_de_la_no_respuesta_en_la_variable_intencion_de_voto

Useche, L. M., & Mesa, D. M. (2006). Una introducción a la Imputación de Valores Perdidos. Terra Nueva Etapa, XXII (31), 127-151. https://www.redalyc.org/pdf/721/72103106.pdf.
Published
2024-04-27
How to Cite
Mejía-Peñafiel, E. F., Aguilar-Reyes, J. E., Bolaños-Logroño, P. F., & López-Ortega, J. R. (2024). Methods of Imputation by Regression, Imputation by Mode, Multiple Imputation and Decision Trees for Categorical Variables in Comparative Perspective. Journal of the University of Zulia , 15(43), 541-555. https://doi.org/10.46925//rdluz.43.29