Modelo de clasificación para la deserción estudiantil en las universidades públicas del Perú

Palabras clave: Aprendizaje automático, deserción estudiantil, educación superior, minería de datos, H2O.ai.

Resumen

Las tecnologías de información y comunicación cumplen un rol relevante en los diferentes campos del conocimiento, actualmente existe mayor capacidad para identificar patrones y anomalías en los datos de una organización utilizando la inteligencia artificial; el estudio tuvo como objetivo desarrollar un modelo de clasificación para la deserción estudiantil aplicando aprendizaje automático con el método autoML del framework H2O.ai, se ha tenido en cuenta la dimensionalidad de las características socioeconómicas y académicas. La metodología empleada fue de tipo predictivo y diseño no experimental, observacional y prospectivo; para ello, se aplicó un cuestionario de 20 ítems a 237 estudiantes de la Escuela de Posgrado matriculados en los programas de maestrías en educación. La investigación tuvo como resultado un modelo de aprendizaje automático supervisado, máquina de refuerzo de gradiente, para clasificar la deserción estudiantil, logrando así identificar los principales factores asociados que influyen en la deserción, obteniendo un coeficiente Gini del 92.20%, AUC del 96.10% y un LogLoss del 24.24% representando un modelo con desempeño eficiente. Se concluye que el modelo es apropiado por sus métricas de rendimiento, ofreciendo ventajas como trabajar con datos desequilibrados, validación cruzada y realizar predicciones en tiempo real.

Descargas

La descarga de datos todavía no está disponible.

Biografía del autor/a

Henry Villarreal-Torres

Doctor en Ingeniería Informática y de Sistemas. Magíster en Ingeniería Informática y de Sistemas. Ingeniero Informático y de Sistemas. Docente Principal en la Universidad San Pedro, Chimbote, Perú. E-mail: henry.villarreal@usanpedro.edu.pe ORCID: https://orcid.org/0000-0002-5989-4534

Julio Ángeles-Morales

Doctor en Ingeniería Industrial. Magister en Administración de Empresas y Negocios (MBA). Ingeniero Industrial. Docente Principal en la Universidad San Pedro, Chimbote, Perú. E-mail: julio.angeles@usanpedro.edu.pe ORCID: https://orcid.org/0000-0002-7470-8154

William Marín-Rodriguez

Doctor en Administracion. Magister en Administración Estratégica. Ingeniero Informático. Docente en la Universidad Nacional José Faustino Sánchez Carrión, Huacho, Lima, Perú. Investigador RENACYT. E-mail: wmarin@unjfsc.edu.pe ORCID: https://orcid.org/0000-0002-0861-9663 (Autor de vorrespondencia)

Jenny Cano-Mejía

Doctora en Gestión y Ciencias de la Educación. Magister en Obstetricia. Licenciada en Obstetricia. Docente Principal en la Universidad San Pedro, Chimbote, Perú. Investigadora RENACYT. E-mail: jenny.cano@usanpedro.edu.pe ORCID: https://orcid.org/0000-0001-5638-972X

Citas

Ajgaonkar, S. (2022). Practical automated machine learning using H2O.ai: Discover the power of automated machine learning, from experimentation through to deployment to production. Packt Publishing.

Aragón-Royón, F., Jiménez-Vílchez, A., Arauzo-Azofra, A., y Benitez, J. (2020). FSinR: An exhaustive package for feature selection. arXiv: 2002. 10330.
https://doi.org/10.48550/arXiv.2002.10330

Bean, J., y Eaton, S. B. (2001). The psychology underlying successful retention practices. Journal of College Student Retention: Research, Theory & Practice, 3(1), 73-89. https://doi.org/10.2190/6R55-4B30-28XG-L8U0

Berger, J. B. (2000). Organizational behavior in higher education and student outcomes. In J. C. Smart (Ed.), Higher Education: Handbook of theory and research (Vol. XV, pp. 268-338). Agathon Press.

Berger, J. B. (2001). Understanding the organizational nature of student persistence: Empirically based recommendations for practice. Journal of College Student Retention: Research, Theory and Practice, 3(1), 3-21. https://doi.org/10.2190/3K6A-2REC-GJU5-8280

Bernal, E. M., Cabrera, A. F., y Terenzini, P. T. (2000). The relationship between race and socioeconomic status (SES): Implications for institutional research and admissions policies. Removing Vestiges: Research-Based Strategies to Promote Inclusion, (3), 6-19.

Briñez, M. E. (2021). Tecnología de información: ¿Herramienta potenciadora para gestionar el capital intelectual? Revista de Ciencias Sociales (Ve), XXVII(1), 180-192. https://doi.org/10.31876/rcs.v27i1.35305

Cabrera, A. F., Nora, A., y Castañeda, M. B. (1992). The role of finances in the persistence process: A structural model. Research in Higher Education, 33(5), 571-593. https://doi.org/10.1007/BF00973759

Cabrera, A. F., Nora, A., y Castañeda, M. B. (1993). College persistence: Structural Equations modelling test of Integrated model of student retention. Journal of Higher Education, 64(2), 123-320. https://doi.org/10.2307/2960026

Camborda, M. G. (2014). Aplicación de árboles de decisión para la predicción del rendimiento académico de los estudiantes de los primeros ciclos de la carrera de Ingeniería Civil de la Universidad Continental [Tesis de maestría, Universidad Nacional del Centro del Perú]. http://repositorio.uncp.edu.pe/handle/20.500.12894/1477

Chatterjee, P., Yazdani, M., Fernández-Navarro, F., y Pérez-Rodríguez, J. (Eds.) (2023). Machine learning algorithms and applications in engineering. CRC Press. https://doi.org/10.1201/9781003104858

Deng, H. (2013). Guided Random Forest in the RRF Package. ArXiv: 1306.0237. https://doi.org/10.48550/arXiv.1306.0237

Diario Oficial del Bicentenario El Peruano (9 de noviembre de 2021). Tasa de deserción en educación universitaria. El Peruano. https://elperuano.pe/noticia/132960-tasa-de-desercion-en-educacion-universitaria-se-redujo-a-115

Díaz, B., Marín, W., Lioo, F., Baldeos, L., Villanueva, D., y Ausejo, J. (2022). Deserción de estudiantes, factores asociados con árboles de decisión: Caso Escuela de Postgrado de una Universidad pública en Perú. Risti: Revista Ibérica de Sistemas e Tecnologias de Informação, (E-53), 197-211. https://www.risti.xyz/issues/ristie53.pdf

Díaz, C. (2008). Modelo conceptual para la deserción estudiantil universitaria chilena. Estudios Pedagógicos, XXXIV(2), 65-86. https://dx.doi.org/10.4067/S0718-07052008000200004

Díaz-Landa, B., Meleán-Romero, R., y Marín-Rodriguez, W. (2021). Rendimiento académico de estudiantes en Educación Superior: Predicciones de factores influyentes a partir de árboles de decisión. Telos: Revista de Estudios Interdisciplinarios en Ciencias Sociales, 23(3), 616-639. https://doi.org/10.36390/telos233.08

Dole, L., y Rajurkar, J. (2014). A decision support system for predicting student performance. International Journal of Innovative Research in Computer and Communication Engineering, 2(12), 7232-7237. https://ijircce.com/admin/main/storage/app/pdf/GE1YcjUwFseBETuax9LEymgN04TtdLS7TGEfmMgr.pdf

Duche, A. B., Paredes, F. M., Gutiérrez, O. A., y Carcausto, L. C. (2020). Transición secundaria-universidad y la adaptación a la vida universitaria. Revista de Ciencias Sociales (Ve), XXVI(3), 244-258. https://doi.org/10.31876/rcs.v26i3.33245

Dwi, M., Prasetya, A., y Pujianto, U. (2018). Technology acceptance model of student ability and tendency classification system. Bulletin of Social Informatics Theory and Application, 2(2), 47-57. https://doi.org/10.31763/businta.v2i2.113

Eccles, J., Adler, T., y Meece, J. L. (1984). Sex differences in achievement: A test of alternate theories. Journal of Personality and Social Psychology, 46(1), 26-43. https://doi.org/10.1037/0022-3514.46.1.26

Ethington, C. A. (1990). A psychological model of student persistence. Research in Higher Education, 31(3), 279-293. https://doi.org/10.1007/BF00992313

Félix, A. V., Urrea, M. L., y López, S. (2023). Abandono escolar de alumnos universitarios en la carrera de Derecho y Ciencias Sociales. Revista de Ciencias Sociales (Ve), XXIX(2), 242-254. https://doi.org/10.31876/rcs.v29i2.39974

Fishbein, M., y Ajzen, I. (1974). Attitudes toward objects as predictors of simple and multiple behavioural criteria. Psycological Review, 81, 59-74. https://doi.org/10.1037/h0035872

Fryda, T., LeDell, E., Gill, N., Aiello, S., Fu, A., Candel, A., Click, C., Kraljevic, T., Nykodym, T., Aboyoun, P., Kurka, M., Malohlava, M., Poirier, S., y Wong, W. (2022). H2O: R Interface for the 'H2O' Scalable Machine Learning Platform. R package version 3.38.0.1. https://docs.h2o.ai/h2o/latest-stable/h2o-r/docs/index.html

González, L. E. (2005). Estudio sobre la repitencia y deserción en la educación superior chilena. Instituto Internacional para la Educación Superior en América Latina y el Caribe, IESALC – UNESCO. https://unesdoc.unesco.org/ark:/48223/pf0000140087

Haque, M. A. (2022). Feature Engineering & Selection for Explainable Models: A second course for data scientists. LULU Internacional.

Jung, A. (2022). Machine Learning: The basics. Springer. https://doi.org/10.1007/978-981-16-8193-6

Khun, M., y Jhonson, K. (2019). Feature Engineering and Selection: A Practical Approach for Predictive Models. Chapman and Hall/CRC. https://doi.org/10.1201/9781315108230

Kodelja, Z. (2019). Is machine learning real learning? CEPS Journal, 9(3), 11-23. https://doi.org/10.26529/cepsj.709

Kuh, G. D. (2002). Organizational culture and student persistence: Prospects and puzzles. Journal of College Student Retention: Research, Theory & Practice, 3(1), 23-39. https://doi.org/10.2190/U1RN-C0UU-WXRV-0E3M

Kursa, M. B., y Rudnicki, W. R. (2010). Feature selection with the Boruta Package. Journal of Statistical Software, 36(11), 1-13. https://doi.org/10.18637/jss.v036.i11

Larsen, K. (2016). Data Exploration with Information Theory (Weight-of-Evidence and Information Value). R package version 0.0.9. https://CRAN.R-project.org/package=Information

LeDell, E., y Poirier, S. (2020). H2O AutoML: Scalable Automatic Machine Learning. 7th ICML Workshop on Automated Machine Learning. https://www.automl.org/wp-content/uploads/2020/07/AutoML_2020_paper_61.pdf

Ley No. 30220 de 2014. Ley Universitaria. 3 de julio de 2014.

Microsoft Learn (23 de diciembre de 2023). Conceptos de minería de datos. Microsoft Learn. https://learn.microsoft.com/es-es/analysis-services/data-mining/data-mining-concepts?view=asallproducts-allversions

Moreno, F. O., Ochoa, F. A., Mutter, K. J., y Vargas, E. C. (2021). Estrategias pedagógicas en entornos virtuales de aprendizaje en tiempos de pandemia por Covid-19. Revista de Ciencias Sociales (Ve), XXVII(4), 202-213. https://doi.org/10.31876/rcs.v27i4.37250

Mushtaq, I., y Khan, S. N. (2012). Factors affecting students’ academic performance. Global Journal of Management and Business Research, 12(9), 17-22. https://journalofbusiness.org/index.php/GJMBR/article/view/100221

Nagarajah, T., y Poravi, G. (2019). A Review on Automated Machine Learning (AutoML) Systems. IEEE 5th International Conference for Convergence in Technology (I2CT), Bombay, India. https://doi.org/10.1109/i2ct45611.2019.9033810

Nye, J. S. (1976). Independence and Interdependence. Foreign Policy, (22), 130-161. https://doi.org/10.2307/1148075

Organisation for Economic Co-operation and Development - OECD (2019). Education at a Glance 2019. OECD Publishing. https://doi.org/10.1787/f8d7880d-en

R Core Team (2022). R: A language and environment for statistical computing. R Foundation for Statistical Computing. https://www.R-project.org/

RStudio Team (2022). RStudio: Integrated Development for R. RStudio, http://www.rstudio.com/

Samuel, A. L. (2000). Some studies in machine learning using the game of checkers. IBM Journal of Research and Development, 44(1.2), 211-229. https://doi.org/10.1147/rd.441.0206

Sharmeela, C., Sanjeevikumar, P., Sivaraman, P., y Joseph, M. (2023). IoT, machine learning and blockchain technologies for renewable energy and modern hybrid power systems. Routledge.

Spady, W. G. (1970). Dropouts from higher education: An interdisciplinary review and synthesis. Interchange, 1, 64-85. https://doi.org/10.1007/BF02214313

St. John, E. P., Cabrera, A. E., Nora, A., y Asker, E. H. (2000). Economic influences on persistence reconsidered: How can finance research inform the reconceptualization of persistence models? In J. M. Braxton (Ed.), Reworking the student departure puzzle: New theory and research on college student retention (pp. 29-47). Vanderbilt University Press.

Superintendencia Nacional de Educación Superior Universitaria - SUNEDU (2020). II Informe bienal sobre la realidad universitaria en el Perú. SINEDU. https://cdn.www.gob.pe/uploads/document/file/1230044/Informe%20Bienal.pdf

Supo, J. (2020). Metodología de la Investigación Científica: Para las Ciencias de la Salud y las Ciencias Sociales. Independently published.

Tinto, V. (1982). Limits of theory and practice of student attrition. Journal of Higher Education, 53(6), 687-700. https://doi.org/10.2307/1981525

Tinto, V. (1989). Definir la deserción: Una cuestión de perspectiva. Revista de Educación Superior, (71), 1-9. http://publicaciones.anuies.mx/revista/71/1/3/es/definir-la-desercion-una-cuestion-de-perspectiva

Valero, J. E., Navarro, Á. F., Larios, A. C., y Julca, J. D. (2022). Deserción universitaria: Evaluación de diferentes algoritmos de Machine Learning para su predicción. Revista de Ciencias Sociales (Ve), XXVIII(3), 362-375. https://doi.org/10.31876/rcs.v28i3.38480

Villarreal-Torres, H., Ángeles-Morales, J., Marín-Rodriguez, W., Andrade-Girón, D., Carreño-Cisneros, E., Cano-Mejía, J., Mejía-Murillo, C., Boscán-Carroz, M. C., Flores-Reyes, G., y Cruz-Cruz, O. (2023). Development of a classification model for predicting student payment behavior using artificial intelligence and data science techniques. EAI Endorsed Transactions on Scalable Information Systems, 10(5). https://doi.org/10.4108/eetsis.3489

Villarreal-Torres, H. O., Marín-Rodriguez, W. J., Ángeles-Morales, J. C., y Cano-Mejía, J. E. (2021). Gestión de Tecnología de Información para universidades peruanas aplicando computación en la nube. Revista Venezolana de Gerencia, 26(E-6), 665-679. https://doi.org/10.52080/rvgluz.26.e6.40

Xu, W., y Li, W. (2014). Granular computing approach to two-way learning based on formal concept analysis in Fuzzy Datasets. IEEE Transactions on Cybernetics, 46(2), 366-379. https://doi.org/10.1109/tcyb.2014.2361772

Zárate-Valderrama, J., Bedregal-Alpaca, N., y Cornejo-Aparicio, V. (2021). Modelos de clasificación para reconocer patrones de deserción en estudiantes universitarios. Ingeniare. Revista Chilena de Ingeniería, 29(1), 168-177. http://dx.doi.org/10.4067/S0718-33052021000100168

Zöller, M.-A., y Huber, M. F. (2021). Benchmark and survey of automated machine learning frameworks. Journal of Artificial Intelligence Research, 70, 409-472. https://doi.org/10.1613/jair.1.11854

Zwanenburg, A., y Löck, S. (2021). Familiar: End-to-End Automated Machine Learning and Model Evaluation. https://cran.r-project.org/web/packages/familiar/familiar.pdf
Publicado
2024-02-19
Cómo citar
Villarreal-Torres, H., Ángeles-Morales, J., Marín-Rodriguez, W., & Cano-Mejía, J. (2024). Modelo de clasificación para la deserción estudiantil en las universidades públicas del Perú. Revista De Ciencias Sociales, 30(1), 452-469. https://doi.org/10.31876/rcs.v30i1.41667
Sección
Artículos