Modelo de clasificación para la deserción estudiantil en las universidades públicas del Perú
Resumen
Las tecnologías de información y comunicación cumplen un rol relevante en los diferentes campos del conocimiento, actualmente existe mayor capacidad para identificar patrones y anomalías en los datos de una organización utilizando la inteligencia artificial; el estudio tuvo como objetivo desarrollar un modelo de clasificación para la deserción estudiantil aplicando aprendizaje automático con el método autoML del framework H2O.ai, se ha tenido en cuenta la dimensionalidad de las características socioeconómicas y académicas. La metodología empleada fue de tipo predictivo y diseño no experimental, observacional y prospectivo; para ello, se aplicó un cuestionario de 20 ítems a 237 estudiantes de la Escuela de Posgrado matriculados en los programas de maestrías en educación. La investigación tuvo como resultado un modelo de aprendizaje automático supervisado, máquina de refuerzo de gradiente, para clasificar la deserción estudiantil, logrando así identificar los principales factores asociados que influyen en la deserción, obteniendo un coeficiente Gini del 92.20%, AUC del 96.10% y un LogLoss del 24.24% representando un modelo con desempeño eficiente. Se concluye que el modelo es apropiado por sus métricas de rendimiento, ofreciendo ventajas como trabajar con datos desequilibrados, validación cruzada y realizar predicciones en tiempo real.
Descargas
Citas
Aragón-Royón, F., Jiménez-Vílchez, A., Arauzo-Azofra, A., y Benitez, J. (2020). FSinR: An exhaustive package for feature selection. arXiv: 2002. 10330.
https://doi.org/10.48550/arXiv.2002.10330
Bean, J., y Eaton, S. B. (2001). The psychology underlying successful retention practices. Journal of College Student Retention: Research, Theory & Practice, 3(1), 73-89. https://doi.org/10.2190/6R55-4B30-28XG-L8U0
Berger, J. B. (2000). Organizational behavior in higher education and student outcomes. In J. C. Smart (Ed.), Higher Education: Handbook of theory and research (Vol. XV, pp. 268-338). Agathon Press.
Berger, J. B. (2001). Understanding the organizational nature of student persistence: Empirically based recommendations for practice. Journal of College Student Retention: Research, Theory and Practice, 3(1), 3-21. https://doi.org/10.2190/3K6A-2REC-GJU5-8280
Bernal, E. M., Cabrera, A. F., y Terenzini, P. T. (2000). The relationship between race and socioeconomic status (SES): Implications for institutional research and admissions policies. Removing Vestiges: Research-Based Strategies to Promote Inclusion, (3), 6-19.
Briñez, M. E. (2021). Tecnología de información: ¿Herramienta potenciadora para gestionar el capital intelectual? Revista de Ciencias Sociales (Ve), XXVII(1), 180-192. https://doi.org/10.31876/rcs.v27i1.35305
Cabrera, A. F., Nora, A., y Castañeda, M. B. (1992). The role of finances in the persistence process: A structural model. Research in Higher Education, 33(5), 571-593. https://doi.org/10.1007/BF00973759
Cabrera, A. F., Nora, A., y Castañeda, M. B. (1993). College persistence: Structural Equations modelling test of Integrated model of student retention. Journal of Higher Education, 64(2), 123-320. https://doi.org/10.2307/2960026
Camborda, M. G. (2014). Aplicación de árboles de decisión para la predicción del rendimiento académico de los estudiantes de los primeros ciclos de la carrera de Ingeniería Civil de la Universidad Continental [Tesis de maestría, Universidad Nacional del Centro del Perú]. http://repositorio.uncp.edu.pe/handle/20.500.12894/1477
Chatterjee, P., Yazdani, M., Fernández-Navarro, F., y Pérez-Rodríguez, J. (Eds.) (2023). Machine learning algorithms and applications in engineering. CRC Press. https://doi.org/10.1201/9781003104858
Deng, H. (2013). Guided Random Forest in the RRF Package. ArXiv: 1306.0237. https://doi.org/10.48550/arXiv.1306.0237
Diario Oficial del Bicentenario El Peruano (9 de noviembre de 2021). Tasa de deserción en educación universitaria. El Peruano. https://elperuano.pe/noticia/132960-tasa-de-desercion-en-educacion-universitaria-se-redujo-a-115
Díaz, B., Marín, W., Lioo, F., Baldeos, L., Villanueva, D., y Ausejo, J. (2022). Deserción de estudiantes, factores asociados con árboles de decisión: Caso Escuela de Postgrado de una Universidad pública en Perú. Risti: Revista Ibérica de Sistemas e Tecnologias de Informação, (E-53), 197-211. https://www.risti.xyz/issues/ristie53.pdf
Díaz, C. (2008). Modelo conceptual para la deserción estudiantil universitaria chilena. Estudios Pedagógicos, XXXIV(2), 65-86. https://dx.doi.org/10.4067/S0718-07052008000200004
Díaz-Landa, B., Meleán-Romero, R., y Marín-Rodriguez, W. (2021). Rendimiento académico de estudiantes en Educación Superior: Predicciones de factores influyentes a partir de árboles de decisión. Telos: Revista de Estudios Interdisciplinarios en Ciencias Sociales, 23(3), 616-639. https://doi.org/10.36390/telos233.08
Dole, L., y Rajurkar, J. (2014). A decision support system for predicting student performance. International Journal of Innovative Research in Computer and Communication Engineering, 2(12), 7232-7237. https://ijircce.com/admin/main/storage/app/pdf/GE1YcjUwFseBETuax9LEymgN04TtdLS7TGEfmMgr.pdf
Duche, A. B., Paredes, F. M., Gutiérrez, O. A., y Carcausto, L. C. (2020). Transición secundaria-universidad y la adaptación a la vida universitaria. Revista de Ciencias Sociales (Ve), XXVI(3), 244-258. https://doi.org/10.31876/rcs.v26i3.33245
Dwi, M., Prasetya, A., y Pujianto, U. (2018). Technology acceptance model of student ability and tendency classification system. Bulletin of Social Informatics Theory and Application, 2(2), 47-57. https://doi.org/10.31763/businta.v2i2.113
Eccles, J., Adler, T., y Meece, J. L. (1984). Sex differences in achievement: A test of alternate theories. Journal of Personality and Social Psychology, 46(1), 26-43. https://doi.org/10.1037/0022-3514.46.1.26
Ethington, C. A. (1990). A psychological model of student persistence. Research in Higher Education, 31(3), 279-293. https://doi.org/10.1007/BF00992313
Félix, A. V., Urrea, M. L., y López, S. (2023). Abandono escolar de alumnos universitarios en la carrera de Derecho y Ciencias Sociales. Revista de Ciencias Sociales (Ve), XXIX(2), 242-254. https://doi.org/10.31876/rcs.v29i2.39974
Fishbein, M., y Ajzen, I. (1974). Attitudes toward objects as predictors of simple and multiple behavioural criteria. Psycological Review, 81, 59-74. https://doi.org/10.1037/h0035872
Fryda, T., LeDell, E., Gill, N., Aiello, S., Fu, A., Candel, A., Click, C., Kraljevic, T., Nykodym, T., Aboyoun, P., Kurka, M., Malohlava, M., Poirier, S., y Wong, W. (2022). H2O: R Interface for the 'H2O' Scalable Machine Learning Platform. R package version 3.38.0.1. https://docs.h2o.ai/h2o/latest-stable/h2o-r/docs/index.html
González, L. E. (2005). Estudio sobre la repitencia y deserción en la educación superior chilena. Instituto Internacional para la Educación Superior en América Latina y el Caribe, IESALC – UNESCO. https://unesdoc.unesco.org/ark:/48223/pf0000140087
Haque, M. A. (2022). Feature Engineering & Selection for Explainable Models: A second course for data scientists. LULU Internacional.
Jung, A. (2022). Machine Learning: The basics. Springer. https://doi.org/10.1007/978-981-16-8193-6
Khun, M., y Jhonson, K. (2019). Feature Engineering and Selection: A Practical Approach for Predictive Models. Chapman and Hall/CRC. https://doi.org/10.1201/9781315108230
Kodelja, Z. (2019). Is machine learning real learning? CEPS Journal, 9(3), 11-23. https://doi.org/10.26529/cepsj.709
Kuh, G. D. (2002). Organizational culture and student persistence: Prospects and puzzles. Journal of College Student Retention: Research, Theory & Practice, 3(1), 23-39. https://doi.org/10.2190/U1RN-C0UU-WXRV-0E3M
Kursa, M. B., y Rudnicki, W. R. (2010). Feature selection with the Boruta Package. Journal of Statistical Software, 36(11), 1-13. https://doi.org/10.18637/jss.v036.i11
Larsen, K. (2016). Data Exploration with Information Theory (Weight-of-Evidence and Information Value). R package version 0.0.9. https://CRAN.R-project.org/package=Information
LeDell, E., y Poirier, S. (2020). H2O AutoML: Scalable Automatic Machine Learning. 7th ICML Workshop on Automated Machine Learning. https://www.automl.org/wp-content/uploads/2020/07/AutoML_2020_paper_61.pdf
Ley No. 30220 de 2014. Ley Universitaria. 3 de julio de 2014.
Microsoft Learn (23 de diciembre de 2023). Conceptos de minería de datos. Microsoft Learn. https://learn.microsoft.com/es-es/analysis-services/data-mining/data-mining-concepts?view=asallproducts-allversions
Moreno, F. O., Ochoa, F. A., Mutter, K. J., y Vargas, E. C. (2021). Estrategias pedagógicas en entornos virtuales de aprendizaje en tiempos de pandemia por Covid-19. Revista de Ciencias Sociales (Ve), XXVII(4), 202-213. https://doi.org/10.31876/rcs.v27i4.37250
Mushtaq, I., y Khan, S. N. (2012). Factors affecting students’ academic performance. Global Journal of Management and Business Research, 12(9), 17-22. https://journalofbusiness.org/index.php/GJMBR/article/view/100221
Nagarajah, T., y Poravi, G. (2019). A Review on Automated Machine Learning (AutoML) Systems. IEEE 5th International Conference for Convergence in Technology (I2CT), Bombay, India. https://doi.org/10.1109/i2ct45611.2019.9033810
Nye, J. S. (1976). Independence and Interdependence. Foreign Policy, (22), 130-161. https://doi.org/10.2307/1148075
Organisation for Economic Co-operation and Development - OECD (2019). Education at a Glance 2019. OECD Publishing. https://doi.org/10.1787/f8d7880d-en
R Core Team (2022). R: A language and environment for statistical computing. R Foundation for Statistical Computing. https://www.R-project.org/
RStudio Team (2022). RStudio: Integrated Development for R. RStudio, http://www.rstudio.com/
Samuel, A. L. (2000). Some studies in machine learning using the game of checkers. IBM Journal of Research and Development, 44(1.2), 211-229. https://doi.org/10.1147/rd.441.0206
Sharmeela, C., Sanjeevikumar, P., Sivaraman, P., y Joseph, M. (2023). IoT, machine learning and blockchain technologies for renewable energy and modern hybrid power systems. Routledge.
Spady, W. G. (1970). Dropouts from higher education: An interdisciplinary review and synthesis. Interchange, 1, 64-85. https://doi.org/10.1007/BF02214313
St. John, E. P., Cabrera, A. E., Nora, A., y Asker, E. H. (2000). Economic influences on persistence reconsidered: How can finance research inform the reconceptualization of persistence models? In J. M. Braxton (Ed.), Reworking the student departure puzzle: New theory and research on college student retention (pp. 29-47). Vanderbilt University Press.
Superintendencia Nacional de Educación Superior Universitaria - SUNEDU (2020). II Informe bienal sobre la realidad universitaria en el Perú. SINEDU. https://cdn.www.gob.pe/uploads/document/file/1230044/Informe%20Bienal.pdf
Supo, J. (2020). Metodología de la Investigación Científica: Para las Ciencias de la Salud y las Ciencias Sociales. Independently published.
Tinto, V. (1982). Limits of theory and practice of student attrition. Journal of Higher Education, 53(6), 687-700. https://doi.org/10.2307/1981525
Tinto, V. (1989). Definir la deserción: Una cuestión de perspectiva. Revista de Educación Superior, (71), 1-9. http://publicaciones.anuies.mx/revista/71/1/3/es/definir-la-desercion-una-cuestion-de-perspectiva
Valero, J. E., Navarro, Á. F., Larios, A. C., y Julca, J. D. (2022). Deserción universitaria: Evaluación de diferentes algoritmos de Machine Learning para su predicción. Revista de Ciencias Sociales (Ve), XXVIII(3), 362-375. https://doi.org/10.31876/rcs.v28i3.38480
Villarreal-Torres, H., Ángeles-Morales, J., Marín-Rodriguez, W., Andrade-Girón, D., Carreño-Cisneros, E., Cano-Mejía, J., Mejía-Murillo, C., Boscán-Carroz, M. C., Flores-Reyes, G., y Cruz-Cruz, O. (2023). Development of a classification model for predicting student payment behavior using artificial intelligence and data science techniques. EAI Endorsed Transactions on Scalable Information Systems, 10(5). https://doi.org/10.4108/eetsis.3489
Villarreal-Torres, H. O., Marín-Rodriguez, W. J., Ángeles-Morales, J. C., y Cano-Mejía, J. E. (2021). Gestión de Tecnología de Información para universidades peruanas aplicando computación en la nube. Revista Venezolana de Gerencia, 26(E-6), 665-679. https://doi.org/10.52080/rvgluz.26.e6.40
Xu, W., y Li, W. (2014). Granular computing approach to two-way learning based on formal concept analysis in Fuzzy Datasets. IEEE Transactions on Cybernetics, 46(2), 366-379. https://doi.org/10.1109/tcyb.2014.2361772
Zárate-Valderrama, J., Bedregal-Alpaca, N., y Cornejo-Aparicio, V. (2021). Modelos de clasificación para reconocer patrones de deserción en estudiantes universitarios. Ingeniare. Revista Chilena de Ingeniería, 29(1), 168-177. http://dx.doi.org/10.4067/S0718-33052021000100168
Zöller, M.-A., y Huber, M. F. (2021). Benchmark and survey of automated machine learning frameworks. Journal of Artificial Intelligence Research, 70, 409-472. https://doi.org/10.1613/jair.1.11854
Zwanenburg, A., y Löck, S. (2021). Familiar: End-to-End Automated Machine Learning and Model Evaluation. https://cran.r-project.org/web/packages/familiar/familiar.pdf
Esta obra está bajo licencia internacional Creative Commons Reconocimiento-NoComercial-CompartirIgual 4.0.