Revista de Ciencias Sociales (RCS)

Vol. XXX, No. 1, Enero - Marzo 2024. pp. 452-469

FCES - LUZ ● ISSN: 1315-9518 ● ISSN-E: 2477-9431

 

Como citar: Villarreal-Torres, H., �ngeles-Morales, J., Mar�n-Rodriguez, W., y Cano-Mej�a, J. (2024). Modelo de clasificaci�n para la deserci�n estudiantil en las universidades p�blicas del Per�. Revista De Ciencias Sociales, XXX(1), 452-469.

 

Modelo de clasificaci�n para la deserci�n estudiantil en las universidades p�blicas del Per�

 

Villarreal-Torres, Henry*

�ngeles-Morales, Julio**

Mar�n-Rodriguez, William***

Cano-Mej�a, Jenny****

 

Resumen

 

Las tecnolog�as de informaci�n y comunicaci�n cumplen un rol relevante en los diferentes campos del conocimiento, actualmente existe mayor capacidad para identificar patrones y anomal�as en los datos de una organizaci�n utilizando la inteligencia artificial; el estudio tuvo como objetivo desarrollar un modelo de clasificaci�n para la deserci�n estudiantil aplicando aprendizaje autom�tico con el m�todo autoML del framework H2O.ai, se ha tenido en cuenta la dimensionalidad de las caracter�sticas socioecon�micas y acad�micas. La metodolog�a empleada fue de tipo predictivo y dise�o no experimental, observacional y prospectivo; para ello, se aplic� un cuestionario de 20 �tems a 237 estudiantes de la Escuela de Posgrado matriculados en los programas de maestr�as en educaci�n. La investigaci�n tuvo como resultado un modelo de aprendizaje autom�tico supervisado, m�quina de refuerzo de gradiente, para clasificar la deserci�n estudiantil, logrando as� identificar los principales factores asociados que influyen en la deserci�n, obteniendo un coeficiente Gini del 92.20%, AUC del 96.10% y un LogLoss del 24.24% representando un modelo con desempe�o eficiente. Se concluye que el modelo es apropiado por sus m�tricas de rendimiento, ofreciendo ventajas como trabajar con datos desequilibrados, validaci�n cruzada y realizar predicciones en tiempo real.

 

Palabras clave: Aprendizaje autom�tico; deserci�n estudiantil; educaci�n superior; miner�a de datos; H2O.ai.

 

 

Classification model for student dropout in public universities in Peru

 

Abstract

 

Information and communication technologies play a relevant role in different fields of knowledge. Currently, there is a greater capacity to identify patterns and anomalies in an organization's data using artificial intelligence; The study aimed to develop a classification model for student dropout by applying machine learning with the autoML method of the H2O.ai framework, taking into account the dimensionality of socioeconomic and academic characteristics. The methodology used was predictive and non-experimental, observational and prospective in design; To this end, a 20-item questionnaire was applied to 237 students from the Graduate School enrolled in master's degree programs in education. The research resulted in a supervised machine learning model, gradient boosting machine, to classify student dropout, thus identifying the main associated factors that influence dropout, obtaining a Gini coefficient of 92.20%, AUC of 96.10% and a LogLoss of 24.24% representing a model with efficient performance. It is concluded that the model is appropriate for its performance metrics, offering advantages such as working with unbalanced data, cross validation and making predictions in real time.

 

Keywords: Machine learning; student attrition; higher education; data mining; H2O.ai.

 

 

Introducci�n

La educaci�n es fundamental para el desarrollo y el bienestar de una sociedad, por tanto, los estudiantes son la raz�n de ser de cualquier instituci�n educativa. El desarrollo social y econ�mico de un pa�s est� directamente relacionado con el rendimiento acad�mico de sus estudiantes (Mushtaq y Khan, 2012). En el 2014 la Ley Universitaria No. 30220, crea la Superintendencia de Educaci�n Superior Universitaria (SUNEDU), organismo que implement� el modelo de licenciamiento institucional. Ante la exigencia de cumplimiento de las condiciones b�sicas de calidad, es una buena opci�n gestionar la educaci�n con las tecnolog�as de informaci�n seg�n la propuesta de Villarreal-Torres et al. (2021); y, Bri�ez (2021), para tener la informaci�n disponible en el momento oportuno.

La deserci�n universitaria, es un problema relacionado al estudiante como responsable directo, generando preocupaci�n en sus directivos por conocer las probabilidades de no culminaci�n de estudios, influyendo negativamente en el desarrollo acad�mico y econ�mico de la instituci�n; motivo por el cual, se pretende identificar patrones de comportamiento en los estudiantes, mediante la miner�a de datos, analizando los factores socioecon�micos y acad�micos para implementar estrategias espec�ficas que coadyuven a mantener una econom�a sostenible en el tiempo, evitando el alto �ndice de riesgo de abandono de estudios. Espec�ficamente en el �mbito de las universidades, y particularmente en las escuelas de postgrado, resulta necesario cumplir con est�ndares de calidad en lo referente a la oferta del servicio educativo (D�az-Landa, Mele�n-Romero y Mar�n-Rodriguez, 2021).

En el Per� se ha incrementado significativamente antes y a�n m�s despu�s de la pandemia de Covid-19, es por ello, que las universidades p�blicas necesitan identificar e implementar programas para disminuir la deserci�n estudiantil (Valero et al. 2022).Este problema se agudizo durante el Covid-19 ocasionando un impacto negativo en la mayor�a de los sectores productivos, conduciendo a algunas instituciones educativas a implementar estrategias para revertir la situaci�n de abandono de estudios (Moreno et al., 2021; F�lix, Urrea y L�pez, 2023; Villarreal-Torres et al., 2023). Por ello �son m�ltiples las aplicaciones de inteligencia artificial [que] utilizan t�cnicas de miner�a de datos para descubrir patrones importantes y obtener informaci�n �til de sistemas de informaci�n de registros acad�micos� (D�az et al. 2022, p. 198).

El informe de la Organizaci�n para la Cooperaci�n y el Desarrollo Econ�micos (Organisation for Economic Co-operation and Development [OECD], 2019), indica que el 39% de los estudiantes a tiempo completo que ingresan a un programa se grad�an dentro de la duraci�n te�rica; asimismo, la tasa promedio de finalizaci�n posterior a los tres a�os adicionales corresponde a un incremento del 67%. Por otra parte, el 12% de ingresantes a un programa a tiempo completo abandonan sus estudios antes del inicio del segundo; asimismo, muestra un incremento del 20% al final de la duraci�n te�rica y al 24% posterior a los tres a�os.

En el Per�, las cifras sobre la evoluci�n de matr�culas seg�n la Superintendencia Nacional de Educaci�n Superior (SUNEDU, 2020) en el nivel de pregrado durante el 2018, fue de 1.59 millones cifra que se ha reducido en 1.34 millones de estudiantes en el 2020, interpretado con un 15,7% de diferencia entre los periodos; en el caso, de posgrado se tiene una reducci�n de 27,7%, puesto que durante el 2018 se tuvo 131.9 mil y en el periodo 2020 se cont� con 95.4 mil estudiantes matriculados. Seg�n el Diario Oficial El Peruano (2021), se detalla que en las universidades licenciadas a nivel nacional indican que el porcentaje de interrupci�n de estudios ha decrecido en 4,7%; es decir, de un 16,2% ha disminuido a un 11,5% entre los semestres 2020-II y 2021-I.

La investigaci�n estuvo enmarcada en la producci�n de un nuevo conocimiento mediante la propuesta del modelo de clasificaci�n, adem�s se corrobor� la teor�a de deserci�n estudiantil sostenida por D�az (2008). El objetivo de la investigaci�n fue desarrollar un modelo de clasificaci�n de deserci�n en estudiantes de los programas de estudio de educaci�n mediante aprendizaje autom�tico y t�cnicas de miner�a de datos aplicando autoML de H2O.ai, a fin de que los estudiantes, con potencial de deserci�n, puedan ser identificados por las autoridades para tomar las medidas correctivas pertinentes.

 

1. Fundamentaci�n te�rica

1.1. Miner�a de datos

La miner�a de datos utiliza el an�lisis matem�tico y estad�stico para encontrar patrones y tendencias en grandes conjuntos de datos. La exploraci�n de datos tradicional no puede descubrir estos patrones debido a la complejidad o a las grandes cantidades de datos (Microsoft Learn, 2023). Utilizan m�todos estad�sticos y algoritmos de inteligencia artificial para encontrar patrones en conjuntos de datos masivos (Camborda, 2014). Sus m�todos de clasificaci�n, agrupaci�n y predicci�n hacen que tenga �xito (Z�rate-Valderrama et al., 2021). Dole y Rajurkar (2014), pronostican la culminaci�n y el estado de aprobado/reprobado utilizando el algoritmo Naive Bayes y el �rbol de decisi�n.

En definitiva, la miner�a de datos debe utilizarse con cuidado y responsabilidad para garantizar que se respeta el derecho a la privacidad de las personas y se obtengan conclusiones precisas y �tiles. Es una t�cnica importante que ha transformado la forma en que las organizaciones gestionan y toman decisiones basadas en grandes cantidades de datos.

 

1.2. Aprendizaje autom�tico

Kodelja (2019), sostiene que es un subconjunto de la inteligencia artificial; adem�s, afirma que es aprendizaje y no otra cosa; mientras que otros -incluidos los fil�sofos- rechazan la afirmaci�n que es un aprendizaje real, para ellos, el aprendizaje real es la forma m�s elevada del aprendizaje humano. Por su parte, Xu y Li (2014), manifiestan que es un m�todo esencial para tratar los problemas de adquisici�n de conocimientos; se refiere a la construcci�n y el estudio de sistemas que pueden aprender de los datos.

Samuel (2000), lo define como el campo de estudio donde los ordenadores tienen la capacidad de aprender, sin ser programados expl�citamente. Dwi, Prasetya y Pujianto (2018), sostienen que se enfoca en desarrollar un sistema que sea capaz de aprender de sus propios patrones sin intervenci�n humana, su aplicaci�n se encuentra en varios campos.

El aprendizaje autom�tico, es la capacidad de los sistemas inform�ticos para aprender y evolucionar de forma aut�noma a partir de datos a trav�s del tiempo; el cual se est� convirtiendo en una herramienta indispensable para la adquisici�n de conocimientos en diversas �reas; aunque con algunas limitaciones, sus aplicaciones son innovadoras y eficientes para la soluci�n de problemas reales.

 

1.3. Tipos de aprendizaje autom�tico

Jung (2022), describe dos tipos de aprendizaje autom�tico; el primero, como aprendizaje supervisado, que emplea un conjunto de datos etiquetados para su predicci�n, se divide en regresi�n y clasificaci�n; el segundo, como aprendizaje no supervisado, al conjunto de datos que no necesita etiquetas; permite a los analistas descubrir patrones de comportamientos o similitudes entre las caracter�sticas, solo se basa en la subdivisi�n o el agrupamiento (Chatterjee et al., 2023). Existiendo el aprendizaje por refuerzo, similar al aprendizaje no supervisado, puede evaluar la funci�n de perdida; en estos casos, aprende de las experiencias de prueba y error dependiendo de la retroalimentaci�n y su factor o agente para tener un desempe�o eficiente (Sharmeela et al., 2023).

Es de vital importancia conocer las m�ltiples formas de aprendizaje autom�tico y sus propias caracter�sticas, fortalezas y debilidades de cada una de ellas; en tal sentido, es esencial la selecci�n del tipo de aprendizaje autom�tico para desarrollar modelos de predicci�n en la soluci�n de problemas originados en diversas ramas del conocimiento.

 

1.4. AutoML

AutoML, es el aprendizaje autom�tico de las maquinas, Nagarajah y Poravi (2019), lo describen como un proceso que tiene la capacidad de elaborar modelos a la medida, reduciendo de manera considerable la intervenci�n de las personas; adem�s, de realizar el preprocesamiento de los datos, la ingenier�a de variables, la construcci�n de modelos, la optimizaci�n de hiperpar�metros y el an�lisis de los resultados de las predicciones y su respectiva evaluaci�n.

El desarrollo del aprendizaje autom�tico de m�quinas ha permitido, en gran medida, agilizar las operaciones de desarrollo del aprendizaje de m�quina que requieren mucho tiempo, pretendiendo reducir la demanda de los cient�ficos de datos y tener la capacidad de construir aplicaciones de aprendizaje autom�tico de buen rendimiento, sin necesidad de tener amplios conocimientos de estad�stica y aprendizaje de m�quinas (Z�ller y Huber, 2021).

Mediante la implementaci�n del autoML, se puede lograr la automatizaci�n del proceso de desarrollo del aprendizaje autom�tico, lo que a su vez hace posible producir aplicaciones de aprendizaje autom�tico de alto rendimiento de una manera r�pida y eficiente, sin la necesidad de tener amplios conocimientos de estad�stica e inform�tica. Actualmente, el n�mero de librer�as desarrolladas ha aumentado significativamente, lo que hace posible que las organizaciones desplieguen soluciones innovadoras de una manera simple y eficaz.

 

1.5. Plataforma H2O.ai

LeDell y Poirier (2020), expresan que H2O es una plataforma de aprendizaje autom�tico distribuido de c�digo abierto, se cre� para escalar a conjuntos de datos extremadamente grandes. Sus interfaces de programaci�n de aplicaciones (API) est�n escritas en R, Python, Java y Scala. Los pasos para realizar el proceso de automatizaci�n mediante H2O.autoML son: La recopilaci�n de datos, exploraci�n de datos, preparaci�n de datos, transformaci�n de datos, selecci�n del modelo, entrenamiento del modelo, ajustes de hiperpar�metros y finalmente, la predicci�n (Ajgaonkar, 2022).

La plataforma H2O, es una herramienta que viene ganando popularidad para quienes trabajan con enormes conjuntos de datos y buscan automatizar el proceso de aprendizaje autom�tico; adem�s, cuenta con interfaces de programaci�n de aplicaciones (API) haci�ndola accesible para usuarios avanzados de la comunidad de aprendizaje autom�tico.

 

1.6. Selecci�n de caracter�sticas

Para el desarrollo de un modelo de aprendizaje autom�tico, es necesario realizar la selecci�n de caracter�sticas, tiene como finalidad identificar la interacci�n de las variables dependientes para tener el mejor desempe�o predictivo; este proceso es relevante porque permite conocer las variables que aportan significativamente al modelo predictivo, permitiendo as�, reducir el n�mero de variables, tiempo, velocidad y despliegue; haciendo que el modelo sea menos complejo y m�s f�cil de explicar (Haque, 2022).

Se tiene tres clases de m�todos para la selecci�n de caracter�sticas seg�n Khun y Jhonson (2019): Los m�todos intr�nsecos, comprenden a los modelos basados en �rboles y reglas, los modelos multivariados de regresi�n adaptativa y los modelos de regularizaci�n; los m�todos de filtro, son simples y r�pidos mediante un an�lisis supervisado determinan las caracter�sticas, son propensos a sobre seleccionar predictores en el modelo. Finalmente, los m�todos de envoltura, que usan procedimientos de b�squeda iterativos, proporcionando subconjuntos de predictores para el modelo teniendo mayor eficacia en el rendimiento de la predicci�n.

El proceso de selecci�n de caracter�sticas, es un paso esencial en la construcci�n de modelos de aprendizaje autom�tico, donde se utilizan a menudo enfoques como las t�cnicas intr�nsecas, de filtro y de envoltura, para identificar las variables que aportan significativamente al modelo predictivo; adem�s, la selecci�n de caracter�sticas tiene como prop�sito la reducci�n de recursos que conlleva a una adecuada comprensi�n e interpretaci�n del modelo desarrollado. En grandes vol�menes de datos, la selecci�n de caracter�sticas puede conllevar a resultados sesgados o incompletos.

 

1.7. Deserci�n estudiantil

Tinto (1982); y, F�lix et al. (2023), definen la deserci�n como una situaci�n en la que un estudiante no logra terminar su educaci�n o se aleja de ella de manera temporal o permanente; por lo tanto, un desertor ser�a aquel que est� inscrito en una instituci�n de educaci�n superior, pero no presenta actividad acad�mica durante tres semestres acad�micos seguidos. Gonz�lez (2005), diferencia dos tipos de abandono en la educaci�n superior universitaria; la primera, con respecto al tiempo (inicial, temprana y tard�a); y la segunda, con respecto al espacio (institucional, interna y del sistema educativo).

Tinto (1989), afirma que durante el periodo de transici�n se producen los abandonos; espec�ficamente, y tal como lo se�alan Duche et al. (2020), la transici�n secundaria-universitaria, siendo los m�s frecuentes los abandonos voluntarios. D�az (2008), present� los modelos de an�lisis de la deserci�n estudiantil, con el prop�sito de analizar el fen�meno de la deserci�n inherente a la vida estudiantil universitaria, describiendo las teor�as desde diversos puntos de vista:

a. Modelo psicol�gico: Indica los rasgos de personalidad que establecen las diferencias entre los estudiantes que culminan y abandonan sus estudios universitarios; se fundamenta en las propuestas de Fhisbein y Ajzen (1974), quienes sostienen la Teor�a de la Acci�n Razonada; Ethington (1990), quien se basa en el Modelo de Elecci�n Acad�mica sostenido por Eccles, Adler y Meece (1984), para insertar teor�as sobre conductas de logro, como el rendimiento acad�mico que afecta al estudiante. Finalmente, Bean y Eaton (2001) fundamentan los procesos psicol�gicos con la integraci�n acad�mica y social sustentados en cuatro teor�as psicol�gicas: Teor�a de Actitud y Comportamiento; Teor�a del Comportamiento de Copia, la Habilidad para Entrar y Adaptarse a un Nuevo Ambiente; la Teor�a de Autoeficacia; y, la Teor�a de Atribuci�n.

b. Modelo sociol�gico: Hace �nfasis en los factores externos de los estudiantes, los cuales influencian en la deserci�n estudiantil; Spady (1970), manifiesta que una de las causas de la deserci�n, es la integraci�n social en la universidad, generada por las influencias, expectativas y demandas dadas en el medio familiar. Asimismo, propone seis predictores para la deserci�n estudiantil: Integraci�n acad�mica, integraci�n social, estado socioecon�mico, g�nero, calidad de carrera y el promedio de cada semestre.

c. Modelo econ�mico: Est� basado en dos modelos: El primero, Costo/Beneficio, est� relacionado a los beneficios sociales y econ�micos que perciben los estudiantes para permanecer en la universidad; el segundo, Focalizaci�n del Subsidio, est� orientado a los estudiantes con bajos recursos o limitaciones para costear sus estudios (Cabrera, Nora y Casta�eda, 1992; 1993; Bernal, Cabrera y Terenzini, 2000; St. John et al., 2000).

d. Modelo organizacional: Se fundamenta en la forma c�mo la organizaci�n integra a los estudiantes (Berger, 2000; 2001; Kuh 2002).

e. Modelo de interacci�n: Sostiene que la permanencia en la instituci�n est� en funci�n del grado de acoplamiento del estudiante con la instituci�n (Tinto, 1982), se complementa con el modelo de Spady (1970), en el que se incorpora la teor�a de intercambio de Nye (1976).

La deserci�n estudiantil en el sistema universitario, es un problema complejo ocasionado por diversos factores como sociales, econ�micos, personales, familiares, acad�micos, psicol�gicos, entre otros, desarrollados dentro de su entorno y experiencias; los cuales deben ser analizados desde diferentes puntos de vista con el prop�sito de brindar una soluci�n integral y permita a los estudiantes finalizar sus estudios. La reducci�n de la deserci�n estudiantil puede lograrse desde un an�lisis de la personalidad, seguido de la integraci�n social y acad�mica, optimizaci�n de costos y beneficios brindados por el servicio educativo, hasta el grado de articulaci�n o acoplamiento entre el estudiante y la instituci�n.

 

1.8. Dimensiones de la deserci�n estudiantil

Las variables consideradas, con mayor frecuencia, en los modelos te�ricos relacionados a la deserci�n estudiantil fueron consolidadas en el estudio realizado por D�az (2008), se consideran cuatro categor�as, las individuales (edad, g�nero, grupo familiar e integraci�n, social); las acad�micas (orientaci�n profesional, desarrollo intelectual, rendimiento acad�mico, m�todos de estudios, procesos de admisi�n, grados de satisfacci�n de la carrera y carga acad�mica); las institucionales (normativas acad�micas, financiamiento estudiantil, recursos universitarios, calidad del programa o carrera y relaci�n con los profesores y pares); y las socioecon�micas (estrato socioecon�mico, situaci�n laboral del estudiante, situaci�n laboral de los padres y nivel educacional de los padres).

 

2. Metodolog�a

La metodolog�a utilizada estuvo basada en el enfoque cuantitativo, en virtud al an�lisis y procesamiento de datos num�ricos para detectar patrones y relaciones entre las variables de estudio; con respecto al tipo de investigaci�n corresponde un estudio predictivo, cuya finalidad es desarrollar un modelo de predicci�n mediante las t�cnicas de miner�a de datos, aprendizaje autom�tico y estad�sticas. As� mismo, el dise�o fue no experimental, observacional y prospectivo (Supo, 2020).

El conjunto de datos fue obtenido de dos fuentes de informaci�n, en primer lugar, mediante la aplicaci�n de un cuestionario como instrumento, que contiene 20 �tems agrupados en cuatro dimensiones, aplic�ndose a 237 participantes de la Escuela de Posgrado de la Universidad Nacional Jos� Faustino S�nchez Carri�n matriculados en los programas de maestr�as en educaci�n, seleccionados mediante muestreo aleatorio simple; en segundo lugar, se recopilaron datos del registro de evaluaciones mediante la observaci�n. A continuaci�n, se presentan los �tems en el Cuadro 1.

Cuadro 1

Instrumento de recolecci�n de datos para los participantes

N

Pregunta

Tipo

P01

Rendimiento acad�mico en secundaria����������

Ordinal

P02

Asignaturas desaprobadas en secundaria

Ordinal

P03

Repitencia de a�o en secundaria���������

Dicot�mico

P04

Rendimiento acad�mico en pregrado�����������������������

Ordinal

P05

Asignaturas desaprobadas en pregrado�������������������������

Ordinal

P06

Sexo������������������������������

Dicot�mico

P07

Rango edad

Ordinal

P08

Estado civil

Ordinal

P09

Empleado adecuadamente

Ordinal

P10

N�mero de hijos��������

Ordinal

P11

Ingreso familiar�������������������������������������

Ordinal

P12

Motivaci�n para el estudio

Dicot�mico

P13

Situaci�n econ�mica

Ordinal

P14

Financiamiento de estudios

Dicot�mico

P15

Disponibilidad de tiempo de estudio

Ordinal

P16

Nivel de estr�s��������������

Ordinal

P17

Infraestructura adecuada

Ordinal

P18

Equipamiento y mobiliario adecuado

Ordinal

P19

Asignaturas pertinentes

Ordinal

P20

Nivel de docentes

Dicot�mico

 

Fuente: Elaboraci�n propia, 2023.

En base a la revisi�n de la literatura que fundamenta la deserci�n estudiantil, se ha considerado la teor�a de D�az (2008), quien adapt� las teor�as propuestas al contexto de la realidad peruana elaboradas por Spady (1970); y, Tinto (1989), en cuatro factores, como se detalla en la Tabla 1.

Tabla 1
Descripci�n �tems seg�n factores propuesta de D�az (2008)

N

Factores

�tems

Inicio

Final

01

Acad�micos

01

05

02

Individuales

06

12

03

Ambientales

13

16

04

Institucionales

17

20

 

Fuente: Elaboraci�n propia, 2023.

Para el desarrollo del modelo, se utiliz� el lenguaje R Statistical Software (v4.2.2; R Core Team, 2022) y con el entorno de desarrollo R Studio (v2022.12.0 Build 353; RStudio Team, 2022) ejecutado desde el sistema operativo de escritorio Windows 11 (x64 Build 22621); as� mismo, se emple� la plataforma H20.ai para la generaci�n del modelo de clasificaci�n a trav�s del paquete, H2O (v 3.38.0.1; Fryda et al., 2022). Para la reducci�n de la dimensionalidad mediante la selecci�n de caracter�sticas se utilizaron los paquetes: Familiar (v1.4.1; Zwanenburg y L�ck, 2021); Information (v0.0.9; Larsen, 2016); Boruta (v8.0.0; Kursa y Rudnicki, 2010); Regularized Random Forest, RRF (v1.9.4; Deng, 2013); y, FSinR (v2.0.5; Arag�n-Roy�n et al., 2020).

 

3. Resultados y discusi�n

A continuaci�n, se presenta el an�lisis descriptivo de las opiniones emitidas por los participantes a trav�s del cuestionario, seg�n la Tabla 2, los resultados indican variabilidad en las respuestas. As� mismo, para desarrollar estos modelos, se definieron variables independientes, que corresponde a 20 �tems del instrumento y como variable dependiente, la deserci�n estudiantil; adem�s, se ha considerado dos aspectos de vital importancia: La selecci�n de caracter�sticas y el porcentaje para la partici�n del conjunto de datos para entrenamiento, validaci�n y prueba para cada uno de los modelos.

Para la selecci�n de las caracter�sticas se utilizaron diferentes algoritmos, obteniendo dos conjuntos de variables en base a las coincidencias o similitudes en com�n; el primer conjunto, conformado por 11 variables (P01, P02, P03, P04, P09, P10, P12, P13, P14, P16, P20); y el segundo conjunto, conformado por las cinco variables (P07, P11, P17, P18, P19), haciendo un total de 16 variables.

Tabla 2
An�lisis descriptivo del conjunto de datos de los participantes

N

Etiq.

Descripci�n

Min

Max

Mean

DE

01

P01

Rendimiento acad�mico en secundaria����������

1

5

3.633

0.977

02

P02

Asignaturas desaprobadas en secundaria

1

4

1.578

0.786

03

P03

Repitencia de a�o en secundaria���������

1

2

1.932

0.251

04

P04

Rendimiento acad�mico en pregrado����������������������

2

5

3.443

0.879

05

P05

Asignaturas desaprobadas en pregrado�������������������������

1

3

1.266

0.530

06

P06

Sexo������������������������������

1

2

1.624

0.485

07

P07

Rango edad

1

3

2.004

0.805

08

P08

Estado civil

1

5

1.975

0.786

09

P09

Empleado adecuadamente

1

2

1.831

0.375

10

P10

N�mero de hijos��������

1

3

1.916

0.714

11

P11

Ingreso familiar�������������������������������������

2

5

3.013

0.773

12

P12

Motivaci�n para el estudio

1

2

1.038

0.192

13

P13

Situaci�n econ�mica

2

5

3.194

0.773

14

P14

Financiamiento de estudios

1

2

1.068

0.251

15

P15

Disponibilidad de tiempo de estudio

1

5

3.118

1.477

16

P16

Nivel de estr�s��������������

1

5

2.970

1.418

17

P17

Infraestructura adecuada

1

5

3.084

1.369

18

P18

Equipamiento y mobiliario adecuado

1

5

2.924

1.376

19

P19

Asignaturas pertinentes

1

5

2.911

1.419

20

P20

Nivel de docentes

1

5

3.650

1.012

 

Fuente: Elaboraci�n propia, 2023.

Posteriormente, se establecieron los par�metros para la invocaci�n del m�todo AutoML del objeto H2O, considerando como par�metros de datos, el conjunto de las variables independientes y luego la variable objetivo o de destino, definida como la variable dependiente; el par�metro de parada o de finalizaci�n, se consider� max_models = 100; adem�s, de la opci�n balance_classes = TRUE.

Con esta configuraci�n se presentan en la Tabla 3, los resultados de las 10 ejecuciones o iteraciones realizadas seg�n la configuraci�n definida; se muestra en s�ntesis los principales modelos de aprendizaje autom�tico con mejores m�tricas de entrenamiento en comparaci�n con otros modelos ubicados en posiciones inferiores; por ejemplo, Extremely Randomized Trees (XRT) y Distributed Random Forest (DRF), Generalized Linear Model (GLM). A continuaci�n, se presentan las m�tricas del proceso de entrenamiento de cada uno de los modelos generados autom�ticamente.

Tabla 3
Modelos de aprendizaje autom�tico seg�n el tama�o de los conjuntos de datos

N

Modelo

�tems

Conjunto de Datos

Entrenamiento

Prueba

Validaci�n

01

DeepLearning Grid

16

70

30

0

02

DeepLearning Grid

11

70

30

0

03

GBM Grid

16

70

15

15

04

DeepLearning Grid

11

70

15

15

05

GBM Grid

16

80

20

0

06

GBM Grid

11

80

20

0

07

GBM Grid

16

60

40

0

08

GBM Grid

11

60

40

0

09

GBM Grid

16

75

25

0

10

GBM Grid

11

75

25

0

 

Fuente: Elaboraci�n propia, 2023.

Como se aprecia en la Tabla 4, las puntuaciones obtenidas en cada m�trica son muy similares y significativas durante el proceso de entrenamiento y validaci�n, se observa valores �ptimos de rendimiento en cada modelo seg�n el tama�o de los conjuntos de datos de la Tabla 3; realiz�ndose posteriormente, las pruebas para obtener las m�tricas de rendimiento de cada uno de los modelos indicados.

Tabla 4
M�tricas de rendimiento de los modelos de entrenamiento y validaci�n

N

Modelo

�tems

AUC

LOGLOS

AUCPR

01

DeepLearning Grid

16

0.981685

0.389653

0.956428

02

DeepLearning Grid

11

0.981136

0.214359

0.951164

03

GBM Grid

16

0.980220

0.183851

0.943741

04

DeepLearning Grid

11

0.982784

0.196832

0.954476

05

GBM Grid

16

0.972311

0.258593

0.923799

06

GBM Grid

11

0.972603

0.204378

0.932085

07

GBM Grid

16

0.974163

0.246842

0.915569

08

GBM Grid

11

0.972010

0.207276

0.920860

09

GBM Grid

16

0.977618

0.218077

0.925325

10

GBM Grid

11

0.972982

0.201235

0.923862

 

Fuente: Elaboraci�n propia, 2023.

Los modelos de clasificaci�n tienen una variedad de m�tricas de rendimiento entre las de mayor relevancia se tiene el coeficiente de Gini, el cual es empleado para medir la calidad del modelo de predicci�n, teniendo como interpretaci�n, que una valoraci�n de cero significa una igualdad perfecta, es decir, se tiene un modelo deficiente; cuanto tiene un valor cercano a la unidad, se presenta como desigualdad m�xima, y se considera un clasificador perfecto.

La Tabla 5, contiene las m�tricas de las ejecuciones y pruebas realizadas con cada uno de los modelos generados autom�ticamente, como se evidencia las m�tricas son similares a diferencia del tercero y cuarto modelo que se encuentran sobre ajustados, debido al n�mero de observaciones particionadas en tres conjuntos de datos. Asimismo, se muestra un mejor desempe�o en las m�tricas de los modelos con menor n�mero de �tems; en este sentido, por el principio de parsimonia, se opta por aquellos con 11 �tems seg�n los algoritmos utilizados para la selecci�n de caracter�sticas, permitiendo beneficios para su futura implementaci�n. Se observa ligeramente una mejor prestaci�n en el d�cimo modelo Gradient Boosting Machine, seguido por el segundo modelo DeepLearning.

Tabla 5
M�tricas de rendimiento de los modelos de pruebas

N

Modelo

�tems

GINI

AUC

AUCPR

LOGLOSS

01

DeepLearning Grid

16

0.895981

0.947991

0.913763

0.850491

02

DeepLearning Grid

11

0.865248

0.932624

0.905851

0.546854

03

GBM Grid

16

1.000000

1.000000

1.000000

0.025920

04

DeepLearning Grid

11

1.000000

1.000000

1.000000

0.044860

05

GBM Grid

16

0.915633

0.957816

0.911510

0.312979

06

GBM Grid

11

0.935484

0.967742

0.937704

0.259712

07

GBM Grid

16

0.943012

0.971506

0.919590

0.293444

08

GBM Grid

11

0.932157

0.966079

0.925879

0.217350

09

GBM Grid

16

0.912281

0.956140

0.922686

0.270146

10

GBM Grid

11

0.898246

0.949123

0.911629

0.295948

 

Fuente: Elaboraci�n propia, 2023.

El Gr�fico I, contempla las variables ordenadas de mayor a menor seg�n la importancia en la predicci�n del modelo, en base a los valores porcentuales que se encuentran escalados al 100%. Se evidencia una influencia fuerte en la experiencia de los participantes en el nivel de secundaria: Rendimiento acad�mico (29,65%), asignaturas reprobadas (22,67%) y repetici�n de a�o (13,65%); el desempe�o de los docentes (14,03%); en menor relevancia se encuentran los aspectos relacionados a estr�s de la persona (6,35%), rendimiento en pregrado (5,99%), el n�mero de hijos (3,40%), motivaci�n (2,23%), situaci�n econ�mica (1,28%), trabajo relacionado a su carrera (0,62%), y finalmente, el financiamiento de sus estudios (0,10%).

 

 

 

Fuente: Elaboraci�n propia, 2023.

Gr�fico I: Importancia de las variables en el modelo de clasificaci�n

La exactitud es una m�trica para determinar las predicciones correctas como proporci�n al total de predicciones realizadas, una puntuaci�n cercana a la unidad representa un rendimiento �ptimo. De la Tabla 6, se puede obtener una precisi�n equivalente a un 92%, es decir, el modelo tiene una capacidad de predicci�n puesto que de 100 observaciones alcanza predecir 92 casos exitosamente; para la sensibilidad se tiene un 90%, indicando una predicci�n que, de 100 casos, 90 son exitosos para la clase positiva; finalmente, para la especificidad, identifica un 100% de los casos para predecir la clase negativa.

Tabla 6
Matriz de confusi�n del modelo GBM generado

Valores Predicci�n

Reales

Error

Ratio

Positivo

Negativo

Positivo

38

0

0.000

= 0 / 38

Negativo

4

11

0.267

= 4 / 15

Total

42

11

0.075

= 4 / 53

 

Fuente: Elaboraci�n propia, 2023.

El �rea bajo la curva, es una m�trica para evaluar la capacidad del modelo de clasificaci�n, permitiendo diferenciar entre los verdaderos positivos y falsos positivos; un valor cercano a la unidad, se considera un modelo perfecto. A diferencia de la m�trica �rea bajo la curva precisi�n � recuperaci�n, no considera los verdaderos negativos muy utilizado en conjunto de datos desequilibrados. La m�trica de p�rdida logar�tmica analiza la aproximaci�n de los valores predichos de un modelo y las valoraciones del objetivo real, donde una asignaci�n cercana a cero significa que el modelo proporciona correctamente la probabilidad.

La curva ROC, es un gr�fico que representa la relaci�n entre verdaderos positivos (sensibilidad) y falsos positivos (especificidad), el Gr�fico II, demuestra una curva cercana a la esquina superior izquierda, indicando as� un rendimiento �ptimo. Cabe precisar que, cuando la curva se aproxima a la diagonal de 45� o l�nea base, ser� menos precisa correspondiendo un desempe�o deficiente. Asimismo, el lado inferior izquierdo del gr�fico representa una menor tolerancia a los falsos positivos; mientras que el lado superior derecho representa una mayor tolerancia a los falsos positivos.

 

Fuente: Elaboraci�n propia, 2023.

Gr�fico II: Gr�fico ROC del modelo de clasificaci�n GBM

El Gr�fico III, muestra el comportamiento del modelo de clasificaci�n GBM mediante la curva de aprendizaje, presenta una perdida logar�tmica en el conjunto de datos de entrenamiento y validaci�n; adem�s se visualiza que las curvas son estables al tener un n�mero superior a los 50 �rboles, es decir, al agregar m�s instancias al modelo, este no mejorar�a mucho su desempe�o o rendimiento.

 

 

Fuente: Elaboraci�n propia, 2023.

Gr�fico III: Curva de aprendizaje del modelo de clasificaci�n GBM

En s�ntesis, el modelo GBM (Gradient Boosting Machine) es un m�todo de aprendizaje autom�tico supervisado que se utiliza para realizar la clasificaci�n de problemas de aprendizaje autom�tico. Est� construido utilizando �rboles de decisi�n. El modelo GBM generado consta de 51 �rboles internos, con un tama�o correspondiente a 8,910 bytes.

El �rbol tiene una profundidad m�nima de 4 y una profundidad m�xima de 6, con una profundidad promedio de 5.29. El n�mero m�nimo de hojas es de 7 y el n�mero m�ximo es de 13, con un promedio de 9.24 hojas. Esta configuraci�n del modelo GBM indica que los �rboles de decisi�n internos tienen una profundidad razonable y un n�mero moderado de hojas. Esto significa que el modelo GBM presenta una buena capacidad de ajuste y puede proporcionar una buena clasificaci�n para los datos evidenciado por las m�tricas de rendimiento.

Al contrastar los resultados obtenidos con la fundamentaci�n te�rica, se puede indicar que, el modelo de clasificaci�n ha sido posible mediante la utilizaci�n de t�cnicas de miner�a de datos para identificar patrones y tendencias que pueden ser �tiles para predecir a los estudiantes con riesgo de deserci�n. Sin embargo, es solo una herramienta y es necesaria la intervenci�n humana para proporcionar el apoyo emocional y acad�mico a los estudiantes en riesgo, coincidiendo con lo indicado por Z�rate-Valderrama et al. (2021); Jung (2022); y, Microsoft Learn (2023), se indica tambi�n, que Dole y Rajurkar (2014), desarrollaron un modelo de clasificaci�n binaria mediante Naive de Bayes; en el presente estudio, fue un modelo de clasificaci�n GBM.

El desarrollo del modelo ha conllevado los procesos de entrenamiento, validaci�n y prueba con diversos conjuntos de datos obteniendo m�tricas de rendimiento eficaces concordando con el estudio de Xu y Li (2014); adem�s, se coincide con las investigaciones realizadas por Samuel (2000); y, Dwi et al. (2018), sobre la capacidad de los sistemas de informaci�n para aprender mediante los algoritmos AutoML y el uso de la plataforma H2O.ai expresado por LeDell y Poirier (2020).

Debido a la complejidad de la deserci�n estudiantil, esta fue analizada �ntegramente mediante los cinco modelos propuestos por D�az (2008), consider�ndose como base para la elaboraci�n de los instrumentos de recolecci�n de datos, consolid�ndose en 20 �tems; de los cuales, fueron utilizados s�lo 11 �tems para el modelo de clasificaci�n debido al proceso de selecci�n de caracter�sticas (Haque, 2022), siendo los �tems de mayor relevancia P01, P02, P20 y P03.

 

Conclusiones

En vista de los resultados, se evidencia el desarrollo de un modelo GBM para la clasificaci�n de la deserci�n estudiantil utilizando la plataforma H2O.ai y AutoML, se puede concluir que presenta un rendimiento eficiente debido a las m�tricas de precisi�n, sensibilidad y especificidad para identificar patrones en los estudiantes con riesgo de abandonar sus estudios; ofrece ventajas como la capacidad de trabajar con datos desbalanceados, la capacidad de mejorar los resultados mediante la sintonizaci�n de los par�metros, el uso de la validaci�n cruzada y la capacidad de realizar predicciones en tiempo real, consider�ndose como herramienta �til para la toma de decisiones.

Un aspecto relevante de la investigaci�n fue la transversalidad, en primera instancia el aprendizaje autom�tico, tuvo la capacidad de utilizar los algoritmos para extrapolar los conocimientos adquiridos en un conjunto de datos; para el caso de la miner�a de datos, esta t�cnica ha permitido identificar patrones en los datos dentro del contexto de la educaci�n superior universitaria, permitiendo a los usuarios compartir y reutilizar conocimientos adquiridos y mejores pr�cticas en otras �reas del conocimiento.

Respecto al aporte cient�fico, la investigaci�n es significativa y se presenta desde diferentes perspectivas; desde el punto de vista te�rico, permite conocer y comprender los factores que influyen en la deserci�n de estudiantes contribuyendo de manera general al conocimiento en el campo de la inteligencia artificial y el aprendizaje autom�tico; desde el punto de vista pr�ctico, las instituciones de educaci�n superior pueden implementar estrategias y programas de retenci�n a los estudiantes en riesgo y evitar el abandono de los estudios.

Las limitaciones a considerar en el desarrollo de un modelo de clasificaci�n es el tama�o de conjunto de datos, la selecci�n de caracter�sticas, la discretizaci�n de las variables, datos desbalanceados, dichos factores conllevan a sesgos y predicciones inexactas; por otra parte, el modelo desarrollado funciona para un contexto especifico debido a la influencia de las variables independientes en la deserci�n estudiantil, las cuales pueden cambiar con el tiempo o entorno.

Las futuras l�neas de investigaci�n a desarrollar pueden incluir otros tipos de aprendizaje autom�tico como aprendizaje profundo, ensamblajes, entre otros, as� como la incorporaci�n de conjuntos de datos no estructurados; adem�s, se pueden incluir otras caracter�sticas y/o factores que influyen en la deserci�n estudiantil y que var�an dependiendo del entorno. Tambi�n se puede considerar estudios sobre la efectividad de las intervenciones basadas en las predicciones del modelo de clasificaci�n.

 

Referencias bibliogr�ficas

Ajgaonkar, S. (2022). Practical automated machine learning using H2O.ai: Discover the power of automated machine learning, from experimentation through to deployment to production. Packt Publishing.

Arag�n-Roy�n, F., Jim�nez-V�lchez, A., Arauzo-Azofra, A., y Benitez, J. (2020). FSinR: An exhaustive package for feature selection. arXiv: 2002. 10330.
https://doi.org/10.48550/arXiv.2002.10330

Bean, J., y Eaton, S. B. (2001). The psychology underlying successful retention practices. Journal of College Student Retention: Research, Theory & Practice, 3(1), 73-89. https://doi.org/10.2190/6R55-4B30-28XG-L8U0

Berger, J. B. (2000). Organizational behavior in higher education and student outcomes. In J. C. Smart (Ed.), Higher Education: Handbook of theory and research (Vol. XV, pp. 268-338). Agathon Press.

Berger, J. B. (2001). Understanding the organizational nature of student persistence: Empirically based recommendations for practice. Journal of College Student Retention: Research, Theory and Practice, 3(1), 3-21. https://doi.org/10.2190/3K6A-2REC-GJU5-8280

Bernal, E. M., Cabrera, A. F., y Terenzini, P. T. (2000). The relationship between race and socioeconomic status (SES): Implications for institutional research and admissions policies. Removing Vestiges: Research-Based Strategies to Promote Inclusion, (3), 6-19.

Bri�ez, M. E. (2021). Tecnolog�a de informaci�n: �Herramienta potenciadora para gestionar el capital intelectual? Revista de Ciencias Sociales (Ve), XXVII(1), 180-192. https://doi.org/10.31876/rcs.v27i1.35305

Cabrera, A. F., Nora, A., y Casta�eda, M. B. (1992). The role of finances in the persistence process: A structural model. Research in Higher Education, 33(5), 571-593. https://doi.org/10.1007/BF00973759

Cabrera, A. F., Nora, A., y Casta�eda, M. B. (1993). College persistence: Structural Equations modelling test of Integrated model of student retention. Journal of Higher Education, 64(2), 123-320. https://doi.org/10.2307/2960026

Camborda, M. G. (2014). Aplicaci�n de �rboles de decisi�n para la predicci�n del rendimiento acad�mico de los estudiantes de los primeros ciclos de la carrera de Ingenier�a Civil de la Universidad Continental [Tesis de maestr�a, Universidad Nacional del Centro del Per�]. http://repositorio.uncp.edu.pe/handle/20.500.12894/1477

Chatterjee, P., Yazdani, M., Fern�ndez-Navarro, F., y P�rez-Rodr�guez, J. (Eds.) (2023). Machine learning algorithms and applications in engineering. CRC Press. https://doi.org/10.1201/9781003104858

Deng, H. (2013). Guided Random Forest in the RRF Package. ArXiv: 1306.0237. https://doi.org/10.48550/arXiv.1306.0237

Diario Oficial del Bicentenario El Peruano (9 de noviembre de 2021). Tasa de deserci�n en educaci�n universitaria. El Peruano. https://elperuano.pe/noticia/132960-tasa-de-desercion-en-educacion-universitaria-se-redujo-a-115

D�az, B., Mar�n, W., Lioo, F., Baldeos, L., Villanueva, D., y Ausejo, J.(2022). Deserci�n de estudiantes, factores asociados con �rboles de decisi�n: Caso Escuela de Postgrado de una Universidad p�blica en Per�. Risti: Revista Ib�rica de Sistemas e Tecnologias de Informa��o, (E-53), 197-211. https://www.risti.xyz/issues/ristie53.pdf

D�az, C. (2008). Modelo conceptual para la deserci�n estudiantil universitaria chilena. Estudios Pedag�gicos, XXXIV(2), 65-86. https://dx.doi.org/10.4067/S0718-07052008000200004

D�az-Landa, B., Mele�n-Romero, R., y Mar�n-Rodriguez, W. (2021). Rendimiento acad�mico de estudiantes en Educaci�n Superior: Predicciones de factores influyentes a partir de �rboles de decisi�n. Telos: Revista de Estudios Interdisciplinarios en Ciencias Sociales, 23(3), 616-639. https://doi.org/10.36390/telos233.08

Dole, L., y Rajurkar, J. (2014). A decision support system for predicting student performance. International Journal of Innovative Research in Computer and Communication Engineering, 2(12), 7232-7237. https://ijircce.com/admin/main/storage/app/pdf/GE1YcjUwFseBETuax9LEymgN04TtdLS7TGEfmMgr.pdf

Duche, A. B., Paredes, F. M., Guti�rrez, O. A., y Carcausto, L. C. (2020). Transici�n secundaria-universidad y la adaptaci�n a la vida universitaria. Revista de Ciencias Sociales (Ve), XXVI(3), 244-258. https://doi.org/10.31876/rcs.v26i3.33245

Dwi, M., Prasetya, A., y Pujianto, U. (2018). Technology acceptance model of student ability and tendency classification system. Bulletin of Social Informatics Theory and Application, 2(2), 47-57. https://doi.org/10.31763/businta.v2i2.113

Eccles, J., Adler, T., y Meece, J. L. (1984). Sex differences in achievement: A test of alternate theories. Journal of Personality and Social Psychology, 46(1), 26-43. https://doi.org/10.1037/0022-3514.46.1.26

Ethington, C. A. (1990). A psychological model of student persistence. Research in Higher Education, 31(3), 279-293. https://doi.org/10.1007/BF00992313

F�lix, A. V., Urrea, M. L., y L�pez, S. (2023). Abandono escolar de alumnos universitarios en la carrera de Derecho y Ciencias Sociales. Revista de Ciencias Sociales (Ve), XXIX(2), 242-254. https://doi.org/10.31876/rcs.v29i2.39974

Fishbein, M., y Ajzen, I. (1974). Attitudes toward objects as predictors of simple and multiple behavioural criteria. Psycological Review, 81, 59-74. https://doi.org/10.1037/h0035872

Fryda, T., LeDell, E., Gill, N., Aiello, S., Fu, A., Candel, A., Click, C., Kraljevic, T., Nykodym, T., Aboyoun, P., Kurka, M., Malohlava, M., Poirier, S., y Wong, W. (2022). H2O: R Interface for the 'H2O' Scalable Machine Learning Platform. R package version 3.38.0.1. https://docs.h2o.ai/h2o/latest-stable/h2o-r/docs/index.html

Gonz�lez, L. E. (2005). Estudio sobre la repitencia y deserci�n en la educaci�n superior chilena. Instituto Internacional para la Educaci�n Superior en Am�rica Latina y el Caribe, IESALC � UNESCO. https://unesdoc.unesco.org/ark:/48223/pf0000140087

Haque, M. A. (2022). Feature Engineering & Selection for Explainable Models: A second course for data scientists. LULU Internacional.

Jung, A. (2022). Machine Learning: The basics. Springer. https://doi.org/10.1007/978-981-16-8193-6

Khun, M., y Jhonson, K. (2019). Feature Engineering and Selection: A Practical Approach for Predictive Models. Chapman and Hall/CRC. https://doi.org/10.1201/9781315108230

Kodelja, Z. (2019). Is machine learning real learning? CEPS Journal, 9(3), 11-23. https://doi.org/10.26529/cepsj.709

Kuh, G. D. (2002). Organizational culture and student persistence: Prospects and puzzles. Journal of College Student Retention: Research, Theory & Practice, 3(1), 23-39. https://doi.org/10.2190/U1RN-C0UU-WXRV-0E3M

Kursa, M. B., y Rudnicki, W. R. (2010). Feature selection with the Boruta Package. Journal of Statistical Software, 36(11), 1-13. https://doi.org/10.18637/jss.v036.i11

Larsen, K. (2016). Data Exploration with Information Theory (Weight-of-Evidence and Information Value). R package version 0.0.9. https://CRAN.R-project.org/package=Information

LeDell, E., y Poirier, S. (2020). H2O AutoML: Scalable Automatic Machine Learning. 7th ICML Workshop on Automated Machine Learning. https://www.automl.org/wp-content/uploads/2020/07/AutoML_2020_paper_61.pdf

Ley No. 30220 de 2014. Ley Universitaria. 3 de julio de 2014.

Microsoft Learn (23 de diciembre de 2023). Conceptos de miner�a de datos. Microsoft Learn. https://learn.microsoft.com/es-es/analysis-services/data-mining/data-mining-concepts?view=asallproducts-allversions

Moreno, F. O., Ochoa, F. A., Mutter, K. J., y Vargas, E. C. (2021). Estrategias pedag�gicas en entornos virtuales de aprendizaje en tiempos de pandemia por Covid-19. Revista de Ciencias Sociales (Ve), XXVII(4), 202-213. https://doi.org/10.31876/rcs.v27i4.37250

Mushtaq, I., y Khan, S. N. (2012). Factors affecting students� academic performance. Global Journal of Management and Business Research, 12(9), 17-22. https://journalofbusiness.org/index.php/GJMBR/article/view/100221

Nagarajah, T., y Poravi, G. (2019). A Review on Automated Machine Learning (AutoML) Systems. IEEE 5th International Conference for Convergence in Technology (I2CT), Bombay, India. https://doi.org/10.1109/i2ct45611.2019.9033810

Nye, J. S. (1976). Independence and Interdependence. Foreign Policy, (22), 130-161. https://doi.org/10.2307/1148075

Organisation for Economic Co-operation and Development - OECD (2019). Education at a Glance 2019. OECD Publishing. https://doi.org/10.1787/f8d7880d-en

R Core Team (2022). R: A language and environment for statistical computing. R Foundation for Statistical Computing. https://www.R-project.org/

RStudio Team (2022). RStudio: Integrated Development for R. RStudio, http://www.rstudio.com/

Samuel, A. L. (2000). Some studies in machine learning using the game of checkers. IBM Journal of Research and Development, 44(1.2), 211-229. https://doi.org/10.1147/rd.441.0206

Sharmeela, C., Sanjeevikumar, P., Sivaraman, P., y Joseph, M. (2023). IoT, machine learning and blockchain technologies for renewable energy and modern hybrid power systems. Routledge.

Spady, W. G. (1970). Dropouts from higher education: An interdisciplinary review and synthesis. Interchange, 1, 64-85. https://doi.org/10.1007/BF02214313

St. John, E. P., Cabrera, A. E., Nora, A., y Asker, E. H. (2000). Economic influences on persistence reconsidered: How can finance research inform the reconceptualization of persistence models? In J. M. Braxton (Ed.), Reworking the student departure puzzle: New theory and research on college student retention (pp. 29-47). Vanderbilt University Press.

Superintendencia Nacional de Educaci�n Superior Universitaria - SUNEDU (2020). II Informe bienal sobre la realidad universitaria en el Per�. SINEDU. https://cdn.www.gob.pe/uploads/document/file/1230044/Informe%20Bienal.pdf

Supo, J. (2020). Metodolog�a de la Investigaci�n Cient�fica: Para las Ciencias de la Salud y las Ciencias Sociales. Independently published.

Tinto, V. (1982). Limits of theory and practice of student attrition. Journal of Higher Education, 53(6), 687-700. https://doi.org/10.2307/1981525

Tinto, V. (1989). Definir la deserci�n: Una cuesti�n de perspectiva. Revista de Educaci�n Superior, (71), 1-9. http://publicaciones.anuies.mx/revista/71/1/3/es/definir-la-desercion-una-cuestion-de-perspectiva

Valero, J. E., Navarro, �. F., Larios, A. C., y Julca, J. D. (2022). Deserci�n universitaria: Evaluaci�n de diferentes algoritmos de Machine Learning para su predicci�n. Revista de Ciencias Sociales (Ve), XXVIII(3), 362-375. https://doi.org/10.31876/rcs.v28i3.38480

Villarreal-Torres, H., �ngeles-Morales, J., Mar�n-Rodriguez, W., Andrade-Gir�n, D., Carre�o-Cisneros, E., Cano-Mej�a, J., Mej�a-Murillo, C., Bosc�n-Carroz, M. C., Flores-Reyes, G., y Cruz-Cruz, O. (2023). Development of a classification model for predicting student payment behavior using artificial intelligence and data science techniques. EAI Endorsed Transactions on Scalable Information Systems, 10(5). https://doi.org/10.4108/eetsis.3489

Villarreal-Torres, H. O., Mar�n-Rodriguez, W. J., �ngeles-Morales, J. C., y Cano-Mej�a, J. E. (2021). Gesti�n de Tecnolog�a de Informaci�n para universidades peruanas aplicando computaci�n en la nube. Revista Venezolana de Gerencia, 26(E-6), 665-679. https://doi.org/10.52080/rvgluz.26.e6.40

Xu, W., y Li, W. (2014). Granular computing approach to two-way learning based on formal concept analysis in Fuzzy Datasets. IEEE Transactions on Cybernetics, 46(2), 366-379. https://doi.org/10.1109/tcyb.2014.2361772

Z�rate-Valderrama, J., Bedregal-Alpaca, N., y Cornejo-Aparicio, V. (2021). Modelos de clasificaci�n para reconocer patrones de deserci�n en estudiantes universitarios. Ingeniare. Revista Chilena de Ingenier�a, 29(1), 168-177. http://dx.doi.org/10.4067/S0718-33052021000100168  

Z�ller, M.-A., y Huber, M. F. (2021). Benchmark and survey of automated machine learning frameworks. Journal of Artificial Intelligence Research, 70, 409-472. https://doi.org/10.1613/jair.1.11854

Zwanenburg, A., y L�ck, S. (2021). Familiar: End-to-End Automated Machine Learning and Model Evaluation. https://cran.r-project.org/web/packages/familiar/familiar.pdf



* Doctor en Ingenier�a Inform�tica y de Sistemas. Mag�ster en Ingenier�a Inform�tica y de Sistemas. Ingeniero Inform�tico y de Sistemas. Docente Principal en la Universidad San Pedro, Chimbote, Per�. E-mail: henry.villarreal@usanpedro.edu.pe ORCID: https://orcid.org/0000-0002-5989-4534

 

** Doctor en Ingenier�a Industrial. Magister en Administraci�n de Empresas y Negocios (MBA). Ingeniero Industrial. Docente Principal en la Universidad San Pedro, Chimbote, Per�. E-mail: julio.angeles@usanpedro.edu.pe ORCID: https://orcid.org/0000-0002-7470-8154

 

*** Doctor en Administracion. Magister en Administraci�n Estrat�gica. Ingeniero Inform�tico. Docente en la Universidad Nacional Jos� Faustino S�nchez Carri�n, Huacho, Lima, Per�.Investigador RENACYT. E-mail: wmarin@unjfsc.edu.pe ORCID: https://orcid.org/0000-0002-0861-9663 (Autor de vorrespondencia)

 

**** Doctora en Gesti�n y Ciencias de la Educaci�n. Magister en Obstetricia. Licenciada en Obstetricia. Docente Principal en la Universidad San Pedro, Chimbote, Per�. Investigadora RENACYT. E-mail: jenny.cano@usanpedro.edu.pe ORCID: https://orcid.org/0000-0001-5638-972X

 

 

Recibido: 2023-09-16��������������� Aceptado: 2023-12-05