Revista de Ciencias
Sociales (RCS)
Vol. XXX, No. 1,
Enero - Marzo 2024. pp. 452-469
FCES - LUZ ●
ISSN: 1315-9518 ● ISSN-E: 2477-9431
Como
citar: Villarreal-Torres, H., �ngeles-Morales, J., Mar�n-Rodriguez, W., y Cano-Mej�a,
J. (2024). Modelo de clasificaci�n para la deserci�n estudiantil en las
universidades p�blicas del Per�. Revista De Ciencias Sociales, XXX(1),
452-469.
Modelo de
clasificaci�n para la deserci�n estudiantil en las universidades p�blicas del
Per�
Villarreal-Torres,
Henry*
�ngeles-Morales,
Julio**
Mar�n-Rodriguez,
William***
Cano-Mej�a,
Jenny****
Resumen
Las tecnolog�as de informaci�n y comunicaci�n cumplen un rol relevante en
los diferentes campos del conocimiento, actualmente existe mayor capacidad para
identificar patrones y anomal�as en los datos de una organizaci�n utilizando la
inteligencia artificial; el estudio tuvo como objetivo desarrollar un modelo de
clasificaci�n para la deserci�n estudiantil aplicando aprendizaje autom�tico
con el m�todo autoML del framework H2O.ai, se ha tenido en cuenta la
dimensionalidad de las caracter�sticas socioecon�micas y acad�micas. La
metodolog�a empleada fue de tipo predictivo y dise�o no experimental,
observacional y prospectivo; para ello, se aplic� un cuestionario de 20 �tems a
237 estudiantes de la Escuela de Posgrado matriculados en los programas de
maestr�as en educaci�n. La investigaci�n tuvo como resultado un modelo de
aprendizaje autom�tico supervisado, m�quina de refuerzo de gradiente, para
clasificar la deserci�n estudiantil, logrando as� identificar los principales
factores asociados que influyen en la deserci�n, obteniendo un coeficiente Gini
del 92.20%, AUC del 96.10% y un LogLoss del 24.24% representando un modelo con
desempe�o eficiente. Se concluye que el modelo es apropiado por sus m�tricas de
rendimiento, ofreciendo ventajas como trabajar con datos desequilibrados,
validaci�n cruzada y realizar predicciones en tiempo real.
Palabras
clave: Aprendizaje autom�tico; deserci�n estudiantil;
educaci�n superior; miner�a de datos; H2O.ai.
Classification model for
student dropout in public universities in Peru
Abstract
Information and communication technologies play a
relevant role in different fields of knowledge. Currently, there is a greater
capacity to identify patterns and anomalies in an organization's data using
artificial intelligence; The study aimed to develop a classification model for
student dropout by applying machine learning with the autoML method of the
H2O.ai framework, taking into account the dimensionality of socioeconomic and
academic characteristics. The methodology used was predictive and
non-experimental, observational and prospective in design; To this end, a
20-item questionnaire was applied to 237 students from the Graduate School
enrolled in master's degree programs in education. The research resulted in a
supervised machine learning model, gradient boosting machine, to classify
student dropout, thus identifying the main associated factors that influence
dropout, obtaining a Gini coefficient of 92.20%, AUC of 96.10% and a LogLoss of
24.24% representing a model with efficient performance. It is concluded that
the model is appropriate for its performance metrics, offering advantages such
as working with unbalanced data, cross validation and making predictions in
real time.
Keywords: Machine learning;
student attrition; higher education; data mining; H2O.ai.
Introducci�n
La educaci�n es fundamental para el desarrollo y
el bienestar de una sociedad, por tanto, los estudiantes son la raz�n de ser de
cualquier instituci�n educativa. El desarrollo social y econ�mico de un pa�s
est� directamente relacionado con el rendimiento acad�mico de sus estudiantes
(Mushtaq y Khan, 2012). En el 2014 la Ley Universitaria No. 30220, crea la
Superintendencia de Educaci�n Superior Universitaria (SUNEDU), organismo que
implement� el modelo de licenciamiento institucional. Ante la exigencia de
cumplimiento de las condiciones b�sicas de calidad, es una buena opci�n
gestionar la educaci�n con las tecnolog�as de informaci�n seg�n la propuesta de
Villarreal-Torres et al. (2021); y, Bri�ez (2021), para tener la informaci�n
disponible en el momento oportuno.
La deserci�n universitaria, es un problema
relacionado al estudiante como responsable directo, generando preocupaci�n en
sus directivos por conocer las probabilidades de no culminaci�n de estudios,
influyendo negativamente en el desarrollo acad�mico y econ�mico de la instituci�n;
motivo por el cual, se pretende identificar patrones de comportamiento en los
estudiantes, mediante la miner�a de datos, analizando los factores
socioecon�micos y acad�micos para implementar estrategias espec�ficas que
coadyuven a mantener una econom�a sostenible en el tiempo, evitando el alto
�ndice de riesgo de abandono de estudios. Espec�ficamente en el �mbito de las
universidades, y particularmente en las escuelas de postgrado, resulta
necesario cumplir con est�ndares de calidad en lo referente a la oferta del
servicio educativo (D�az-Landa, Mele�n-Romero y Mar�n-Rodriguez, 2021).
En el Per� se
ha incrementado significativamente antes y a�n m�s despu�s de la pandemia de
Covid-19, es por ello, que las universidades p�blicas necesitan identificar e
implementar programas para disminuir la deserci�n estudiantil (Valero et al.
2022).� Este problema se agudizo durante
el Covid-19 ocasionando un impacto negativo en la mayor�a de los sectores
productivos, conduciendo a algunas instituciones educativas a implementar
estrategias para revertir la situaci�n de abandono de estudios (Moreno et al.,
2021; F�lix, Urrea y L�pez, 2023; Villarreal-Torres et al., 2023). Por ello �son m�ltiples las aplicaciones de
inteligencia artificial [que] utilizan t�cnicas de miner�a de datos para
descubrir patrones importantes y obtener informaci�n �til de sistemas de
informaci�n de registros acad�micos� (D�az et al. 2022, p. 198).
El informe de la Organizaci�n para la
Cooperaci�n y el Desarrollo Econ�micos (Organisation
for Economic Co-operation and Development [OECD], 2019), indica que el 39% de los
estudiantes a tiempo completo que ingresan a un programa se grad�an dentro de
la duraci�n te�rica; asimismo, la tasa promedio de finalizaci�n posterior a los
tres a�os adicionales corresponde a un incremento del 67%. Por otra parte, el
12% de ingresantes a un programa a tiempo completo abandonan sus estudios antes
del inicio del segundo; asimismo, muestra un incremento del 20% al final de la
duraci�n te�rica y al 24% posterior a los tres a�os.
En el Per�, las cifras sobre la evoluci�n de
matr�culas seg�n la Superintendencia Nacional de Educaci�n Superior (SUNEDU,
2020) en el nivel de pregrado durante el 2018, fue de 1.59 millones cifra que
se ha reducido en 1.34 millones de estudiantes en el 2020, interpretado con un
15,7% de diferencia entre los periodos; en el caso, de posgrado se tiene una
reducci�n de 27,7%, puesto que durante el 2018 se tuvo 131.9 mil y en el periodo
2020 se cont� con 95.4 mil estudiantes matriculados. Seg�n el Diario Oficial El
Peruano (2021), se detalla que en las universidades
licenciadas a nivel nacional indican que el porcentaje de interrupci�n de
estudios ha decrecido en 4,7%; es decir, de un 16,2% ha disminuido a un 11,5%
entre los semestres 2020-II y 2021-I.
La investigaci�n estuvo enmarcada en la
producci�n de un nuevo conocimiento mediante la propuesta del modelo de
clasificaci�n, adem�s se corrobor� la teor�a de deserci�n estudiantil sostenida
por D�az (2008). El objetivo de la investigaci�n fue desarrollar un modelo de
clasificaci�n de deserci�n en estudiantes de los programas de estudio de
educaci�n mediante aprendizaje autom�tico y t�cnicas de miner�a de datos
aplicando autoML de H2O.ai, a fin de
que los estudiantes, con potencial de deserci�n, puedan ser identificados por
las autoridades para tomar las medidas correctivas pertinentes.
1.
Fundamentaci�n te�rica
1.1.
Miner�a de datos
La miner�a de datos utiliza el an�lisis matem�tico
y estad�stico para encontrar patrones y tendencias en grandes conjuntos de
datos. La exploraci�n de datos tradicional no puede descubrir estos patrones
debido a la complejidad o a las grandes cantidades de datos (Microsoft Learn,
2023). Utilizan m�todos estad�sticos y algoritmos de inteligencia artificial
para encontrar patrones en conjuntos de datos masivos (Camborda, 2014). Sus
m�todos de clasificaci�n, agrupaci�n y predicci�n hacen que tenga �xito
(Z�rate-Valderrama et al., 2021). Dole y Rajurkar (2014), pronostican la
culminaci�n y el estado de aprobado/reprobado utilizando el algoritmo Naive
Bayes y el �rbol de decisi�n.
En definitiva, la miner�a de datos
debe utilizarse con cuidado y responsabilidad para garantizar que se respeta el
derecho a la privacidad de las personas y se obtengan conclusiones precisas y
�tiles. Es una t�cnica importante que ha transformado la forma en que las
organizaciones gestionan y toman decisiones basadas en grandes cantidades de
datos.
1.2.
Aprendizaje autom�tico
Kodelja (2019), sostiene que es un subconjunto
de la inteligencia artificial; adem�s, afirma que es aprendizaje y no otra
cosa; mientras que otros -incluidos los fil�sofos- rechazan la afirmaci�n que
es un aprendizaje real, para ellos, el aprendizaje real es la forma m�s elevada
del aprendizaje humano. Por su parte, Xu y Li (2014), manifiestan que es un
m�todo esencial para tratar los problemas de adquisici�n de conocimientos; se
refiere a la construcci�n y el estudio de sistemas que pueden aprender de los
datos.
Samuel (2000), lo define como el campo de
estudio donde los ordenadores tienen la capacidad de aprender, sin ser
programados expl�citamente. Dwi, Prasetya y Pujianto (2018), sostienen que se
enfoca en desarrollar un sistema que sea capaz de aprender de sus propios
patrones sin intervenci�n humana, su aplicaci�n se encuentra en varios campos.
El aprendizaje autom�tico, es la capacidad de
los sistemas inform�ticos para aprender y evolucionar de forma aut�noma a
partir de datos a trav�s del tiempo; el cual se est� convirtiendo en una
herramienta indispensable para la adquisici�n de conocimientos en diversas
�reas; aunque con algunas limitaciones, sus aplicaciones son innovadoras y
eficientes para la soluci�n de problemas reales.
1.3. Tipos de aprendizaje autom�tico
Jung (2022), describe dos tipos de aprendizaje autom�tico;
el primero, como aprendizaje supervisado, que emplea un conjunto de datos
etiquetados para su predicci�n, se divide en regresi�n y clasificaci�n; el
segundo, como aprendizaje no supervisado, al conjunto de datos que no necesita etiquetas; permite a los
analistas descubrir patrones de comportamientos o similitudes entre las
caracter�sticas, solo se basa en la subdivisi�n o el agrupamiento (Chatterjee
et al., 2023). Existiendo el aprendizaje por refuerzo, similar al aprendizaje
no supervisado, puede evaluar la funci�n de perdida; en estos casos, aprende de
las experiencias de prueba y error dependiendo de la retroalimentaci�n y su
factor o agente para tener un desempe�o eficiente
(Sharmeela et al., 2023).
Es de vital importancia conocer las
m�ltiples formas de aprendizaje autom�tico y sus propias caracter�sticas,
fortalezas y debilidades de cada una de ellas; en tal sentido, es esencial la
selecci�n del tipo de aprendizaje autom�tico para desarrollar modelos de
predicci�n en la soluci�n de problemas originados en diversas ramas del
conocimiento.
1.4.
AutoML
AutoML, es el aprendizaje autom�tico de las
maquinas, Nagarajah y Poravi (2019), lo describen como un proceso que tiene la
capacidad de elaborar modelos a la medida, reduciendo de manera considerable la
intervenci�n de las personas; adem�s, de realizar el preprocesamiento de los
datos, la ingenier�a de variables, la construcci�n de modelos, la optimizaci�n
de hiperpar�metros y el an�lisis de los resultados de las predicciones y su
respectiva evaluaci�n.
El desarrollo del aprendizaje autom�tico de
m�quinas ha permitido, en gran medida, agilizar las operaciones de desarrollo
del aprendizaje de m�quina que requieren mucho tiempo, pretendiendo reducir la
demanda de los cient�ficos de datos y tener la capacidad de construir
aplicaciones de aprendizaje autom�tico de buen rendimiento, sin necesidad de
tener amplios conocimientos de estad�stica y aprendizaje de m�quinas (Z�ller y
Huber, 2021).
Mediante la implementaci�n del autoML, se puede
lograr la automatizaci�n del proceso de desarrollo del aprendizaje autom�tico,
lo que a su vez hace posible producir aplicaciones de aprendizaje autom�tico de
alto rendimiento de una manera r�pida y eficiente, sin la necesidad de tener
amplios conocimientos de estad�stica e inform�tica. Actualmente, el n�mero de
librer�as desarrolladas ha aumentado significativamente, lo que hace posible
que las organizaciones desplieguen soluciones innovadoras de una manera simple
y eficaz.
1.5. Plataforma
H2O.ai
LeDell y Poirier (2020), expresan que H2O es una
plataforma de aprendizaje autom�tico distribuido de c�digo abierto, se cre�
para escalar a conjuntos de datos extremadamente grandes. Sus interfaces de
programaci�n de aplicaciones (API) est�n escritas en R, Python, Java y Scala. Los pasos para realizar el proceso de automatizaci�n
mediante H2O.autoML son: La recopilaci�n de datos, exploraci�n de datos,
preparaci�n de datos, transformaci�n de datos, selecci�n del modelo, entrenamiento
del modelo, ajustes de hiperpar�metros y finalmente, la predicci�n (Ajgaonkar,
2022).
La plataforma H2O, es una herramienta que viene
ganando popularidad para quienes trabajan con enormes conjuntos de datos y buscan
automatizar el proceso de aprendizaje autom�tico; adem�s, cuenta con interfaces
de programaci�n de aplicaciones (API) haci�ndola accesible para usuarios
avanzados de la comunidad de aprendizaje autom�tico.
1.6.
Selecci�n de caracter�sticas
Para el desarrollo de un modelo de aprendizaje
autom�tico, es necesario realizar la selecci�n de caracter�sticas, tiene como
finalidad identificar la interacci�n de las variables dependientes para tener
el mejor desempe�o predictivo; este proceso es relevante porque permite conocer
las variables que aportan significativamente al modelo predictivo, permitiendo
as�, reducir el n�mero de variables, tiempo, velocidad y despliegue; haciendo
que el modelo sea menos complejo y m�s f�cil de explicar (Haque, 2022).
Se tiene tres clases de m�todos para la
selecci�n de caracter�sticas seg�n Khun y Jhonson (2019): Los m�todos
intr�nsecos, comprenden a los modelos basados en �rboles y reglas, los modelos
multivariados de regresi�n adaptativa y los modelos de regularizaci�n; los
m�todos de filtro, son simples y r�pidos mediante un an�lisis supervisado
determinan las caracter�sticas, son propensos a sobre seleccionar predictores
en el modelo. Finalmente, los m�todos de envoltura, que usan procedimientos de
b�squeda iterativos, proporcionando subconjuntos de predictores para el modelo
teniendo mayor eficacia en el rendimiento de la predicci�n.
El proceso de selecci�n de caracter�sticas, es
un paso esencial en la construcci�n de modelos de aprendizaje autom�tico, donde
se utilizan a menudo enfoques como las t�cnicas intr�nsecas, de filtro y de
envoltura, para identificar las variables que aportan significativamente al
modelo predictivo; adem�s, la selecci�n de caracter�sticas tiene como prop�sito
la reducci�n de recursos que conlleva a una adecuada comprensi�n e
interpretaci�n del modelo desarrollado. En grandes vol�menes de datos, la
selecci�n de caracter�sticas puede conllevar a resultados sesgados o
incompletos.
1.7.
Deserci�n estudiantil
Tinto (1982); y, F�lix et al. (2023), definen la
deserci�n como una situaci�n en la que un estudiante no logra terminar su
educaci�n o se aleja de ella de manera temporal o permanente; por lo tanto, un
desertor ser�a aquel que est� inscrito en una instituci�n de educaci�n
superior, pero no presenta actividad acad�mica durante tres semestres
acad�micos seguidos. Gonz�lez (2005), diferencia dos tipos de abandono en la
educaci�n superior universitaria; la primera, con respecto al tiempo (inicial,
temprana y tard�a); y la segunda, con respecto al espacio (institucional,
interna y del sistema educativo).
Tinto (1989), afirma que durante el periodo de
transici�n se producen los abandonos; espec�ficamente, y tal como lo se�alan
Duche et al. (2020), la transici�n secundaria-universitaria, siendo los m�s
frecuentes los abandonos voluntarios. D�az (2008), present� los modelos de
an�lisis de la deserci�n estudiantil, con el prop�sito de analizar el fen�meno
de la deserci�n inherente a la vida estudiantil universitaria, describiendo las
teor�as desde diversos puntos de vista:
a.
Modelo psicol�gico: Indica
los rasgos de personalidad que establecen las diferencias entre los estudiantes
que culminan y abandonan sus estudios universitarios; se fundamenta en las
propuestas de Fhisbein y Ajzen (1974), quienes sostienen la Teor�a de la Acci�n
Razonada; Ethington (1990), quien se basa en el Modelo de Elecci�n Acad�mica
sostenido por Eccles, Adler y
Meece (1984), para insertar teor�as
sobre conductas de logro, como el rendimiento acad�mico que afecta al
estudiante. Finalmente, Bean y Eaton (2001) fundamentan los procesos
psicol�gicos con la integraci�n acad�mica y social sustentados en cuatro
teor�as psicol�gicas: Teor�a de Actitud y Comportamiento; Teor�a del
Comportamiento de Copia, la Habilidad para Entrar y Adaptarse a un Nuevo
Ambiente; la Teor�a de Autoeficacia; y, la Teor�a de Atribuci�n.
b.
Modelo sociol�gico: Hace �nfasis en los factores externos de los
estudiantes, los cuales influencian en la deserci�n estudiantil; Spady (1970),
manifiesta que una de las causas de la deserci�n, es la integraci�n social en
la universidad, generada por las influencias, expectativas y demandas dadas en
el medio familiar. Asimismo, propone seis predictores para la deserci�n
estudiantil: Integraci�n acad�mica, integraci�n social, estado socioecon�mico,
g�nero, calidad de carrera y el promedio de cada semestre.
c.
Modelo econ�mico: Est� basado en dos modelos: El primero,
Costo/Beneficio, est� relacionado a los beneficios sociales y econ�micos que
perciben los estudiantes para permanecer en la universidad; el segundo,
Focalizaci�n del Subsidio, est� orientado a los estudiantes con bajos recursos
o limitaciones para costear sus estudios (Cabrera, Nora y Casta�eda, 1992; 1993; Bernal, Cabrera y
Terenzini, 2000; St. John et al.,
2000).
d.
Modelo organizacional: Se fundamenta en la forma c�mo la organizaci�n
integra a los estudiantes (Berger, 2000; 2001; Kuh 2002).
e.
Modelo de interacci�n: Sostiene que la permanencia en la instituci�n
est� en funci�n del grado de acoplamiento del estudiante con la instituci�n
(Tinto, 1982), se complementa con el modelo de Spady (1970), en el que se
incorpora la teor�a de intercambio de Nye (1976).
La deserci�n estudiantil en el sistema universitario, es un
problema complejo ocasionado por diversos factores como sociales, econ�micos,
personales, familiares, acad�micos, psicol�gicos, entre otros, desarrollados
dentro de su entorno y experiencias; los cuales deben ser analizados desde
diferentes puntos de vista con el prop�sito de brindar una soluci�n integral y
permita a los estudiantes finalizar sus estudios. La reducci�n de la deserci�n
estudiantil puede lograrse desde un an�lisis de la personalidad, seguido de la
integraci�n social y acad�mica, optimizaci�n de costos y beneficios brindados
por el servicio educativo, hasta el grado de articulaci�n o acoplamiento entre
el estudiante y la instituci�n.
1.8.
Dimensiones de la deserci�n estudiantil
Las variables consideradas, con mayor
frecuencia, en los modelos te�ricos relacionados a la deserci�n estudiantil
fueron consolidadas en el estudio realizado por D�az (2008), se consideran
cuatro categor�as, las individuales (edad, g�nero, grupo familiar e
integraci�n, social); las acad�micas (orientaci�n profesional, desarrollo
intelectual, rendimiento acad�mico, m�todos de estudios, procesos de admisi�n,
grados de satisfacci�n de la carrera y carga acad�mica); las institucionales
(normativas acad�micas, financiamiento estudiantil, recursos universitarios,
calidad del programa o carrera y relaci�n con los profesores y pares); y las
socioecon�micas (estrato socioecon�mico, situaci�n laboral del estudiante,
situaci�n laboral de los padres y nivel educacional de los padres).
2. Metodolog�a
La metodolog�a utilizada estuvo basada
en el enfoque cuantitativo, en virtud al an�lisis y procesamiento de datos
num�ricos para detectar patrones y relaciones entre las variables de estudio;
con respecto al tipo de investigaci�n corresponde un estudio predictivo, cuya
finalidad es desarrollar un modelo de predicci�n mediante las t�cnicas de
miner�a de datos, aprendizaje autom�tico y estad�sticas. As� mismo, el dise�o
fue no experimental, observacional y prospectivo (Supo, 2020).
El conjunto de datos fue obtenido de
dos fuentes de informaci�n, en primer lugar, mediante la aplicaci�n de un
cuestionario como instrumento, que contiene 20 �tems agrupados en cuatro dimensiones, aplic�ndose
a 237 participantes de la Escuela de Posgrado de la Universidad Nacional Jos� Faustino
S�nchez Carri�n matriculados en los programas de maestr�as en educaci�n,
seleccionados mediante muestreo aleatorio simple; en
segundo lugar, se recopilaron datos del registro de evaluaciones mediante la
observaci�n. A continuaci�n, se presentan los �tems en el Cuadro 1.
Cuadro 1
Instrumento
de recolecci�n de datos para los participantes
N |
Pregunta |
Tipo |
P01 |
Rendimiento acad�mico en secundaria���������� |
Ordinal |
P02 |
Asignaturas desaprobadas en secundaria |
Ordinal |
P03 |
Repitencia de a�o en secundaria��������� |
Dicot�mico |
P04 |
Rendimiento acad�mico en pregrado����������������������� |
Ordinal |
P05 |
Asignaturas desaprobadas en pregrado������������������������� |
Ordinal |
P06 |
Sexo������������������������������ |
Dicot�mico |
P07 |
Rango edad |
Ordinal |
P08 |
Estado civil |
Ordinal |
P09 |
Empleado adecuadamente |
Ordinal |
P10 |
N�mero de hijos�������� |
Ordinal |
P11 |
Ingreso familiar������������������������������������� |
Ordinal |
P12 |
Motivaci�n para el estudio |
Dicot�mico |
P13 |
Situaci�n econ�mica |
Ordinal |
P14 |
Financiamiento de estudios |
Dicot�mico |
P15 |
Disponibilidad de tiempo de estudio |
Ordinal |
P16 |
Nivel de estr�s�������������� |
Ordinal |
P17 |
Infraestructura adecuada |
Ordinal |
P18 |
Equipamiento y mobiliario adecuado |
Ordinal |
P19 |
Asignaturas pertinentes |
Ordinal |
P20 |
Nivel de docentes |
Dicot�mico |
Fuente:
Elaboraci�n propia, 2023.
En base a la revisi�n de la literatura que
fundamenta la deserci�n estudiantil, se ha considerado la teor�a de D�az
(2008), quien adapt� las teor�as propuestas al contexto de la realidad peruana
elaboradas por Spady (1970); y, Tinto (1989), en cuatro factores, como se
detalla en la Tabla 1.
Tabla
1
Descripci�n �tems seg�n
factores propuesta de D�az (2008)
N |
Factores |
�tems |
|
Inicio |
Final |
||
01 |
Acad�micos |
01 |
05 |
02 |
Individuales |
06 |
12 |
03 |
Ambientales |
13 |
16 |
04 |
Institucionales |
17 |
20 |
Fuente:
Elaboraci�n propia, 2023.
Para el desarrollo del modelo, se utiliz� el
lenguaje R Statistical Software
(v4.2.2; R Core Team, 2022) y con el entorno de desarrollo R Studio (v2022.12.0 Build
353; RStudio Team, 2022) ejecutado desde el sistema operativo de escritorio Windows 11 (x64 Build 22621); as� mismo, se emple� la plataforma H20.ai para la
generaci�n del modelo de clasificaci�n a trav�s del paquete, H2O (v
3.38.0.1; Fryda et al., 2022). Para la reducci�n de la dimensionalidad
mediante la selecci�n de caracter�sticas se utilizaron los paquetes: Familiar
(v1.4.1; Zwanenburg y L�ck, 2021); Information
(v0.0.9; Larsen, 2016); Boruta
(v8.0.0; Kursa y Rudnicki, 2010); Regularized Random Forest, RRF (v1.9.4;
Deng, 2013); y, FSinR (v2.0.5;
Arag�n-Roy�n et al., 2020).
3.
Resultados y discusi�n
A continuaci�n, se presenta el an�lisis descriptivo de las opiniones
emitidas por los participantes a trav�s del cuestionario, seg�n la Tabla 2, los
resultados indican variabilidad en las respuestas. As� mismo, para desarrollar
estos modelos, se definieron variables independientes, que corresponde a 20 �tems del instrumento y como variable dependiente,
la deserci�n estudiantil; adem�s, se ha considerado dos aspectos de vital
importancia: La selecci�n de caracter�sticas y el porcentaje para la partici�n
del conjunto de datos para entrenamiento, validaci�n y prueba para cada uno de
los modelos.
Para la selecci�n de las caracter�sticas se utilizaron diferentes
algoritmos, obteniendo dos conjuntos de variables en base a las coincidencias o
similitudes en com�n; el primer conjunto, conformado por 11 variables (P01,
P02, P03, P04, P09, P10, P12, P13, P14, P16, P20); y el segundo conjunto,
conformado por las cinco variables (P07, P11, P17, P18, P19), haciendo un total
de 16 variables.
Tabla 2
An�lisis
descriptivo del conjunto de datos de los participantes
N |
Etiq. |
Descripci�n |
Min |
Max |
Mean |
DE |
01 |
P01 |
Rendimiento acad�mico en
secundaria���������� |
1 |
5 |
3.633 |
0.977 |
02 |
P02 |
Asignaturas desaprobadas en
secundaria |
1 |
4 |
1.578 |
0.786 |
03 |
P03 |
Repitencia de a�o en
secundaria��������� |
1 |
2 |
1.932 |
0.251 |
04 |
P04 |
Rendimiento acad�mico en
pregrado���������������������� � |
2 |
5 |
3.443 |
0.879 |
05 |
P05 |
Asignaturas desaprobadas en
pregrado������������������������� |
1 |
3 |
1.266 |
0.530 |
06 |
P06 |
Sexo������������������������������ |
1 |
2 |
1.624 |
0.485 |
07 |
P07 |
Rango edad |
1 |
3 |
2.004 |
0.805 |
08 |
P08 |
Estado civil |
1 |
5 |
1.975 |
0.786 |
09 |
P09 |
Empleado adecuadamente |
1 |
2 |
1.831 |
0.375 |
10 |
P10 |
N�mero de hijos�������� |
1 |
3 |
1.916 |
0.714 |
11 |
P11 |
Ingreso familiar������������������������������������� |
2 |
5 |
3.013 |
0.773 |
12 |
P12 |
Motivaci�n para el estudio |
1 |
2 |
1.038 |
0.192 |
13 |
P13 |
Situaci�n econ�mica |
2 |
5 |
3.194 |
0.773 |
14 |
P14 |
Financiamiento de estudios |
1 |
2 |
1.068 |
0.251 |
15 |
P15 |
Disponibilidad de tiempo de
estudio |
1 |
5 |
3.118 |
1.477 |
16 |
P16 |
Nivel de estr�s�������������� |
1 |
5 |
2.970 |
1.418 |
17 |
P17 |
Infraestructura adecuada |
1 |
5 |
3.084 |
1.369 |
18 |
P18 |
Equipamiento y mobiliario adecuado |
1 |
5 |
2.924 |
1.376 |
19 |
P19 |
Asignaturas pertinentes |
1 |
5 |
2.911 |
1.419 |
20 |
P20 |
Nivel de docentes |
1 |
5 |
3.650 |
1.012 |
Fuente:
Elaboraci�n propia, 2023.
Posteriormente, se establecieron los par�metros para la invocaci�n del m�todo
AutoML del objeto H2O, considerando como par�metros de datos, el conjunto de
las variables independientes y luego la variable objetivo o de destino,
definida como la variable dependiente; el par�metro de parada o de
finalizaci�n, se consider� max_models = 100; adem�s, de la opci�n
balance_classes = TRUE.
Con esta configuraci�n se presentan en la Tabla 3, los resultados de las
10 ejecuciones o iteraciones realizadas seg�n la configuraci�n definida; se
muestra en s�ntesis los principales modelos de aprendizaje autom�tico con
mejores m�tricas de entrenamiento en comparaci�n con otros modelos ubicados en
posiciones inferiores; por ejemplo, Extremely
Randomized Trees (XRT) y Distributed
Random Forest (DRF), Generalized
Linear Model (GLM). A continuaci�n, se presentan las m�tricas del proceso
de entrenamiento de cada uno de los modelos generados autom�ticamente.
Tabla 3
Modelos de aprendizaje autom�tico
seg�n el tama�o de los conjuntos de datos
N |
Modelo |
�tems |
Conjunto de Datos |
||
Entrenamiento |
Prueba |
Validaci�n |
|||
01 |
DeepLearning Grid |
16 |
70 |
30 |
0 |
02 |
DeepLearning Grid |
11 |
70 |
30 |
0 |
03 |
GBM Grid |
16 |
70 |
15 |
15 |
04 |
DeepLearning Grid |
11 |
70 |
15 |
15 |
05 |
GBM Grid |
16 |
80 |
20 |
0 |
06 |
GBM Grid |
11 |
80 |
20 |
0 |
07 |
GBM Grid |
16 |
60 |
40 |
0 |
08 |
GBM Grid |
11 |
60 |
40 |
0 |
09 |
GBM Grid |
16 |
75 |
25 |
0 |
10 |
GBM Grid |
11 |
75 |
25 |
0 |
Fuente:
Elaboraci�n propia, 2023.
Como se aprecia en la Tabla 4, las puntuaciones obtenidas en cada
m�trica son muy similares y significativas durante el proceso de entrenamiento y
validaci�n, se observa valores �ptimos de rendimiento en cada modelo seg�n el
tama�o de los conjuntos de datos de la Tabla 3; realiz�ndose posteriormente,
las pruebas para obtener las m�tricas de rendimiento de cada uno de los modelos
indicados.
Tabla 4
M�tricas
de rendimiento de los modelos de entrenamiento y validaci�n
N |
Modelo |
�tems |
AUC |
LOGLOS |
AUCPR |
01 |
DeepLearning Grid |
16 |
0.981685 |
0.389653 |
0.956428 |
02 |
DeepLearning Grid |
11 |
0.981136 |
0.214359 |
0.951164 |
03 |
GBM Grid |
16 |
0.980220 |
0.183851 |
0.943741 |
04 |
DeepLearning Grid |
11 |
0.982784 |
0.196832 |
0.954476 |
05 |
GBM Grid |
16 |
0.972311 |
0.258593 |
0.923799 |
06 |
GBM Grid |
11 |
0.972603 |
0.204378 |
0.932085 |
07 |
GBM Grid |
16 |
0.974163 |
0.246842 |
0.915569 |
08 |
GBM Grid |
11 |
0.972010 |
0.207276 |
0.920860 |
09 |
GBM Grid |
16 |
0.977618 |
0.218077 |
0.925325 |
10 |
GBM Grid |
11 |
0.972982 |
0.201235 |
0.923862 |
Fuente:
Elaboraci�n propia, 2023.
Los modelos de clasificaci�n tienen una variedad de m�tricas de
rendimiento entre las de mayor relevancia se tiene el coeficiente de Gini, el cual
es empleado para medir la calidad del modelo de predicci�n, teniendo como
interpretaci�n, que una valoraci�n de cero significa una igualdad perfecta, es
decir, se tiene un modelo deficiente; cuanto tiene un valor cercano a la
unidad, se presenta como desigualdad m�xima, y se considera un clasificador
perfecto.
La Tabla 5, contiene las m�tricas de las ejecuciones y pruebas
realizadas con cada uno de los modelos generados autom�ticamente, como se
evidencia las m�tricas son similares a diferencia del tercero y cuarto modelo
que se encuentran sobre ajustados, debido al n�mero de observaciones
particionadas en tres conjuntos de datos. Asimismo, se muestra un mejor
desempe�o en las m�tricas de los modelos con menor n�mero de �tems; en este sentido, por el principio
de parsimonia, se opta por aquellos con 11 �tems
seg�n los algoritmos utilizados para la selecci�n de caracter�sticas,
permitiendo beneficios para su futura implementaci�n. Se observa ligeramente
una mejor prestaci�n en el d�cimo modelo Gradient
Boosting Machine, seguido por el segundo modelo DeepLearning.
Tabla 5
M�tricas
de rendimiento de los modelos de pruebas
N |
Modelo |
�tems |
GINI |
AUC |
AUCPR |
LOGLOSS |
01 |
DeepLearning Grid |
16 |
0.895981 |
0.947991 |
0.913763 |
0.850491 |
02 |
DeepLearning Grid |
11 |
0.865248 |
0.932624 |
0.905851 |
0.546854 |
03 |
GBM Grid |
16 |
1.000000 |
1.000000 |
1.000000 |
0.025920 |
04 |
DeepLearning Grid |
11 |
1.000000 |
1.000000 |
1.000000 |
0.044860 |
05 |
GBM Grid |
16 |
0.915633 |
0.957816 |
0.911510 |
0.312979 |
06 |
GBM Grid |
11 |
0.935484 |
0.967742 |
0.937704 |
0.259712 |
07 |
GBM Grid |
16 |
0.943012 |
0.971506 |
0.919590 |
0.293444 |
08 |
GBM Grid |
11 |
0.932157 |
0.966079 |
0.925879 |
0.217350 |
09 |
GBM Grid |
16 |
0.912281 |
0.956140 |
0.922686 |
0.270146 |
10 |
GBM Grid |
11 |
0.898246 |
0.949123 |
0.911629 |
0.295948 |
Fuente:
Elaboraci�n propia, 2023.
El Gr�fico I, contempla las variables ordenadas de mayor a menor seg�n
la importancia en la predicci�n del modelo, en base a los valores porcentuales
que se encuentran escalados al 100%. Se evidencia una influencia fuerte en la
experiencia de los participantes en el nivel de secundaria: Rendimiento
acad�mico (29,65%), asignaturas reprobadas (22,67%) y repetici�n de a�o
(13,65%); el desempe�o de los docentes (14,03%); en menor relevancia se
encuentran los aspectos relacionados a estr�s de la persona (6,35%),
rendimiento en pregrado (5,99%), el n�mero de hijos (3,40%), motivaci�n
(2,23%), situaci�n econ�mica (1,28%), trabajo relacionado a su carrera (0,62%),
y finalmente, el financiamiento de sus estudios (0,10%).
Fuente:
Elaboraci�n propia, 2023.
Gr�fico I: Importancia de
las variables en el modelo de clasificaci�n
La exactitud es una m�trica para determinar las predicciones correctas
como proporci�n al total de predicciones realizadas, una puntuaci�n cercana a
la unidad representa un rendimiento �ptimo. De la Tabla 6, se puede obtener una
precisi�n equivalente a un 92%, es decir, el modelo tiene una capacidad de
predicci�n puesto que de 100 observaciones alcanza predecir 92 casos
exitosamente; para la sensibilidad se tiene un 90%, indicando una predicci�n
que, de 100 casos, 90 son exitosos para la clase positiva; finalmente, para la
especificidad, identifica un 100% de los casos para predecir la clase negativa.
Tabla 6
Matriz de confusi�n
del modelo GBM generado
Valores Predicci�n |
Reales |
Error |
Ratio |
|
Positivo |
Negativo |
|||
Positivo |
38 |
0 |
0.000 |
= 0 / 38 |
Negativo |
4 |
11 |
0.267 |
= 4 / 15 |
Total |
42 |
11 |
0.075 |
= 4 / 53 |
Fuente:
Elaboraci�n propia, 2023.
El �rea bajo la curva, es una m�trica para evaluar la capacidad del modelo
de clasificaci�n, permitiendo diferenciar entre los verdaderos positivos y
falsos positivos; un valor cercano a la unidad, se considera un modelo
perfecto. A diferencia de la m�trica �rea bajo la curva precisi�n �
recuperaci�n, no considera los verdaderos negativos muy utilizado en conjunto
de datos desequilibrados. La m�trica de p�rdida logar�tmica analiza la
aproximaci�n de los valores predichos de un modelo y las valoraciones del
objetivo real, donde una asignaci�n cercana a cero significa que el modelo
proporciona correctamente la probabilidad.
La curva ROC, es un gr�fico que representa la relaci�n entre verdaderos
positivos (sensibilidad) y falsos positivos (especificidad), el Gr�fico II,
demuestra una curva cercana a la esquina superior izquierda, indicando as� un
rendimiento �ptimo. Cabe precisar que, cuando la curva se aproxima a la
diagonal de 45� o l�nea base, ser� menos precisa correspondiendo un desempe�o
deficiente. Asimismo, el lado inferior izquierdo del gr�fico representa una
menor tolerancia a los falsos positivos; mientras que el lado superior derecho
representa una mayor tolerancia a los falsos positivos.
|
Fuente:
Elaboraci�n propia, 2023.
Gr�fico
II: Gr�fico ROC del
modelo de clasificaci�n GBM
El Gr�fico III, muestra el comportamiento del modelo de clasificaci�n
GBM mediante la curva de aprendizaje, presenta una perdida logar�tmica en el
conjunto de datos de entrenamiento y validaci�n; adem�s se visualiza que las
curvas son estables al tener un n�mero superior a los 50 �rboles, es decir, al
agregar m�s instancias al modelo, este no mejorar�a mucho su desempe�o o
rendimiento.
|
Fuente: Elaboraci�n
propia, 2023.
Gr�fico
III: Curva de aprendizaje
del modelo de clasificaci�n GBM
En s�ntesis, el modelo GBM (Gradient
Boosting Machine) es un m�todo de aprendizaje autom�tico supervisado que se
utiliza para realizar la clasificaci�n de problemas de aprendizaje autom�tico.
Est� construido utilizando �rboles de decisi�n. El modelo GBM generado consta
de 51 �rboles internos, con un tama�o correspondiente a 8,910 bytes.
El �rbol tiene una profundidad m�nima de 4 y una profundidad m�xima de
6, con una profundidad promedio de 5.29. El n�mero m�nimo de hojas es de 7 y el
n�mero m�ximo es de 13, con un promedio de 9.24 hojas. Esta configuraci�n del
modelo GBM indica que los �rboles de decisi�n internos tienen una profundidad
razonable y un n�mero moderado de hojas. Esto significa que el modelo GBM
presenta una buena capacidad de ajuste y puede proporcionar una buena
clasificaci�n para los datos evidenciado por las m�tricas de rendimiento.
Al contrastar los resultados obtenidos con la fundamentaci�n te�rica, se
puede indicar que, el modelo de clasificaci�n ha sido posible mediante la
utilizaci�n de t�cnicas de miner�a de datos para identificar patrones y
tendencias que pueden ser �tiles para predecir a los estudiantes con riesgo de
deserci�n. Sin embargo, es solo una herramienta y es necesaria la intervenci�n
humana para proporcionar el apoyo emocional y acad�mico a los estudiantes en
riesgo, coincidiendo con lo indicado por Z�rate-Valderrama et al. (2021); Jung
(2022); y, Microsoft Learn (2023), se indica tambi�n, que Dole y Rajurkar
(2014), desarrollaron un modelo de clasificaci�n binaria mediante Naive de
Bayes; en el presente estudio, fue un modelo de clasificaci�n GBM.
El desarrollo del modelo ha conllevado los procesos de entrenamiento,
validaci�n y prueba con diversos conjuntos de datos obteniendo m�tricas de
rendimiento eficaces concordando con el estudio de Xu y Li (2014); adem�s, se
coincide con las investigaciones realizadas por Samuel (2000); y, Dwi et al.
(2018), sobre la capacidad de los sistemas de informaci�n para aprender
mediante los algoritmos AutoML y el uso de la plataforma H2O.ai expresado por
LeDell y Poirier (2020).
Debido a la complejidad de la deserci�n estudiantil, esta fue analizada
�ntegramente mediante los cinco modelos propuestos por D�az (2008),
consider�ndose como base para la elaboraci�n de los instrumentos de recolecci�n
de datos, consolid�ndose en 20 �tems;
de los cuales, fueron utilizados s�lo 11 �tems
para el modelo de clasificaci�n debido al proceso de selecci�n de
caracter�sticas (Haque, 2022), siendo los �tems
de mayor relevancia P01, P02, P20 y P03.
Conclusiones
En vista de los
resultados, se evidencia el desarrollo de un modelo GBM para la clasificaci�n
de la deserci�n estudiantil utilizando la plataforma H2O.ai y AutoML, se puede
concluir que presenta un rendimiento eficiente debido a las m�tricas de precisi�n,
sensibilidad y especificidad para identificar patrones en los estudiantes con
riesgo de abandonar sus estudios; ofrece ventajas como la
capacidad de trabajar con datos desbalanceados, la capacidad de mejorar los
resultados mediante la sintonizaci�n de los par�metros, el uso de la validaci�n
cruzada y la capacidad de realizar predicciones en tiempo real, consider�ndose
como herramienta �til para la toma de decisiones.
Un aspecto relevante
de la investigaci�n fue la transversalidad, en primera instancia el aprendizaje
autom�tico, tuvo la capacidad de utilizar los algoritmos para extrapolar los
conocimientos adquiridos en un conjunto de datos; para el caso de la miner�a de
datos, esta t�cnica ha permitido identificar patrones en los datos dentro del
contexto de la educaci�n superior universitaria, permitiendo a los usuarios
compartir y reutilizar conocimientos adquiridos y mejores pr�cticas en otras
�reas del conocimiento.
Respecto al
aporte cient�fico, la investigaci�n es significativa y se presenta desde
diferentes perspectivas; desde el punto de vista te�rico, permite conocer y
comprender los factores que influyen en la deserci�n de estudiantes
contribuyendo de manera general al conocimiento en el campo de la inteligencia
artificial y el aprendizaje autom�tico; desde el punto de vista pr�ctico, las
instituciones de educaci�n superior pueden implementar estrategias y programas
de retenci�n a los estudiantes en riesgo y evitar el abandono de los estudios.
Las limitaciones
a considerar en el desarrollo de un modelo de clasificaci�n es el tama�o de
conjunto de datos, la selecci�n de caracter�sticas, la discretizaci�n de las
variables, datos desbalanceados, dichos factores conllevan a sesgos y
predicciones inexactas; por otra parte, el modelo desarrollado funciona para un
contexto especifico debido a la influencia de las variables independientes en
la deserci�n estudiantil, las cuales pueden cambiar con el tiempo o entorno.
Las futuras l�neas
de investigaci�n a desarrollar pueden incluir otros tipos de aprendizaje
autom�tico como aprendizaje profundo, ensamblajes, entre otros, as� como la
incorporaci�n de conjuntos de datos no estructurados; adem�s, se pueden incluir
otras caracter�sticas y/o factores que influyen en la deserci�n estudiantil y
que var�an dependiendo del entorno. Tambi�n se puede considerar estudios sobre
la efectividad de las intervenciones basadas en las predicciones del modelo de
clasificaci�n.
Referencias
bibliogr�ficas
Ajgaonkar, S. (2022). Practical automated machine learning using
H2O.ai: Discover the power of automated machine learning, from experimentation
through to deployment to production. Packt
Publishing.
Arag�n-Roy�n, F.,
Jim�nez-V�lchez, A., Arauzo-Azofra, A., y Benitez, J. (2020). FSinR: An exhaustive package for feature selection. arXiv: 2002. 10330.
https://doi.org/10.48550/arXiv.2002.10330
Bean, J., y
Eaton, S. B. (2001). The psychology
underlying successful retention practices. Journal
of College Student Retention: Research, Theory & Practice, 3(1), 73-89. https://doi.org/10.2190/6R55-4B30-28XG-L8U0
Berger, J. B. (2000).
Organizational behavior in higher education and student outcomes. In J. C.
Smart (Ed.), Higher Education: Handbook
of theory and research (Vol. XV, pp. 268-338). Agathon Press.
Berger, J. B.
(2001). Understanding the organizational nature of student persistence:
Empirically based recommendations for practice. Journal of College Student Retention: Research, Theory and Practice, 3(1),
3-21.
https://doi.org/10.2190/3K6A-2REC-GJU5-8280
Bernal, E. M., Cabrera,
A. F., y Terenzini, P. T. (2000). The relationship between
race and socioeconomic status (SES): Implications for institutional research
and admissions policies. Removing
Vestiges: Research-Based Strategies to Promote Inclusion, (3), 6-19.
Bri�ez, M. E. (2021). Tecnolog�a de informaci�n: �Herramienta potenciadora para
gestionar el capital intelectual? Revista de Ciencias Sociales (Ve), XXVII(1),
180-192. https://doi.org/10.31876/rcs.v27i1.35305�
Cabrera, A. F.,
Nora, A., y Casta�eda, M. B. (1992). The role of
finances in the persistence process: A structural model. Research in Higher Education, 33(5), 571-593. https://doi.org/10.1007/BF00973759
Cabrera, A. F.,
Nora, A., y Casta�eda, M. B. (1993). College persistence: Structural Equations
modelling test of Integrated model of student retention. Journal of Higher Education, 64(2), 123-320. https://doi.org/10.2307/2960026
Camborda, M. G. (2014). Aplicaci�n de �rboles de decisi�n
para la predicci�n del rendimiento acad�mico de los estudiantes de los primeros
ciclos de la carrera de Ingenier�a Civil de la Universidad Continental [Tesis
de maestr�a, Universidad Nacional del Centro del Per�]. http://repositorio.uncp.edu.pe/handle/20.500.12894/1477
Chatterjee, P., Yazdani,
M., Fern�ndez-Navarro, F., y P�rez-Rodr�guez, J. (Eds.) (2023). Machine learning
algorithms and applications in engineering. CRC Press. https://doi.org/10.1201/9781003104858
Deng, H. (2013). Guided
Random Forest in the RRF Package. ArXiv:
1306.0237. https://doi.org/10.48550/arXiv.1306.0237
Diario Oficial del Bicentenario El Peruano (9 de noviembre
de 2021). Tasa de deserci�n en educaci�n universitaria. El Peruano. https://elperuano.pe/noticia/132960-tasa-de-desercion-en-educacion-universitaria-se-redujo-a-115
D�az, B., Mar�n, W., Lioo, F., Baldeos, L.,
Villanueva, D., y Ausejo, J.� (2022).
Deserci�n de estudiantes, factores asociados con �rboles de decisi�n: Caso
Escuela de Postgrado de una Universidad p�blica en Per�. Risti: Revista
Ib�rica de Sistemas e Tecnologias de Informa��o,
(E-53), 197-211. https://www.risti.xyz/issues/ristie53.pdf
D�az, C. (2008). Modelo conceptual para
la deserci�n estudiantil universitaria chilena. Estudios Pedag�gicos, XXXIV(2), 65-86. https://dx.doi.org/10.4067/S0718-07052008000200004
D�az-Landa, B., Mele�n-Romero, R., y Mar�n-Rodriguez,
W. (2021). Rendimiento acad�mico de estudiantes en Educaci�n Superior:
Predicciones de factores influyentes a partir de �rboles de decisi�n. Telos: Revista de Estudios
Interdisciplinarios en Ciencias Sociales, 23(3), 616-639. https://doi.org/10.36390/telos233.08
Dole, L., y Rajurkar, J. (2014). A decision
support system for predicting student performance. International Journal of Innovative Research in
Computer and Communication Engineering, 2(12), 7232-7237. https://ijircce.com/admin/main/storage/app/pdf/GE1YcjUwFseBETuax9LEymgN04TtdLS7TGEfmMgr.pdf
Duche,
A. B., Paredes, F. M., Guti�rrez, O. A., y Carcausto, L. C. (2020). Transici�n
secundaria-universidad y la adaptaci�n a la vida universitaria. Revista de Ciencias Sociales (Ve), XXVI(3),
244-258. https://doi.org/10.31876/rcs.v26i3.33245
Dwi, M., Prasetya, A., y Pujianto, U. (2018). Technology acceptance model of student ability and tendency
classification system. Bulletin of Social
Informatics Theory and Application, 2(2), 47-57. https://doi.org/10.31763/businta.v2i2.113
Eccles, J.,
Adler, T., y Meece, J. L. (1984). Sex differences in achievement: A test of
alternate theories. Journal of
Personality and Social Psychology, 46(1), 26-43. https://doi.org/10.1037/0022-3514.46.1.26
Ethington, C.
A. (1990). A psychological model of student persistence. Research in Higher Education, 31(3), 279-293. https://doi.org/10.1007/BF00992313
F�lix, A. V., Urrea, M. L., y L�pez, S. (2023). Abandono
escolar de alumnos universitarios en la carrera de Derecho y Ciencias Sociales.
Revista de Ciencias Sociales (Ve), XXIX(2), 242-254. https://doi.org/10.31876/rcs.v29i2.39974
Fishbein, M., y
Ajzen, I. (1974). Attitudes
toward objects as predictors of simple and multiple behavioural criteria. Psycological Review, 81, 59-74. https://doi.org/10.1037/h0035872
Fryda, T., LeDell, E.,
Gill, N., Aiello, S., Fu, A., Candel, A., Click, C., Kraljevic, T., Nykodym,
T., Aboyoun, P., Kurka, M., Malohlava, M., Poirier, S., y
Wong, W. (2022). H2O: R
Interface for the 'H2O' Scalable Machine Learning Platform. R package version
3.38.0.1. https://docs.h2o.ai/h2o/latest-stable/h2o-r/docs/index.html
Gonz�lez, L. E. (2005). Estudio sobre la repitencia y deserci�n en
la educaci�n superior chilena. Instituto Internacional para la Educaci�n
Superior en Am�rica Latina y el Caribe, IESALC � UNESCO. https://unesdoc.unesco.org/ark:/48223/pf0000140087
Haque, M. A. (2022). Feature Engineering & Selection for Explainable Models: A second
course for data scientists. LULU Internacional.
Jung, A. (2022). Machine Learning: The basics. Springer. https://doi.org/10.1007/978-981-16-8193-6
Khun, M., y Jhonson, K.
(2019). Feature
Engineering and Selection: A Practical Approach for Predictive Models. Chapman and Hall/CRC. https://doi.org/10.1201/9781315108230
Kodelja, Z. (2019). Is machine learning real
learning? CEPS Journal, 9(3), 11-23. https://doi.org/10.26529/cepsj.709
Kuh, G. D.
(2002). Organizational culture and student persistence: Prospects and puzzles. Journal of College Student Retention: Research, Theory & Practice, 3(1), 23-39.
https://doi.org/10.2190/U1RN-C0UU-WXRV-0E3M
Kursa, M. B., y
Rudnicki, W. R. (2010). Feature selection with
the Boruta Package. Journal of
Statistical Software, 36(11), 1-13. https://doi.org/10.18637/jss.v036.i11
Larsen, K. (2016). Data
Exploration with Information Theory (Weight-of-Evidence and Information Value).
R package version 0.0.9. https://CRAN.R-project.org/package=Information
LeDell, E., y Poirier,
S. (2020). H2O AutoML: Scalable Automatic Machine Learning. 7th ICML Workshop on Automated Machine
Learning. https://www.automl.org/wp-content/uploads/2020/07/AutoML_2020_paper_61.pdf
Ley No. 30220 de 2014. Ley Universitaria. 3 de
julio de 2014.
Microsoft
Learn (23 de diciembre de 2023). Conceptos de miner�a de datos. Microsoft Learn. https://learn.microsoft.com/es-es/analysis-services/data-mining/data-mining-concepts?view=asallproducts-allversions
Moreno,
F. O., Ochoa, F. A., Mutter, K. J., y Vargas, E. C. (2021). Estrategias
pedag�gicas en entornos virtuales de aprendizaje en tiempos de pandemia por
Covid-19. Revista de Ciencias Sociales
(Ve), XXVII(4), 202-213. https://doi.org/10.31876/rcs.v27i4.37250
Mushtaq, I., y Khan, S. N. (2012). Factors
affecting students� academic performance. Global
Journal of Management and Business Research, 12(9), 17-22. https://journalofbusiness.org/index.php/GJMBR/article/view/100221
Nagarajah, T., y Poravi,
G. (2019). A Review on Automated Machine Learning (AutoML)
Systems. IEEE 5th International
Conference for Convergence in Technology (I2CT), Bombay, India. https://doi.org/10.1109/i2ct45611.2019.9033810
Nye, J. S.
(1976). Independence and Interdependence. Foreign
Policy, (22), 130-161. https://doi.org/10.2307/1148075
Organisation for Economic
Co-operation and Development - OECD (2019).
Education at a Glance 2019. OECD
Publishing. https://doi.org/10.1787/f8d7880d-en
R Core Team (2022). R: A language and environment for
statistical computing. R Foundation for Statistical Computing. https://www.R-project.org/
RStudio Team (2022). RStudio: Integrated Development for R.
RStudio, http://www.rstudio.com/
Samuel, A. L. (2000). Some studies in machine
learning using the game of checkers. IBM
Journal of Research and Development, 44(1.2), 211-229. https://doi.org/10.1147/rd.441.0206
Sharmeela, C.,
Sanjeevikumar, P., Sivaraman, P., y Joseph, M. (2023). IoT, machine
learning and blockchain technologies for renewable energy and modern hybrid
power systems. Routledge.
Spady, W. G.
(1970). Dropouts from higher education: An interdisciplinary review and
synthesis. Interchange, 1, 64-85. https://doi.org/10.1007/BF02214313
St. John, E.
P., Cabrera, A. E., Nora, A., y Asker, E. H. (2000). Economic influences on
persistence reconsidered: How can finance research inform the reconceptualization
of persistence models? In J. M. Braxton (Ed.), Reworking the student departure puzzle: New theory and research on
college student retention (pp. 29-47). Vanderbilt University Press.
Superintendencia
Nacional de Educaci�n Superior Universitaria - SUNEDU (2020). II Informe bienal sobre la
realidad universitaria en el Per�. SINEDU. https://cdn.www.gob.pe/uploads/document/file/1230044/Informe%20Bienal.pdf
Supo, J.
(2020). Metodolog�a de la Investigaci�n
Cient�fica: Para las Ciencias de la Salud y las Ciencias Sociales. Independently published.
Tinto, V.
(1982). Limits of theory and practice of student attrition. Journal of Higher Education, 53(6),
687-700. https://doi.org/10.2307/1981525
Tinto, V. (1989). Definir la deserci�n:
Una cuesti�n de perspectiva. Revista de
Educaci�n Superior, (71), 1-9. http://publicaciones.anuies.mx/revista/71/1/3/es/definir-la-desercion-una-cuestion-de-perspectiva
Valero, J. E., Navarro, �. F., Larios,
A. C., y Julca, J. D. (2022). Deserci�n universitaria: Evaluaci�n de diferentes
algoritmos de Machine Learning para su predicci�n. Revista de Ciencias Sociales (Ve), XXVIII(3), 362-375. https://doi.org/10.31876/rcs.v28i3.38480
Villarreal-Torres, H.,
�ngeles-Morales, J., Mar�n-Rodriguez, W., Andrade-Gir�n, D., Carre�o-Cisneros,
E., Cano-Mej�a, J., Mej�a-Murillo, C., Bosc�n-Carroz, M. C., Flores-Reyes, G.,
y Cruz-Cruz, O. (2023). Development of a
classification model for predicting student payment behavior using artificial
intelligence and data science techniques. EAI
Endorsed Transactions on Scalable Information Systems, 10(5). https://doi.org/10.4108/eetsis.3489
Villarreal-Torres, H. O., Mar�n-Rodriguez, W.
J., �ngeles-Morales, J. C., y Cano-Mej�a, J. E. (2021). Gesti�n de Tecnolog�a
de Informaci�n para universidades peruanas aplicando computaci�n en la nube. Revista Venezolana de
Gerencia, 26(E-6), 665-679. https://doi.org/10.52080/rvgluz.26.e6.40
Xu, W., y Li, W. (2014).
Granular computing approach to two-way learning based
on formal concept analysis in Fuzzy Datasets. IEEE Transactions on Cybernetics, 46(2), 366-379. https://doi.org/10.1109/tcyb.2014.2361772
Z�rate-Valderrama, J.,
Bedregal-Alpaca, N., y Cornejo-Aparicio, V. (2021). Modelos de clasificaci�n para reconocer patrones de deserci�n en
estudiantes universitarios. Ingeniare. Revista Chilena de Ingenier�a, 29(1), 168-177. http://dx.doi.org/10.4067/S0718-33052021000100168
Z�ller, M.-A., y Huber, M.
F. (2021). Benchmark and survey of automated machine
learning frameworks. Journal of
Artificial Intelligence Research, 70, 409-472. https://doi.org/10.1613/jair.1.11854
Zwanenburg, A., y L�ck,
S. (2021). Familiar: End-to-End Automated Machine Learning
and Model Evaluation. https://cran.r-project.org/web/packages/familiar/familiar.pdf�
* Doctor en Ingenier�a Inform�tica y de Sistemas.
Mag�ster en Ingenier�a Inform�tica y de Sistemas. Ingeniero Inform�tico y de
Sistemas. Docente Principal en la Universidad San Pedro, Chimbote, Per�. E-mail: henry.villarreal@usanpedro.edu.pe
ORCID: https://orcid.org/0000-0002-5989-4534
** Doctor en
Ingenier�a Industrial. Magister en Administraci�n de Empresas y Negocios (MBA).
Ingeniero Industrial. Docente Principal en la Universidad San Pedro, Chimbote,
Per�. E-mail:
julio.angeles@usanpedro.edu.pe ORCID: https://orcid.org/0000-0002-7470-8154
*** Doctor
en Administracion. Magister en Administraci�n Estrat�gica. Ingeniero
Inform�tico. Docente en la Universidad Nacional Jos� Faustino S�nchez Carri�n,
Huacho, Lima, Per�.� Investigador
RENACYT. E-mail: wmarin@unjfsc.edu.pe
ORCID: https://orcid.org/0000-0002-0861-9663
(Autor de vorrespondencia)
**** Doctora en Gesti�n y Ciencias de la Educaci�n.
Magister en Obstetricia. Licenciada en Obstetricia. Docente Principal en la
Universidad San Pedro, Chimbote, Per�. Investigadora RENACYT. E-mail: jenny.cano@usanpedro.edu.pe ORCID: https://orcid.org/0000-0001-5638-972X
Recibido: 2023-09-16��������������� � Aceptado:
2023-12-05