Data Science - Regresión Lineal para pronóstico de la matrícula estudiantil en la Educación Técnico Profesional
Proyección al año escolar 2028-2029 con Regresión Lineal
Objetivo: Proyectar la matrícula estudiantil de la educación técnico profesional para los años 2023 al 2027
Esto es un pronóstico propuesto basado en informaciones del SIGERD, sistema de información de la gestión Educativa del Ministerio de Educación de la República Dominicana. Para hacer este pronóstico adopte un enfoque de proyección basado en regresión lineal.
Regresión lineal
La regresión lineal es una técnica fundamental en estadísticas y Machine Learning (Inteligencia Artificial, aprendizaje automático) que se utiliza para modelar y comprender la relación lineal entre variables. Se utiliza ampliamente en análisis de datos para predecir valores y comprender cómo una variable dependiente se ve afectada por una o más variables independientes.
Se modela la relación entre una variable dependiente (o respuesta) y una o más variables independientes (o predictoras) mediante una ecuación lineal. El objetivo principal de la regresión lineal es encontrar la mejor línea recta (en el caso de la regresión lineal simple) o un hiperplano (en el caso de la regresión lineal múltiple) que se ajuste a los datos de manera óptima.
En la regresión lineal simple, tienes una variable independiente y una variable dependiente, y el modelo se representa como:
Donde:
- es la variable dependiente.
- es la variable independiente.
- es la intersección en el eje (el valor de cuando es igual a cero).
- es la pendiente de la línea (representa la tasa de cambio de con respecto a ).
- representa el término de error, que refleja la variabilidad no explicada por el modelo.
El objetivo de la regresión lineal es encontrar los valores óptimos de a y b que minimizan la suma de los errores cuadráticos (es decir, minimizar la distancia entre los puntos de datos y la línea de regresión). Esto se hace utilizando técnicas estadísticas, como el método de los mínimos cuadrados.
La regresión lineal múltiple es una extensión de la regresión lineal simple en la que tienes múltiples variables independientes que se utilizan para predecir la variable dependiente. El modelo se extiende de manera similar, pero ahora se considera una combinación de las variables independientes ponderadas por coeficientes.
-----------------------------------------------------------------------------------------
En este análisis no se pudieron incluir mas variables de variación dado que se desconocen factores como próximas solicitudes de apertura de nuevos títulos o nuevas solicitudes de conversión de centros de la Modalidad Académica a la Educación Técnico Profesional, salvo en 4to grado del 2023, una potencial matrícula adicional de 1,426 estudiantes por la creación de 64 secciones nuevas.
En el año 2020-2021 se abrieron con cierta timidez algunas secciones en 4to grado debido a la pandemia. Otras secciones fueron siendo cerradas debido a la falta de maestros para impartir docencia. Esto no se evidencio inmediatamente debido a que se hizo una promoción general al final del año escolar 2019-2020.
Para realizar los análisis científicos y las visualizaciones de datos, se utilizaron las siguientes herramientas, programas, lenguajes y librerías:
Python, Anaconda, JupyterLab, Pandas, Matplotlib, Seaborn y scikit-learn.
De manera particular scikit-learn es una librería de Python para el Machine Learning y el análisis de datos. En el ejemplo, se utilizó para ajustar un modelo de regresión lineal a los datos históricos y realizar proyecciones basadas en ese modelo.
Para la realización de este estudio, los años escolares se toma el año de inicio como año base.
Ejemplo:
2018-2019, año base 2018,
2019-2020, año base 2019,
etc.
Para realizar este estudio, aplique las Fases de la Ciencia de datos, que son:
- Obtención de datos
- Preparación de datos
- Análisis + Predicción
- Visualización
Para ver el cuaderno en una versión en linea, hacer clic en el Vinculo más abajo de Anaconda Notebooks.
Este analisis, junto con funciones de la libreria Pandas para agrupar y manipular distintos dataframes, nos permitío generar esta visualización que esta en portada de la publicación con la librería "Seaborn" y "Matplotlib". Esta incluye una además del pronóstico de la matrícula una linea de tendencia que orienta sobre el comportamiento del modelo.
Comentarios