Data Science - Regresión Lineal para pronóstico de la matrícula estudiantil en la Educación Técnico Profesional

 



Proyección al año escolar 2028-2029 con Regresión Lineal

Objetivo: Proyectar la  matrícula estudiantil de la educación técnico profesional para los años 2023 al 2027

Esto es un pronóstico propuesto basado en informaciones del SIGERD, sistema de información de la gestión Educativa del Ministerio de Educación de la República Dominicana. Para hacer este pronóstico adopte un enfoque de proyección basado en regresión lineal.

Regresión lineal

La regresión lineal es una técnica fundamental en estadísticas y Machine Learning (Inteligencia  Artificial, aprendizaje automático) que se utiliza para modelar y comprender la relación lineal entre variables. Se utiliza ampliamente en análisis de datos para predecir valores y comprender cómo una variable dependiente se ve afectada por una o más variables independientes.

Se modela la relación entre una variable dependiente (o respuesta) y una o más variables independientes (o predictoras) mediante una ecuación lineal. El objetivo principal de la regresión lineal es encontrar la mejor línea recta (en el caso de la regresión lineal simple) o un hiperplano (en el caso de la regresión lineal múltiple) que se ajuste a los datos de manera óptima.

En la regresión lineal simple, tienes una variable independiente y una variable dependiente, y el modelo se representa como:

Donde:

  • es la variable dependiente.
  • es la variable independiente.
  • es la intersección en el eje (el valor de cuando es igual a cero).
  • es la pendiente de la línea (representa la tasa de cambio de con respecto a ).
  • representa el término de error, que refleja la variabilidad no explicada por el modelo.

El objetivo de la regresión lineal es encontrar los valores óptimos de a y b que minimizan la suma de los errores cuadráticos (es decir, minimizar la distancia entre los puntos de datos y la línea de regresión). Esto se hace utilizando técnicas estadísticas, como el método de los mínimos cuadrados.

La regresión lineal múltiple es una extensión de la regresión lineal simple en la que tienes múltiples variables independientes que se utilizan para predecir la variable dependiente. El modelo se extiende de manera similar, pero ahora se considera una combinación de las variables independientes ponderadas por coeficientes.

----------------------------------------------------------------------------------------- 

En este análisis no se pudieron incluir mas variables de variación dado que se desconocen factores como próximas solicitudes de apertura de nuevos títulos o nuevas solicitudes de conversión de centros de la Modalidad Académica a la Educación Técnico Profesional, salvo en 4to grado del 2023, una potencial matrícula adicional de 1,426 estudiantes por la creación de 64 secciones nuevas.

En el año 2020-2021 se abrieron con cierta timidez algunas secciones en 4to grado debido a la pandemia. Otras secciones fueron siendo cerradas debido a la falta de maestros para impartir docencia. Esto no se evidencio inmediatamente debido a que se hizo una promoción general al final del año escolar 2019-2020.

Para realizar los análisis científicos y las visualizaciones de datos, se utilizaron las siguientes herramientas, programas, lenguajes y librerías:

Python, Anaconda, JupyterLab, Pandas, Matplotlib, Seaborn y scikit-learn.

De manera particular scikit-learn es una librería de Python para el Machine Learning y el análisis de datos. En el ejemplo, se utilizó para ajustar un modelo de regresión lineal a los datos históricos y realizar proyecciones basadas en ese modelo.

Para la realización de este estudio, los años escolares se toma el año de inicio como año base.

Ejemplo:

2018-2019, año base 2018,

2019-2020, año base 2019,

etc. 


Para realizar este estudio, aplique las Fases de la Ciencia de datos, que son:

  1. Obtención de datos
  2. Preparación de datos
  3. Análisis + Predicción
  4. Visualización

Para ver el cuaderno en una versión en linea, hacer clic en el Vinculo más abajo de Anaconda Notebooks.

Este analisis, junto con funciones de la libreria Pandas para agrupar y manipular distintos dataframes, nos permitío generar esta visualización que esta en portada de la publicación con la librería "Seaborn" y "Matplotlib". Esta incluye una además del pronóstico de la matrícula una linea de tendencia que orienta sobre el comportamiento del modelo.


Conclusiones

Según se aprecia, se prevee un incremento gradual en la matrícula, tomando en cuenta las políticas de Fortalecimiento y Mejoramiento de la Educación Técnico Profesional (ETP) de la actual gestión gubernamental.

Se aprecia como de 2018 a 2020 hubo un gran incremento por las políticas de expansión, pero este brusco crecimiento generó un efecto rebote negativo por varias razones:

- La pandemia del COVID-19 generó un detenimiento total en la posible variación positiva de la cantidad de secciones.
- La apertura de secciones e inclusión de nuevos títulos y conversiones masivas de centros entre el 2027-2020, sin nombramientos de maestros técnicos, equipamientos a los talleres, ni acompañamiento constante a estos nuevos equipos de gestión, generaron:

       - baja calidad de los aprendizajes en los estudiantes, 
       - problemas de liderazgo en la gestión de los centros educativos y 
       - una retardada adopción de la cultura de la Educación Técnico Profesional en estos.

Por lo que vemos como la matrícula fue descendiendo a la vez que fueron mermando la cantidad de secciones por grado en los centros de la ETP. Algunos, en centros que tenían poco de haber abierto estas secciones.

Esta regresión lineal podría sugerir un incremento similar en los años siguientes del 2023 al 2028, pero esta estadística presenta una probabilidad, que podría no concretarse, dado que las políticas actuales no son de expansión, sino de Fortalecimiento. 

Si es el caso que llegan a construirse nuevos politécnicos, con nombramiento de maestros técnicos por concurso, el equipamientos de los talleres y la debida orientación con el acompañamiento constante a estos nuevos equipos de gestión para fortalecer el liderazgo en los centros, alienados a la cultura de la ETP, es probable que estos números aumenten como sugiere la regresión lineal, pero con buenos niveles de calidad y pertinencia en los aprendizajes de los estudiantes.

Sobre el estudio

Para realizar los análisis científicos y las visualizaciones de datos en el ejemplo anterior, se utilizaron las siguientes herramientas, programas, lenguajes y librerías:

1. Python: Lenguaje de programación utilizado para realizar el análisis de datos y la visualización.
2. Anaconda: Una plataforma de distribución de Python que incluye un entorno de desarrollo integrado (IDE) llamado Anaconda Navigator. Anaconda simplifica la gestión de paquetes y entornos virtuales, lo que la hace muy popular en la comunidad de ciencia de datos.
3. JupyterLab: Un entorno de desarrollo interactivo que se utiliza comúnmente para análisis de datos y programación en Python. Permite la ejecución interactiva de celdas de código.
4. Pandas: Una librería de Python para el análisis y manipulación de datos. Se usa para cargar y manipular datos tabulares, como DataFrames.
5. Matplotlib: Una librería de visualización de datos en Python. Se utilizó para crear gráficos de líneas que representan los datos históricos y la proyección.
6. Seaborn: Otra librería de visualización de datos en Python que se usa para crear gráficos más estilizados y personalizables. En el ejemplo, se empleó Seaborn para mostrar los datos históricos y la proyección de manera más atractiva.
7. scikit-learn: Una librería de Python para el aprendizaje automático y el análisis de datos. En el ejemplo, se utilizó para ajustar un modelo de regresión lineal a los datos históricos y realizar proyecciones basadas en ese modelo.


Científico de datos:
Jimmy R. Coste Yost. Tecnología y Ciencia de datos, para la Dirección de Educación Técnico Profesional. Nivel Secundario. Ministerio de educación de la República Dominicana.

2 de Septiembre 2023.




Comentarios