Data Science - ¿Es necesario tener un doctorado para ser científico de datos?

La realidad de los especialistas en datos en la República Dominicana: ¿Educación formal o habilidades prácticas?

En la República Dominicana, la Ley Organica de Educación, Ley No. 66-97, en su artículo 28, establece que hay 3 tipos de educación, la formal y no formal, que se complementan con la educación informal. 

Y las describe así:

  1. Educación formal es el proceso integral correlacionado que abarca desde la educación inicial hasta la educación superior, y conlleva una intención deliberada y sistemática que se concretiza en un currículo oficial y se aplica en calendario y horario definido;
  2. La educación no formal es el proceso de apropiación de conocimientos, actitudes y destrezas que busca las finalidades de la educación formal de manera paralela a ésta para poblaciones especiales, utilizando una mayor flexibilidad en el calendario, horario y duración de los niveles y ciclos de la educación, así como una mayor diversidad de medios para el aprendizaje; 
  3. La educación informal es un proceso de aprendizaje continuo y espontáneo que se realiza fuera del  marco de la educación formal y no formal, como hecho social no determinado, de manera intencional.  El sistema la reconoce y la utiliza como parte de sus actividades.  
A pesar de que esta ley fue promulgada hace casi 30 años, esta visión de la educación sigue vigente y fue hecha con real prospectiva, pues es el mismo esquema que vemos alrededor del mundo, aun hoy.

Sin embargo la aplicación de esta visión a nivel social se orienta más hacia el tipo formal que en cualquier otro, dandosele predominancia a las titulaciones formales de nivel superior en la vida socioeducativa de las personas, dandole menor apreciación al tipo de Educación No Formal y no otorgando mayor reconocimiento a la educación informal, digase a la experiencia.

Pudiera ser ademàs a que de manera oficial, la educación No formal solo se visualiza en titulaciones técnicas de niveles inferiores al Nivel superior en la Educación Formal. Ignorando otros niveles No formales Superiores como el Asociado, Profesional, Experto o Arquitecto.

Otro aspecto a mencionar es que no son las mayoría de las personas en edad laboralmente activa (PEA) que acceden al nivel superior de la educación formal, ni tampoco logran concluir los estudios el 100% de quienes inician. Hay deserción, por factores multiples.

Cuando sumamos a esta realidad, el hecho de que sociolaboralmente el mundo ha cambiado en ciertas disciplinas, fruto de la 4ta revolución industrial, el proceso de transformación digital que han llevado acabo incontables empresas y el abrumador empujón que le han dado la pandemia del COVID-19 y la Inteligencia Artificial generativa, nos vemos en una gran disyuntiva y necesidad imperante de un cambio de paradigma.

La importancia que está tomando el tipo de Educación No formal frente a la Formal.

Además hay otro factor muy determinante. Cada vez más son más los talentos locales en tecnología que abandonan sus trabajos em empresas locales para trabajar para empresas internacionales, con una paga a veces 3 veces mayor, que segun el criterio inferido de estas empresas, al leer las publicaciones en portales como LinkedIn, han priorizado las competencias y certificaciones No formales en lugar de las titulaciones formales. No es que algunos perfiles no los pidan, depende del reclutador o la empresa, pero es que al realidad el "dealbreaker" o facotr determinante está es en las habilidades comprobadas.

Para contestar la pregunta inicial, ¿Es necesario tener un doctorado para ser científico de datos?, es necesario abordarlo no desde la percepción, y sustentarnos en datos, en este caso globales, para no ajustarlo a la visión local, y ver hacia donde nos lleva le mundo en terminos tecnologicos y de ciencia de datos, pues en este campo, lo global es lo que marca el curso de acción.

La Ciencia de datos, como disciplina, se puede denominar como un Área Profesional de la Familia Profesional Informàtica y Comunicaciones, o una Subárea de Desarrollo, en la misma familia.

Análisis de los datos

La creciente demanda de especialistas en datos ha llevado a una expansión significativa de las oportunidades laborales en el campo. Una pregunta común que surge entre aspirantes y profesionales es si es necesario poseer un doctorado para convertirse en científico de datos. La respuesta, basada en una encuesta a cientos de miles de profesionales, sugiere que no es imprescindible. Analicemos los datos en detalle y exploremos las diversas ocupaciones relacionadas con el análisis de datos.

En este artículo utilizaremos los datos del 2021 de más de 160,000 científicos de datos, 570,000 analistas de datos, más de 100,000 ingenieros de datos y más de 19,000 ingenieros de ML (aprendizaje automático) de todo el mundo. Los conjuntos de datos se extraen de Diffbot, uno de los portales de datos más populares. 

A partir de sta fuente de datos he desarrollado un tablero en Google Looker Studio acerca del Nivel educativo de los especialistas de datos por ocupación, sean estos analistas, ingenieros o científicos de datos. Este tablero o Panel interactivo esta disponible para su libre consulta y filtrado por ocupación. 

Acceder al tablero haciendo clic aquí

https://lookerstudio.google.com/reporting/f461d6c0-cbcd-4bf4-9ece-c91cad3c50fb 


Distribución de Especialistas en Datos

Los especialistas en datos se distribuyen en varias categorías, cada una con su propia dinámica en cuanto a formación académica:

  • DATA ANALYST: ANALISTA DE DATOS
  • DATA ENTRY: MONITOR O ANALISTA JUNIOR DE DATOS
  • DATA SCIENTIST: CIENTÌFICO DE DATOS
  • DATA ENGINEER: INGENIERO DE DATOS
  • MACHINE LEARNING ENGINEER: INGENIERO DE ML (MACHINE LEARNING O APRENDIZAJE AUTOMATIZADO)
  • Existen tambien otros puestos de trabajo que no mencionamos aquì como el estadistico, que si existe es un puesto de trabajo muy focalizado y remanente en algunas organizaciones. Otros puestos de traajo son el Analista de Inteligencia de negocios o BI, y el Analista Financiaero, que se solapan mucho con el analista de datos, aunque su perfil es un poco màs de la Familia Profesional de Administraciòn y Finanzas. Estos los mencionamos pero no los incluiremos en el analisis.


    Niveles Educativos

    Los niveles educativos aqui utilizados se denominan a partir de las respuestas de los esecialistas, que varian entre titulaciones de educación formal y menormente no formal.

    • HIGH SCHOOL: BACHILLER SECUNDARIA (¿BACHILLER  TÉCNICO?) (Formal)
    • CERTIFICATE: CERTIFICACIÓN TÉCNICA (No Formal)
    • ASSOCIATE'S: CERTIFICACIÓN TÈCNICA SUPERIOR (No Formal)
    • BACHELOR'S: LICENCIATURA O INGENIERÍA (Formal)
    • MASTER'S: MAESTRÍA (Formal)
    • PHD: DOCTORADO (Formal)

    El Nivel "Highschool" en la República Dominicana se denomina Bachiller, pero no debe confundirse con Bachelor, que tambien se traduce bachiller en otros paises, pero este último es el grado inicial en el Nivel Superior. En RD, Bachiller el el grado más alto en los niveles preuniversitarios, correspondiente al nivel secundario. En RD hay una modalidad que egresa bachilleres del Nivel Secundario de caracter Técnico que reciben competencias laborales profesionales, en donde hay titulaciones formales de la Familia Profesional en cuestión e implican el amnejo de datos. 

    Como esta encuesta se ha realizado a nivel mundial, este nivel no necesariamente corresponde al Bachiller Técnico, pues los modelos educativos a nivel secundario varian en cada país.


    DATA SCIENTIST: CIENTÍFICO DE DATOS

    Definición y Función: El científico de datos es un profesional altamente calificado que utiliza técnicas avanzadas de análisis, algoritmos y tecnologías de machine learning para extraer conocimientos significativos de grandes volúmenes de datos. Su trabajo implica la limpieza, exploración y modelado de datos para desarrollar soluciones basadas en datos que impacten en la estrategia empresarial.

    Herramientas y Tecnologías:

    • Lenguajes de Programación: Python, R, Scala
    • Bases de Datos Estructuradas: MySQL, PostgreSQL, Oracle
    • Plataformas de Big Data: Hadoop, Spark
    • Herramientas de Machine Learning: TensorFlow, PyTorch, Scikit-learn
    • Visualización de Datos: Tableau, Power BI, Matplotlib, Seaborn

    Salario Promedio Mensual: $6,000 - $10,000 USD


    De los científicos de datos encuestados, la diversidad en la formación académica es notable:

    • Licenciatura: 130,696 (30.29%)
    • Maestría: 115,193 (26.69%)
    • Doctorado: 30,825 (7.14%)
    • Secundaria: 28,612 (6.63%)
    • Certificado: 8,375 (1.94%)
    • Asociado: 2,021 (0.47%)

    Estos datos revelan que, aunque un doctorado puede ser beneficioso, no es una barrera para ingresar al campo. La mayoría de los científicos de datos tienen títulos de licenciatura o maestría, y una porción significativa ha accedido a estos roles con niveles educativos inferiores.

    Y contestando la pregunta inicial, los datos muestran que la mayoría de los cientìficos de datos solo tienen la titulaciòn de grado de licenciatura o ingeniería, seguidos cercanamente de los que tienen maestría. Con doctorado ocupa un "ratio" terciario,  la respuesta, basada en una encuesta a cientos de miles de profesionales, sugiere que no es imprescindible. De hecho sorprende ver que una propoción similar solo tiene tìtulación de grado secundario.

    Antes de abudar en los motivos de porque es esto, veamos la situación de los demás puestos de trabajo del equipo de Ciencia de datos.


    DATA ANALYST: ANALISTA DE DATOS

    Definición y Función: El analista de datos se encarga de interpretar datos y convertirlos en información que pueda ofrecer soluciones y mejorar la toma de decisiones empresariales. Este rol implica la recopilación, procesamiento y análisis de grandes conjuntos de datos para identificar tendencias, patrones y relaciones significativas.

    Herramientas y Tecnologías:

    • Software de Análisis de Datos: Excel, Tableau, Power BI
    • Lenguajes de Programación: SQL, Python, R
    • Bases de Datos: MySQL, PostgreSQL, Oracle
    • Estadísticas y Visualización: Excel, Tableau, Power BI, Matplotlib, Seaborn

    Salario Promedio Mensual: $3,500 - $5,000 USD

     


    • Licenciatura: 431,532 (100%)
    • Maestría: 232,864 (53.96%)
    • Secundaria: 98,806 (22.90%)
    • Certificado: 43,831 (10.16%)
    • Asociado: 28,294 (6.56%)
    • Doctorado: 17,494 (4.05%)

    En esta visualización de Analistas de datos, así como en los demàs puestos que veremos que veremos, predominarán los de Licenciatura o Ingeniería (Bachelor's) seguidos de los de maestría. Sin embargo,  es notable que para este cargo hay más analistas graduados de secundaria, técnicos certificados o asociados que analistas con doctorado.


    DATA ENTRY: MONITOR O ANALISTA JUNIOR DE DATOS

    Definición y Función: El personal de entrada de datos es responsable de introducir, actualizar y mantener datos en sistemas informáticos y bases de datos. Su trabajo es esencial para garantizar la precisión y la integridad de los datos dentro de una organización.

    Herramientas y Tecnologías:

    • Software de Gestión y Preparación de Datos: Microsoft Excel, Google Sheets
    • Sistemas de Gestión de Bases de Datos: Access, FileMaker, MySQL, PostgreSQL, Oracle, MSSQL
    • Salario Promedio Mensual: $1,500 - $2,500 USD

  • Licenciatura: 183,064 (42.42%)
  • Secundaria: 132,612 (30.73%)
  • Asociado: 56,307 (13.05%)
  • Certificado: 51,621 (11.96%)
  • Maestría: 43,224 (10.02%)
  • Doctorado: 3,237 (0.75%)
  • Aquí tambien podemos ver como el nivel educativo es algo peculiar, pues aunque una mayoría tiene titulación de grado, no es una mayoría absoluta, dado que juntando los de nivel secundario, junto a tecnicos certificados y asociados, sería una real mayoría por coalición. En este puesto de entrada, si se puede ver como hay una predominancia de la educación no Formal sobre la Formal en agrupaciòn. Personal con Maestría o doctorado, son la minoría.


    DATA ENGINEER: INGENIERO DE DATOS

    Definición y Función: El ingeniero de datos se enfoca en la construcción y el mantenimiento de la infraestructura, tuberías y sistemas necesarios para recopilar, almacenar y procesar grandes volúmenes de datos. Este rol es crucial para garantizar que los datos estén disponibles y sean accesibles para análisis y modelado.

    Herramientas y Tecnologías:

    • Sistemas de Gestión de Bases de Datos: SQL, NoSQL (MongoDB, Cassandra, MySQL, PostgreSQL, Oracle, MSSQL)
    • Plataformas de Big Data: Hadoop, Spark
    • Herramientas ETL (Extract, Transform, Load): Talend, Apache Nifi, Databricks, Snowflake
    • Lenguajes de Programación: Python, Java, Scala
    • Plataformas de Computación en la Nube: AWS, Google Cloud, Azure

    Salario Promedio Mensual: $5,000 - $8,000 USD


  • Licenciatura: 79,186 (18.35%)
  • Maestría: 43,867 (10.17%)
  • Secundaria: 16,324 (3.78%)
  • Certificado: 5,579 (1.29%)
  • Asociado: 3,194 (0.74%)
  • Doctorado: 3,143 (0.72%)

  • Los ingenieros de datos, presentan una diversidad notable en sus niveles educativos. La mayoría de ellos posee una licenciatura (79,186; 18.35%), seguida por aquellos con maestría (43,867; 10.17%). Sin embargo, una porción significativa de estos profesionales ha accedido a sus roles con una educación formal menor y una no formal media y superior, incluyendo aquellos con solo secundaria (16,324; 3.78%), técnicos certificados (5,579; 1.29%), o un grado asociado (3,194; 0.74%). Incluso los que tienen un doctorado constituyen una pequeña pero relevante parte de la fuerza laboral (3,143; 0.72%). Estos datos reflejan la flexibilidad del mercado laboral y la valoración de habilidades prácticas y experiencia sobre la educación formal exclusiva.


    MACHINE LEARNING ENGINEER: INGENIERO DE ML (MACHINE LEARNING O APRENDIZAJE AUTOMATIZADO)

    Definición y Función: El ingeniero de aprendizaje automático diseña, desarrolla y aplica modelos de machine learning para resolver problemas complejos y mejorar procesos empresariales. Su trabajo implica la investigación, implementación y optimización de algoritmos de aprendizaje automático.

    Herramientas y Tecnologías:

    • Lenguajes de Programación: Python, R, Java
    • Frameworks de Machine Learning: TensorFlow, PyTorch, Keras
    • Herramientas de Big Data: Hadoop, Spark
    • Plataformas de Computación en la Nube: AWS, Google Cloud, Azure

    Salario Promedio Mensual: $7,000 - $12,000 USD


  • Licenciatura: 18,558 (4.30%)
  • Maestría: 13,174 (3.05%)
  • Secundaria: 3,975 (0.92%)
  • Doctorado: 2,637 (0.61%)
  • Certificado: 761 (0.18%)
  • Asociado: 185 (0.04%)


  • Los ingenieros de aprendizaje automático, responsables de diseñar y aplicar modelos de machine learning para resolver problemas complejos, presentan una considerable diversidad en sus niveles educativos. La mayoría de estos profesionales tiene una licenciatura (18,558; 4.30%), seguidos por aquellos con maestría (13,174; 3.05%). Aunque en menor proporción, también hay ingenieros de aprendizaje automático que solo han completado la secundaria (3,975; 0.92%), poseen un doctorado (2,637; 0.61%), o cuentan con certificados (761; 0.18%) y grados asociados (185; 0.04%). Estos datos reflejan que, aunque una educación formal avanzada es común, el campo también valora considerablemente las habilidades prácticas y la experiencia, permitiendo que profesionales con diversas formaciones académicas accedan a estos roles especializados.

    Razones para la Diversidad Educativa

    No hay discusión en que la diversidad de los niveles educativos en este ambito laboral y profesional es notable. Esta diversidad educativa entre los especialistas en datos puede atribuirse a varios factores,  incluyendo el hecho de que hay una cantidad significativa de especialistas en datos (científicos, analistas, ingenieros) que solo poseen un grado de secundaria (high school), asociado o un certificado. A continuación se presentan algunas de las principales razones:

    1. Accesibilidad a la Educación y Formación en Línea:

      • Cursos en Línea y Certificaciones: Plataformas de aprendizaje en línea como Coursera, edX, Udemi, Udacity, Platzy, Datacamp, 365 Data Science y otras han democratizado el acceso a la educación de alta calidad en ciencia de datos, análisis de datos e ingeniería de datos. Muchos profesionales adquieren habilidades relevantes a través de estos cursos y certificaciones sin necesidad de obtener un título universitario completo.
      • Bootcamps: Los bootcamps de datos son programas intensivos de formación que se centran en enseñar habilidades prácticas en un período corto de tiempo. Estos programas a menudo no requieren un título universitario previo y se enfocan en preparar a los estudiantes para roles específicos en el campo de los datos.
    2. Demanda del Mercado Laboral:

      • Alta Demanda y Escasez de Talento: La demanda de profesionales en datos ha superado la oferta de candidatos con títulos universitarios avanzados. Esto ha llevado a las empresas a ser más flexibles en sus requisitos educativos, priorizando habilidades prácticas y experiencia sobre los títulos formales.
      • Evolución Rápida de la Tecnología: La tecnología y las herramientas en el campo de los datos evolucionan rápidamente. Las habilidades prácticas y la capacidad de adaptarse a nuevas herramientas pueden ser más valoradas que la educación formal, que a veces puede quedarse rezagada respecto a las últimas tendencias y tecnologías.
    3. Enfoque en Habilidades Prácticas:

      • Experiencia Laboral y Proyectos Personales: Muchos profesionales desarrollan habilidades relevantes a través de experiencia laboral previa, proyectos personales, participación en competencias de datos como Kaggle, y contribuciones a proyectos de código abierto. Estas experiencias pueden ser tan valiosas como una educación formal.
      • Enseñanza Autodidacta: Muchos especialistas en datos son autodidactas que aprenden a través de la práctica y el autoestudio, utilizando recursos disponibles en línea, libros y tutoriales.
    4. Diversidad de Roles y Tareas:

      • Roles Variados con Requisitos Diferentes: No todos los roles en el campo de los datos requieren el mismo nivel de educación formal. Por ejemplo, los roles de entrada de datos o analistas de datos de nivel inicial pueden requerir menos educación formal en comparación con roles más avanzados como científicos de datos o ingenieros de aprendizaje automático.
      • Especificidad de las Tareas: Algunas tareas específicas pueden no requerir un conocimiento profundo de teoría, sino más bien habilidades prácticas y técnicas específicas que se pueden adquirir a través de formación más corta y específica.
    5. Cambio de Carrera:

      • Transiciones de Carrera: Muchos profesionales entran al campo de los datos desde otros campos. Estos individuos pueden tener experiencia y habilidades transferibles que complementan su educación previa, permitiéndoles desempeñarse eficazmente en roles de datos sin necesidad de obtener un nuevo título universitario.
    Como vemos, la combinación de la alta demanda de profesionales en datos, la accesibilidad a la educación en línea y formación práctica, y la flexibilidad del mercado laboral han contribuido a que muchos especialistas en datos tengan grados de secundaria, asociados o técnicos certificados.

    La industria de los datos es inclusiva y accesible, ofreciendo múltiples caminos hacia el éxito profesional. Aunque un doctorado puede abrir puertas y oportunidades, no es una necesidad absoluta para convertirse en científico de datos u otro puesto dentro del esta área profesional. La clave reside en la adquisición de habilidades prácticas, la experiencia y la capacidad de adaptación en un campo en constante evolución. La democratización de la educación y la flexibilidad del mercado laboral han permitido que una diversa gama de profesionales prosperen en este emocionante y dinámico sector.


    Fuente: ELTECNIQUITO Press / Datacamp / Github

    Este artìculo ha utilizado fuentes de datos y referencias editoriales.  

    Ley General de Educación de la República Dominicana:

    https://ministeriodeeducacion.gob.do/docs/direccion-de-educacion-tecnico-profesional/CpYB-ley-no-66-97-ley-general-de-educacionpdf.pdf

    Publicación en la academia de datos en al que estudio Datacamp. What skills and backgrounds do data scientists have in common?

    https://www.datacamp.com/blog/what-skills-and-backgrounds-do-data-scientists-have-in-common

    La autora de esta publicación, Khuyen Tran, nos ha comaprtido sus fuentes de datos como Diffbot.

    https://www.diffbot.com/

    Para facilitarnos el seguimiento del artículo, todos los datos utilizados los ha compartido en su repositorio de Github. Todos son de acceso y descarga gratuitos.

    https://github.com/khuyentran1401/dataset/tree/master/data_science_market

    El cuaderno que contiene el código de su artículo se puede encontrar en su espacio de trabajo de Datalab, provisto por Datacamp. 

    https://www.datacamp.com/datalab/w/99f1d789-6e90-4f57-8cb8-db338e44d9c0

    Comentarios