Ingenieros de Machine Learning y Data Science

12 min readJul 18, 2020

Etiquetas: carrera , científico de datos , ingeniero de aprendizaje automático

¿Qué ha estado sucediendo con la definición de Data Scientist en los últimos 5 años? ¿Todavía existe o se ha transformado en una nueva versión de su antiguo yo? Obtenga más información sobre las tendencias recientes en las descripciones de puestos y salarios para científicos de datos, ingenieros de ML y otros para comprender la mejor opción para su trayectoria e intereses profesionales.

Por Jason Jung , Data Scientist en GoDaddy, blogger y hacker .

Hola soy jason

Trabajo como científico de datos (que definiremos más adelante en este artículo) en Silicon Valley, ¡y me encanta aprender cosas nuevas!

Introducción

Este tema ha estado en el fondo de mi mente durante mucho tiempo. Pero debido a que hay tantas cosas que cubrir potencialmente, no pude terminar esta desalentadora tarea. Pero, atrapado en mi habitación debido a la orden de refugio en el lugar y quedando sin cosas con las que perder el tiempo, finalmente decidí terminarlo.

A medida que su popularidad ha explotado desde 2013, la industria de la ciencia de datos ha evolucionado vertiginosamente pero converge lentamente en roles más específicos. Inevitablemente, esto causó confusión y funciones laborales inconsistentes durante su crecimiento. Por ejemplo, aparentemente hay muchos títulos diferentes con exactamente los mismos roles o los mismos títulos con diferentes roles:

Científico de datos analíticos, científico de datos de aprendizaje automático, ingeniero de ciencias de datos, analista de datos / científico, ingeniero de aprendizaje automático, científico aplicado, científico de aprendizaje automático …

La lista continua. Incluso para mí, los reclutadores me han contactado para puestos como científico de datos, especialista en aprendizaje automático (ML), ingeniero de datos y más. Claramente, la industria está confundida. Una de las muchas razones para una variación tan alta es que las empresas tienen necesidades y usos muy diferentes de la ciencia de datos. Independientemente de la razón, parece que el campo de la ciencia de datos se está ramificando y fusionando en estas categorías principales: análisis , ingeniería de software, ingeniería de datos e investigación . No importa lo que digan los títulos similares, generalmente caen en estas categorías. Esta especialización es más cierta en compañías tecnológicas más grandes que pueden pagarla.

En este artículo, primero veremos la tendencia general de la industria de la ciencia de datos y luego compararemos a los ingenieros de ML y los científicos de datos con mayor profundidad. No pretendo proporcionar una extensa historia, sino más bien narrar lo que he visto y experimentado mientras vivía en Silicon Valley como científico de datos. Incluso cuando escribí mi artículo Cómo hacer ciencia de datos sin un título en 2017, mi perspectiva sobre la ciencia de datos era muy diferente.

El año pasado, cubrí este tema cuando me invitaron a dar una breve charla a estudiantes de ciencias de datos en Metis Bootcamp . Quiero aprovechar esta oportunidad para explicar las diferencias y ayudarlo a encontrar el papel que más le convenga. Veamos si esta industria todavía está en auge o termina con datos, porque eso es lo que hacen los científicos de datos, ¿verdad? (Tal vez no). De todos modos, espero que lo encuentre útil e informativo.

Tendencia de la industria de la ciencia de datos

Antes de profundizar, eche un vistazo a las siguientes dos descripciones de trabajo que encontré en LinkedIn. Intenta adivinar para qué título son estas descripciones. Destaqué algunos puntos clave en rojo:

Encontré esto en LinkedIn el año pasado. Un poco anticuado pero aún cierto (Fuente: LinkedIn y Facebook).

Muy diferente, ¿verdad? Sorprendentemente, ambos son para un puesto de científico de datos. La izquierda es para Facebook, la derecha es para Etsy. No quiero decir que uno sea mejor que el otro. El punto principal es ver cuán diferentes son.

ítulos de trabajo para las descripciones anteriores. Facebook (izquierda) y Etsy (derecha) (Fuente: LinkedIn y Facebook).

Incluso en el trabajo, las personas tienen discusiones activas para tratar de descubrir qué define exactamente a un científico de datos. He visto a personas describir a los científicos de datos como doctores en informática o nuevos analistas de datos . Esto se debe a que diferentes compañías usan el término científico de datos para posiciones muy diferentes. Sin embargo, creo que la industria ha estado aprendiendo a ser más específica y tener roles más especializados, en lugar de agrupar todo en el amplio alcance de la ciencia de datos.

Entonces, ¿cuáles son algunos roles diferentes que los científicos de datos pueden implicar? En gran parte, creo que son ingenieros de software, analistas de datos, ingenieros de datos y científicos de investigación / aplicados. He visto a mis amigos con el mismo título de científico de datos, pero su papel es uno de los cuatro. Mira el diagrama que creé a continuación. En los primeros días de la ciencia de datos, un científico de datos podría haber incluido estos cuatro roles. Sin embargo, las posiciones de hoy son cada vez más específicas y especializadas, como se ve en el siguiente diagrama.

*Tendencia del científico de datos (Fuente: Me).*

¿Harvard Business Review lo vio venir?

¿Es sorprendente esta tendencia? Según el famoso artículo Data Scientist: El trabajo más sexy del siglo XXI , no tanto:

La habilidad más básica y universal de los científicos de datos es la capacidad de escribir código . Esto puede ser menos cierto dentro de cinco años , cuando muchas más personas tendrán el título de “científico de datos” en sus tarjetas de visita.

Como sugiere el artículo, tiene menos razones para ser un buen programador hoy como científico de datos. Antes, las herramientas y métodos para analizar datos grandes y desagradables no eran tan accesibles y fáciles de usar antes. Esto requería que el científico de datos tuviera una habilidad de ingeniería relativamente fuerte además de otras habilidades. Pero las herramientas para ML y ciencia de datos se han desarrollado rápidamente y ahora son más accesibles que nunca, de modo que puede acceder a los modelos más modernos (SOTA) con solo unas pocas líneas de código. Esto facilita la separación de roles en análisis o ingeniería. Ahora no tenemos que concentrarnos en aprender todos los análisis, la ingeniería y las estadísticas para convertirnos en científicos de datos, lo que parecía ser el caso antes.

Por ejemplo, Facebook lideró esta tendencia en la cual los trabajos de analista de datos se han convertido en científicos de datos. Este fue un proceso natural porque con el aumento del tamaño de los datos y los problemas de datos más desafiantes, se necesitaban más habilidades y capacitación para realizar un buen análisis. No solo Facebook, sino muchas otras compañías como Apple y Airbnb han estado haciendo una distinción más clara entre los científicos de análisis / datos de productos frente a los científicos de datos de ML.

Cómo afecta el tamaño de la empresa a los roles

Vale la pena mencionar que la especialización se produce más en las empresas tecnológicas más grandes. A diferencia de los ingenieros de software, que se necesitan en empresas tecnológicas de todos los tamaños, no todas estas empresas necesitan científicos de investigación especializados o ingenieros de ML. Tener unos pocos científicos de datos podría ser suficiente. Entonces, en compañías más pequeñas, todavía hay científicos de datos que podrían estar funcionando dentro de los cuatro roles.

Como regla general hoy en día, los científicos de datos en grandes empresas (FANG) a menudo son similares a los analistas avanzados, mientras que los científicos de datos en compañías más pequeñas son más similares a los ingenieros de ML. Ambas funciones son importantes y necesarias. En el futuro, me atendré a mis nuevas definiciones por las cuales el científico de datos implica una función analítica.

Diferentes científicos de datos y cómo elegirlos

En el cuadro a continuación, traté de mostrar una imagen similar al diagrama anterior pero con una vista un poco más detallada de las cuatro funciones. Las descripciones no son perfectas, pero puede consultarlo.

Búsqueda de empleo: ¿qué título elegir y cómo prepararse?

Si está tratando de entrar en este campo, ya sea como ingeniero de ML o científico de datos, es posible que se pregunte cuál debe elegir. Permítanme enumerar una descripción simplificada (y estereotipada) de los cuatro roles principales relacionados con el LD para ayudarlo a aclarar. Aunque personalmente no he trabajado como todos esos títulos, he aprendido ideas de amigos en cada campo. También proporcioné el contenido potencial de la entrevista entre paréntesis (piense en ello como cuatro rondas de entrevistas).

Científico de datos : ¿Desea analizar big data, experimentación de diseño y prueba A / B, construir aprendizaje automático simple y modelos estadísticos (por ejemplo, usando sklearn) para impulsar la estrategia comercial? Este rol está menos estructurado con más incertidumbres, y usted conducirá la narrativa del proyecto. (Entrevista: 1 Probablemente / Estadísticas, 1 Leetcode, 1 SQL, 1 ML).
Ingeniero de ML : ¿Desea construir e implementar modelos de aprendizaje automático actualizados (por ejemplo, Tensorflow, PyTorch) en producción? Su enfoque no es solo construir modelos, sino el software requerido para ejecutar y admitir sus modelos. Eres más un ingeniero de software (SWE). (Entrevista: 3 Leetcode, 1 ML).
Investigador científico : ¿Tiene un doctorado en ciencias de la computación con varias publicaciones de ML en ICLR? ¿Desea ampliar los límites de la investigación de ML y entusiasmarse cuando se cita su artículo? Estas son las razas raras, y ya sabes quién eres. La mayoría de estas personas terminan en Google o Facebook. Además, entrar en él sin un doctorado es posible, pero desafortunadamente raro. (Entrevista: 1 Leetcode, 3 ML / Research).
Científico Aplicado : Eres un híbrido del ingeniero ML y científico investigador. Usted se preocupa por el código, pero también por usar y empujar modelos de aprendizaje automático de última generación (SOTA). (Entrevista: 2 Leetcode, 2 ML).

Obviamente, estas descripciones no son exhaustivas. Pero cuando hablé con mis amigos y miré muchas descripciones de trabajo, encontré que estas ideas eran comunes. Si no está seguro sobre el rol al que se postula, aquí hay algunos consejos para obtener más información:

Lea la descripción del trabajo : el título honestamente no importa tanto. Podría llamarse el mismo “científico de datos”, pero la descripción del trabajo puede ser muy diferente.
Acecho de LinkedIn : si no está seguro de cómo son los científicos de datos en Apple, simplemente mire qué tipo de antecedentes tienen los científicos de datos de Apple en LinkedIn. ¿Son en su mayoría doctorados CS? ¿Estudiantes? ¿Qué tipo de entrenamiento tienen? Esto te ayudará a tener una mejor idea.
Entrevista : Si cree que su rol es técnico pero no es entrevistado para codificar, probablemente no obtendrá un rol técnico. El contenido de su entrevista refleja la naturaleza del trabajo.

Ingeniero ML vs Científico de Datos

Bien, eso fue largo. Ahora volvamos a nuestro tema. En los últimos años, comencé a escuchar a la gente decir cosas más negativas sobre el trabajo de ciencia de datos. Algunas razones para esto son que hay cada vez más trabajos de científicos de datos que ya no parecen tener un factor de aprendizaje automático genial y parecen más fáciles de obtener. Quizás hace cinco años, la mayoría de las descripciones de trabajo requerían al menos un título de maestría para obtener un trabajo de científico de datos, pero ese ya no es el caso. Cualquiera sea la razón por la cual la gente piensa que la ciencia de datos (al menos de los viejos tiempos) ha terminado, veamos algunos datos.

Los datos y el gráfico a continuación provienen de un motor de base de datos salariales de renombre mundial, Salary Ninja . Busca en la base de datos H1-B basada en trabajadores extranjeros en los Estados Unidos. Verá el salario promedio y el número de puestos de trabajo que tienen “Data Scientist” o “Machine Learning Engineer” en el título del trabajo entre 2014 y 2019.

¿Te sorprende el resultado? A pesar de que el salario promedio es similar para ambos títulos, puede ver que el promedio disminuyó para los científicos de datos en 2015 y 2016. Quizás eso es lo que la gente entiende por buenos días para los científicos de datos. En términos de gran cantidad, la ciencia de datos es mucho más grande que la ingeniería de ML, pero puede ver que los ingenieros de ML están creciendo más rápido y tienen salarios más altos.

Para su diversión, incluí un resumen de estadísticas que obtuve de Salario Ninja de los pocos roles que hemos discutido en este artículo. Hice un resumen general de los últimos seis años (primera tabla) y su subconjunto con el año más reciente en 2019 (segunda tabla). Por último, incluí una tabla para una sola empresa, Microsoft (tercera tabla).

Resumen de estadísticas de algunas posiciones relacionadas con ml (Fuente: Me).

Aprendí algunas ideas interesantes:

En general, hay más analistas de datos que científicos de datos, ¡pero eso cambia en 2019! ¿Podría ser esto una señal de que los analistas de datos están siendo renombrados como científicos de datos?
Los ingenieros de ML tienen un salario ligeramente más alto que los científicos de datos, pero hay muchos menos ingenieros de ML en el campo. Esto se debe a que el título oficial de ingenieros de ML a menudo es solo ingenieros de software .
El promedio para los investigadores científicos fue sorprendentemente bajo. Descubrí que esto se debe a que la base de datos puede incluir muchos otros tipos de científicos de investigación y no solo aquellos en la investigación tecnológica de ML. Es por eso que incluí una tabla solo para una compañía de tecnología para reducir este ruido. Como se anticipó, los investigadores tomaron el trono por el salario más alto en Microsoft.
Me sorprendió el salario base de $ 1.3 millones para el ingeniero de datos. ¡Eso es loco! Tal vez deberías considerar esa carrera.
Tenga en cuenta que este conjunto de datos solo incluye el salario base, y las acciones generalmente juegan un papel muy importante en el mundo de la tecnología. Además, no pinta una imagen completa del mercado laboral. Sin embargo, dada la cantidad de trabajadores extranjeros que tenemos en el sector tecnológico, esto debería ser un buen indicador.

Según estos datos, no puedo decir que la industria de la ciencia de datos sea un fracaso. Todavía está creciendo, pero posiblemente con un mayor enfoque en análisis. Por lo que he observado, parece ser cierto que hay más trabajos de ciencia de datos que requieren menos requisitos previos, pero eso no es algo malo.

Conclusión

Hablé de muchas cosas, pero espero que te hayas quedado conmigo. Escribí este artículo porque yo mismo estaba confundido acerca de todos los cambios que estaban ocurriendo en la industria. Además, parecía que las personas tenían tantas opiniones diferentes sobre lo que es la ciencia de datos. Independientemente de quién tenga razón o no, espero que pueda ver la tendencia y decidir por sí mismo.

Al final, no elija un trabajo o industria porque tiene un salario promedio más alto o por las palabras de moda. No importa si su título es científico de datos o ingeniero de ML o analista de datos. No importa si alguien dice que el científico de datos es ingeniero o analista porque ambos pueden ser ciertos.

Aunque es fácil comparar los títulos de trabajo basados en el pago, es mucho más importante elegir un rol que le guste y en el que sea bueno. Concéntrese en el trabajo real que realiza y asegúrese de que le quede bien. El hecho de que el salario promedio sea más bajo no significa que en realidad se le pagará menos. Como viste anteriormente, todos los roles que discutí tienen un salario máximo muy alto.

Bio: Jason Jung es SWE / Data Scientist en GoDaddy, un alumno de Northwestern y UCLA, y creador de Salary Ninja.

Conoce más de Bootcamp AI — bootcampai.org/python