Consejos de un data science intern a otro data science intern
- Tu punto de partida es tu pregunta de investigación. Procura que tenga el siguiente formato: Variable medida (solo una), cambio esperado (i.e. incrementa, disminuye), contexto (de dónde sale esa variable).
- Intenta investigar el dominio de tu problema las primeras 1.5–2 semanas y entenderlo bien. Es crítico. Pídele a tu manager y mentor muchas juntas con dev ops, los equipos de labeling (si aplica), de lo que aplique porque todo eso importa.
- Define bien las expectativas con tu manager, porque los proyectos de Data Science y Machine Learning son naturalmente ambiguos. Intenta centrar tu progreso a una estadística que realmente puedas impactar:
Ejemplo: incrementar en 1% el precision_at_1 del modelo de clasificación - Consulta a fuentes externas a tu equipo que hayan tenido experiencia resolviendo un problema parecido. Desde el principio comunícate con otros equipos relacionados al tuyo.
- Cada cosa que hagas, sobre todo si es trabajo exploratorio, necesita tener evidencias. Análisis de distribución, pruebas de hipótesis, etc.
- Kolmogorov-Smirnov tests / Chi Square
- Z-score tests
- Promedios y desviaciones estándar
- Visualizaciones - Prepárate para hacer muuuuuuchos queries en SQL.
- Intenta explorar más de un approach a la resolución de tu problema de ML. Si es de manera paralela, mucho mejor. Documenta TODO lo que hagas. Te sirve a ti y a tu equipo
- No te frustres si no tienes resultados a tu solución concretos. Sin embargo, intenta entender y documentar por qué y propón alternativas para explorar.
- Busca mentoría con profesionales dentro o fuera de tu empresa (cuidado con la confidencialidad).
Un internship en ciencia de datos puede ser abrumador. ¡Pero tú puedes!