Semana 1 · Módulo 1

El Costo de los Datos Supervisados

Entiende por qué conseguir una base de datos etiquetada es costoso y cómo impacta en tus proyectos de ML.

conceptos clave

El Costo de los Datos Supervisados

Datos supervisadosEtiquetadoCalidad vs cantidadFeature engineering

En Machine Learning supervisado, el modelo aprende de ejemplos etiquetados: pares (entrada, respuesta correcta). La calidad de estos datos es el factor que más determina el rendimiento final — por encima del algoritmo elegido.

Un científico de datos opera en la intersección de tres competencias:

Abstracción — traducir problemas del mundo real a formulaciones matemáticas con función objetivo clara
Implementación — programar pipelines de datos, entrenar modelos y ponerlos en producción
Intuición matemática — entender por qué cada modelo funciona y cuándo fallará

El costo real de un dataset supervisado se descompone en: recolección (sensores, APIs, scraping),limpieza (valores faltantes, outliers, inconsistencias), etiquetado (expertos humanos con conocimiento del dominio) y validación (acuerdo inter-anotador, revisión de calidad).

No existe el modelo perfecto

Antes de invertir en un modelo complejo, estima el costo total del dataset que necesita. Un modelo simple con datos excelentes supera a un modelo sofisticado con datos mediocres.

Calculadora del Costo de Datos

Estima el costo real de construir un dataset supervisado

Muestras500

Costo por etiqueta$1.00

Features10

Tipo de tarea

Costo total estimado

$736

Bajo

Proyecto accesible. Pocos datos y etiquetado barato.

Verificación de conocimiento

1 / 3

Un proyecto de ML requiere 10,000 imagenes medicas etiquetadas por radiologos. ¿Cual es el principal cuello de botella?

El costo computacional del entrenamientoEl costo y tiempo del etiquetado por expertosLa eleccion del algoritmo de MLEl almacenamiento de las imagenes