Semana 1 · Módulo 5

Sobre-ajuste vs Sub-ajuste

Los archienemigos del ML: cuando el modelo memoriza los datos vs cuando es demasiado simple.

conceptos clave

Sobre-ajuste vs Sub-ajuste

OverfittingUnderfittingTrade-off Sesgo-VarianzaComplejidad del modelo

El sobre-ajuste es el problema central del Machine Learning. Ocurre cuando el modelo memoriza los datos de entrenamiento — incluyendo su ruido y particularidades — en vez de capturar los patrones generalizables.

Sub-ajuste (alto sesgo) — el modelo es demasiado simple para capturar la estructura real de los datos. Error alto en entrenamiento Y en prueba
Sobre-ajuste (alta varianza) — el modelo es tan flexible que se adapta al ruido. Error bajo en entrenamiento pero alto en prueba
Balance óptimo — complejidad suficiente para capturar patrones reales sin memorizar ruido. El “sweet spot” del trade-off sesgo-varianza

Diagnóstico visual: grafica el error de entrenamiento y el error de prueba en función de la complejidad del modelo. El punto donde el error de prueba deja de bajar y empieza a subir marca la complejidad óptima.

Riesgo de Sobre-ajuste

Si la diferencia entre el error de entrenamiento y el error de prueba es grande, estás sobre-ajustando. Soluciones: más datos, menos features, regularización, o un modelo más simple.

Sobre-ajuste vs Sub-ajuste

Observa como la complejidad del modelo afecta el error en datos de entrenamiento y de prueba

Complejidad (grado polinomial)3

Ruido0.30

Tamano de entrenamiento50

Mostrar datos de prueba

Optimo

Datos y modelo ajustado

Error vs Complejidad

Error entrenamiento

0.1947

Error prueba

0.4200

Verificación de conocimiento

1 / 3

¿Cual es la señal clasica del sobre-ajuste?

Error alto en entrenamiento y pruebaError bajo en entrenamiento y bajo en pruebaError bajo en entrenamiento pero alto en pruebaError alto en entrenamiento y bajo en prueba