ML Simulatorv1.0
Semana 1
Semana 1 · Módulo 5

Sobre-ajuste vs Sub-ajuste

Los archienemigos del ML: cuando el modelo memoriza los datos vs cuando es demasiado simple.

conceptos clave

Sobre-ajuste vs Sub-ajuste

OverfittingUnderfittingTrade-off Sesgo-VarianzaComplejidad del modelo

El sobre-ajuste es el problema central del Machine Learning. Ocurre cuando el modelo memoriza los datos de entrenamiento — incluyendo su ruido y particularidades — en vez de capturar los patrones generalizables.

  • Sub-ajuste (alto sesgo) — el modelo es demasiado simple para capturar la estructura real de los datos. Error alto en entrenamiento Y en prueba
  • Sobre-ajuste (alta varianza) — el modelo es tan flexible que se adapta al ruido. Error bajo en entrenamiento pero alto en prueba
  • Balance óptimo — complejidad suficiente para capturar patrones reales sin memorizar ruido. El “sweet spot” del trade-off sesgo-varianza

Diagnóstico visual: grafica el error de entrenamiento y el error de prueba en función de la complejidad del modelo. El punto donde el error de prueba deja de bajar y empieza a subir marca la complejidad óptima.

Riesgo de Sobre-ajuste

Si la diferencia entre el error de entrenamiento y el error de prueba es grande, estás sobre-ajustando. Soluciones: más datos, menos features, regularización, o un modelo más simple.

Sobre-ajuste vs Sub-ajuste

Observa como la complejidad del modelo afecta el error en datos de entrenamiento y de prueba

Complejidad (grado polinomial)3
Ruido0.30
Tamano de entrenamiento50
Optimo

Datos y modelo ajustado

Error vs Complejidad

Error entrenamiento

0.1947

Error prueba

0.4200

Verificación de conocimiento

1 / 3

¿Cual es la señal clasica del sobre-ajuste?