Semana 1
Semana 1 · Módulo 5
Sobre-ajuste vs Sub-ajuste
Los archienemigos del ML: cuando el modelo memoriza los datos vs cuando es demasiado simple.
conceptos clave
Sobre-ajuste vs Sub-ajuste
OverfittingUnderfittingTrade-off Sesgo-VarianzaComplejidad del modelo
El sobre-ajuste es el problema central del Machine Learning. Ocurre cuando el modelo memoriza los datos de entrenamiento — incluyendo su ruido y particularidades — en vez de capturar los patrones generalizables.
- Sub-ajuste (alto sesgo) — el modelo es demasiado simple para capturar la estructura real de los datos. Error alto en entrenamiento Y en prueba
- Sobre-ajuste (alta varianza) — el modelo es tan flexible que se adapta al ruido. Error bajo en entrenamiento pero alto en prueba
- Balance óptimo — complejidad suficiente para capturar patrones reales sin memorizar ruido. El “sweet spot” del trade-off sesgo-varianza
Diagnóstico visual: grafica el error de entrenamiento y el error de prueba en función de la complejidad del modelo. El punto donde el error de prueba deja de bajar y empieza a subir marca la complejidad óptima.
Riesgo de Sobre-ajuste
Si la diferencia entre el error de entrenamiento y el error de prueba es grande, estás sobre-ajustando. Soluciones: más datos, menos features, regularización, o un modelo más simple.
Sobre-ajuste vs Sub-ajuste
Observa como la complejidad del modelo afecta el error en datos de entrenamiento y de prueba
Complejidad (grado polinomial)3
Ruido0.30
Tamano de entrenamiento50
Optimo
Datos y modelo ajustado
Error vs Complejidad
Error entrenamiento
0.1947
Error prueba
0.4200
Verificación de conocimiento
1 / 3¿Cual es la señal clasica del sobre-ajuste?