Regularización Ridge (L2)
Penaliza coeficientes grandes para evitar el sobre-ajuste cuando hay muchas features.
conceptos clave
Regularización Ridge (L2)
Cuando tienes muchas features (especialmente más que muestras), los coeficientes pueden volverse exageradamente grandes — el modelo amplifica señales débiles y ruido para ajustarse perfectamente al entrenamiento. Ridge soluciona esto añadiendo una penalizacióna la función de pérdida:
Loss = Error original + λ · Σβᵢ²
El término λ·Σβᵢ² (norma L2 al cuadrado) penaliza coeficientes grandes, forzando al modelo a encontrar soluciones donde los pesos son pequeños y distribuidos en vez de grandes y concentrados. Esto se llama shrinkage — los coeficientes se “encogen” hacia cero sin llegar exactamente a cero.
λ = 0— sin regularización: regresión ordinaria (riesgo de overfitting)λ pequeño— regularización suave: reduce varianza sin perder mucha señalλ grande— regularización fuerte: coeficientes cercanos a cero (riesgo de underfitting)λ → ∞— todos los coeficientes colapsados a cero: el modelo predice la media
Riesgo de Sobre-ajuste
Regularización Ridge (L2)
Observa cómo λ controla la complejidad del modelo penalizando coeficientes grandes
MSE Entrenamiento
0.197
MSE Test
1.192
‖w‖₂ (norma L2)
2.854
Compara los coeficientes sin regularización (λ ≈ 0) vs con λ = 1.0. Los coeficientes se encogen hacia cero conforme λ aumenta.
Verificación de conocimiento
1 / 3¿Qué hace la regularización Ridge con los coeficientes del modelo?