Semana 3 · Módulo 3

Regularización Ridge (L2)

Penaliza coeficientes grandes para evitar el sobre-ajuste cuando hay muchas features.

conceptos clave

Regularización Ridge (L2)

RegularizaciónNorma L2Lambda (λ)ShrinkageMulticolinealidad

Cuando tienes muchas features (especialmente más que muestras), los coeficientes pueden volverse exageradamente grandes — el modelo amplifica señales débiles y ruido para ajustarse perfectamente al entrenamiento. Ridge soluciona esto añadiendo una penalizacióna la función de pérdida:

Loss = Error original + λ · Σβᵢ²

El término λ·Σβᵢ² (norma L2 al cuadrado) penaliza coeficientes grandes, forzando al modelo a encontrar soluciones donde los pesos son pequeños y distribuidos en vez de grandes y concentrados. Esto se llama shrinkage — los coeficientes se “encogen” hacia cero sin llegar exactamente a cero.

λ = 0 — sin regularización: regresión ordinaria (riesgo de overfitting)
λ pequeño — regularización suave: reduce varianza sin perder mucha señal
λ grande — regularización fuerte: coeficientes cercanos a cero (riesgo de underfitting)
λ → ∞ — todos los coeficientes colapsados a cero: el modelo predice la media

Riesgo de Sobre-ajuste

Ridge es especialmente útil con multicolinealidad (features correlacionadas). Sin regularización, el modelo asigna coeficientes enormes con signos opuestos a features correlacionadas. Ridge estabiliza estos coeficientes distribuyendo el peso entre las variables correlacionadas.

Regularización Ridge (L2)

Observa cómo λ controla la complejidad del modelo penalizando coeficientes grandes

λ (regularización)1.0

Ruido0.50

Número de features6

MSE Entrenamiento

0.197

MSE Test

1.192

‖w‖₂ (norma L2)

2.854

Compara los coeficientes sin regularización (λ ≈ 0) vs con λ = 1.0. Los coeficientes se encogen hacia cero conforme λ aumenta.

Verificación de conocimiento

1 / 3

¿Qué hace la regularización Ridge con los coeficientes del modelo?

Los hace exactamente ceroLos encoge hacia cero sin eliminarlosLos duplicaNo afecta los coeficientes