Semana 3 · Módulo 4

Validación Cruzada (K-Fold)

Divide los datos en K partes para obtener una evaluación robusta del modelo.

conceptos clave

Validación Cruzada (K-Fold)

K-Fold CVVarianza de estimaciónData leakage temporalStratified K-Fold

Un solo split train/test produce una estimación frágil del rendimiento: depende de qué datos cayeron en cada partición. K-Fold Cross-Validation resuelve esto dividiendo el dataset en K partes (folds) y rotando cuál se usa como prueba:

Fold 1 como test, folds 2-K como entrenamiento → score₁
Fold 2 como test, folds 1,3-K como entrenamiento → score₂
... y así K veces
Score final = promedio(score₁, ..., scoreₖ) ± desviación estándar

La desviación estándar entre folds es tan informativa como el promedio: una desviación alta indica que el modelo es inestable — su rendimiento depende fuertemente de qué datos ve en entrenamiento.

Stratified K-Fold mantiene la misma proporción de clases en cada fold — esencial cuando las clases están desbalanceadas.

Data Leakage

Regla de oro: toda transformación (escalado, PCA, selección de features, cálculo de IDF) debe realizarse dentro de cada fold, usando solo los datos de entrenamiento de ese fold. Calcular transformaciones antes del split contamina la evaluación con información del futuro.

Validación Cruzada K-Fold

Visualiza cómo K-Fold divide los datos y estima el rendimiento real del modelo

K (folds)5

Tamaño del dataset100

Modelo

Diagrama de folds

Entrenamiento TestCada fold: 20 muestras de test, 80 de entrenamiento

K=5 es el estándar. Buen balance entre sesgo y varianza del estimador.

Verificación de conocimiento

1 / 3

¿Por qué un solo split train/test puede ser engañoso?

Porque siempre da accuracy perfectaPorque el resultado depende de qué datos cayeron en cada particiónPorque no se puede entrenar con un splitPorque el test set siempre es más fácil