Validación Cruzada (K-Fold)
Divide los datos en K partes para obtener una evaluación robusta del modelo.
conceptos clave
Validación Cruzada (K-Fold)
Un solo split train/test produce una estimación frágil del rendimiento: depende de qué datos cayeron en cada partición. K-Fold Cross-Validation resuelve esto dividiendo el dataset en K partes (folds) y rotando cuál se usa como prueba:
- Fold 1 como test, folds 2-K como entrenamiento → score₁
- Fold 2 como test, folds 1,3-K como entrenamiento → score₂
- ... y así K veces
- Score final = promedio(score₁, ..., scoreₖ) ± desviación estándar
La desviación estándar entre folds es tan informativa como el promedio: una desviación alta indica que el modelo es inestable — su rendimiento depende fuertemente de qué datos ve en entrenamiento.
Stratified K-Fold mantiene la misma proporción de clases en cada fold — esencial cuando las clases están desbalanceadas.
Data Leakage
Validación Cruzada K-Fold
Visualiza cómo K-Fold divide los datos y estima el rendimiento real del modelo
Diagrama de folds
K=5 es el estándar. Buen balance entre sesgo y varianza del estimador.
Verificación de conocimiento
1 / 3¿Por qué un solo split train/test puede ser engañoso?