Random Forest
Ensambles de árboles poco profundos que votan para reducir el sobre-ajuste.
conceptos clave
Random Forest: La Sabiduría de la Multitud
Un árbol profundo tiene alta varianza: pequeños cambios en los datos producen árboles muy diferentes. Random Forest resuelve esto con un principio elegante: en vez de un árbol grande y preciso, entrena muchos árboles pequeños e imprecisos, y combina sus predicciones por voto mayoritario.
Dos mecanismos generan la diversidad necesaria:
- Bootstrap — cada árbol se entrena con una muestra aleatoria con reemplazo del dataset original (~63% de los datos únicos)
- Feature subsampling — en cada split, solo se considera un subconjunto aleatorio de variables (típicamente √p para clasificación, p/3 para regresión)
El error Out-of-Bag (OOB) es un bono: los ~37% de datos no usados por cada árbol sirven como validación gratuita, sin necesidad de un conjunto de prueba separado.
Riesgo de Sobre-ajuste
Simulador de Random Forest
Entrena un bosque aleatorio y observa como multiples arboles debiles crean un clasificador fuerte
Riesgo de Sobre-ajuste
Verificación de conocimiento
1 / 3¿Cómo reduce Random Forest el sobre-ajuste comparado con un solo árbol profundo?