ML Simulatorv1.0
Semana 2
Semana 2 · Módulo 3

Random Forest

Ensambles de árboles poco profundos que votan para reducir el sobre-ajuste.

conceptos clave

Random Forest: La Sabiduría de la Multitud

EnsambleBagging (Bootstrap)DecorrelaciónVoto mayoritarioOOB error

Un árbol profundo tiene alta varianza: pequeños cambios en los datos producen árboles muy diferentes. Random Forest resuelve esto con un principio elegante: en vez de un árbol grande y preciso, entrena muchos árboles pequeños e imprecisos, y combina sus predicciones por voto mayoritario.

Dos mecanismos generan la diversidad necesaria:

  • Bootstrap — cada árbol se entrena con una muestra aleatoria con reemplazo del dataset original (~63% de los datos únicos)
  • Feature subsampling — en cada split, solo se considera un subconjunto aleatorio de variables (típicamente √p para clasificación, p/3 para regresión)

El error Out-of-Bag (OOB) es un bono: los ~37% de datos no usados por cada árbol sirven como validación gratuita, sin necesidad de un conjunto de prueba separado.

Riesgo de Sobre-ajuste

Random Forest es resistente al sobre-ajuste porque promedia muchos modelos con errores independientes. Más árboles siempre ayudan (o al menos no empeoran) — solo aumentan el costo computacional.

Simulador de Random Forest

Entrena un bosque aleatorio y observa como multiples arboles debiles crean un clasificador fuerte

Numero de arboles10
Profundidad maxima3
Fraccion de features70%
Fraccion de muestras70%

Riesgo de Sobre-ajuste

Random Forest reduce el sobre-ajuste combinando muchos arboles entrenados con datos y features aleatorios. Cada arbol individual es "debil", pero el voto mayoritario produce un clasificador robusto. Observa como la accuracy se estabiliza al agregar mas arboles.

Verificación de conocimiento

1 / 3

¿Cómo reduce Random Forest el sobre-ajuste comparado con un solo árbol profundo?