Semana 2 · Módulo 3

Random Forest

Ensambles de árboles poco profundos que votan para reducir el sobre-ajuste.

conceptos clave

Random Forest: La Sabiduría de la Multitud

EnsambleBagging (Bootstrap)DecorrelaciónVoto mayoritarioOOB error

Un árbol profundo tiene alta varianza: pequeños cambios en los datos producen árboles muy diferentes. Random Forest resuelve esto con un principio elegante: en vez de un árbol grande y preciso, entrena muchos árboles pequeños e imprecisos, y combina sus predicciones por voto mayoritario.

Dos mecanismos generan la diversidad necesaria:

Bootstrap — cada árbol se entrena con una muestra aleatoria con reemplazo del dataset original (~63% de los datos únicos)
Feature subsampling — en cada split, solo se considera un subconjunto aleatorio de variables (típicamente √p para clasificación, p/3 para regresión)

El error Out-of-Bag (OOB) es un bono: los ~37% de datos no usados por cada árbol sirven como validación gratuita, sin necesidad de un conjunto de prueba separado.

Riesgo de Sobre-ajuste

Random Forest es resistente al sobre-ajuste porque promedia muchos modelos con errores independientes. Más árboles siempre ayudan (o al menos no empeoran) — solo aumentan el costo computacional.

Simulador de Random Forest

Entrena un bosque aleatorio y observa como multiples arboles debiles crean un clasificador fuerte

Numero de arboles10

Profundidad maxima3

Fraccion de features70%

Fraccion de muestras70%

Riesgo de Sobre-ajuste

Random Forest reduce el sobre-ajuste combinando muchos arboles entrenados con datos y features aleatorios. Cada arbol individual es "debil", pero el voto mayoritario produce un clasificador robusto. Observa como la accuracy se estabiliza al agregar mas arboles.

Verificación de conocimiento

1 / 3

¿Cómo reduce Random Forest el sobre-ajuste comparado con un solo árbol profundo?

Usa un learning rate menorPromedia múltiples árboles poco profundos entrenados con subconjuntos aleatoriosElimina los outliers automáticamenteAumenta el número de features