Semana 3 · Módulo 1

Vectorización TF-IDF

Convierte texto en números: frecuencia de términos ponderada por su rareza en el corpus.

conceptos clave

Vectorización TF-IDF

Term FrequencyInverse Document FrequencyBag of WordsLey de ZipfVectorización

Los modelos de ML no entienden texto — necesitan vectores numéricos. El enfoque más efectivo para textos cortos es TF-IDF (Term Frequency · Inverse Document Frequency).

La idea central: una palabra es importante para un documento si aparece frecuentemente en ese documento (TF alto) pero raramente en el corpus (IDF alto). Palabras como “el”, “de”, “y” tienen TF alto pero IDF bajo — son ruido.

TF(t,d) = frecuencia del término t en el documento d (a menudo normalizada)
IDF(t) = log(N / df(t)), donde N es el total de documentos y df(t) es en cuántos aparece t
TF-IDF(t,d) = TF(t,d) × IDF(t) — alto cuando la palabra es discriminativa

Cada documento se convierte en un vector donde cada dimensión corresponde a un término del vocabulario, y su valor es el peso TF-IDF. Esto se conoce como bag of words porque ignora el orden de las palabras.

Data Leakage

El vocabulario y los valores IDF deben calcularse exclusivamente con los datos de entrenamiento. Si incluyes datos de prueba en el cálculo de IDF, el modelo tendrá información del futuro — una forma sutil pero grave de data leakage.

Visualizador TF-IDF

Explora cómo TF-IDF pondera la importancia de palabras en documentos

Documento 1: Tecnología

La inteligencia artificial y el aprendizaje automático están transformando la industria tecnológica. Los algoritmos de machine learning procesan grandes volúmenes de datos para encontrar patrones. Las redes neuronales profundas permiten resolver problemas complejos de clasificación y predicción. Python es el lenguaje más popular para ciencia de datos y análisis estadístico.

Documento 2: Cocina

La receta de paella valenciana requiere arroz bomba, pollo, judías verdes y garrofón. El sofrito se prepara con tomate rallado y aceite de oliva. El caldo debe hervir antes de añadir el arroz. La cocción perfecta tarda dieciocho minutos a fuego fuerte. El socarrat es la capa crujiente de arroz del fondo.

Documento 3: Deportes

El fútbol es el deporte más popular del mundo. Los equipos entrenan táctica y resistencia física cada semana. El portero defiende la portería con reflejos y agilidad. Los delanteros buscan anotar goles con disparos precisos. La Champions League reúne a los mejores clubes europeos cada temporada.

Buscar palabra:

Palabra	TF(D1)	IDF	TF-IDF(D1) ▼
datos	0.0625	1.0986	0.0687
algoritmos	0.0313	1.0986	0.0343
análisis	0.0313	1.0986	0.0343
aprendizaje	0.0313	1.0986	0.0343
artificial	0.0313	1.0986	0.0343
automático	0.0313	1.0986	0.0343
ciencia	0.0313	1.0986	0.0343
clasificación	0.0313	1.0986	0.0343
complejos	0.0313	1.0986	0.0343
encontrar	0.0313	1.0986	0.0343
estadístico	0.0313	1.0986	0.0343
grandes	0.0313	1.0986	0.0343
industria	0.0313	1.0986	0.0343
inteligencia	0.0313	1.0986	0.0343
learning	0.0313	1.0986	0.0343

Las stop words en español se eliminan automáticamente. Haz clic en una fila para resaltar la palabra en los documentos. Las palabras únicas de un documento tienen IDF alto (log(3/1) = 1.099), las compartidas tienen IDF bajo.

Verificación de conocimiento

1 / 3

¿Por qué no basta con contar la frecuencia de palabras para vectorizar texto?

Porque las computadoras no pueden contarPorque palabras comunes como 'de' o 'el' tendrían el peso más alto sin ser informativasPorque el español tiene demasiadas palabrasPorque la frecuencia siempre es 1