ML Simulatorv1.0
Semana 3
Semana 3 · Módulo 1

Vectorización TF-IDF

Convierte texto en números: frecuencia de términos ponderada por su rareza en el corpus.

conceptos clave

Vectorización TF-IDF

Term FrequencyInverse Document FrequencyBag of WordsLey de ZipfVectorización

Los modelos de ML no entienden texto — necesitan vectores numéricos. El enfoque más efectivo para textos cortos es TF-IDF (Term Frequency · Inverse Document Frequency).

La idea central: una palabra es importante para un documento si aparece frecuentemente en ese documento (TF alto) pero raramente en el corpus (IDF alto). Palabras como “el”, “de”, “y” tienen TF alto pero IDF bajo — son ruido.

  • TF(t,d) = frecuencia del término t en el documento d (a menudo normalizada)
  • IDF(t) = log(N / df(t)), donde N es el total de documentos y df(t) es en cuántos aparece t
  • TF-IDF(t,d) = TF(t,d) × IDF(t) — alto cuando la palabra es discriminativa

Cada documento se convierte en un vector donde cada dimensión corresponde a un término del vocabulario, y su valor es el peso TF-IDF. Esto se conoce como bag of words porque ignora el orden de las palabras.

Data Leakage

El vocabulario y los valores IDF deben calcularse exclusivamente con los datos de entrenamiento. Si incluyes datos de prueba en el cálculo de IDF, el modelo tendrá información del futuro — una forma sutil pero grave de data leakage.

Visualizador TF-IDF

Explora cómo TF-IDF pondera la importancia de palabras en documentos

La inteligencia artificial y el aprendizaje automático están transformando la industria tecnológica. Los algoritmos de machine learning procesan grandes volúmenes de datos para encontrar patrones. Las redes neuronales profundas permiten resolver problemas complejos de clasificación y predicción. Python es el lenguaje más popular para ciencia de datos y análisis estadístico.
La receta de paella valenciana requiere arroz bomba, pollo, judías verdes y garrofón. El sofrito se prepara con tomate rallado y aceite de oliva. El caldo debe hervir antes de añadir el arroz. La cocción perfecta tarda dieciocho minutos a fuego fuerte. El socarrat es la capa crujiente de arroz del fondo.
El fútbol es el deporte más popular del mundo. Los equipos entrenan táctica y resistencia física cada semana. El portero defiende la portería con reflejos y agilidad. Los delanteros buscan anotar goles con disparos precisos. La Champions League reúne a los mejores clubes europeos cada temporada.
Palabra TF(D1) TF(D2) TF(D3) IDF TF-IDF(D1) TF-IDF(D2) TF-IDF(D3)
datos0.06250.00000.00001.09860.06870.00000.0000
algoritmos0.03130.00000.00001.09860.03430.00000.0000
análisis0.03130.00000.00001.09860.03430.00000.0000
aprendizaje0.03130.00000.00001.09860.03430.00000.0000
artificial0.03130.00000.00001.09860.03430.00000.0000
automático0.03130.00000.00001.09860.03430.00000.0000
ciencia0.03130.00000.00001.09860.03430.00000.0000
clasificación0.03130.00000.00001.09860.03430.00000.0000
complejos0.03130.00000.00001.09860.03430.00000.0000
encontrar0.03130.00000.00001.09860.03430.00000.0000
estadístico0.03130.00000.00001.09860.03430.00000.0000
grandes0.03130.00000.00001.09860.03430.00000.0000
industria0.03130.00000.00001.09860.03430.00000.0000
inteligencia0.03130.00000.00001.09860.03430.00000.0000
learning0.03130.00000.00001.09860.03430.00000.0000

Las stop words en español se eliminan automáticamente. Haz clic en una fila para resaltar la palabra en los documentos. Las palabras únicas de un documento tienen IDF alto (log(3/1) = 1.099), las compartidas tienen IDF bajo.

Verificación de conocimiento

1 / 3

¿Por qué no basta con contar la frecuencia de palabras para vectorizar texto?