Vectorización TF-IDF
Convierte texto en números: frecuencia de términos ponderada por su rareza en el corpus.
conceptos clave
Vectorización TF-IDF
Los modelos de ML no entienden texto — necesitan vectores numéricos. El enfoque más efectivo para textos cortos es TF-IDF (Term Frequency · Inverse Document Frequency).
La idea central: una palabra es importante para un documento si aparece frecuentemente en ese documento (TF alto) pero raramente en el corpus (IDF alto). Palabras como “el”, “de”, “y” tienen TF alto pero IDF bajo — son ruido.
TF(t,d)= frecuencia del término t en el documento d (a menudo normalizada)IDF(t)= log(N / df(t)), donde N es el total de documentos y df(t) es en cuántos aparece tTF-IDF(t,d)= TF(t,d) × IDF(t) — alto cuando la palabra es discriminativa
Cada documento se convierte en un vector donde cada dimensión corresponde a un término del vocabulario, y su valor es el peso TF-IDF. Esto se conoce como bag of words porque ignora el orden de las palabras.
Data Leakage
Visualizador TF-IDF
Explora cómo TF-IDF pondera la importancia de palabras en documentos
| Palabra | TF(D1) | TF(D2) | TF(D3) | IDF | TF-IDF(D1) ▼ | TF-IDF(D2) | TF-IDF(D3) |
|---|---|---|---|---|---|---|---|
| datos | 0.0625 | 0.0000 | 0.0000 | 1.0986 | 0.0687 | 0.0000 | 0.0000 |
| algoritmos | 0.0313 | 0.0000 | 0.0000 | 1.0986 | 0.0343 | 0.0000 | 0.0000 |
| análisis | 0.0313 | 0.0000 | 0.0000 | 1.0986 | 0.0343 | 0.0000 | 0.0000 |
| aprendizaje | 0.0313 | 0.0000 | 0.0000 | 1.0986 | 0.0343 | 0.0000 | 0.0000 |
| artificial | 0.0313 | 0.0000 | 0.0000 | 1.0986 | 0.0343 | 0.0000 | 0.0000 |
| automático | 0.0313 | 0.0000 | 0.0000 | 1.0986 | 0.0343 | 0.0000 | 0.0000 |
| ciencia | 0.0313 | 0.0000 | 0.0000 | 1.0986 | 0.0343 | 0.0000 | 0.0000 |
| clasificación | 0.0313 | 0.0000 | 0.0000 | 1.0986 | 0.0343 | 0.0000 | 0.0000 |
| complejos | 0.0313 | 0.0000 | 0.0000 | 1.0986 | 0.0343 | 0.0000 | 0.0000 |
| encontrar | 0.0313 | 0.0000 | 0.0000 | 1.0986 | 0.0343 | 0.0000 | 0.0000 |
| estadístico | 0.0313 | 0.0000 | 0.0000 | 1.0986 | 0.0343 | 0.0000 | 0.0000 |
| grandes | 0.0313 | 0.0000 | 0.0000 | 1.0986 | 0.0343 | 0.0000 | 0.0000 |
| industria | 0.0313 | 0.0000 | 0.0000 | 1.0986 | 0.0343 | 0.0000 | 0.0000 |
| inteligencia | 0.0313 | 0.0000 | 0.0000 | 1.0986 | 0.0343 | 0.0000 | 0.0000 |
| learning | 0.0313 | 0.0000 | 0.0000 | 1.0986 | 0.0343 | 0.0000 | 0.0000 |
Las stop words en español se eliminan automáticamente. Haz clic en una fila para resaltar la palabra en los documentos. Las palabras únicas de un documento tienen IDF alto (log(3/1) = 1.099), las compartidas tienen IDF bajo.
Verificación de conocimiento
1 / 3¿Por qué no basta con contar la frecuencia de palabras para vectorizar texto?