Tokenization

In NLP, la tokenization (o tokenizzazione in italiano) è un processo che consiste nel suddividere un testo grezzo in token il più velocemente possibile. Nello specifico trasforma un testo non strutturato in una sequenza di token che può essere interpretata da una macchina.

Formalmente la tokenization può essere rappresentata come una funzione matematica che trasforma una stringa di testo in una sequenza ordinata di token dove ogni token è una sotto-sequenza di caratteri consecutivi estratti da del tipo: è una partizione ordinata di tale che con dove sono i punti di separazione stabiliti dall’algoritmo di tokenizzazione.

Un testo tokenizzato.

Problemi della tokenizzazione

  • Mergere o non mergere più token? Vedi (Chinese Tokenization)
  • Problemi che possono essere risolti attraverso l’uso di espressioni regolari
    • Rimozione di punteggiatura e caratteri che contribuiscono al senso.
    • Presenza di clitici (we’re, j’ai)