Tokenization

In NLP, la tokenization (o tokenizzazione in italiano) è un processo che consiste nel suddividere un testo grezzo in token il più velocemente possibile. Nello specifico trasforma un testo non strutturato in una sequenza di token che può essere interpretata da una macchina.

Metodi di tokenizzazione

Formalmente la tokenization può essere rappresentata come una funzione matematica che trasforma una stringa di testo in una sequenza ordinata di token dove ogni token è una sotto-sequenza di caratteri consecutivi estratti da del tipo: è una partizione ordinata di tale che con dove sono i punti di separazione stabiliti dall’algoritmo di tokenizzazione.

Un testo tokenizzato.

Problemi della tokenizzazione

Mergere o non mergere più token? Vedi (Chinese Tokenization)

Problemi che possono essere risolti attraverso l’uso di espressioni regolari

Rimozione di punteggiatura e caratteri che contribuiscono al senso.

Presenza di clitici (we’re, j’ai)

Alex's KB

Esplora

Tokenization (NLP)

Tokenization

Vista grafico

Link entranti