Tokenization
In NLP, la tokenization (o tokenizzazione in italiano) è un processo che consiste nel suddividere un testo grezzo in token il più velocemente possibile. Nello specifico trasforma un testo non strutturato in una sequenza di token che può essere interpretata da una macchina.
Formalmente la tokenization può essere rappresentata come una funzione matematica
Un testo tokenizzato.
Problemi della tokenizzazione
- Mergere o non mergere più token? Vedi (Chinese Tokenization)
- Problemi che possono essere risolti attraverso l’uso di espressioni regolari
- Rimozione di punteggiatura e caratteri che contribuiscono al senso.
- Presenza di clitici (we’re, j’ai)
Un testo tokenizzato.