Definizione di Delimiter-based tokenization
In Natural Language Processing (NLP), la Delimiter-based tokenizationè un approccio alla tokenizzazione che considera i whitespaces, punteggiatura e caratteri speciali come separatori per individuare i token.
Problema
Questo approccio è molto banale, in quanto non considera come questi elementi contribuiscano al significato di parole o frasi. Ad esempio:
- Rimozione di Clitici (Linguistica) come “We’re, j’ai, c’ho”.
- Espressioni su più parole “New York, rock’n’roll” Questi problemi possono essere risolti in maniera deterministica con l’uso di espressioni regolari.