Word tokenization
Problemi di Word Tokenization
La Word Tokenization (pezzi grandi) crea vocabolari enormi e non sa gestire parole sconosciute (es. “tokenizzazione” vs “tokenizzatore”).
Tecniche di word tokenization
- Delimiter-based Tokenization, considera i whitespaces, punteggiatura e caratteri speciali come separatori per individuare i token;
- Rule-based Tokenization