Chinese Tokenization
In Natural Language Processing (NLP), la Tokenizzazione del Cinese è un caso particolare di tokenization perché il Cinese non usa spazi per separare le parole.
- L’approccio più semplice è tokenizzare ogni singolo hanzi (漢字) ma approcci moderni hanno cambiato questo paradigma.
- La taglia del vocabolario Cinese è decisamente ridotta, il 95% delle parole sono composte da 1 o 2 hanzi.
- In altre lingue come il Giapponese o il Thai i singoli caratteri sono unità troppo piccole e tecniche di segmentazione in parole
Diversi tipi di tokenizer restituiscono token di lunghezza diversa. La frase tradotta: “Lui è un tipo che crede alla scienza, lui non crede alle questioni misteriose”
Diversi tipi di tokenizer restituiscono