Chinese Tokenization

In Natural Language Processing (NLP), la Tokenizzazione del Cinese è un caso particolare di tokenization perché il Cinese non usa spazi per separare le parole.

  • L’approccio più semplice è tokenizzare ogni singolo hanzi (漢字) ma approcci moderni hanno cambiato questo paradigma.
  • La taglia del vocabolario Cinese è decisamente ridotta, il 95% delle parole sono composte da 1 o 2 hanzi.
  • In altre lingue come il Giapponese o il Thai i singoli caratteri sono unità troppo piccole e tecniche di segmentazione in parole

Diversi tipi di tokenizer restituiscono token di lunghezza diversa. La frase tradotta: “Lui è un tipo che crede alla scienza, lui non crede alle questioni misteriose”