Alex's KB

❯

❯

1.1 Informatica

❯

1.1.2 Intelligenza artificiale

❯

Natural Language Processing

❯

Chinese Tokenization

Chinese Tokenization

25 nov 20251 minuto

nlp-pre-processing
chinese-tokenization
tokenization

Chinese Tokenization

In Natural Language Processing (NLP), la Tokenizzazione del Cinese è un caso particolare di tokenization perché il Cinese non usa spazi per separare le parole.

L’approccio più semplice è tokenizzare ogni singolo hanzi (漢字) ma approcci moderni hanno cambiato questo paradigma.
La taglia del vocabolario Cinese è decisamente ridotta, il 95% delle parole sono composte da 1 o 2 hanzi.
In altre lingue come il Giapponese o il Thai i singoli caratteri sono unità troppo piccole e tecniche di segmentazione in parole

Diversi tipi di tokenizer restituiscono token di lunghezza diversa. La frase tradotta: “Lui è un tipo che crede alla scienza, lui non crede alle questioni misteriose”

Vista grafico

Link entranti

Tokenization (NLP)

Creato con Quartz v4.5.2 © 2025

GitHub
LinkedIn