Metodi di tokenization
Non esiste un unico approccio alla tokenizzazione ma a seconda dello scopo e della lingua usata possono essere distinti:
- Approccio Bottom-Up (aggregativo) a partire dalle proprietà del linguaggio.
- Byte-Pair Encoding (BPE) (Sub-word Tokenization): la strategia è spandere il vocabolario aggiungendo dei token ottenuti dalle coppie di vocaboli ricorrenti.
- Approccio Top-Down (disgregativo), a partire dai dati del corpus.