Cos’è NLTK?
NLTK (Natural Language ToolKit) è una suite Python creata nel 2001 che mette a disposizioni diversi moduli per l’analisi del linguaggio naturale simbolico e statistico.
Riconosciamo i seguenti moduli rilevanti:
tokenizesuddivide il testo in parole (word_tokenize) o frasi (sent_tokenize);corpuspermette di accedere ai diversi corpus e liste di Stop words (NLP);stemapplica algoritmi di stemming come PorterStemmer o SnowballStemmer per ridurre parole alla radice;lemmatizesi riferisce alla lemmatizzazione, cioè normalizza le parole alla loro forma base usando WordNetLemmatizer;tagapplica automaticamente ad ogni parola la sua specifica etichetta grammaticale (sostantivo, verbo, aggettivo, ecc..);probabilitycalcola la distribuzione di frequenze (FreqDist) delle parole;chunckeparseper l’analisi sintattica e la suddivisione in costituenti (chunking, parsing);classificationutile per attività di Apprendimento supervisionato (sentiment analysis o classificazione anti-spam).
Supporto e compatibilità NLTK
- Supporta l’integrazione con scikit-learn e TensorFlow (chatbot, sistemi di analisi dati).
- Fornisce accesso a risorse linguistiche come WordNet, liste di stopword per molte lingue e numerosi corpus testuali