LLM Course documentation
Quiz de fin de chapitre
0. Configuration
1. Les transformers
2. Utilisation de 🤗 Transformers
3. Finetuner un modèle pré-entraîné
4. Partager des modèles et des tokenizers
5. La bibliothèque 🤗 Datasets
6. La bibliothèque 🤗 Tokenizer
IntroductionEntraîner un nouveau tokenizer à partir d'un ancienLes pouvoirs spéciaux des tokenizers rapidesLes tokenizers rapides dans le pipeline de QANormalisation et prétokénisationLe tokenizer Byte-Pair EncodingLe tokenizer WordPieceLe tokenizer UnigramConstruction d'un tokenizer bloc par bloc🤗 Tokenizers, coché !Quiz de fin de chapitre
7. Les principales tâches en NLP
8. Comment demander de l'aide
9. Construire et partager des démos
Evènements liés au cours
Glossaire
Quiz de fin de chapitre
Testons ce que vous avez appris dans ce chapitre !
1. Quand devez-vous entraîner un nouveau <i> tokenizer </i> ?
2. Quel est l’avantage d’utiliser un générateur de listes par rapport à une liste de listes lors de l’utilisation de <code> train_new_from_iterator() </code> ?
3. Quels sont les avantages d’utiliser un <i> tokenizer </i> « rapide » ?
4. Comment le pipeline token-classification gère-t-il les entités qui s’étendent sur plusieurs <i> tokens </i> ?
5. Comment le pipeline question-answering gère-t-il les contextes longs ?
6. Qu’est-ce que la normalisation ?
7. Qu’est-ce que la pré-tokénisation pour un <i> tokenizer </i> en sous-mots ?
8. Sélectionnez les phrases qui s’appliquent au <i> tokenizer </i> BPE.
9. Sélectionnez les phrases qui s’appliquent au <i> tokenizer </i> WordPiece.
10. Sélectionnez les phrases qui s’appliquent au <i> tokenizer </i> Unigram.
Update on GitHub train_new_from_iterator() ?