LLM Course

0. Configuration

1. Les transformers

2. Utilisation de 🤗 Transformers

3. Finetuner un modèle pré-entraîné

4. Partager des modèles et des tokenizers

5. La bibliothèque 🤗 Datasets

6. La bibliothèque 🤗 Tokenizer

Introduction Entraîner un nouveau tokenizer à partir d'un ancien Les pouvoirs spéciaux des tokenizers rapides Les tokenizers rapides dans le pipeline de QA Normalisation et prétokénisation Le tokenizer Byte-Pair Encoding Le tokenizer WordPiece Le tokenizer Unigram Construction d'un tokenizer bloc par bloc 🤗 Tokenizers, coché !Quiz de fin de chapitre

7. Les principales tâches en NLP

8. Comment demander de l'aide

9. Construire et partager des démos

Evènements liés au cours

Glossaire

Join the Hugging Face community

and get access to the augmented documentation experience

Collaborate on models, datasets and Spaces

Faster examples with accelerated inference

Switch between documentation themes

to get started

Quiz de fin de chapitre

Testons ce que vous avez appris dans ce chapitre !

1. Quand devez-vous entraîner un nouveau tokenizer ?

2. Quel est l’avantage d’utiliser un générateur de listes par rapport à une liste de listes lors de l’utilisation de <code> train_new_from_iterator() </code> ?

3. Quels sont les avantages d’utiliser un tokenizer « rapide » ?

4. Comment le pipeline token-classification gère-t-il les entités qui s’étendent sur plusieurs tokens ?

5. Comment le pipeline question-answering gère-t-il les contextes longs ?

6. Qu’est-ce que la normalisation ?

7. Qu’est-ce que la pré-tokénisation pour un tokenizer en sous-mots ?

8. Sélectionnez les phrases qui s’appliquent au tokenizer BPE.

BPE est un algorithme de tokénisation en sous-mots qui part d'un petit vocabulaire et apprend des règles de fusion. BPE est un algorithme de tokénisation en sous-mots qui part d'un grand vocabulaire et en retire progressivement les tokens. Un tokenizer BPE apprend les règles de fusion en fusionnant la paire de tokens la plus fréquente. Un tokenizer BPE apprend une règle de fusion en fusionnant la paire de tokens qui maximise un score qui privilégie les paires fréquentes avec des parties individuelles moins fréquentes. BPE tokenise les mots en sous-mots en les divisant en caractères, puis en appliquant les règles de fusion. BPE tokenise les mots en sous-mots en trouvant le plus long sous-mot du vocabulaire en commençant par le début, puis en répétant le processus pour le reste du texte.

9. Sélectionnez les phrases qui s’appliquent au tokenizer WordPiece.

WordPiece est un algorithme de tokénisation en sous-mots qui part d'un petit vocabulaire et apprend des règles de fusion. WordPiece est un algorithme de tokénisation en sous-mots qui part d'un grand vocabulaire et en retire progressivement les tokens. Les tokenizer WordPiece apprennent les règles de fusion en fusionnant la paire de tokens la plus fréquente. Un tokenizer WordPiece apprend une règle de fusion en fusionnant la paire de tokens qui maximise un score qui privilégie les paires fréquentes avec des parties individuelles moins fréquentes. WordPiece tokenise les mots en sous-mots en trouvant la segmentation en tokens la plus probable, selon le modèle. WordPiece tokenise les mots en sous-mots en trouvant le plus long sous-mot du vocabulaire en commençant par le début, puis en répétant le processus pour le reste du texte.

10. Sélectionnez les phrases qui s’appliquent au tokenizer Unigram.

Update on GitHub

←🤗 Tokenizers, coché !

LLM Course

Quiz de fin de chapitre

1. Quand devez-vous entraîner un nouveau <i> tokenizer </i> ?

2. Quel est l’avantage d’utiliser un générateur de listes par rapport à une liste de listes lors de l’utilisation de <code> train_new_from_iterator() </code> ?

3. Quels sont les avantages d’utiliser un <i> tokenizer </i> « rapide » ?

4. Comment le pipeline token-classification gère-t-il les entités qui s’étendent sur plusieurs <i> tokens </i> ?

5. Comment le pipeline question-answering gère-t-il les contextes longs ?

6. Qu’est-ce que la normalisation ?

7. Qu’est-ce que la pré-tokénisation pour un <i> tokenizer </i> en sous-mots ?

8. Sélectionnez les phrases qui s’appliquent au <i> tokenizer </i> BPE.

9. Sélectionnez les phrases qui s’appliquent au <i> tokenizer </i> WordPiece.

10. Sélectionnez les phrases qui s’appliquent au <i> tokenizer </i> Unigram.