Transformers documentation
BERTology
Get started
Tutorials
パイプラインを使用して推論を実行するAutoClass を使用して移植可能なコードを作成するデータの前処理事前トレーニングされたモデルを微調整するスクリプトを使用してトレーニングする🤗 Accelerate を使用して分散トレーニングをセットアップする🤗 PEFT を使用してアダプターをロードしてトレーニングするモデルを共有するLLM を使用した生成
Task Guides
自然言語処理
オーディオ
コンピュータビジョン
マルチモーダル
世代
プロンプト
開発者ガイド
🤗 トークナイザーの高速トークナイザーを使用する多言語モデルで推論を実行するモデル固有の API を使用するカスタムモデルを共有するチャットモデルのテンプレートONNX へのエクスポートコミュニティリソーストラブルシューティング
パフォーマンスとスケーラビリティ
概要 大きなモデルのインスタンス化torch.compile()を使用した推論の最適化
効率的なトレーニングテクニック
単一の GPU で効率的にトレーニングするための方法とツール複数の GPU と並列処理CPU での効率的なトレーニング分散CPUトレーニングTPU に関するトレーニング特殊なハードウェアに関するトレーニングトレーニング用のカスタム ハードウェアTrainer API を使用したハイパーパラメータ検索
推論の最適化
貢献する
コンセプチュアルガイド
フィロソフィー用語集🤗 Transformersの機能🤗 Transformersがタスクを解決する方法Transformerモデルファミリートークナイザーの概要注意機構パディングと切り詰めBERTology固定長モデルのパープレキシティWebサーバー推論用パイプラインモデルトレーニングの解剖学
API
You are viewing v5.6.0 version. A newer version v5.8.1 is available.
BERTology
大規模なトランスフォーマー、例えばBERTの内部動作を調査する研究領域が急成長しています(これを「BERTology」とも呼びます)。この分野の良い例は以下です:
- BERT Rediscovers the Classical NLP Pipeline by Ian Tenney, Dipanjan Das, Ellie Pavlick: 論文リンク
- Are Sixteen Heads Really Better than One? by Paul Michel, Omer Levy, Graham Neubig: 論文リンク
- What Does BERT Look At? An Analysis of BERT’s Attention by Kevin Clark, Urvashi Khandelwal, Omer Levy, Christopher D. Manning: 論文リンク
- CAT-probing: A Metric-based Approach to Interpret How Pre-trained Models for Programming Language Attend Code Structure: 論文リンク
この新しい分野の発展を支援するために、BERT/GPT/GPT-2モデルにいくつかの追加機能を組み込み、人々が内部表現にアクセスできるようにしました。これらの機能は、主にPaul Michel氏の優れた研究(論文リンク)に基づいています。具体的には、以下の機能が含まれています:
- BERT/GPT/GPT-2のすべての隠れ状態にアクセスすることができます。
- BERT/GPT/GPT-2の各ヘッドの注意重みにアクセスできます。
- ヘッドの出力値と勾配を取得し、ヘッドの重要性スコアを計算し、論文リンクで説明されているようにヘッドを削減できます。
これらの機能を理解し、使用するのを支援するために、特定のサンプルスクリプト「bertology.py」を追加しました。このスクリプトは、GLUEで事前トレーニングされたモデルから情報を抽出し、ヘッドを削減する役割を果たします。
Update on GitHub