LLM Course documentation
本章簡介
0. 安裝
1. Transformer 模型
2. 使用 🤗 Transformers
3. 微調一個預訓練模型
4. 分享你的模型和標記器
5. 🤗 Datasets庫
6. 🤗 Tokenizers庫
7. 主要的 NLP 任務
8. 如何尋求幫助
9. 構建並分享你的模型
課程活動
本章簡介
在第三章第一次體驗了 🤗Datasets 庫,並發現在微調模型時有三個主要步驟:
- 從 Hugging Face Hub 加載一個數據集。
- 使用 Dataset.map() 對數據進行預處理。
- 載入和計算指標(特徵)。
但這只是🤗 Datasets的表面功能而已!在本章中,我們將深入瞭解這個庫。在此過程中,我們將找到以下問題的答案:
- 當數據集不在 hub 上時,您該怎麼做?
- 如何對數據集進行切片?(如果你真正的特別需要使用pandas的時候該怎麼辦?)
- 當你的數據集很大,會撐爆你筆記本電腦的RAM時,你會怎麼做?
- 「內存映射」和 Apache Arrow 到底是什麼?
- 如何創建自己的數據集並將其推送到中心?
您在這裡學到的技術將為您在第6章和第7章中的高級標記化和微調任務做好準備——所以,喝杯咖啡,讓我們開始吧!
Update on GitHub