LLM Course documentation

本章簡介

LLM Course

Join the Hugging Face community

and get access to the augmented documentation experience

Collaborate on models, datasets and Spaces

Faster examples with accelerated inference

Switch between documentation themes

to get started

本章簡介

在第三章第一次體驗了 🤗Datasets 庫，並發現在微調模型時有三個主要步驟：

從 Hugging Face Hub 加載一個數據集。
使用 Dataset.map() 對數據進行預處理。
載入和計算指標(特徵)。

但這只是🤗 Datasets的表面功能而已！在本章中，我們將深入瞭解這個庫。在此過程中，我們將找到以下問題的答案：

當數據集不在 hub 上時，您該怎麼做？
如何對數據集進行切片？（如果你真正的特別需要使用pandas的時候該怎麼辦？）
當你的數據集很大，會撐爆你筆記本電腦的RAM時，你會怎麼做？
「內存映射」和 Apache Arrow 到底是什麼？
如何創建自己的數據集並將其推送到中心？

您在這裡學到的技術將為您在第6章和第7章中的高級標記化和微調任務做好準備——所以，喝杯咖啡，讓我們開始吧!

Update on GitHub

←章末小測驗如果我的數據集不在 Hub 上怎麼辦？→