Pytorch入門必看：數據加載與預處理實戰教程

在深度學習中，數據是模型的“燃料”。如果數據加載和預處理做得不好，模型可能訓練緩慢、效果差，甚至無法正常運行。Pytorch作爲主流深度學習框架，提供了強大的數據處理工具，讓數據加載和預處理變得簡單高效。本文將從基礎概念到實戰操作，帶你一步步掌握Pytorch數據處理的核心技能。

一、爲什麼數據加載與預處理很重要？¶

想象你要給模型喂數據，如果數據是混亂的（比如圖像尺寸不一、格式不統一），模型就會“消化不良”。數據預處理的目標是：
- 統一格式：將不同來源、不同格式的數據轉爲模型能識別的格式（如Tensor）；
- 優化數據：通過裁剪、縮放、歸一化等操作，讓數據更適合模型學習；
- 減少噪聲：過濾或清洗數據，降低無關信息對模型的干擾。

Pytorch通過Dataset和DataLoader兩大組件，以及torchvision.transforms工具集，完美解決了這些問題。

二、Pytorch數據處理核心組件¶

1. Dataset：數據的“容器”¶

Dataset是Pytorch中表示數據集的抽象類，它定義了如何獲取單個數據樣本（輸入和標籤）。
- 特點：每個樣本通過__getitem__(index)方法獲取，總樣本數通過__len__()返回；
- 常見內置Dataset：torchvision.datasets提供了常用數據集（如MNIST、CIFAR-10），也可自定義Dataset類。

示例：加載MNIST數據集

import torch
from torchvision import datasets

# 加載MNIST數據集（原始數據爲PIL圖像格式）
train_dataset = datasets.MNIST(
    root='./data',  # 數據存儲路徑
    train=True,     # 訓練集
    download=True,  # 首次運行自動下載
    transform=None  # 暫時不處理數據（後續添加）
)

2. DataLoader：批量加載的“快遞員”¶

DataLoader負責將Dataset中的數據打包成批量數據，方便模型訓練。
- 核心參數：
- batch_size：每次加載的樣本數量（如64、128）；
- shuffle：是否打亂數據順序（訓練時設爲True，測試時設爲False）；
- num_workers：多線程加載數據（加速訓練，Windows下建議設爲0）；
- drop_last：是否丟棄最後不足batch_size的樣本（訓練時常用True）。

示例：用DataLoader加載MNIST

from torch.utils.data import DataLoader

# 創建DataLoader
train_loader = DataLoader(
    dataset=train_dataset,
    batch_size=64,
    shuffle=True,
    num_workers=0  # Windows系統需設爲0，避免多線程錯誤
)

三、數據預處理：Transforms工具集¶

數據預處理通過torchvision.transforms實現，它允許你對數據進行靈活的轉換。常用變換如下：

1. 基礎變換¶

ToTensor()：將數據轉爲PyTorch張量（Tensor），並歸一化到[0,1]；
Normalize(mean, std)：對張量歸一化（需提前計算數據的均值和標準差）；
Resize(size)：調整圖像尺寸（如Resize((224,224))）；
RandomCrop(size)：隨機裁剪圖像（數據增強常用）；
Compose(transforms)：組合多個變換爲一個對象（按順序執行）。

2. 數據增強（訓練專用）¶

RandomHorizontalFlip(p=0.5)：隨機水平翻轉（增加數據多樣性）；
ColorJitter(brightness=0.2, contrast=0.2, saturation=0.2)：調整亮度、對比度等。

3. 組合多個變換¶

通常需要按順序執行多個變換（如先resize，再轉Tensor，再歸一化），用Compose組合：

from torchvision import transforms

# 定義數據預處理流程
transform = transforms.Compose([
    transforms.Resize((32, 32)),   # 調整圖像尺寸爲32x32
    transforms.ToTensor(),         # 轉爲Tensor並歸一化到[0,1]
    transforms.Normalize(          # 按ImageNet均值和標準差歸一化
        mean=[0.5, 0.5, 0.5],      # 假設是RGB圖像，每個通道均值0.5
        std=[0.5, 0.5, 0.5]        # 每個通道標準差0.5
    )
])

四、實戰：MNIST數據加載與預處理完整流程¶

以經典的MNIST手寫數字數據集爲例，實現從原始數據到模型輸入的全流程。

步驟1：導入庫¶

import torch
import matplotlib.pyplot as plt
from torchvision import datasets, transforms
from torch.utils.data import DataLoader

步驟2：定義預處理變換¶

MNIST是單通道灰度圖，需處理爲[1,28,28]的Tensor並歸一化：

transform = transforms.Compose([
    transforms.Resize((28, 28)),   # 確保尺寸一致（MNIST本身28x28，可省略）
    transforms.ToTensor(),         # 轉爲Tensor，形狀變爲(1,28,28)，值在[0,1]
    transforms.Normalize(          # 歸一化到[-1,1]（模型訓練更穩定）
        mean=[0.1307],            # MNIST全局均值（預計算）
        std=[0.3081]              # MNIST全局標準差（預計算）
    )
])

步驟3：加載並預處理數據¶

# 加載訓練集和測試集，同時應用transform
train_dataset = datasets.MNIST(
    root='./data', 
    train=True, 
    download=True, 
    transform=transform
)
test_dataset = datasets.MNIST(
    root='./data', 
    train=False, 
    download=True, 
    transform=transform
)

步驟4：創建DataLoader¶

# 訓練集：batch_size=64，打亂順序；測試集：batch_size=1000，不打亂
train_loader = DataLoader(train_dataset, batch_size=64, shuffle=True)
test_loader = DataLoader(test_dataset, batch_size=1000, shuffle=False)

步驟5：驗證數據加載結果¶

遍歷DataLoader，查看數據形狀和可視化：

# 取一個batch的數據
for images, labels in train_loader:
    print("圖像形狀:", images.shape)  # torch.Size([64, 1, 28, 28])
    print("標籤形狀:", labels.shape)  # torch.Size([64])
    break  # 只看第一個batch

# 可視化一個樣本
img = images[0].squeeze().numpy()  # 去除batch和通道維度（變爲(28,28)）
label = labels[0].item()
plt.imshow(img, cmap='gray')
plt.title(f"Label: {label}")
plt.show()

五、關鍵注意事項¶

歸一化參數：
- 圖像數據需歸一化到[-1,1]或[0,1]，模型更容易收斂；
- 對於ImageNet等標準數據集，直接使用官方提供的mean=[0.485,0.456,0.406], std=[0.229,0.224,0.225]。
數據增強：
- 僅在訓練集使用（測試集保持原始數據）；
- 圖像分類任務常用RandomCrop、RandomHorizontalFlip等。
DataLoader參數：
- num_workers設爲CPU核心數，加速數據加載（Windows下建議0）；
- shuffle=True必須在訓練時開啓，避免模型學習到數據順序。

總結¶

數據加載與預處理是深度學習的“第一步”，也是最基礎的環節。Pytorch通過Dataset、DataLoader和transforms工具，讓這一過程變得高效且靈活。掌握本文內容後，你可以輕鬆處理圖像、文本等不同類型的數據，爲後續模型訓練打下堅實基礎。

下一步：嘗試加載CIFAR-10數據集，練習添加數據增強和更復雜的預處理步驟，挑戰更高難度的任務！