零基礎玩轉Pytorch：數據可視化與模型評估技巧

數據可視化與模型評估：Pytorch入門進階必備技能¶

爲什麼要學數據可視化和模型評估？¶

在Pytorch學習中，模型的效果往往需要通過數據可視化來直觀理解，而模型評估則是檢驗模型好壞的關鍵。無論是檢查數據是否合理、排查訓練異常，還是分析模型在不同場景下的表現，這些技能都能幫你快速定位問題、優化模型。

一、數據可視化：揭開數據的“真面目”¶

1. 爲什麼可視化數據？¶

理解數據分佈：比如圖像數據的像素範圍、數值數據的分佈規律。
發現異常值：如果數據中出現奇怪的樣本或數值，可視化能快速暴露問題。
驗證數據處理：比如歸一化後的數據是否符合預期。

2. Pytorch中常用可視化工具¶

Matplotlib：Python基礎可視化庫，適合快速繪製圖像、統計圖表。
TensorBoard：Pytorch官方推薦工具，專注於訓練過程中的動態可視化（如損失曲線、模型結構）。

3. Matplotlib實戰：從圖像到統計¶

安裝依賴：

pip install matplotlib torchvision  # torchvision用於加載經典數據集

示例1：可視化MNIST數據集樣本

import matplotlib.pyplot as plt
from torchvision import datasets, transforms

# 加載MNIST數據集（手寫數字0-9）
transform = transforms.Compose([transforms.ToTensor()])
train_dataset = datasets.MNIST(root='./data', train=True, download=True, transform=transform)

# 取前5張圖像和標籤
images, labels = next(iter(train_dataset))
plt.figure(figsize=(10, 2))
for i in range(5):
    img = images[i].squeeze().numpy()  # 去掉batch和channel維度
    plt.subplot(1, 5, i+1)
    plt.imshow(img, cmap='gray')  # 灰度圖顯示
    plt.title(f"Label: {labels[i].item()}")
    plt.axis('off')  # 隱藏座標軸
plt.show()

示例2：數據分佈直方圖

# 統計訓練集標籤分佈
import numpy as np
labels_np = np.array([data[1] for data in train_dataset])
plt.figure(figsize=(8, 4))
plt.hist(labels_np, bins=10, edgecolor='black')
plt.xlabel('Digit')
plt.ylabel('Count')
plt.title('MNIST Label Distribution')
plt.show()

4. TensorBoard：訓練過程的“監控大屏”¶

安裝TensorBoard：

pip install tensorboard

核心功能：
- 可視化標量（如損失、準確率）隨訓練步數變化。
- 展示模型輸入圖像、計算圖結構。

示例：訓練過程可視化

from torch.utils.tensorboard import SummaryWriter
import torch
import time

# 初始化日誌記錄器
writer = SummaryWriter(log_dir=f"runs/demo_{time.strftime('%Y%m%d_%H%M%S')}")

# 模擬訓練循環（以簡單線性迴歸爲例）
model = torch.nn.Linear(1, 1)  # 輸入1維，輸出1維
optimizer = torch.optim.SGD(model.parameters(), lr=0.01)
criterion = torch.nn.MSELoss()

for epoch in range(100):
    # 生成模擬數據：y = 2x + 3 + 噪聲
    x = torch.randn(100, 1) * 5  # 輸入數據
    y = 2 * x + 3 + torch.randn(100, 1) * 0.5  # 真實標籤+噪聲
    optimizer.zero_grad()
    y_pred = model(x)
    loss = criterion(y_pred, y)
    loss.backward()
    optimizer.step()

    # 記錄標量：訓練損失、驗證損失（假設驗證損失爲loss*0.9）
    writer.add_scalar('Train Loss', loss.item(), epoch)
    writer.add_scalar('Val Loss', loss.item() * 0.9, epoch)

# 可視化模型結構（需提前定義模型輸入）
writer.add_graph(model, torch.randn(1, 1))  # 輸入1個樣本，維度1
writer.close()

啓動TensorBoard：
運行命令行：tensorboard --logdir=runs，打開瀏覽器訪問http://localhost:6006，即可查看損失曲線和模型結構。

二、模型評估：量化模型的“真實水平”¶

1. 分類任務的核心指標¶

準確率（Accuracy）：正確預測的樣本佔比。
混淆矩陣（Confusion Matrix）：展示每個類別的預測情況（TP/FP/TN/FN）。
精確率（Precision）/召回率（Recall）：針對特定類別（如“識別數字8”的效果）。

2. 迴歸任務的核心指標¶

均方誤差（MSE）：預測值與真實值差的平方均值。
平均絕對誤差（MAE）：預測值與真實值差的絕對值均值。

3. Pytorch實現示例：評估MNIST分類模型¶

假設已訓練好一個簡單CNN模型，以下是評估代碼：

import torch
from sklearn.metrics import confusion_matrix
import seaborn as sns
import matplotlib.pyplot as plt

# 1. 加載測試集數據
test_dataset = datasets.MNIST(root='./data', train=False, transform=transforms.ToTensor())
test_loader = torch.utils.data.DataLoader(test_dataset, batch_size=100, shuffle=False)

# 2. 模型推理（獲取所有預測和標籤）
model.eval()  # 關閉Dropout等訓練特有操作
all_preds = []
all_labels = []
with torch.no_grad():  # 禁用梯度計算，節省內存
    for images, labels in test_loader:
        outputs = model(images)
        preds = torch.argmax(outputs, dim=1)  # 取概率最大的類別
        all_preds.extend(preds.cpu().numpy())
        all_labels.extend(labels.numpy())

# 3. 計算準確率
correct = sum(np.array(all_preds) == np.array(all_labels))
accuracy = correct / len(all_labels)
print(f"Test Accuracy: {accuracy:.4f}")

# 4. 可視化混淆矩陣
cm = confusion_matrix(all_labels, all_preds)
plt.figure(figsize=(10, 8))
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', 
            xticklabels=range(10), yticklabels=range(10))
plt.xlabel('Predicted Label')
plt.ylabel('True Label')
plt.title('Confusion Matrix')
plt.show()

三、實戰總結：從數據到模型的閉環¶

數據可視化：先用Matplotlib觀察數據分佈，再用TensorBoard監控訓練過程。
模型評估：分類任務用準確率+混淆矩陣，迴歸任務用MSE+MAE。
迭代優化：發現混淆矩陣中“8”和“9”易混淆時，可調整數據增強或模型複雜度。

進階方向¶

高級可視化：用TensorBoard的add_image可視化模型生成的圖像（如GAN生成的假圖）。
動態評估：用torchmetrics庫即時計算精確率、F1分數等指標。
可視化工具對比：Matplotlib適合靈活繪圖，TensorBoard適合訓練過程監控。

掌握這些技能後，你將能更高效地調試模型、理解數據，爲後續構建複雜模型打下基礎。動手實踐時，記得多嘗試不同參數和可視化組合，逐步培養對模型的“直覺”！