如何在PyTorch中加载和处理数据集

lewis 2020-02-10 25次阅读

要在PyTorch中加载和处理数据集，你可以使用torch.utils.data.Dataset和torch.utils.data.DataLoader这两个类。下面是一个简单的例子，展示了如何加载并处理一个自定义数据集：

创建一个自定义的数据集类，继承自torch.utils.data.Dataset，并实现__len__和__getitem__方法。在__init__方法中，可以对数据进行预处理。例如：

import torch
from torch.utils.data import Dataset

class CustomDataset(Dataset):
    def __init__(self, data):
        self.data = data

    def __len__(self):
        return len(self.data)

    def __getitem__(self, idx):
        sample = self.data[idx]
        return sample

创建数据集实例，并将其传递给torch.utils.data.DataLoader来生成一个数据加载器。可以在DataLoader中指定一些参数，如batch_size、shuffle等。例如：

data = [1, 2, 3, 4, 5]
dataset = CustomDataset(data)
dataloader = torch.utils.data.DataLoader(dataset, batch_size=2, shuffle=True)

遍历数据加载器，可以使用for循环来逐批获取数据。例如：

for batch in dataloader:
    print(batch)

通过以上步骤，你就可以加载和处理数据集，并在PyTorch中进行训练和测试了。需要根据具体的数据集和任务需求来自定义数据集类和数据加载器。

发表评论:取消回复

◎欢迎参与讨论，请在这里发表您的看法、交流您的观点。