dataset和dataloader的详解及使用

作者

猴君

首页»
业界新闻»
新闻资讯»
dataset和dataloader的详解及使用

发布时间:2024-07-29 20:59

阅读量:0

dataset和dataloader是离不开的，dataset就像是一盒扑克牌，而dataloader就是发牌。下面让我们来学习dataset和dataloader吧

dataset

dataset常见的参数

datasets.训练所用的数据原名称（root，train，transform，download）

root：是数据源的文件所在位置
train：表示是否为训练后的数据源
transform：是对数据源中每一个数据的标准化处理
dowload：表示是否从官网下载该数据源

举例

import torchvision  dataset_transform=torchvision.transforms.Compose([torchvision.transforms.ToTensor()]) train_set=torchvision.datasets.CIFAR10(root="./dataset",transform=dataset_transform,train=True,download="True") test_set=torchvision.datasets.CIFAR10(root="./dataset",transform=dataset_transform,train=False,download="True")

其中第四行是进行训练的数据源；
第五行是没有进行训练的数据源；
第三行是将数据源中的每一个数据转成tensor形式

dataset返回值

dataset返回的是一个大列表，每个列表的元素为一个小列表，小列表即为每个元素的信息，每个小列表包含两个元素，分别是图片和目标，可用以下方式接收

import torchvision  dataset_transform=torchvision.transforms.Compose([torchvision.transforms.ToTensor()]) train_set=torchvision.datasets.CIFAR10(root="./dataset",transform=dataset_transform,train=True,download="True") test_set=torchvision.datasets.CIFAR10(root="./dataset",transform=dataset_transform,train=False,download="True")  img,target=test_set[0] print(img) print(target)  writer.close()

其中第7行为第1个数据的图片和期望的接收

dataloader

dataloader常见的参数

DataLoader(root,batch_size,shuffle,num_workers,drop_last)

root:数据原所在的文件地址（相当于扑克牌）
batch_size:每次分发几份数据（每次发几张牌）
shuffle：是否将数据打乱（是否要把牌打乱）
drop_last：是否删除多余的部分（有101张牌，每次分10张，是否删除最后多余的一张）
num_workers：几个进程

举例

import torchvision from torch.utils.data import DataLoader  dataset_transform=torchvision.transforms.ToTensor() test_dataset=torchvision.datasets.CIFAR10(root="./dataset",train=False,transform=dataset_transform) test_loader=DataLoader(test_dataset,10,False,num_workers=0,drop_last=True)

其中第5行为dataset的使用，引入数据源
第6行为dataloader的使用，数据源为test_dataset，batch_size=10，shuffle=False
，每次发10张牌不打乱

返回值

返回一个大列表，大列表有（总数量除batch_size）个元素，每个元素是不同的数据的集合，即中列表，中列表有两个元素，一个是图片集和目标集，可用如下方式接受。

import torchvision from torch.utils.data import DataLoader from torch.utils.tensorboard import SummaryWriter  dataset_transform=torchvision.transforms.ToTensor() test_dataset=torchvision.datasets.CIFAR10(root="./dataset",train=False,transform=dataset_transform) test_loader=DataLoader(test_dataset,10,False,num_workers=0,drop_last=True)  # img,target=test_dataset[0] # print(img) # print(target)  writer=SummaryWriter("./DataLoader") step=0 for data in test_loader:     imgs,targets=data     writer.add_images("loader",imgs,step)     step+=1 writer.close()

其中第16行为元素的接收。