PyTorch数据处理工具箱utils

目录:
目录
目录:
1、相关数据处理箱概要
2、utils.data
3、
4、
为我们提供了专门的数据下载、数据处理包 , 使用这些包可以极大提高我们的开发效率及质量 。在数据预处理,数据加载模块使用 。
1、相关数据处理箱概要
1、 左侧为torch.utils.data工具包,主要包括以下四个类:
1):是一个抽象类,其他数据需要继承这个类,并且覆写其中的两个方法(、) 。
2):定义一个新的迭代器,实现批量(batch)读取,打乱数据()并提供并行加速等功能 。
3):把数据集随机拆分为给定长度的非重叠的新数据集 。
4)*:多种采样函数 。
2、中间为的可视化工具(),其是的一个视觉处理工具包,独立于Torch需要自主安装 。用pip、conda均可安装:

PyTorch数据处理工具箱utils

文章插图
在python命令行输入以下代码#用pippip install torchvision#用condaconda install torchvision
包含如下四个类:
1):设计上继承自torch.utils.data. 。提供、/100、和COCO等数据集 。
2):提供深度学习各种经典的网络结构以及训练好的模型 。
3):常用的数据集处理操作,主要是对和PIL Image的操作 。
4)utils:包含两个函数,一个是,它能将多张图片拼接在一个网格中;另一个是,它能将保存为图片 。
2、utils.data
utils.data包括和 。torch.utils.data.为抽象类 。自定义数据集需要继承这个类 , 并实现两个函数,,,前者能让我们获取数据集的大?。?后者通过索引获取data和label 。一次只能获取一个数据 , 所以需要定义一个迭代器,实现batch(批)读取 。
示例如下:
#1)导入所需模块import torchfrom torch.utils import dataimport numpy as np#2)定义获取数据的类 , 继承Datasetclass TestDataset(data.Dataset):def __init__(self):self.Data = http://www.kingceram.com/post/np.asarray([1,2],[3,4],[2,1],[3,4],[4,5])#以作数据self.Label = np.asarray([0,1,0,1,2])def __getitem__(self,index):#numpy转换为tensordata=torch.from_numpy(self.Data[index])label=torch.tensor(self.Label[index])return data,labeldef __len__(self):return len(self.Data)Test = TestDataset()print(Test[2])#调用getitemprint(Test.__len__())
以上只能一次返回一个样本,因此在实际应用中 , 只负责数据的抽取 。如果希望批量处理等操作 , 可选用 。
data.DataLoader(dataset,#加载数据集batch_size=1,#一次批量处理的大小shuffle=False,#是否将数据打乱sampler=None,#样本抽样batch_sampler=None,num_workers=0,#使用多进程加载的进程数,0代表不使用多线程collate_fn=,#样本数据的拼接方式,一般使用默认拼接方式即可pin_memory=False,#是否将数据保存在pin_memory区,它传入到GPU会较快drop_last=False,#将不足一个batch的数据丢弃timeout=0,work_init_fn=None,}
一般使用处理同一个目录下的数据 。如果数据不在同一目录下,因为不同的目录代表不同的类别(普遍情况),使用来处理很不方便 。但可以使用另一种可视化工具()就极为方便 。
3、
有四个功能模块:model、、和utils 。
1、
PyTorch数据处理工具箱utils

文章插图
提供了对PIL Image对象和对象的常用操作 。
2、
当文件依据标签处于不同文件下时,我们可以利用..来构造出,如下:
loader = datasets.ImageFolder(path)loader = data.DataLoader(dataset)
会将目录中文件夹名自动转化成序列,当载入时 , 标签自动成整数数列了 。
4、(可视化工具)
1)安装:
pip install tensorboardX
2)导入,实例化 类,指明记录日志路径等信息 。
from tensorboardX import SummaryWriter#实例化Summary Writer,并指明日志存放路径 。在当前目录没有logs则自动创建writer = SummaryWriter(log_dir='logs')#画一个y=sin(x)for i in range(100):writer.add_scalar("y=sinx",sin(i),i)writer.close()
【PyTorch数据处理工具箱utils】在命令行下输入
#读入文件夹数据,接口默认为6006#点击6006打开网页 , 即可出现可视化数据tensorboard --logdir=logs --port 6006
出现如下图像:
显然可在可视化loss等数据方面应用 。
下一期我们介绍在可视化神经网络与可视化图像方面的应用 。