PyTorch面试精华


1 PyTorch全局设置

    1.1  全局设置当前设备

    1.2  全局设置浮点精度

    1.3  设置控制台输出格式

2 向量与梯度之核心

    2.1  Tensor的组成与存储

    2.2  Tensor的grad属性

    2.3  Tensor内存布局的调整

    2.4  Tensor的叠加

    2.5  禁用梯度计算

    2.6  向量的保存和加载

    2.7  梯度消失与梯度爆炸

3 神经网络基础

    3.1  线性网络的参数以及初始化

    3.2  PyTorch计算图

    3.3  查看网络权重参数

    3.4  保存模型

    3.5  Adam相关面试题

    3.6  ReLu与非线性的理解

    3.7  Train模式和Eval模式

    3.8  线性网络

    3.9  双线性网络

    3.10  惰性线性层

    3.11  参数向量

    3.12  叶子节点

    3.13  自动求导与链式求导

    3.14  Dropout机制

    3.15  detach原理

    3.16  半精度训练

    3.17  Xavier初始化

    3.18  通道的深刻理解

    3.19  1x1卷积的作用

    3.20  注意力机制

    3.21  requires_grad属性

    3.22  向量的device

    3.23  tensor与numpy互换

    3.24  DataParallel用法详解

    3.25  to(device)和.cuda()的区别

    3.26  Dataset数据处理

    3.27  StepLR学习率调度器

    3.28  词嵌入的理解

    3.29  特征提取和可视化

    3.30  TensorDataset的使用

DataParallel用法详解

创建时间:2024-09-15 | 更新时间:2024-09-15 | 阅读次数:1013 次

在深度学习的实践中,由于数据集非常大,模型训练需要很长时间,为了解决这个问题,我们可以利用多个GPU并行计算来加速训练过程。torch.nn.DataParallel()是PyTorch提供的一个非常方便的工具,它可以让我们在多个GPU上并行训练模型。

1、DataParallel的原理

首先在指定的每张显卡上拷贝一份模型,然后将输入的数据分散到各张显卡上,计算梯度,然后回传到第一张显卡上,最后再对模型进行参数优化。

需要注意的是:第一张显卡的负载往往更高,但由于该方法集成度高,书写简便,使用仍十分广泛。

2、DataParallel参数介绍

torch.nn.DataParallel(module, device_ids=None, output_device=None, dim=0)
  • module:表示我们自定义的模型;

  • device_ids:表示我们用于训练的GPU device ids;

  • output_device:这个参数表示输出结果的device。而这最后一个参数output_device一般情况下是省略不写的,那么默认就是在device_ids[0],也就是第一块卡上,也就解释了为什么第一块卡的显存会占用的比其他卡要更多一些。

更多介绍请参考官网:https://pytorch.org/docs/stable/generated/torch.nn.DataParallel.html

3、DataParallel应用举例

# 第一步:将模型移动到GPU设备上
model = model.cuda(0) 

# 第二步:设置显卡id
device_ids = [0, 1]

# 第三步:拷贝模型副本到GPU 0和 GPU 1,因为GPU 0已经存在,不需要拷贝
model = torch.nn.DataParallel(model, device_ids=device_ids)

# 第四步:准备数据。因为所有数据都需要先放到指定的第一张显卡上才能进行多卡训练
data = data.cuda(0)

# 第五步:训练模型
output = model(data)

4、DataParallel底层流程

第一步:数据分割。DataParallel会自动将数据分割成多个部分,每个部分都会在一个GPU上进行处理。分割的方式取决于输入数据的形状和GPU的数量。

第二步:创建模型副本:在每个GPU上,都会创建一个模型的副本。这些副本共享相同的参数,但每个副本都独立地处理一部分输入数据。

第三步:结果合并:在所有GPU上的处理完成后,DataParallel会将结果合并成一个完整的输出。这个过程是自动的,我们不需要手动进行合并。

本教程共40节,当前为第34节!