PyTorch面试精华


1 PyTorch全局设置

    1.1  全局设置当前设备

    1.2  全局设置浮点精度

    1.3  设置控制台输出格式

2 向量与梯度之核心

    2.1  Tensor的组成与存储

    2.2  Tensor的grad属性

    2.3  Tensor内存布局的调整

    2.4  Tensor的叠加

    2.5  禁用梯度计算

    2.6  向量的保存和加载

    2.7  梯度消失与梯度爆炸

3 神经网络基础

    3.1  线性网络的参数以及初始化

    3.2  PyTorch计算图

    3.3  查看网络权重参数

    3.4  保存模型

    3.5  Adam相关面试题

    3.6  ReLu与非线性的理解

    3.7  Train模式和Eval模式

    3.8  线性网络

    3.9  双线性网络

    3.10  惰性线性层

    3.11  参数向量

    3.12  叶子节点

    3.13  自动求导与链式求导

    3.14  Dropout机制

    3.15  detach原理

    3.16  半精度训练

    3.17  Xavier初始化

    3.18  通道的深刻理解

    3.19  1x1卷积的作用

    3.20  注意力机制

    3.21  requires_grad属性

    3.22  向量的device

    3.23  tensor与numpy互换

    3.24  DataParallel用法详解

    3.25  to(device)和.cuda()的区别

    3.26  Dataset数据处理

    3.27  StepLR学习率调度器

    3.28  词嵌入的理解

    3.29  特征提取和可视化

    3.30  TensorDataset的使用

自动求导与链式求导

创建时间:2024-09-10 | 更新时间:2024-09-10 | 阅读次数:1021 次

1、PyTorch自动求导代码

import torch

input = torch.ones([2, 2], requires_grad=False)
w1 = torch.tensor(2.0, requires_grad=True)
w2 = torch.tensor(3.0, requires_grad=True)
w3 = torch.tensor(4.0, requires_grad=True)

l1 = input * w1
l2 = l1 + w2
l3 = l1 * w3
l4 = l2 * l3
loss = l4.mean()

loss.backward()

print(w1.grad, w2.grad, w3.grad)

结果为:

tensor(28.) tensor(8.) tensor(10.)

2、PyTorch自动求导的计算图

注意:图中的圆形表示操作符,因为执行操作符之后必定会出现一个中间结果,所以圆形代表操作符和操作数(中间结果)。中间结果非用户生成,属于非叶子节点。而方框表示的操作数为叶子节点。

3、链式求导计算公式

$ l_1 = w_1 $

$ l_2 = w_1 + w_2$

$ l_3 = w_1w_3$

$ l_4 = l_2 * l_3 = (w_1 + w_2) * w_1w_3 = {w_1}^2w_3 + w_1w_2w_3$

$ \frac{ \partial l_4 }{\partial w_1} = 2w_1w_3 + w_2w_3 = 28 $

$ \frac{ \partial l_4 }{\partial w_2} = w_1w_3 = 8 $

$ \frac{ \partial l_4 }{\partial w_3} = {w_1}^2 + w_1w_2 = 10 $

4、detach 原理

import torch

input = torch.ones([2, 2], requires_grad=False)
w1 = torch.tensor(2.0, requires_grad=True)
w2 = torch.tensor(3.0, requires_grad=True)
w3 = torch.tensor(4.0, requires_grad=True)

l1 = input * w1
l2 = l1 + w2
l3 = l1 * w3
l3 = l3.detach()
l4 = l2 * l3
loss = l4.mean()
loss.backward()

print("w1.grad:", w1.grad, "\nw2.grad:", w2.grad, "\nw3.grad:", w3.grad)

结果为:

w1.grad: tensor(8.)
w2.grad: tensor(8.)
w3.grad: None

代码分析:

根据链式求导公式以及上文3小节得到的变量关系,可以推导出:

$ \frac{ \partial l_4 }{\partial w_1} = \frac{ \partial l_4 }{\partial l_2} * \frac{ \partial l_2 }{\partial w_1} = \frac{ \partial (l_2 * l_3) }{\partial l_2} * \frac{ \partial (w_1+w_2) }{\partial w_1} = l_3 * 1 = w_1w_3 = 8$

$ \frac{ \partial l_4 }{\partial w_2} = \frac{ \partial l_4 }{\partial l_2} * \frac{ \partial l_2 }{\partial w_2} = \frac{ \partial (l_2 * l_3) }{\partial l_2} * \frac{ \partial (w_1+w_2) }{\partial w_2} = l_3 * 1 = w_1w_3 = 8$

至此,我们可以得到:w1.grad的值为tensor(8.)w2.grad的值也是tensor(8.)

本教程共40节,当前为第23节!