PyTorch面试精华


1 PyTorch全局设置

    1.1  全局设置当前设备

    1.2  全局设置浮点精度

    1.3  设置控制台输出格式

2 向量与梯度之核心

    2.1  Tensor的组成与存储

    2.2  Tensor的grad属性

    2.3  Tensor内存布局的调整

    2.4  Tensor的叠加

    2.5  禁用梯度计算

    2.6  向量的保存和加载

    2.7  梯度消失与梯度爆炸

3 神经网络基础

    3.1  线性网络的参数以及初始化

    3.2  PyTorch计算图

    3.3  查看网络权重参数

    3.4  保存模型

    3.5  Adam相关面试题

    3.6  ReLu与非线性的理解

    3.7  Train模式和Eval模式

    3.8  线性网络

    3.9  双线性网络

    3.10  惰性线性层

    3.11  参数向量

    3.12  叶子节点

    3.13  自动求导与链式求导

    3.14  Dropout机制

    3.15  detach原理

    3.16  半精度训练

    3.17  Xavier初始化

    3.18  通道的深刻理解

    3.19  1x1卷积的作用

    3.20  注意力机制

    3.21  requires_grad属性

    3.22  向量的device

    3.23  tensor与numpy互换

    3.24  DataParallel用法详解

    3.25  to(device)和.cuda()的区别

    3.26  Dataset数据处理

    3.27  StepLR学习率调度器

    3.28  词嵌入的理解

    3.29  特征提取和可视化

    3.30  TensorDataset的使用

Adam相关面试题

创建时间:2024-09-03 | 更新时间:2024-09-03 | 阅读次数:1040 次

9.1、Adam简介

Adam 是一种可以替代传统随机梯度下降过程的一阶优化算法,它能基于训练数据迭代地更新神经网络权重。Adam 最开始是由 OpenAI 的 Diederik Kingma 和多伦多大学的 Jimmy Ba 在 2015 年 ICLR 论文(Adam: A Method for Stochastic Optimization)中提出的。该算法名为「Adam」,其并不是首字母缩写,也不是人名,它的名称来源于适应性矩估计(adaptive moment estimation)。

9.2、Adam优点介绍

在 Adam 提出之前,人们已经在使用像 Momentum 和 RMSProp 这样的优化算法来加速深度神经网络的训练过程。然而,这些算法各有优势和局限。Momentum 善于处理梯度的方向和大小,而 RMSProp 善于调整学习率以应对数据的稀疏性。Adam 的提出是为了结合这两种算法的优点,同时减少它们的缺点,提供一种更加鲁棒的优化解决方案。

9.3、Adam内部参数

Adam优化器在构建完成后,具备一个param_groups列表,这个列表包含了哪些变量需要更新,这些变量更新的学习率如何,这个属性列表可通过param_groups()方法获取。param_groups()方法返回一个list列表,它的每个元素都是一组独立的参数,以dict的方式进行存储,结构参见下图:

-param_groups    
    -0(dict)  # 第一组参数        
        params:        # 维护要更新的参数        
        lr:            # 该组参数的学习率               
        weight_decay:  # 该组参数的权重衰减系数     
    -1(dict)  # 第二组参数    
    -2(dict)  # 第三组参数    
    ...
class MyModel(nn.Module):
    def __init__(self):
        super().__init__()
        self.nn1 = nn.Linear(2, 3)
        self.nn2 = nn.Linear(3, 6)

    def forward(self, x):
        x = F.relu(self.nn1(x))
        return F.relu(self.nn2(x))

model = MyModel()

optimizer_Adam = torch.optim.Adam(model.parameters(), lr=0.1)

print(optimizer_Adam.param_groups())

结果为:

[
    {

        "params":   [Parameter containing:tensor([[-0.0386,  0.3979],
                            [ 0.2451, -0.5477],
                            [ 0.2848, -0.6663]], requires_grad=True),
                    Parameter containing:tensor([-0.6260,  0.6027,  0.0412], requires_grad=True), 
                    Parameter containing:tensor([[-0.2931, -0.3993,  0.1601],
                            [ 0.1608,  0.1821,  0.4538],
                            [ 0.3516, -0.4239, -0.5256],
                            [ 0.4598,  0.1838, -0.4019],
                            [-0.4469,  0.4455,  0.1316],
                            [-0.1232,  0.3769, -0.1184]], requires_grad=True),
                    Parameter containing:tensor([ 0.1404, -0.0542, -0.0085,  0.0995,  0.3741, -0.0223],requires_grad=True)], 
       "lr": 0.1, 
       "betas": (0.9, 0.999), 
       "eps": 1e-08, 
       "weight_decay": 0, 
       "amsgrad": False, 
       "maximize": False, 
       "foreach": None, 
       "capturable": False, 
       "differentiable": False, 
       "fused": None

    }

]

9.4、Adam高级用法

本教程共40节,当前为第15节!