人人都在谈AI，大模型框架中的 RNG（随机数生成器）

老王两点中 2025-02-26

在大模型训练和推理过程中，随机数生成器（RNG, Random Number Generator）是一个非常重要的组成部分。它用于初始化权重、数据增强、采样等任务，直接影响模型的训练过程和最终结果。以下是对大模型框架中 RNG 的详细介绍。

1. RNG 的作用

在深度学习和大模型框架中，RNG 主要用于以下几个方面：

• 权重初始化

神经网络的初始权重通常从某种随机分布中采样（如正态分布或均匀分布），这需要使用 RNG。

• 数据增强

在训练过程中，数据增强技术（如随机裁剪、翻转、旋转等）依赖 RNG 来生成随机参数。

• 随机采样

例如，在强化学习中进行动作采样，或者在自回归生成模型中进行词元采样。

• Dropout 和其他正则化技术

Dropout 随机丢弃神经元以防止过拟合，这也需要 RNG。

• 分布式训练中的同步

在分布式训练中，确保不同设备上的随机性一致（即种子相同）是关键。

2. RNG 的类型

根据生成随机数的方式，RNG 可以分为以下几种类型：

1. 伪随机数生成器

（PRNG, Pseudo-Random Number Generator）

• 基于确定性算法生成看似随机的数列。

• 常见算法包括线性同余法（LCG）、Mersenne Twister 等。

• 在深度学习中广泛使用，因为它们速度快且可重复（通过固定种子实现）。

2. 真随机数生成器

（TRNG, True Random Number Generator）

• 利用物理过程（如热噪声、量子效应）生成真正的随机数。

• 虽然更随机，但在深度学习中较少使用，因为速度较慢且不可重复。

3. RNG 在大模型框架中的实现

主流的大模型框架（如 PyTorch、TensorFlow、JAX 等）都提供了对 RNG 的支持，以下是具体实现方式：

1. PyTorch

PyTorch 提供了多层 RNG 控制机制，主要包括以下内容：

(1) 全局 RNG

• 使用 torch.manual_seed(seed) 设置全局随机种子。

• 影响所有基于 PyTorch 的随机操作（如权重初始化、torch.randn 等）。

(2) CUDA RNG

• 对于 GPU 上的操作，需要单独设置 CUDA RNG 种子：

torch.cuda.manual_seed(seed)
复制

(3) 独立 RNG

•如果需要为某些特定操作创建独立的 RNG，可以使用 torch.Generator：

gen = torch.Generator()
gen.manual_seed(seed)
x = torch.randn(3, generator=gen)
复制

2. TensorFlow

TensorFlow 提供了类似的 RNG 控制机制：

(1) 全局 RNG

• 使用 tf.random.set_seed(seed) 设置全局随机种子。

• 影响所有 TensorFlow 操作的随机性。

(2) 操作级 RNG

• 某些操作（如 tf.random.normal）可以通过参数指定独立的种子：

x = tf.random.normal([3], seed=seed)
复制

(3) Stateless RNG

• TensorFlow 还支持无状态的 RNG，确保每次调用生成的结果完全一致：

x = tf.random.stateless_normal([3], seed=[seed1, seed2])
复制

3. JAX

JAX 是一种功能强大的深度学习框架，其 RNG 设计与其他框架略有不同：

(1) 显式 RNG 键

• JAX 不依赖全局 RNG，而是要求用户显式传递 RNG 键：

key = jax.random.PRNGKey(seed)
subkey1, subkey2 = jax.random.split(key)
x = jax.random.normal(subkey1, shape=(3,))
y = jax.random.uniform(subkey2, shape=(3,))
复制

(2) 优点

• 更加灵活和可控。

• 支持高效的并行计算。

4. RNG 的挑战与解决方案

1. 挑战

(1) 分布式训练中的同步问题

在分布式训练中，多个设备需要生成相同的随机数序列，否则会导致训练结果不一致。

(2) 性能问题

高质量的 RNG 算法可能带来额外的计算开销，尤其是在大规模模型中。

(3) 可重复性问题

某些情况下，即使设置了相同的种子，也可能由于框架内部实现的差异导致结果不一致。

2. 解决方案

(1) 分布式训练中的同步

• 使用全局种子初始化每个设备的 RNG，并确保所有设备的 RNG 更新一致。例如：

在 PyTorch 中可以使用 torch.distributed.broadcast 同步种子。

(2) 优化性能

• 使用更高效的 RNG 算法（如 Philox 或 Threefry），这些算法专为并行计算设计。

• 在 JAX 中，通过显式管理 RNG 键来避免不必要的 RNG 调用。

(3) 确保可重复性

• 固定所有相关的随机种子（包括 NumPy、Python 的种子）。

• 关闭非确定性操作（如 CuDNN 的非确定性算法）：

torch.backends.cudnn.deterministic = True
torch.backends.cudnn.benchmark = False
复制

5. 案例分析

（1）权重初始化

在大模型中，权重初始化的质量对收敛速度和最终性能至关重要。例如，在 Transformer 模型中，可以使用 Xavier 初始化或 Kaiming 初始化：

torch.nn.init.xavier_uniform_(module.weight, gain=torch.nn.init.calculate_gain('relu'))
复制

这里的随机数生成依赖于 RNG。

（2）数据增强

在图像分类任务中，数据增强通常涉及随机裁剪、翻转等操作：

transform = transforms.Compose([    
transforms.RandomResizedCrop(224),    
transforms.RandomHorizontalFlip(),   
transforms.ToTensor()
])
复制

这些操作都需要 RNG 提供随机性。

（3）Dropout

Dropout 是一种常用的正则化技术，随机丢弃神经元以减少过拟合：

dropout_layer = nn.Dropout(p=0.5)
output = dropout_layer(input_tensor)
复制

这里也依赖 RNG 决定哪些神经元被丢弃。

注意事项

种子管理：在分布式训练中，需要确保每个进程的随机数生成器独立且可复现。

随机性与确定性：虽然随机性有助于模型训练，但过度的随机性可能导致训练不稳定。因此，需要合理设置随机种子和随机性程度。

RNG 是大模型框架中不可或缺的一部分，它为深度学习提供了必要的随机性，同时保证了实验的可重复性和结果的一致性。不同的框架提供了多种 RNG 实现方式，开发者可以根据需求选择合适的工具和技术。未来，随着硬件加速和算法优化的发展，RNG 的性能和灵活性将进一步提升，为大模型的研究和应用提供更强的支持。

随机数 python随机数初始化框架

文章转载自老王两点中，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。

人人都在谈AI，大模型框架中的 RNG（随机数生成器）

评论