PyTorch 如何設(shè)置隨機(jī)數(shù)種子使結(jié)果可復(fù)現(xiàn)

草莓配可樂(lè) 2021-08-19 11:13:30 瀏覽數(shù) (5462)

反饋

由于在模型訓(xùn)練的過(guò)程中存在大量的隨機(jī)操作，使得對(duì)于同一份代碼，重復(fù)運(yùn)行后得到的結(jié)果不一致。因此，為了得到可重復(fù)的實(shí)驗(yàn)結(jié)果，我們需要對(duì)隨機(jī)數(shù)生成器設(shè)置一個(gè)固定的種子。這樣我們就得到了結(jié)果可復(fù)現(xiàn)的隨機(jī)數(shù)種子。

CUDNN

cudnn中對(duì)卷積操作進(jìn)行了優(yōu)化，犧牲了精度來(lái)?yè)Q取計(jì)算效率。如果需要保證可重復(fù)性，可以使用如下設(shè)置:

from torch.backends import cudnn
cudnn.benchmark = False            # if benchmark=True, deterministic will be False
cudnn.deterministic = True

不過(guò)實(shí)際上這個(gè)設(shè)置對(duì)精度影響不大，僅僅是小數(shù)點(diǎn)后幾位的差別。所以如果不是對(duì)精度要求極高，其實(shí)不太建議修改，因?yàn)闀?huì)使計(jì)算效率降低。

Pytorch

torch.manual_seed(seed)            # 為CPU設(shè)置隨機(jī)種子
torch.cuda.manual_seed(seed)       # 為當(dāng)前GPU設(shè)置隨機(jī)種子
torch.cuda.manual_seed_all(seed)   # 為所有GPU設(shè)置隨機(jī)種子

Python & Numpy

如果讀取數(shù)據(jù)的過(guò)程采用了隨機(jī)預(yù)處理(如RandomCrop、RandomHorizontalFlip等)，那么對(duì)python、numpy的隨機(jī)數(shù)生成器也需要設(shè)置種子。

import random
import numpy as np
random.seed(seed)
np.random.seed(seed)

Dataloader

如果dataloader采用了多線程(num_workers > 1), 那么由于讀取數(shù)據(jù)的順序不同，最終運(yùn)行結(jié)果也會(huì)有差異。

也就是說(shuō)，改變num_workers參數(shù)，也會(huì)對(duì)實(shí)驗(yàn)結(jié)果產(chǎn)生影響。

目前暫時(shí)沒有發(fā)現(xiàn)解決這個(gè)問(wèn)題的方法，但是只要固定num_workers數(shù)目（線程數(shù)）不變，基本上也能夠重復(fù)實(shí)驗(yàn)結(jié)果。

補(bǔ)充：pytorch 固定隨機(jī)數(shù)種子踩過(guò)的坑

1.初步固定

 def setup_seed(seed):
     torch.manual_seed(seed)
     torch.cuda.manual_seed_all(seed)
     torch.cuda.manual_seed(seed)
     np.random.seed(seed)
     random.seed(seed)
     torch.backends.cudnn.deterministic = True
     torch.backends.cudnn.enabled = False
     torch.backends.cudnn.benchmark = False
     #torch.backends.cudnn.benchmark = True #for accelerating the running
 setup_seed(2019)

2.繼續(xù)添加如下代碼：

tensor_dataset = ImageList(opt.training_list,transform)
def _init_fn(worker_id): 
    random.seed(10 + worker_id)
    np.random.seed(10 + worker_id)
    torch.manual_seed(10 + worker_id)
    torch.cuda.manual_seed(10 + worker_id)
    torch.cuda.manual_seed_all(10 + worker_id)
dataloader = DataLoader(tensor_dataset,                        
                    batch_size=opt.batchSize,     
                    shuffle=True,     
                    num_workers=opt.workers,
                    worker_init_fn=_init_fn)

3.在上面的操作之后發(fā)現(xiàn)加載的數(shù)據(jù)多次試驗(yàn)大部分一致了

但是仍然有些數(shù)據(jù)是不一致的，后來(lái)發(fā)現(xiàn)是pytorch版本的問(wèn)題，將原先的0.3.1版本升級(jí)到1.1.0版本，問(wèn)題解決

4.按照上面的操作后雖然解決了問(wèn)題

但是由于將cudnn.benchmark設(shè)置為False，運(yùn)行速度降低到原來(lái)的1/3，所以繼續(xù)探索，最終解決方案是把第1步變?yōu)槿缦?，同時(shí)將該部分代碼盡可能放在主程序最開始的部分，例如：

import torch
import torch.nn as nn
from torch.nn import init
import pdb
import torch.nn.parallel
import torch.nn.functional as F
import torch.backends.cudnn as cudnn
import torch.optim as optim
import torch.utils.data
from torch.utils.data import DataLoader, Dataset
import sys
gpu_id = "3,2"
os.environ["CUDA_VISIBLE_DEVICES"] = gpu_id
print('GPU: ',gpu_id)
def setup_seed(seed):
     torch.manual_seed(seed)
     torch.cuda.manual_seed_all(seed)
     torch.cuda.manual_seed(seed)
     np.random.seed(seed)
     random.seed(seed)
     cudnn.deterministic = True
     #cudnn.benchmark = False
     #cudnn.enabled = False

setup_seed(2019)

以上就是PyTorch設(shè)置隨機(jī)數(shù)種子使結(jié)果可復(fù)現(xiàn)的全部?jī)?nèi)容，希望能給大家一個(gè)參考，也希望大家多多支持W3Cschool。如有錯(cuò)誤或未考慮完全的地方，望不吝賜教。

Python

0 人點(diǎn)贊