為了提高pytorch的模型訓(xùn)練的效率,我們有時候會選擇放棄部分精度來換取運(yùn)算耗時的縮減。也就是說,在對精度要求不是那么高的情況下我們可以使用pytorch半精度網(wǎng)絡(luò)訓(xùn)練。但是在使用pytorch進(jìn)行半精度網(wǎng)絡(luò)訓(xùn)練的時候可能會出現(xiàn)一些問題,小編將這些問題進(jìn)行了一個總結(jié),各位小伙伴可以進(jìn)行參考。
用Pytorch1.0進(jìn)行半精度浮點型網(wǎng)絡(luò)訓(xùn)練需要注意下問題:
1、網(wǎng)絡(luò)要在GPU上跑,模型和輸入樣本數(shù)據(jù)都要cuda().half()
2、模型參數(shù)轉(zhuǎn)換為half型,不必索引到每層,直接model.cuda().half()即可
3、對于半精度模型,優(yōu)化算法,Adam我在使用過程中,在某些參數(shù)的梯度為0的時候,更新權(quán)重后,梯度為零的權(quán)重變成了NAN,這非常奇怪,但是Adam算法對于全精度數(shù)據(jù)類型卻沒有這個問題。
另外,SGD算法對于半精度和全精度計算均沒有問題。
還有一個問題是不知道是不是網(wǎng)絡(luò)結(jié)構(gòu)比較小的原因,使用半精度的訓(xùn)練速度還沒有全精度快。這個值得后續(xù)進(jìn)一步探索。
對于上面的這個問題,的確是網(wǎng)絡(luò)很小的情況下,在1080Ti上半精度浮點型沒有很明顯的優(yōu)勢,但是當(dāng)網(wǎng)絡(luò)變大之后,半精度浮點型要比全精度浮點型要快。
但具體快多少和模型的大小以及輸入樣本大小有關(guān)系,我測試的是要快1/6,同時,半精度浮點型在占用內(nèi)存上比較有優(yōu)勢,對于精度的影響尚未探究。
將網(wǎng)絡(luò)再變大些,epoch的次數(shù)也增大,半精度和全精度的時間差就表現(xiàn)出來了,在訓(xùn)練的時候。
補(bǔ)充:pytorch半精度,混合精度,單精度訓(xùn)練的區(qū)別amp.initialize
看代碼吧~
mixed_precision = True
try: # Mixed precision training https://github.com/NVIDIA/apex
from apex import amp
except:
mixed_precision = False # not installed
model, optimizer = amp.initialize(model, optimizer, opt_level='O1', verbosity=1)
為了幫助提高Pytorch的訓(xùn)練效率,英偉達(dá)提供了混合精度訓(xùn)練工具Apex。號稱能夠在不降低性能的情況下,將模型訓(xùn)練的速度提升2-4倍,訓(xùn)練顯存消耗減少為之前的一半。
文檔地址是:https://nvidia.github.io/apex/index.html
該 工具 提供了三個功能,amp、parallel和normalization。由于目前該工具還是0.1版本,功能還是很基礎(chǔ)的,在最后一個normalization功能中只提供了LayerNorm層的復(fù)現(xiàn),實際上在后續(xù)的使用過程中會發(fā)現(xiàn),出現(xiàn)問題最多的是pytorch的BN層。
第二個工具是pytorch的分布式訓(xùn)練的復(fù)現(xiàn),在文檔中描述的是和pytorch中的實現(xiàn)等價,在代碼中可以選擇任意一個使用,實際使用過程中發(fā)現(xiàn),在使用混合精度訓(xùn)練時,使用Apex復(fù)現(xiàn)的parallel工具,能避免一些bug。
默認(rèn)訓(xùn)練方式是 單精度float32
import torch
model = torch.nn.Linear(D_in, D_out)
optimizer = torch.optim.SGD(model.parameters(), lr=1e-3)
for img, label in dataloader:
out = model(img)
loss = LOSS(out, label)
loss.backward()
optimizer.step()
optimizer.zero_grad()
半精度 model(img.half())
接下來是混合精度的實現(xiàn),這里主要用到Apex的amp工具。
代碼修改為:
加上這一句封裝,
model, optimizer = amp.initialize(model, optimizer, opt_level=“O1”)
import torch
model = torch.nn.Linear(D_in, D_out).cuda()
optimizer = torch.optim.SGD(model.parameters(), lr=1e-3)
model, optimizer = amp.initialize(model, optimizer, opt_level="O1")
for img, label in dataloader:
out = model(img)
loss = LOSS(out, label)
# loss.backward()
with amp.scale_loss(loss, optimizer) as scaled_loss:
scaled_loss.backward()
optimizer.step()
optimizer.zero_grad()
實際流程為:調(diào)用amp.initialize按照預(yù)定的opt_level對model和optimizer進(jìn)行設(shè)置。在計算loss時使用amp.scale_loss進(jìn)行回傳。
需要注意以下幾點:
在調(diào)用amp.initialize之前,模型需要放在GPU上,也就是需要調(diào)用cuda()或者to()。
在調(diào)用amp.initialize之前,模型不能調(diào)用任何分布式設(shè)置函數(shù)。
此時輸入數(shù)據(jù)不需要在轉(zhuǎn)換為半精度。
在使用混合精度進(jìn)行計算時,最關(guān)鍵的參數(shù)是opt_level。他一共含有四種設(shè)置值:‘00',‘01',‘02',‘03'。實際上整個amp.initialize的輸入?yún)?shù)很多:
但是在實際使用過程中發(fā)現(xiàn),設(shè)置opt_level即可,這也是文檔中例子的使用方法,甚至在不同的opt_level設(shè)置條件下,其他的參數(shù)會變成無效。(已知BUG:使用‘01'時設(shè)置keep_batchnorm_fp32的值會報錯)
概括起來:
00相當(dāng)于原始的單精度訓(xùn)練。01在大部分計算時采用半精度,但是所有的模型參數(shù)依然保持單精度,對于少數(shù)單精度較好的計算(如softmax)依然保持單精度。02相比于01,將模型參數(shù)也變?yōu)榘刖取?/p>
03基本等于最開始實驗的全半精度的運(yùn)算。值得一提的是,不論在優(yōu)化過程中,模型是否采用半精度,保存下來的模型均為單精度模型,能夠保證模型在其他應(yīng)用中的正常使用。這也是Apex的一大賣點。
在Pytorch中,BN層分為train和eval兩種操作。
實現(xiàn)時若為單精度網(wǎng)絡(luò),會調(diào)用CUDNN進(jìn)行計算加速。常規(guī)訓(xùn)練過程中BN層會被設(shè)為train。Apex優(yōu)化了這種情況,通過設(shè)置keep_batchnorm_fp32參數(shù),能夠保證此時BN層使用CUDNN進(jìn)行計算,達(dá)到最好的計算速度。
但是在一些fine tunning場景下,BN層會被設(shè)為eval(我的模型就是這種情況)。此時keep_batchnorm_fp32的設(shè)置并不起作用,訓(xùn)練會產(chǎn)生數(shù)據(jù)類型不正確的bug。此時需要人為的將所有BN層設(shè)置為半精度,這樣將不能使用CUDNN加速。
一個設(shè)置的參考代碼如下:
def fix_bn(m):
classname = m.__class__.__name__
if classname.find('BatchNorm') != -1:
m.eval().half()
model.apply(fix_bn)
實際測試下來,最后的模型準(zhǔn)確度上感覺差別不大,可能有輕微下降;時間上變化不大,這可能會因不同的模型有差別;顯存開銷上確實有很大的降低。
小結(jié)
通過設(shè)置pytorch半精度網(wǎng)絡(luò)訓(xùn)練,可以提高pytorch的訓(xùn)練效率。以上為個人經(jīng)驗,希望能給大家一個參考,也希望大家多多支持W3Cschool。