有声,长生界辰东小说

主頁 > 知識庫 > 解決Pytorch半精度浮點型網(wǎng)絡訓練的問題

解決Pytorch半精度浮點型網(wǎng)絡訓練的問題

用Pytorch1.0進行半精度浮點型網(wǎng)絡訓練需要注意下問題：

1、網(wǎng)絡要在GPU上跑，模型和輸入樣本數(shù)據(jù)都要cuda().half()

2、模型參數(shù)轉換為half型，不必索引到每層，直接model.cuda().half()即可

3、對于半精度模型，優(yōu)化算法，Adam我在使用過程中，在某些參數(shù)的梯度為0的時候，更新權重后，梯度為零的權重變成了NAN，這非常奇怪，但是Adam算法對于全精度數(shù)據(jù)類型卻沒有這個問題。

另外，SGD算法對于半精度和全精度計算均沒有問題。

還有一個問題是不知道是不是網(wǎng)絡結構比較小的原因，使用半精度的訓練速度還沒有全精度快。這個值得后續(xù)進一步探索。

對于上面的這個問題，的確是網(wǎng)絡很小的情況下，在1080Ti上半精度浮點型沒有很明顯的優(yōu)勢，但是當網(wǎng)絡變大之后，半精度浮點型要比全精度浮點型要快。

但具體快多少和模型的大小以及輸入樣本大小有關系，我測試的是要快1/6，同時，半精度浮點型在占用內存上比較有優(yōu)勢，對于精度的影響尚未探究。

將網(wǎng)絡再變大些，epoch的次數(shù)也增大，半精度和全精度的時間差就表現(xiàn)出來了，在訓練的時候。

補充：pytorch半精度，混合精度，單精度訓練的區(qū)別amp.initialize

看代碼吧~

mixed_precision = True
try:  # Mixed precision training https://github.com/NVIDIA/apex
    from apex import amp
except:
    mixed_precision = False  # not installed

 model, optimizer = amp.initialize(model, optimizer, opt_level='O1', verbosity=1)

為了幫助提高Pytorch的訓練效率，英偉達提供了混合精度訓練工具Apex。號稱能夠在不降低性能的情況下，將模型訓練的速度提升2-4倍，訓練顯存消耗減少為之前的一半。

文檔地址是：https://nvidia.github.io/apex/index.html

該工具提供了三個功能，amp、parallel和normalization。由于目前該工具還是0.1版本，功能還是很基礎的，在最后一個normalization功能中只提供了LayerNorm層的復現(xiàn)，實際上在后續(xù)的使用過程中會發(fā)現(xiàn)，出現(xiàn)問題最多的是pytorch的BN層。

第二個工具是pytorch的分布式訓練的復現(xiàn)，在文檔中描述的是和pytorch中的實現(xiàn)等價，在代碼中可以選擇任意一個使用，實際使用過程中發(fā)現(xiàn)，在使用混合精度訓練時，使用Apex復現(xiàn)的parallel工具，能避免一些bug。

默認訓練方式是單精度float32

import torch
model = torch.nn.Linear(D_in, D_out)
optimizer = torch.optim.SGD(model.parameters(), lr=1e-3)
for img, label in dataloader:
 out = model(img)
 loss = LOSS(out, label)
 loss.backward()
 optimizer.step()
 optimizer.zero_grad()

半精度 model(img.half())

import torch
model = torch.nn.Linear(D_in, D_out).half()
optimizer = torch.optim.SGD(model.parameters(), lr=1e-3)
for img, label in dataloader:
 out = model(img.half())
 loss = LOSS(out, label)
 loss.backward()
 optimizer.step()
 optimizer.zero_grad()

接下來是混合精度的實現(xiàn)，這里主要用到Apex的amp工具。

代碼修改為：

加上這一句封裝，

model, optimizer = amp.initialize(model, optimizer, opt_level=“O1”)

import torch
model = torch.nn.Linear(D_in, D_out).cuda()
optimizer = torch.optim.SGD(model.parameters(), lr=1e-3)
model, optimizer = amp.initialize(model, optimizer, opt_level="O1")

for img, label in dataloader:
 out = model(img)
 loss = LOSS(out, label)
 # loss.backward()
 with amp.scale_loss(loss, optimizer) as scaled_loss:
     scaled_loss.backward()

 optimizer.step()
 optimizer.zero_grad()

實際流程為：調用amp.initialize按照預定的opt_level對model和optimizer進行設置。在計算loss時使用amp.scale_loss進行回傳。

需要注意以下幾點：

在調用amp.initialize之前，模型需要放在GPU上，也就是需要調用cuda()或者to()。

在調用amp.initialize之前，模型不能調用任何分布式設置函數(shù)。

此時輸入數(shù)據(jù)不需要在轉換為半精度。

在使用混合精度進行計算時，最關鍵的參數(shù)是opt_level。他一共含有四種設置值：‘00'，‘01'，‘02'，‘03'。實際上整個amp.initialize的輸入?yún)?shù)很多：

但是在實際使用過程中發(fā)現(xiàn)，設置opt_level即可，這也是文檔中例子的使用方法，甚至在不同的opt_level設置條件下，其他的參數(shù)會變成無效。（已知BUG：使用‘01'時設置keep_batchnorm_fp32的值會報錯）

概括起來：

00相當于原始的單精度訓練。01在大部分計算時采用半精度，但是所有的模型參數(shù)依然保持單精度，對于少數(shù)單精度較好的計算（如softmax）依然保持單精度。02相比于01，將模型參數(shù)也變?yōu)榘刖取?/p>

03基本等于最開始實驗的全半精度的運算。值得一提的是，不論在優(yōu)化過程中，模型是否采用半精度，保存下來的模型均為單精度模型，能夠保證模型在其他應用中的正常使用。這也是Apex的一大賣點。

在Pytorch中，BN層分為train和eval兩種操作。

實現(xiàn)時若為單精度網(wǎng)絡，會調用CUDNN進行計算加速。常規(guī)訓練過程中BN層會被設為train。Apex優(yōu)化了這種情況，通過設置keep_batchnorm_fp32參數(shù)，能夠保證此時BN層使用CUDNN進行計算，達到最好的計算速度。

但是在一些fine tunning場景下，BN層會被設為eval（我的模型就是這種情況）。此時keep_batchnorm_fp32的設置并不起作用，訓練會產(chǎn)生數(shù)據(jù)類型不正確的bug。此時需要人為的將所有BN層設置為半精度，這樣將不能使用CUDNN加速。

一個設置的參考代碼如下：

def fix_bn(m):
 classname = m.__class__.__name__
    if classname.find('BatchNorm') != -1:
     m.eval().half()

model.apply(fix_bn)

實際測試下來，最后的模型準確度上感覺差別不大，可能有輕微下降；時間上變化不大，這可能會因不同的模型有差別；顯存開銷上確實有很大的降低。

以上為個人經(jīng)驗，希望能給大家一個參考，也希望大家多多支持腳本之家。

您可能感興趣的文章:

PyTorch梯度裁剪避免訓練loss nan的操作
pytorch訓練神經(jīng)網(wǎng)絡爆內存的解決方案
Pytorch訓練模型得到輸出后計算F1-Score 和AUC的操作
pytorch加載預訓練模型與自己模型不匹配的解決方案
Pytorch訓練網(wǎng)絡過程中l(wèi)oss突然變?yōu)?的解決方案
pytorch 如何使用float64訓練

標簽：常德黑龍江潛江銅川呂梁通遼阿里株洲

巨人網(wǎng)絡通訊聲明：本文標題《解決Pytorch半精度浮點型網(wǎng)絡訓練的問題》，本文關鍵詞解決,Pytorch,半,精度,浮點型,；如發(fā)現(xiàn)本文內容存在版權問題，煩請?zhí)峁┫嚓P信息告之我們，我們將及時溝通與處理。本站內容系統(tǒng)采集于網(wǎng)絡，涉及言論、版權與本站無關。