首页電腦硬體

猴版計算卡實錘2080TIFP16計算速度比1080TI塊65%

漆黑之劍2018-09-29 21:59
https://lambdalabs.com/blog/2080-ti-deep-learning-benchmarks/

  • The RTX 2080 Ti’s single-precision (FP32) training of CNNs with TensorFlow is between 27% and 45% faster than the 1080 Ti for measured networks.
  • The RTX 2080 Ti’s half-precision (FP16) training of CNNs with TensorFlow is between 60% and 65% faster than the 1080 Ti for measured networks.
  • If you do FP16 training, the RTX 2080 Ti is probably worth the extra money. If you don't, then you'll need to consider whether a 71% increase in cost is worth an average of 36% increase in performance.


FP32比1080TI快27~45%,FP16塊60~65%

共有回复 20 条
2018-09-29 22:07aibo
GP102又沒有FP16,勝之不武
2018-09-29 22:20zzz09700
唔,果然這個Tensor Core比V100上的差瞭好多?
然後759.99x1.65=1253.98
這還是被機器狗說勝之不武的FP16上場懟的打法…嗯…

1080Ti成功續瞭自己一代?
2018-09-29 22:30hhu88
@zzz09700
你為啥管他叫機器狗娃,多難聽呀。^-^
2018-09-29 22:36醉酒棕熊
@hhu88
^-^
那叫什麼
2018-09-29 22:39hhu88
@醉酒棕熊
愛波醬^-^

你看我,權天使瞭^-^
2018-09-29 23:13我輩樹である
@zzz09700
這個明顯不是用tensor core跑的。就是普通sp對決,1080ti沒雙倍半精度。

要是用tensor core跑差距最少是5x以上。
2018-09-29 23:47zzz09700
@我輩樹である
^-^ 來,坐等樹導師的5x測評
2018-09-30 00:00漆黑之劍
@我輩樹である
原帖method那裡說瞭

The 2080 Ti does have tensor cores which are used in this benchmark.
2018-09-30 00:45我輩樹である
@漆黑之劍
它用的這個腳本
https://github.com/u39kun/deep-learning-benchmark

也是一樣的,如果半精度隻是單精度的一倍,那普通sp就能達到。跟我在測的不一樣。
2018-09-30 00:46我輩樹である
@zzz09700
沒卡。。。
2018-09-30 00:50我輩樹である
它這個網絡也是個最原始的網絡,resnet根本不適合做半精度運算,它就用的論文發佈的結構測的,resnet highway部分不能用半精度,必須單精度,否則會梯度消失。需要改造。

這個測試隨便看一下就一堆問題,真的用上瞭tensor core沒我感到懷疑。
我下下來看瞭下源碼沒跑,算看明白瞭,它的確用瞭tensor core,但隻是網絡中的很小一部分,因為他們用的是標準構型的resnet。

假設tensorflow 1.11已經自帶“盡可能適用tensor core”的功能瞭,但網絡中還是有一大部分是無法利用tensor core的。
resnet是可以完全適用tensor core的,但需要對網絡進行改造,這個去年我們實驗室就做過幾個網絡的半精度改造。使用各種precision refine的方式展開高精度計算,這個測試中明顯沒有做這個。

所以應該是用瞭tensor core,但整個訓練流程中隻有一小部分使用瞭,這才能解釋為什麼性能這麼低,提速比可能甚至比不上直接用雙倍半精度的sp來算。

2018-09-30 00:54漆黑之劍
@我輩樹である
我定瞭塊2080TI到瞭你拿程序來我來跑
2018-09-30 01:02我輩樹である
@漆黑之劍
你如果有卡可以自己用cuda寫程序,不要用框架,否則不知道哪裡用沒用tensor core。
2018-09-30 01:13我輩樹である
這些測試都太曖昧瞭,到底哪裡用瞭tensor core占比多少都沒說清楚。
如果算上tensor core,在半精度訓練上隻高這麼點,那2080ti真是涼瞭,遠比不上titan v。
2018-10-01 11:03yehaku
關鍵還是要看每瓦特算力有沒提升
2018-10-01 12:49Dudayev
@我輩樹である
看瞭下文章裡的鏈接,benchmark是tensorflow自帶的benchmark改的
僅僅有限地茲磁瞭FP16訓練,基本沒考慮TensorCore
除非cuDNN哪天更新瞭能讓老的代碼都能用上
2018-10-01 12:52我輩樹である
@Dudayev
這個lamdalabs是個賣整機的廠商,不是什麼實驗室。別被騙瞭。

說實話2080ti訓練效率低可以預期,但這麼低還是超出瞭我的想象。如果就這效率,2080ti就是張推理卡。
2018-10-01 13:22Dudayev
@我輩樹である
看瞭眼那個測試腳本自帶的測試成績,2080TI 和 Tesla V100相比,訓練Resnet-152速度沒差多少,VGG差距稍微大一些也沒超出預期
可能腳本的代碼也會有影響,我自己復現的shufflenet v2精度和paper裡差不多,速度慢瞭很多


2018-10-01 13:27我輩樹である
@Dudayev
你這是v100的麼?

我手上有resnet 50 101 152的半精度改造後的網絡,這幾天我也用它的代碼測下。
2018-10-01 13:36Dudayev
@我輩樹である
測試腳本的github上的,或許TF1.5有點老
第 1 页 / 共 1 页