深度学习硬件指南,解析我的DL调试专用机NUC12飞龙峡谷+RTX3060/RX6800蔡徐坤C女士事件持续发酵!牵涉5位顶流,更多内幕曝光!

2023-07-01 0 1,077

作者:HudenJear

那次如是说了些小的NUC12 extreme i7,这次就而言说那个电脑的具体用途,即使目地还是广度自学,因此就别忘了聊一聊广度自学的硬体优先选择。通常谈起广度自学单厢预设想不到服务器,而后想不到CUDA,专精卡。这么想倒是要说,但广度自学并并非二来就上伺服器起跑,也并非当然只能用CUDA,更不全然专精卡

概要

通常而言,增容所须要的天数和跑训练的天数基本上是通常说来,因此不确保邻近地区标识符能跑通,直接上伺服器也没有什么用,反复上载节约的天数心力更多。因此通常做广度自学开发会准备三台电脑,两台是主力伺服器,那个通常都是单位或是老板固定承租,要个人拥有这样的伺服器至少须要20W的预算,因此不包括控制室的环境管理成本,该些如果是学生或是打工人千万别自己念旧了。N57Cpp电脑就是邻近地区增容机,这台电脑的主要作用就是保持和伺服器的程序代码基本上一致,在邻近地区即刻增容标识符获得意见反馈。这电脑大部分天数都是大白天PT5716SB0模式改标识符找bug,确保上载伺服器的标识符只须要简单四条命令就能起跑,不会跑一半收起得不偿失

显示卡优先选择上也并并非当然的CUDA,即使AMD的ROCm 5.x更新之后也是比较称心,安装比CUDA更为快捷一些,RX6800和RX6800XT之于的RX显示卡也能进行广度自学

至于专精卡那个问题,我十分不推荐只搞广度自学的朋友买专精卡,专精卡最大特点是管大管够的双精确度和驱动支持,但对于广度自学这种日常单精确度甚至半精确度的应用而言,专精卡的特长基本上就只有大显卡一点了。而Geforce和RX这些磁碟机都是能广度自学的。

深度学习硬件指南,解析我的DL调试专用机NUC12飞龙峡谷+RTX3060/RX6800蔡徐坤C女士事件持续发酵!牵涉5位顶流,更多内幕曝光!
深度学习硬件指南,解析我的DL调试专用机NUC12飞龙峡谷+RTX3060/RX6800蔡徐坤C女士事件持续发酵!牵涉5位顶流,更多内幕曝光!
广告
可御可甜 有颜有料 惩处整蛊当当 >>进入北京人民广播电台与主持人亲密无间交互
×

硬体如是说

PS3部分是那次买的intel NUC12 Extreme Kit,那个电脑有十分不错的IO能力,显示卡也兼容300mm双槽显示卡,公版卡自然是不在话下

深度学习硬件指南,解析我的DL调试专用机NUC12飞龙峡谷+RTX3060/RX6800蔡徐坤C女士事件持续发酵!牵涉5位顶流,更多内幕曝光!
深度学习硬件指南,解析我的DL调试专用机NUC12飞龙峡谷+RTX3060/RX6800蔡徐坤C女士事件持续发酵!牵涉5位顶流,更多内幕曝光!
广告
美女秀场 真人直播 >>进入北京人民广播电台与主持人亲密无间交互
×

桌面的使用面积并不算大,总体积8.4L,跟大一点的ITX差不多,但更修长,对比了一下15寸的电脑,长度上是差不多的

深度学习硬件指南,解析我的DL调试专用机NUC12飞龙峡谷+RTX3060/RX6800蔡徐坤C女士事件持续发酵!牵涉5位顶流,更多内幕曝光!
深度学习硬件指南,解析我的DL调试专用机NUC12飞龙峡谷+RTX3060/RX6800蔡徐坤C女士事件持续发酵!牵涉5位顶流,更多内幕曝光!

这一代NUC12 飞鹰山谷用的是桌面级CPU,i7版本是12700,在i9版本上的10G网卡也保留了下来,十分适合一个网线插主路由下面,上载数据十分快。背部的两个type-C都是TB4的接口,扩展接口或是接显示器都是可以的。正面的4个接口涵盖也比较广,我的相机用的也是SD卡,因此NUC12那个卡槽也还用得上

深度学习硬件指南,解析我的DL调试专用机NUC12飞龙峡谷+RTX3060/RX6800蔡徐坤C女士事件持续发酵!牵涉5位顶流,更多内幕曝光!
深度学习硬件指南,解析我的DL调试专用机NUC12飞龙峡谷+RTX3060/RX6800蔡徐坤C女士事件持续发酵!牵涉5位顶流,更多内幕曝光!
深度学习硬件指南,解析我的DL调试专用机NUC12飞龙峡谷+RTX3060/RX6800蔡徐坤C女士事件持续发酵!牵涉5位顶流,更多内幕曝光!

拆机,之前用来增容的是一张华硕的RTX3060dual mini o12G,这张卡是比较典型的ITX显示卡,因此在机箱里面显得比较空。

深度学习硬件指南,解析我的DL调试专用机NUC12飞龙峡谷+RTX3060/RX6800蔡徐坤C女士事件持续发酵!牵涉5位顶流,更多内幕曝光!
深度学习硬件指南,解析我的DL调试专用机NUC12飞龙峡谷+RTX3060/RX6800蔡徐坤C女士事件持续发酵!牵涉5位顶流,更多内幕曝光!

很多朋友一直有个误区,就是觉得搞广度自学一定得用很高端的显卡,然而实际上只要是支持CUDA就能搞。不须要训练的话,对性能的需求并不算很高,因此作为增容机,并非主力训练机的话,实际上显卡的需求比性能更重要。即使广度自学训练的显卡压力来自两个方面,一个是模型参数,一个是tensor缓存,这两者单厢随着模型参数和输入规模增大而急剧膨胀。通常要增容肯定会要求模型和输入与主力训练机上的一致,这样不容易出NaN bug,因此面对显卡数倍于增容机的时候,买一张显卡足够容纳常规模型的显示卡还挺关键的。

A卡的磁碟机这边显卡倒是给的很大方,4000多的RX6800都有16G显卡,如果用ROCm的话就能获得那个优势。而N卡的细分就要难受很多,RTX3060 12GB显卡属于是与性能不匹配的大狂牛级,反而造就了他在广度自学方面的些许优势。与之相比,要获得12G显卡在Geforce产品线里至少要加钱一倍买3080 12GB,诸如3060Ti和3070这些8GB显示卡是没太大吸引力的。3090 24GB如果作为增容显示卡就有点太奢侈了,通常都当主力用。

如果要买专精卡,我的评价是建议先看看预算,即使专精卡买来那就是真专精用途,价格更贵游戏更卡,想清楚自己是并非确实须要专精卡带来的其他应用上的优势。首先AMD的Radeon WX是没有额外优势的,须要AMD的MI加速卡才是AI优化,那个卡通常是给主力训练机用的,新手拿着那个开机都是个问题。而N卡的RTX A2000的核心和显卡基本上和3060保持一致,但价格贵了一倍,广度自学用不太上Quadro的ECC显卡和专精bios,不过要是有其它专精卡需求的话是可以考虑的。RTX A4000 16GB在Quadro里是不错的优先选择,显存和性能都很够用,6000多的价格通常人咬咬牙也能承担。A5000和A6000更适合主力训练机,显卡大性能强,规格也适合伺服器机柜。因此专精卡相对而言更保值,可以参见Pascal的专精卡现在什么价,P6000 24GB降价这么久了还得一万一张,而同一代的TitanXp已经跌得马都不认识了

深度学习硬件指南,解析我的DL调试专用机NUC12飞龙峡谷+RTX3060/RX6800蔡徐坤C女士事件持续发酵!牵涉5位顶流,更多内幕曝光!
深度学习硬件指南,解析我的DL调试专用机NUC12飞龙峡谷+RTX3060/RX6800蔡徐坤C女士事件持续发酵!牵涉5位顶流,更多内幕曝光!
深度学习硬件指南,解析我的DL调试专用机NUC12飞龙峡谷+RTX3060/RX6800蔡徐坤C女士事件持续发酵!牵涉5位顶流,更多内幕曝光!
深度学习硬件指南,解析我的DL调试专用机NUC12飞龙峡谷+RTX3060/RX6800蔡徐坤C女士事件持续发酵!牵涉5位顶流,更多内幕曝光!
深度学习硬件指南,解析我的DL调试专用机NUC12飞龙峡谷+RTX3060/RX6800蔡徐坤C女士事件持续发酵!牵涉5位顶流,更多内幕曝光!

NUC12的计算板是独立导风罩,因此不用太担心散热,3条m.2+两个sodimm,装两个系统再放个数据盘也没什么问题

深度学习硬件指南,解析我的DL调试专用机NUC12飞龙峡谷+RTX3060/RX6800蔡徐坤C女士事件持续发酵!牵涉5位顶流,更多内幕曝光!
深度学习硬件指南,解析我的DL调试专用机NUC12飞龙峡谷+RTX3060/RX6800蔡徐坤C女士事件持续发酵!牵涉5位顶流,更多内幕曝光!
深度学习硬件指南,解析我的DL调试专用机NUC12飞龙峡谷+RTX3060/RX6800蔡徐坤C女士事件持续发酵!牵涉5位顶流,更多内幕曝光!

基本上测试

搞广度自学标识符增容的电脑的CPU性能要求其实不算很高,不用上HEDT或是伺服器CPU,桌面级主流性能的CPU就够了,i5 12400或是5600X都是挺正常的优先选择,我那个NUC12用的是12700。不过要跑大规模训练的话,建议按照每张卡4个CPU物理核心来配置CPU

深度学习硬件指南,解析我的DL调试专用机NUC12飞龙峡谷+RTX3060/RX6800蔡徐坤C女士事件持续发酵!牵涉5位顶流,更多内幕曝光!

增容机比较须要的是IO能力,确保随时能快速的从伺服器端下载数据,或是从邻近地区同步标识符到伺服器,带宽越大越舒服,延迟越低越舒服,现在通常电脑都有有线无线两张网卡,确保有线速度至少能达到千兆就好,NUC12 Extreme 的网卡是万兆的,10Gbytes的数据秒传还是十分舒服的

深度学习硬件指南,解析我的DL调试专用机NUC12飞龙峡谷+RTX3060/RX6800蔡徐坤C女士事件持续发酵!牵涉5位顶流,更多内幕曝光!
深度学习硬件指南,解析我的DL调试专用机NUC12飞龙峡谷+RTX3060/RX6800蔡徐坤C女士事件持续发酵!牵涉5位顶流,更多内幕曝光!

Windows广度自学?

win是目前应用最广的操作系统,有十分完善的图形界面,因此绝大部分游戏都只能在win上跑。如果你的广度自学增容需求十分轻度,只须要稍微改改标识符,或是目前还处于自学阶段的话,比较建议使用windows。在win上安装CUDA和装驱动没什么本质区别,在CUDA中是包含了一个验证驱动的,如果驱动版本更低建议更新CUDA的驱动,如果已经有更高版本的驱动就不用安装了。如果不使用VS,安装选项中的VS integration是可以取消的,那个组件在安装的时侯可能会收起

深度学习硬件指南,解析我的DL调试专用机NUC12飞龙峡谷+RTX3060/RX6800蔡徐坤C女士事件持续发酵!牵涉5位顶流,更多内幕曝光!
深度学习硬件指南,解析我的DL调试专用机NUC12飞龙峡谷+RTX3060/RX6800蔡徐坤C女士事件持续发酵!牵涉5位顶流,更多内幕曝光!

安装好了可以用软件检查一下是否正常,或是使用nvcc命令查看。而CUDNN可以自行安装,在增容机上属于是可选项

深度学习硬件指南,解析我的DL调试专用机NUC12飞龙峡谷+RTX3060/RX6800蔡徐坤C女士事件持续发酵!牵涉5位顶流,更多内幕曝光!
深度学习硬件指南,解析我的DL调试专用机NUC12飞龙峡谷+RTX3060/RX6800蔡徐坤C女士事件持续发酵!牵涉5位顶流,更多内幕曝光!

通常用的广度自学环境解决方案是pycharm+anaconda,这两个都是十分常用的软件,pycharm有社区版,也可以申请教育优惠,而anaconda则是免费的

深度学习硬件指南,解析我的DL调试专用机NUC12飞龙峡谷+RTX3060/RX6800蔡徐坤C女士事件持续发酵!牵涉5位顶流,更多内幕曝光!
深度学习硬件指南,解析我的DL调试专用机NUC12飞龙峡谷+RTX3060/RX6800蔡徐坤C女士事件持续发酵!牵涉5位顶流,更多内幕曝光!
深度学习硬件指南,解析我的DL调试专用机NUC12飞龙峡谷+RTX3060/RX6800蔡徐坤C女士事件持续发酵!牵涉5位顶流,更多内幕曝光!

装conda用pip乃是人间常态,不得不品尝

深度学习硬件指南,解析我的DL调试专用机NUC12飞龙峡谷+RTX3060/RX6800蔡徐坤C女士事件持续发酵!牵涉5位顶流,更多内幕曝光!

装好了就可以搞标识符开始跑了,标识符跑起来很简单,跑得好跑得快才是关键,这些都得靠不断地自学才能积累经验,没有谁是二来就会设计实验然后跑大规模训练的

深度学习硬件指南,解析我的DL调试专用机NUC12飞龙峡谷+RTX3060/RX6800蔡徐坤C女士事件持续发酵!牵涉5位顶流,更多内幕曝光!

win上的广度自学虽然操作系统更熟悉,因此安装也比较方便,但可惜的是win上的CUDA性能并并非最强的。首先win上就面临一个问题,那就是显卡占用,作为主力的显示卡会分出0.75G的显卡给桌面显示,某些程序还会占用更多的显卡,比如浏览器,这让本身就不富裕的显卡更显得捉襟见肘(要是只有8G显卡光是桌面就占了10%)。还有一个问题是win的内存调度问题,在多个进程同时调用某个内存位置的时候,win上的python有时候会主动再为那个内容开一个地址,这就导致广度自学中很多多进程处理过程速度单厢比linux上稍微慢一些

深度学习硬件指南,解析我的DL调试专用机NUC12飞龙峡谷+RTX3060/RX6800蔡徐坤C女士事件持续发酵!牵涉5位顶流,更多内幕曝光!

跑标识符有很多种方法,作为增容机,通常是推荐使用pycharm的debug模式,可以快速定位错误查看变量具体数值,标识符能跑通了再使用命令行

深度学习硬件指南,解析我的DL调试专用机NUC12飞龙峡谷+RTX3060/RX6800蔡徐坤C女士事件持续发酵!牵涉5位顶流,更多内幕曝光!
深度学习硬件指南,解析我的DL调试专用机NUC12飞龙峡谷+RTX3060/RX6800蔡徐坤C女士事件持续发酵!牵涉5位顶流,更多内幕曝光!

使用nvidia-smi命令查看使用情况,win上空间使用大的问题还是比较明显的,再linux上占用只有5.3G的模型win上须要7.7G,一些原本可以同时跑两个的模型现在只能跑一个了。某些朋友要问了,为什么要同时跑多个呢?即使广度自学过程中显示卡并并非100%占用的,除了训练阶段的IO阶段外,训练之间的val阶段占用也相当小,为了充分压榨显示卡性能,同时跑两个模型是可以考虑的一种方法

深度学习硬件指南,解析我的DL调试专用机NUC12飞龙峡谷+RTX3060/RX6800蔡徐坤C女士事件持续发酵!牵涉5位顶流,更多内幕曝光!
深度学习硬件指南,解析我的DL调试专用机NUC12飞龙峡谷+RTX3060/RX6800蔡徐坤C女士事件持续发酵!牵涉5位顶流,更多内幕曝光!

ROCm+Linux广度自学?

本来想吧NvCuda在Linux上的过程也写写的,但感觉太重复赘余了,除了安装过程有些不一样之外,其他基本上都是一样的,因此网上的教程大概有1000000个,各个版本都有,各种bug也都是老生常谈,因此我就省略了

那么下面那个环节讲什么?现在我们来聊聊AMD的最新科技,ROCm5.x。首先是支持,目前5.x的版本已经支持了包括RX6800XT,RX6800,RX6900XT的一系列显示卡,AMD也提供了一个AMDGPU管理软件,让ROCm的安装十分方便。而ROCm目前是只支持Linux的,要解决也十分简单,普普通通装个双系统就可以了(确信)。对于DL老鸟而言,装Linux双系统基本上如喝水,因此也并非什么问题了

深度学习硬件指南,解析我的DL调试专用机NUC12飞龙峡谷+RTX3060/RX6800蔡徐坤C女士事件持续发酵!牵涉5位顶流,更多内幕曝光!

NUC12的显示卡支持让RX6800公版正好能放进这机箱,十分合适,留给线的空间也很充足

深度学习硬件指南,解析我的DL调试专用机NUC12飞龙峡谷+RTX3060/RX6800蔡徐坤C女士事件持续发酵!牵涉5位顶流,更多内幕曝光!
深度学习硬件指南,解析我的DL调试专用机NUC12飞龙峡谷+RTX3060/RX6800蔡徐坤C女士事件持续发酵!牵涉5位顶流,更多内幕曝光!
深度学习硬件指南,解析我的DL调试专用机NUC12飞龙峡谷+RTX3060/RX6800蔡徐坤C女士事件持续发酵!牵涉5位顶流,更多内幕曝光!
深度学习硬件指南,解析我的DL调试专用机NUC12飞龙峡谷+RTX3060/RX6800蔡徐坤C女士事件持续发酵!牵涉5位顶流,更多内幕曝光!
深度学习硬件指南,解析我的DL调试专用机NUC12飞龙峡谷+RTX3060/RX6800蔡徐坤C女士事件持续发酵!牵涉5位顶流,更多内幕曝光!
深度学习硬件指南,解析我的DL调试专用机NUC12飞龙峡谷+RTX3060/RX6800蔡徐坤C女士事件持续发酵!牵涉5位顶流,更多内幕曝光!

简单说一下ROCm对系统和环境的优先选择。首先Linux上用AMD显示卡是不用装驱动的,Ubuntu上面集成了十分完善的AMD开源版本驱动,因此装好了就能识别,不用像Nv一样单独打驱动。而目前ROCm所支持的版本已经到了ubuntu 20.04 5.13.0,基本上就是最新的,十分不建议更新5.15.0,会在安装的时候遇到build bug

深度学习硬件指南,解析我的DL调试专用机NUC12飞龙峡谷+RTX3060/RX6800蔡徐坤C女士事件持续发酵!牵涉5位顶流,更多内幕曝光!

软件仍然优先选择Anaconda和Pycharm,这两者在Linux上的安装都是十分容易的,教程也很多,就不多赘述了,比较建议新装conda的用户换一下下载源

深度学习硬件指南,解析我的DL调试专用机NUC12飞龙峡谷+RTX3060/RX6800蔡徐坤C女士事件持续发酵!牵涉5位顶流,更多内幕曝光!

Linux上的conda环境是可以从同系统的conda中扒出来,比如那个环境就是直接从主力机上复制下来的,只需放到conda的环境文件中,就能像创建的系统一样通过命令激活,pycharm中也是能找到并使用的。还有一个比较建议装的东西是htop,有比较丰富的系统信息,查看CPU和RAM,查看GPU的可以用rocm-smi命令

深度学习硬件指南,解析我的DL调试专用机NUC12飞龙峡谷+RTX3060/RX6800蔡徐坤C女士事件持续发酵!牵涉5位顶流,更多内幕曝光!
深度学习硬件指南,解析我的DL调试专用机NUC12飞龙峡谷+RTX3060/RX6800蔡徐坤C女士事件持续发酵!牵涉5位顶流,更多内幕曝光!
深度学习硬件指南,解析我的DL调试专用机NUC12飞龙峡谷+RTX3060/RX6800蔡徐坤C女士事件持续发酵!牵涉5位顶流,更多内幕曝光!

下面简单说一说ROCm,那个东西是AMD所提出的一个开放式AI加速库,所有的标识符挂在github上面,十分开源,现在支持也算是比

深度学习硬件指南,解析我的DL调试专用机NUC12飞龙峡谷+RTX3060/RX6800蔡徐坤C女士事件持续发酵!牵涉5位顶流,更多内幕曝光!
深度学习硬件指南,解析我的DL调试专用机NUC12飞龙峡谷+RTX3060/RX6800蔡徐坤C女士事件持续发酵!牵涉5位顶流,更多内幕曝光!

而目前ROCm终于来到了5.x版本,终于支持了最新一代的RX6000系列的一些显示卡,支持速度并没有CUDA那么快,这也是没有商业化的加速库的问题之一

深度学习硬件指南,解析我的DL调试专用机NUC12飞龙峡谷+RTX3060/RX6800蔡徐坤C女士事件持续发酵!牵涉5位顶流,更多内幕曝光!

至于ROCm的速度,骑士那个是不用太担心的,早在几年之前还在Vega构架的时候,就能跟当代的P100有来有回,而后面的测试来看,现在RX6800也是十分有竞争力的,基本上和同级的显示卡持平

深度学习硬件指南,解析我的DL调试专用机NUC12飞龙峡谷+RTX3060/RX6800蔡徐坤C女士事件持续发酵!牵涉5位顶流,更多内幕曝光!

安装步骤大概如下:

首先确认自己的系统版本是否为ubuntu20.04 5.13.0-xx。不建议ubuntu18,目前5.x版本是跟着20版本来的,文档会更丰富一些。十分不建议更新5.15.0系统,即使ROCm对应的amdgpu dkms支持是5.13.0版本的,在5.15上会遇到bug,如果你更新了新版本内核,请直接删掉谢谢,别忘了把自动更新关了,做开发的Linux开自动更新真的没必要

其次是确认自己的apt-get是否已经更新,ROCm的依赖包含一些系统组件和编译器,须要自行安装build-essnetial,这一点和其他的加速库是一样的

然后使用下面这些命令(从文档里面抄的)

sudo apt update && sudo apt-get dist-upgrade (后面那个命令原本是sudo apt dist-upgrade,但会更新系统内核并导致bug因此改成了apt-get)

sudo apt-get install wget gnupg2 

sudo usermod -a -G video $LOGNAME

echo ADD_EXTRA_GROUPS=1 | sudo tee -a /etc/adduser.conf

echo EXTRA_GROUPS=video | sudo tee -a /etc/adduser.conf

echo EXTRA_GROUPS=render | sudo tee -a /etc/adduser.conf

sudo wget https://repo.radeon.com/amdgpu-install/22.10/ubuntu/focal/amdgpu-install_22.10.50100-1_all.deb

sudo apt-get install ./amdgpu-install_22.10.50100-1_all.deb

sudo amdgpu-install –usecase=dkms

amdgpu-install -y –usecase=rocm

sudo usermod -a -G video $LOGNAME

sudo usermod -a -G render $LOGNAME

echo ADD_EXTRA_GROUPS=1 | sudo tee -a /etc/adduser.conf

echo EXTRA_GROUPS=video | sudo tee -a /etc/adduser.conf

echo EXTRA_GROUPS=render | sudo tee -a /etc/adduser.conf

echo export PATH=$PATH:/opt/rocm/bin:/opt/rocm/profiler/bin:/opt/rocm/opencl/bin | sudo tee -a /etc/profile.d/rocm.sh

到这里安装就已经完成了,重启一下,使用rocm-smi以及rocminfo两个命令即可查看是否安装成功

深度学习硬件指南,解析我的DL调试专用机NUC12飞龙峡谷+RTX3060/RX6800蔡徐坤C女士事件持续发酵!牵涉5位顶流,更多内幕曝光!
深度学习硬件指南,解析我的DL调试专用机NUC12飞龙峡谷+RTX3060/RX6800蔡徐坤C女士事件持续发酵!牵涉5位顶流,更多内幕曝光!

接下来是安装广度自学平台,通常时使用的torch,现在torch已经更新了5.x的安装命令,可以直接从官网照抄,下载安装速度也是全满的,十分舒畅。如果要使用tensorflow,须要在官网上下载文件邻近地区安装。现在Torch的稳定版已经完全同步了ROCm的适配更新,因此老版本也是有留档的,不用担心跑扒下来的标识符自己的torch版本不支持

深度学习硬件指南,解析我的DL调试专用机NUC12飞龙峡谷+RTX3060/RX6800蔡徐坤C女士事件持续发酵!牵涉5位顶流,更多内幕曝光!
深度学习硬件指南,解析我的DL调试专用机NUC12飞龙峡谷+RTX3060/RX6800蔡徐坤C女士事件持续发酵!牵涉5位顶流,更多内幕曝光!

目前安装rocm预设使用的py310版本,因此在创建的时候可以直接创建3.10版本的程序代码,如果是已经创建好的环境,可在torch官网下载3.7-3.9的对应版本,然后执行邻近地区安装

深度学习硬件指南,解析我的DL调试专用机NUC12飞龙峡谷+RTX3060/RX6800蔡徐坤C女士事件持续发酵!牵涉5位顶流,更多内幕曝光!
深度学习硬件指南,解析我的DL调试专用机NUC12飞龙峡谷+RTX3060/RX6800蔡徐坤C女士事件持续发酵!牵涉5位顶流,更多内幕曝光!

还有一个可选的东西是MIOpen库,那个库可以加速ROCm的加载过程,降低延迟,提高对应型号显示卡的训练速度,跟CUDnn一样对于增容过程并非必须的。MIOpen和ROCm一样都是开源的,因此即使AMD只发布了支持GFX1030(也就是RX6800及以上的显示卡支持),但实际上可以通过自己改标识符来实现RX6700XT到RX6500XT的显示卡ROCm支持,这在某位知乎大神的操作下已经成为了现实

深度学习硬件指南,解析我的DL调试专用机NUC12飞龙峡谷+RTX3060/RX6800蔡徐坤C女士事件持续发酵!牵涉5位顶流,更多内幕曝光!
深度学习硬件指南,解析我的DL调试专用机NUC12飞龙峡谷+RTX3060/RX6800蔡徐坤C女士事件持续发酵!牵涉5位顶流,更多内幕曝光!

ROCm的具体使用如何呢?虽然显示卡完全不一样,但在torch里面为了使用方便,所有和rocm相关的东西都有cuda的同义对象,比如cuda.device之类的方法,即使之前的标识符中含有使用cuda的语句,也是可以直接起跑不须要再替换的

深度学习硬件指南,解析我的DL调试专用机NUC12飞龙峡谷+RTX3060/RX6800蔡徐坤C女士事件持续发酵!牵涉5位顶流,更多内幕曝光!

比如那个作为benchmark的标识符,标识符中也使用了大量cuda的方法,比如查询版本和cuda设备这些,都是可以不改标识符直接跑的

深度学习硬件指南,解析我的DL调试专用机NUC12飞龙峡谷+RTX3060/RX6800蔡徐坤C女士事件持续发酵!牵涉5位顶流,更多内幕曝光!

来看看RX6800的广度自学测试成绩

深度学习硬件指南,解析我的DL调试专用机NUC12飞龙峡谷+RTX3060/RX6800蔡徐坤C女士事件持续发酵!牵涉5位顶流,更多内幕曝光!
深度学习硬件指南,解析我的DL调试专用机NUC12飞龙峡谷+RTX3060/RX6800蔡徐坤C女士事件持续发酵!牵涉5位顶流,更多内幕曝光!

网络上还有一些其他显示卡跑出来的成绩,比如那个是单张A100的成绩

深度学习硬件指南,解析我的DL调试专用机NUC12飞龙峡谷+RTX3060/RX6800蔡徐坤C女士事件持续发酵!牵涉5位顶流,更多内幕曝光!

那个是RTX3090单张的成绩

深度学习硬件指南,解析我的DL调试专用机NUC12飞龙峡谷+RTX3060/RX6800蔡徐坤C女士事件持续发酵!牵涉5位顶流,更多内幕曝光!

那个是实现了ROCm支持的RX6700XT的成绩

深度学习硬件指南,解析我的DL调试专用机NUC12飞龙峡谷+RTX3060/RX6800蔡徐坤C女士事件持续发酵!牵涉5位顶流,更多内幕曝光!

下面两个是我自己在Linux上测的RTX3060的成绩

深度学习硬件指南,解析我的DL调试专用机NUC12飞龙峡谷+RTX3060/RX6800蔡徐坤C女士事件持续发酵!牵涉5位顶流,更多内幕曝光!
深度学习硬件指南,解析我的DL调试专用机NUC12飞龙峡谷+RTX3060/RX6800蔡徐坤C女士事件持续发酵!牵涉5位顶流,更多内幕曝光!

最后来看看成绩汇总吧,我的评价是,ROCm跟CUDA相比已经没有表观上的鸿沟了。广度自学性能测试的差距跟实际的性能差是比较相似的,因为3090和A100就是比RX6800强不少,广度自学也对应的强一些很正常。RX6800和RX6700XT相比强一些也能佐证,那个测试结果并没有什么么大问题。而RTX3060的性能也就停留在增容阶段了,正如上面所说他的12GB显卡是和实力不相匹配的大狂牛,因此在增容阶段可用,真要跑大规模训练还是得用RTX3090或是RX6800以上级别的显示卡

总结

广度自学那个话题大家都很熟悉,而实际上随着目前各种深度自学平台的逐渐发展,加上网上各种教程都是老生常谈,FastAI一直在简化广度自学的过程,要入门广度自学的自学成本是相当低的。而此时需求就来到了硬体这一边,优先选择比较合适的增容或主力训练硬体是一个一个困扰很多小白的问题,上面我也列出了很多优先选择,这里就不重复了,总的而言,购买相应的硬体只须要服从下面这些原则:

1.符合自己的预算和应用需求。就玩玩风格迁移不须要买A100,要搞大规模训练没办法用RTX2060,从自己的预算和用途出发来优先选择

2.区分好增容需求和训练需求。如果是学生或打工人,先问问老板有没有伺服器,有没有分配的个人电脑;如果是老板,先问问学生或是打工人性能需求是怎样的,须要不须要增容和训练分立

3.不全然某一种平台。不要即使周围都用CUDA/ROCm就觉得非xxx不可,实际上标识符是可以通用的

目前ROCm安装的教程比较少,如果有ROCm安装的问题,或是硬体优先选择的问题,可以随时评论区提问,这样issue大家都能看到

深度学习硬件指南,解析我的DL调试专用机NUC12飞龙峡谷+RTX3060/RX6800蔡徐坤C女士事件持续发酵!牵涉5位顶流,更多内幕曝光!

相关文章

发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务

BP宝库站

Hi,欢迎来到BP宝库,需要外包可联系qq:2405474279 WordPress、网站、SEO优化、小程序、爬虫、搭建外包服务应有尽有

我知道了