李娜,仅需6200美元,高性价比构建3块2080Ti的强壮工作站,人人二手车

频道:国内时事 日期: 浏览:134

选自L7

作者:Curtis Northcutt

假如想要进行练习,在英伟达的新一代 GPU 中,RTX 2080Ti 是性价比最高的显卡(拜见:)。但即便不上泰坦,9000 元一块的 GPU 也是很贵的。在本文中,来自 MIT 的 Curtis Northcutt 为咱们找到了组成一台三 2080Ti 深度学习工作站的最简方法。

在他的装备下,整个体系需花费 6200 美元(约合 41700 元人民币),比较 AI 硬件供货商 Lambda Labs 供给的整机要廉价一半。怎么为实验室拼装一台最健壮的核算机,让咱们来看看他是怎样做到的。

我在 MIT 量子核算实验室和数张延张锦程字学习实验室构建了一台多 GPU 深度学习工作站。在网络中查找时我发现,并没有一篇文章具体介绍了一切装机细节。

不过我仍是发现了像 Lambda GPU 工作站这样的整机供货商。仅有的问题是:一台这样的机器需求花费 12,500 美元。这是进行尖端前沿深度学习研讨的最佳装备,但假如买不起的话什么都无从谈起了。在这篇文章中,我将介绍一个自己版别的装机装备——运用相同或更好的装备,并且节约一半以上资金:只需 6200 美元。为了能让一切研讨者取得协助,在这篇文章中我会共享一切装备细节。

李娜,仅需6200美元,高性价比构建3块2080Ti的健壮工作站,人人二手车

假如你正在构建一台较小的深度学习机器,你会发现本文相同有用。在正文中,我加入了可进一步下降本钱的一些示例。

在文章最终,我给出了自组成机器与谷歌核算引擎(GCE)深度学习 VM习仲法 的时刻/本钱比照。我运用 PyTorch ImageNet/ResNet50 练习作为基准。

完美装备?

完美装备是不存在的,由于每个人的需求都不尽相同。即便曩昔从前呈现过,最佳装备也会跟着新硬件的不断推出而改动。所以,本文企图给出尽或许好的装备。

深度学习工作站的一切组件

以下便是清单的悉数了。

我订货的一切组件都是在 Newegg 上在线购买的,不过关于咱们来说,亚马逊等其他途径都是能够的。假如你想去电子城找更廉价的,也能够测验。

深度学习工作站的一切组件。

在 2019 年 1 月 31 日,每个组件及其价格如下:

在 Newegg 上运用会员账户购买的话,不算消费税一切组件的总价为 6200 美元(晋级后的电源还有 107 美元)。

深度学习工作站视图。

每一个组件的考虑事项

在挑选 GPU、RAM、C赵沛炎PU 和主板等组件时,需求紧记以下三个方针:

我列举了构建工作站所需的一切组件以及每一组件的考虑事项。各组件以其对深度学习模型练习的功能影响为序摆放。

GPU

GPU 是深度学习机器中最为重要的组件,一起李娜,仅需6200美元,高性价比构建3块2080Ti的健壮工作站,人人二手车也是最贵重的。你一般应该首要考虑运用哪种 GPU:装置中的其他一切组件挑选将依据此。许多博客都有介绍怎么挑选满意你需求的 GPU。

假如你想要一款高功能 GPU,我主张不要受商场营销的搅扰,直接购买 RTX 2080 冷巷三寻Ti。假如你想自己做研讨,并想要挑选一款性价比高的 GPU,则能够通过 videocardbenchmark.net 检索,并在你的价格区间内挑选功能最佳的 GPU。除非你的预算在 2,500 美元以上,RTX 2080 Ti 是最佳挑选。假如功能下降 30%,你能够挑选购买更廉价的 RTX 2080 或许旧版 GTX 1080 Ti。为完成最佳的深度学习,我主张你购买至少 11GB 内存的 GPU,而这正是 RTX 2080 Ti 的内存容量。

在购买 RTX 2080 Ti 时,你会留意到商场上有许多相关品牌:EVGA、技嘉、华硕、微星等。这些老梁故事汇黑道乔四爷都是所谓的 after-market GPU(非公版)。你也能够挑选直接购买英伟达的 Founders Edition。一般来说,假如你想寻求最佳功能,不要购买 founders edition。为优化功能,EVGA 等公司会对 GPU 进行定制规划,有时会进行 GPU 超频处理。Founders edition 是初次测验而非最佳测验。非公版 GPU 一般规划有一至三个电扇,大约电扇越多,功能越好。其间一些仅仅营销噱头算了,两个电扇一般就够了。这儿的首要主张是:购买 EVGA、技嘉、华硕或微星的非公版 GPU。

请留意,after-market GPU 品牌许多,价格纷歧。超频 GPU 往往更贵,但一般会作出一些折中,因而实际上并不能进步功能。你一般只需购买最廉价的即可。

一些顾客现已诉苦过 RTX 2080 TI 的过热问题。我在构建工作站时仅运用三个 GPU 便是为了添加冷却气流。假如没有呈现问题,我会另加第四个 RTX 2080 TI GPU。

我在构建工作站中运用了开放式电扇 GPU(电扇在每个 GPU 的底部),由于它们本钱更低。涡轮电扇式 GPU 将气流从机箱一侧排出,使功能更佳。就咱们运用的主板而言,GPU 被紧缩得很紧,阻挠开放式 GPU 电扇排出气流。假如你购买了涡轮电扇式 GPU,电扇可直接将气流从机箱一侧排出。

固态硬盘 SSD

从硬盘到 GPU 的数据搬迁是深度学习的首要瓶颈,会极大下降练习和测验时速。m.2 SSD 能够处理这个问题。最贵的 SSD 写入速度为 3500 mb/s,而规范 SSD 写入速度为 500 mb/s。

我购买了一个较廉价的 m.2 SSD 来构建工作站,其写入速度约为 1800 mb/s,但容量较大,为 2 TB。你或许会觉得购买更小的 256MB m.2 SSD 更有用,由于它写入速度更快且本钱更低。这确实是以更少的本钱取得更好功能的好办法。仅有需求留意的是,你要保证一切练习数据都能够放在 m.2 SSD 上。

主板

主板很难购买,由于挑选太多,许多人不清楚为什么有的主板会比其它主板贵许多。关于深度学习来说,主板最重要的方面是 PCI-E 通道的数量。在我构建的工作站中艺术人生导演溺水,主板有 44 个 PCI-E 通道。这意味着假如有 3 个 GPU(每个需求 16 个通道),我能够在 32 个通道上运转两个 GPU(每个 GPU16 个通道),在 8 个通道上运转 1 个 GPU(一共需求 40 个通道)。李娜,仅需6200美元,高性价比构建3块2080Ti的健壮工作站,人人二手车大多数基准测验标明,在 8 个通道和 16 个通道上运转 GPU 的功能差异能够忽略不计,但未李娜,仅需6200美元,高性价比构建3块2080Ti的健壮工作站,人人二手车来不同或许会大一些。至少,保证你的主板有满意的 PCI-E 通道,能够满意每个 GPU 所需的最少李娜,仅需6200美元,高性价比构建3块2080Ti的健壮工作站,人人二手车数量。所以对 3 块 RTX 2080 TI GPU 来说,最少需求 24 个 PCI-E 通道。

另一个考量是挑选 x299(英特尔 CPU)仍是 x399(AMD CPU塞穴)主板。对每个处理线程来说,英特尔 CPU 更快,但关于相同数量的处理线程来说,AMD CPU 一般比英特尔 CPU 更廉价。我挑选用英特尔处理器(20 个线程和较快的处理速度),因瘦妮此需求 x299 主板。

更牢靠(也更贵重)的主板一般被称为工作站主板。牢靠性的进步是否值得如此高价仍有待商讨。我在自己的构建过程中挑选了工作站主板,但假如你想挑选更廉价的,能够考虑 SUPERMICRO x299 主板。它满意了我的一切需求,但廉价了 100 美元。

CPU

通过考虑以下问题,依据你的核算需求挑选 CPU:

假如(1)答复「是」,而(2)答复(不需求),那么你能够用更少的本钱挑选支撑 32 个线程的 AMD Ryz铃木隼和六眼魔神谁快en Threadripper 2950X。假如第二个问题的答案是「需求」,那你或许想要挑选英特尔 CPU。

关于英特尔 CPU,你需求挑选中心的英特尔 X 系列 CPU 用于多 GPU 深度学习。只要 X 系列的 CPU 支撑 x299 主板,而只要 x299 主板才具有满意的 PCI-E 通道来支撑多 GPU。假如你仅运用 2 个 GPU,那么你能够削减主板+CPU 的本钱,挑选较廉价的 300 系列英特尔 CPU 和 LGA 1151 主板(而非 x299)。这样你就能够在 16 个 PCI-E 通道上运转一个 GPU,然后在别的 8 个通道上运转另一个 GPU(大部分 LGA 1151 主板有 24 个 PCI-E 通道,但购买的时分请细心承认)。

机箱

关于多 GPU 工作站,气流和散热是重中之重。挑选适宜主板的机箱。大部分运用多 GPU 的主板是 ATX,因而你能够挑选一个适宜 ATX 主板的机箱。假如你不确定要买哪种机箱,Carbide Series™ Air 540 李娜,仅需6200美元,高性价比构建3块2080Ti的健壮工作站,人人二手车High Airflow ATX Cube Case 是不错的挑选。

硬盘驱动器

假如 m.2 SSD 无法满意存储需求,购买 7200 RPM 的机械硬盘。

假如 m.2 SSD 太小,无法满意你的存储需求,你能够购买一个机械硬盘驱动器。它比yeero较廉价,有两种速度:5400 RPM(较慢)和 7200 RPM(较快)。RPM 表明每分钟转速,这些磁盘会在核算机内进行物理旋转,所以会有噪白晓保现状音。不过机械硬盘驱动器比较廉价,你能够买一个 7200 RPM 的。

内存

关于 RAM,你需求考虑它的容量、物理体积和推迟。我构建的工作站运用的是 128GB RAM,不过你能够依据数据集大小将容量减到 64GB 或 32GB。假如资金足够,我主张购买 128GB RAM,这样在练习深度学习模型时,你能够将整个数据集加载到内存中,防止每个 epoch 中呈现 hard-drive <> RAM 瓶颈。

关于多 GPU 工作站,保证购买低空隙 RAM(较小机箱),空隙即 RAM 的高度。主板上要装置许多东西,有时分大机箱 RAM 会堵塞其他组件。海盗船 Vengeance 是一款不错的低空隙 RAM。

假如你不运用悉数 RAM 插槽的话,记住检查主板文档。将 RAM 放进适宜的插槽中很重要!主板和主板文档一般会写明放置 RAM 的方位。

PSU(电源供应器)

你或许会看到 gold PSU vs. platinum PSU。这指的是 PSU 所用的金属,platinum > gold > silver > bronze > basic,它和 PSU 的效能有关。例如,相同的核算量,bronze PSU 要比 platinum PSU 耗费更多电。假如你需求考虑省电的多穗麦吉问题(一起也环保),能够考虑购买 platinum 或 gold PSU。

至于本文介绍的工作站,我本来买的是 Seasonic PRIME 1300W PSU,可是当我进行分布式 PyTorch ImageNet/ResNet50 练习且最大化运用一切 GPU 时,工作站接近重启状况。所以我换成了 EVGA SuperNOVA 1600 P2,这些问题处理了。留意,我运用 su美丝沛do nvidia-smi -pl 180 将 GPU 电量从 250W 降到 180W 时,1300W PSU 是能够运用的。不过我依然引荐 1600W PSU,否则会约束 GPU 速度。

散热体系

从散热电扇到全体系水冷却,你有许多挑选。一般,假如机箱很大且电缆办理适宜,那么你不必要太多富丽的东西。我构建的工作站中,CPU 没有装备散热器,我运用的是深度学习工作站中的规范装备海盗船 h100i。更贱价的挑选是 Noctua NH-U9S CPU Cooler Fan。我没买它的原因是它太大了,或许会堵塞部分 RAM 插槽。假如你只需求 32 GB RAM,你能够挑选这款散热电扇。

基准测验 VS 谷歌核算引擎

我对这台机器和谷歌核算引擎(GCE)深度学习虚拟机进行了基准测验比照。这些虚拟机据称是专门为优化深度学习而预构建的。GCE 深度学习虚拟机运用 CUDA 版别和依据源代码构建的驱动程序,这些程序转为其硬件架构而优化。GCE 虚拟机没有英伟达 RTX 2080 Ti GPU,所以我用 Tesla K40 来替代。依据不同的基准使命,英伟达 RTX 2080 Ti 的功能是 GPU Tesla K40 的 2 倍至 4 倍。所以为了公正起见,我将这台设备上的一个 RTX 2080 Ti 与 GCE 虚拟机上的 4 个 Tesla K40 进行了比照。

为了做基准测验,我运用了 PyTorch 的 ImageNet 分布式事例。我下载了 ImageNet 2012 练习和验证集,并在我的个人机器和 GCE 深度学习虚拟机上运转了以下代码:

python exampl碧海雅韵es/imagenet/main.py -a resnet18 --lr 0.1--dist-url 'tcp://127.0.0.1:FREEPORT'--dist-backend 'nccl'--multiprocessing-distributed --world-size 1--ran我的萝莉老婆k 0"/location/where/I/stored/imagenet/"

GCE 深度学习虚拟机标准

我创立的虚拟机标准如下:

ImageNet 练习时刻基准

练习 1 个 epoch 所需时刻比照:

这些值是通过 50 个 epoch 练习后均匀得到的。运转的代码和上面李娜,仅需6200美元,高性价比构建3块2080Ti的健壮工作站,人人二手车相同,没有在任何一台机器上打开其它进程。

练习每个 epoch GCE 所需的花费

我运用的 GCE 架构并不是最具本钱效应的设置,练习花费为:

4 个 Tesla K40 GPU 练习 1 个 epoch 所需花费为 12.77 美元

所以用 Tesla K40 GPU 对 ImageNet 进行 100 个 epoch 练习将花费约 1277 美元。而关于整个虚拟机来说,将花费约 21 美元/小时。

与 Lambda 的 4-GPU 工作站进行比照

我所构建的工作站旨在优化本钱/功能权衡。假如你想构建与 Lambda 4-GPU 愈加匹配的工作站,那么能够看一下 Lambda CEO Stephen Balaban 在 reddit 上共享的几条主张:

进行以上调整后,整个工作站的总花费大约是 8372 美元,比重案六组5之无法抛弃 Lambda 工作站少大约 4000 美元。

其他

我运用的操作体系是 Ubuntu Server 18.04 LTS,我运用 TensorFlow压裂子 Cuda 10.1(从源代码装置)和 PyTorch。当我长时刻以最大容量运用这三块 GPU 时,我发现最上面的 GPU 呈现过热降频,形成功能呈现 5%-20% 的下降。这或许是双电扇 GPU 规划的原因。假如你忧虑这个问题的话,引荐运用涡轮电扇式 GPU,以防止过热降频。

原文链接:http快可立://l7.curtisnorthcutt.com/build-pro-deep-learning-worksta深圳商务模特tion

本文为机器之心编译,转载请联络本大众号取得授权。

公司 英特尔 PC
声明:该文观念仅代表作者自己,搜狐号系信息发布渠道,搜狐仅供给信息存储空间效劳。
热门
最新
推荐
标签