首页 今日头条正文

上邪,ACL2019新论文,痛批“不计成本追逐丁点提高”的深度学习研讨办法,郭晋安

小张极地狐是一名硅谷大公司的深度学习研讨员,安坐在开着凉气的房间里写代码、调参、练习再练习。

经过数月不懈的尽力,新模型总算完成了,得到了一个3%进步的 state-of-the-art 成果。不只公司的产品将由于陈馨贤这一前进取得巨大的功能进步,数以百万的用户由于这一改从而获益,小张的新论文也有着落了。

数据制表填好,小张把论文发给了正等着写博客宣告这一好消息的市场部搭档,满足地关掉了虚拟机,开着特斯拉回家了,感觉今日又为人类做了一件微乎其微的功德。

小张btkszx不知道的是,数百吨二氧化碳就这样分布到了大气傍边。

依据一份提交到天然语言处理顶会 ACL 2019 的论文,三位来自马萨诸塞大学安姆斯特分校的研讨者剖析了一些干流 NLP 模型练习的碳排放水平。

他们发现,像 Transformer、GPT-2 等时下最火的深度神经网络技能,为上邪,ACL2019新论文,痛批“不计本钱追逐丁点进步”的深度学习研讨方法,郭晋安 NLP 带来的长足的发展,一起却发生了很多的温室气体排放。

论文的榜首作者,马萨诸塞大学安姆斯特分校博士生艾玛斯特贝尔 (Emma Strubell) 接受了硅星人的中文独家采访。

谈到为什么要做这项研讨,斯特贝尔泄漏,由于学术圈论文一般发布在学术会议上,这篇论文构思,便是来自于同僚关于坐飞机参与学术会议对环境影响的评论。

我的女

“已然都扯到坐飞机跑会了,为什么不先来讨论一下深度学习练习自身对环境的影响?”斯特贝尔马海涌告知硅星人。

而这次研讨的成果让她自己都吓了一跳:其实,深度学习练习的碳排放远超跨国飞翔。

论文作者与搭档合照 Image Credit: UMass IESL

论文作者首要确认了 NLP 模型练习能耗的量化方法(有爱好的读者能够点击文章下方的”阅览原文“移步 arXiv 链接,公式很简单)。

然后,他们经过硬件厂商供给的东西 (Nvidia-smi、Intel RAPL 等) 提取 CPU、内存和 GPU 的能耗数值上邪,ACL2019新论文,痛批“不计本钱追逐丁点进步”的深度学习研讨方法,郭晋安,计熊吖算练习的耗电总和,再乘以美国环保署供给的二氧化碳排放量均值(每度电0.954磅,约合433克),就得到了干流 NLP 模型练习的核算本钱和环境影响数据:

表格显现了 NLP 范畴内莫景春最顶尖模型的练习用时、能耗功率和碳排放。一个最直观的成果便是:某些新的模型/练习方法取得了最优成果,可是发展细小,副作用却是不成份额的核算量/碳排放添加。

比方 Google AI 本年发布的一篇新论文 The Evolved Transformer 提出的神经网络架构查找技能,用于英语→德语翻译的 BLEU 分数进步了 0.1,却花费了3.2万 TPU上邪,ACL2019新论文,痛批“不计本钱追逐丁点进步”的深度学习研讨方法,郭晋安 小时,云核算费高达15万美元。

假如把 TPU 换成八块 P100 GPU,用相同的方法练习同一个 Tr安王李承道ansformer 到达相同的成果,将会发生惊人的62.6万磅(约合284公吨)二氧化碳。

相比较来看,一辆美国的中型轿车,或许我国的 B 级车,从出产到作废的整个寿数周期(12万英里)二氧化碳排放才只要快瞄12.6万磅(约合57吨);一个人终身的二氧化碳排放大约是1.1万磅(约合5吨);往复纽约旧金山的民航飞机碳排放均摊到人头约为1984磅(约为900千克),均匀每班次200人。

也便是说,用神经网络架构查找练习一个两亿参数量的 Transformer,碳排放相当于出产五辆轿车再开十年,或许17个人活了一辈子,或许一架波音757从旧金山飞到纽约再返程一半航程的水平。

“讲真,神经网络架构查找便是咱们想要写这篇论文的诱因之一。用如此巨大的核算量,输出成果的改进却如此的细小,基本上算是不负责任了,”斯特贝尔打趣地表明。

“事实上,咱们都看到了 NLP 圈里的确有这样陆老爹猪脚的趋势,不计任何核算量的价值也要追逐哪怕一丁点的准确率进步。这肯定不是一个好的趋势,我觉得咱们应该做得更好,用更有构思,而不是朴实‘加算力’的方法去做研讨。”

别提 Transformer/神经网络架构查找,就连练习一个一般模型到达能够发论文的水平,中心的调参、迭代也会耗费很多算力。而考虑到这些模型的研讨者一般最快速的简易钻木取火财力有限,更多使上邪,ACL2019新论文,痛批“不计本钱追逐丁点进步”的深度学习研讨方法,郭晋安用现成或按需的 GPU,省电减排只能是天方夜谭。

斯特贝尔用她上一年推出的一个多任务 NLP 模型 LISA 举例。练习到达终究成果花费了大约6个月的时刻,模型迭代将近4800次,使用了60枚 GPU,折合24万 GPU 小时,折合的碳排放到达5.3奥山清行万磅(videostV约合24吨)

“一次性练习一个模型并不贵重,但是一旦开端针对新数据集调参,本钱马上水涨船高,”论文写道。

据英国《独立报》2016年征引专家报导,数据中心耗电占全球3%,且耗电量正在以每四年翻一番的速度增加;一起,数据中心的温室气体排放占到全球的2%,碳脚印现已追上民航业。与此一起,根据机器学习的人工智能将成为全球数据中心事务增加的最大驱动力。

了解这些状况后,采访天然进入到了下一个潘玮楷问题:已然模型练习会发生如此不成份额的碳排放,那么 NLP,以及其它深度学习方向的研讨,总共为全球温室气体排放贡献了多大份额呢?

(硅星人供认,这个问题的构思来自于此前《战役天使阿丽塔》特效烘托导致惠灵顿气温上升的新闻。假如一部电影都能带来如上邪,ACL2019新论文,痛批“不计本钱追逐丁点进步”的深度学习研讨方法,郭晋安此显着的影响,席卷全球的全球深度学习浪潮莫非不会更可花沫和本兮相片怕吗?)

斯特贝尔也表明自己对这个问题的答上邪,ACL2019新论文,痛批“不计本钱追逐丁点进步”的深度学习研讨方法,郭晋安案很等待,但是现状是:很多人做论文时多少都记载了(或许有才能记载)练习的总用电状况,也谢松锤能算出上邪,ACL2019新论文,痛批“不计本钱追逐丁点进步”的深度学习研讨方法,郭晋安能耗功率——出于片面隐秘,或许能耗数据关于研讨自身没有意义等原因,大部分人发论文时都不会把这些数据包括进去,”假如这一现状不改动,咱们就不或许准确猜测深度学习对全球变暖的影响。“

她期望能经过这篇论文提示其他 NLP 学者和业界人士,在进步模型体现的一起着衣,也应该对环境影响有自动的、满足的重视。

从信息完好的视点来看,这篇论文的一个很大惋惜便是对根据 TPU 的模型练习能耗和碳排放的数据缺失。斯特贝尔解说这是由于梦小楠 Google 从未对外发布过 TPU 能耗功率方面的材料,加之这篇论文自身的意图并非力求肯定精准的成果,而是供给一个较为准确的合理预估。

(不过整体来讲,TPU 仍是现在深度学习范畴碳排放最小的核算硬件,并且 Google 的数据中心用电56%来莎伊克自可再生能源,明显高于 AWS 和 Azure。)

斯特贝尔告知硅星人,相似的材料不揭露状况是她们研讨过程中遇到的最大应战,“咱们也期望供给一个更精准的成果,假如 TPU 的能耗信息对外揭露就更好了。”

声明:该文观念仅代表作者自己,搜狐号系信息发布渠道,搜狐仅供给信息存储空间服务。
版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。