Hadi esmailzadeh报道

||对话

哈迪Esmaeilzadeh最近加入了佐治亚理工学院计算机科学学院,担任助理教授。他是Catherine M. and James E. Allchin早期职业教授的第一个持有者。哈迪指导替代计算技术(ACT)实验室他和他的学生正在开发新技术和交叉堆栈解决方案,以提高计算机系统的性能和能源效率。金宝博官方Hadi获得了华盛顿大学计算机科学与工程系的博士学位。他拥有德克萨斯大学奥斯汀分校(The University of Texas at Austin)的计算机科学硕士学位和德黑兰大学(University of Tehran)的电子和计算机工程硕士学位。哈迪的研究得到金宝博娱乐了三个人的认可ACM通信金宝博娱乐研究重点及三项IEEE微首选。哈迪在黑硅上的研究也异形纽约时报

路加福音Muehlhauser您能向我们的读者解释一下什么是“黑硅”吗?为什么它会对计算机性能增长的历史指数趋势构成威胁?


哈迪Esmaeilzadeh我想用一个问题来回答你的问题。计算机行业与卫生纸等日用品行业有什么区别?

主要的区别是,计算机行业是一个新的可能性的行业,而纸巾行业是一个替代的行业。你买纸巾是因为用完了;但你会购买新的计算机产品,因为它们会变得更好。

而且,不仅仅是计算机在改进;不断改进的是所提供的服务和体验。你能想象用完微软的Windows吗?

这种经济模型的主要驱动力之一是执行通用计算的成本的指数级降低。在1971年,微处理器刚出现的时候,1 MIPS(百万指令每秒)的价格约为5000美元,而今天的价格约为4美元¢。这是计算的原材料成本的指数级降低。在过去的四十年里,这种成本的持续和指数级的降低形成了计算机产业经济的基础。

这种经济模式的两个主要促成因素是:

  1. 摩尔定律晶体管制造技术的持续和指数级进步每18个月发生一次。
  2. 通用处理器架构的持续改进,利用晶体管水平的改进。

四十多年来,摩尔定律一直是计算的基本驱动力。在过去40年里,每隔18个月,晶体管制造工厂就能开发出新一代技术,使单片芯片上的晶体管数量翻倍。然而,晶体管数量翻倍本身并没有带来任何好处。计算机架构行业收获了这些晶体管和设计通用处理器这使得这些微小的开关可用于其他计算社区。通过构建通用处理器,计算机体系结构社区提供了与机制和抽象的链接编译器,编程语言,系统设计者,金宝博官方和应用程序开发人员。为此,通用处理器应运而生使计算工业商品化并普及计算现在到处都是。

计算机建筑界也收获了成倍增加的晶体管数量提供几乎相同的速度提高通用处理器的性能。这性能的持续改进相应地降低了成本计算,从而使应用程序和系统开发人员能够金宝博官方不断提供新的可能性。

不断提供新内容的能力历史上,可能性为开发新工艺技术的巨大成本付出了代价晶体管制造。这种自我维持的循环保护了经济过去四十年来我们行业的典范。尽管如此,这是基本的挑战与开发新的工艺技术和集成指数增长的数量单个芯片上的晶体管。

将芯片上的晶体管数量增加一倍的主要挑战之一是,在不融化芯片的情况下为它们供电,并导致过于昂贵的冷却成本。尽管芯片上的晶体管数量自1971年(首次引入微处理器的时候)以来呈指数级增长,但芯片的功率只是略有增长,并在最近几年趋于稳定。

罗伯特·登纳德阐述了新的晶体管制造工艺技术如何提供这样的物理特性。事实上,Dennard的缩放理论是摩尔定律背后的主要力量。Dennard的缩放理论展示了如何按比例减小晶体管的尺寸和电特性,从而实现连续收缩,同时提高密度、速度和能量效率。根据Dennard的比例比为1/√2的理论,晶体管的数量增加了一倍(摩尔定律),频率增加了40%,在固定的芯片区域内,芯片总功率从一代工艺技术到下一代保持不变。也就是说,每一个晶体管的功率将以同样的速率下降,晶体管面积从一代技术到下一代的收缩。

随着Dennard scaling在2000年代中期的结束,工艺技术缩放可以维持每一代晶体管数量翻倍,但在晶体管开关速度和功率效率方面的改进明显较少。如果下一代技术中有源晶体管的比例不降低,这种差距将转化为芯片功率的增加。

避免芯片功耗增加的一个选择是不增加甚至降低时钟频率。向多核架构的转变在一定程度上是对Dennard可伸缩性终结的响应。当开发一种新的工艺技术时,如果晶体管功率的比例小于晶体管面积的比例,那么就不可能打开并利用比例提供的所有晶体管。因此,我们对黑硅的定义如下:

黑硅是芯片中由于功率限制需要一直断电的部分。

这种暗硅的低效用对整个计算机领域构成了巨大的挑战。如果我们不能充分利用开发昂贵的新工艺技术所提供的晶体管,我们如何证明它们的开发成本是合理的?如果我们不能利用晶体管来提高通用处理器的性能,降低计算成本,我们如何避免成为一个简单的替代行业?

当计算机行业处于Dennard scaling时代时,计算机架构师收获了新的晶体管来构建频率更高的单核微处理器,并赋予它们更多的能力。例如,随着技术规模的扩大,处理器封装了更好的分支预测器、更宽的管道、更大的缓存等等。这些技术是应用超线性复杂度-功率权衡来获取指令级并行性(ILP)并改进单核性能。然而,Dennard标度的失败产生了一个功率密度问题。而功率密度问题反过来又破坏了许多用于提高单核处理器性能的技术。该行业在构建多核处理器的道路上快速发展。

多核时代始于2004年,当时主要的消费级处理器供应商(Intel)取消了其下一代单核微架构Prescott,并放弃了只专注于单线程性能切换到多核,作为他们的性能可伸缩性策略。

我们标志着多核时代的开始,不是从多核部分诞生的日期,而是从多核处理器成为持续性能改进的默认和主要策略的时间。

设计多核处理器背后的基本想法是,用构建构成更简单和/或更低频率内核的多核处理器来取代构建更复杂/能力更强的单核处理器。预计通过在应用中利用并行性,我们可以克服晶体管级的发展趋势。普遍的共识是,一个长期的多核时代已经开始,普遍的期望是,通过增加核的数量,处理器将提供好处,使开发更多的工艺制造技术。许多人认为,每个芯片上将有数千个核心。

然而,在我们的黑硅ISCA论文中,我们进行了详尽而全面的定量研究,显示了晶体管级问题的严重程度和后Dennard缩放趋势将如何影响多核处理器的预期收益。

在我们的论文中,我们定量地质疑关于多核缩放的共识。结果显示,即使有乐观的假设,多核扩展——每一代技术都增加核的数量——也不是一个长期的解决方案,也不能在未来几年维持历史上的性能增长率。

多核处理器的预期性能与微处理器行业历史上提供的性能之间的差距是非常大的,24倍。由于缺乏高度的并行性和严重的能量低效晶体管水平,增加更多的核心甚至不能使用新工艺技术提供的所有晶体管。

在不到十年的时间里,芯片的一半以上可能是黑暗的。由于缺乏性能效益和缺乏利用新工艺技术所提供的所有晶体管的能力,可能会破坏开发新技术的经济可行性。我们停止伸缩可能不是因为物理限制,而是因为经济。

摩尔定律就像一个时钟一样有效地工作,使计算机行业不断地提供新的可能性,并可能周期性地停止或显著减速。如果没有发现新的计算途径,整个计算行业可能会面临成为一个替代行业的风险。


路加福音当前位置计算机行业对你的分析有何反应?有人反对吗?你认为下次会被考虑吗也是报告


哈迪:我认为回答这个问题的最好方式是指出我们的ISCA论文被引用的次数。虽然我们在2011年夏天发表了这篇论文,但已经被引用200多次。该报纸被《纽约时报》报道并被选为IEEE微最佳选择和最佳选择ACM通信金宝博娱乐研究突出了。

我想工业界和学术界都有人认为这个结论太悲观了。然而,我和一些设备物理学家谈过,他们证实晶体管层面的问题非常可怕。我们还做了一些初步测量,表明我们的预测比现实更乐观。我认为我们论文中的结果表明紧迫感这个问题,以及颠覆性创新的机会。我想时间会告诉我们我们的研究是乐观还是悲观。

ITRS是一个为半导体制造设定目标和目标的行业联盟。我们在研究中使用了ITRS的预测;然而,我不确定ITRS是否真的可以使用我们的结果。


路加福音:你指出来CACM报纸如果你的计算是正确的,多核伸缩将无法维持每美元计算的历史指数趋势,让我们有足够长的时间转向激进的替代解决方案,如“神经形态计算,量子计算,或生物整合。”你认为半导体行业保持美元计算的历史趋势的最有前途的途径是什么?


哈迪我认为,要在通用计算中提供相当高的能源效率,需要与传统技术有很大的不同。我相信近似计算和专门化有很大的潜力。也许还有其他的出路。

我们关注的是通用近似计算。我所说的通用近似计算是指通用计算,它放松了完全精确的健壮数字抽象,允许在执行中出现一定程度的错误。这听起来可能有点奇怪,但对许多应用程序来说,错误容忍度是应用程序固有的。事实上,有一家价值10亿美元的公司通过让你的电影更糟糕来赚取利润。有许多计算机物理和嵌入式系统,它们接收嘈杂的感官输入,并执行没有独特输出的计算。金宝博官方或者,当你在网上搜索时,有多种可接受的输出。我们在计算中接受错误。

节能处理器设计中的传统技术,如电压和频率缩放,在由性能和能源两个维度定义的设计空间中进行导航,传统上是用一个来交换另一个。在这个建议中,我们探索了误差的维度,第三维度,以及交易精度的计算收益的性能和能源。

在这个领域,我们设计了一个体系结构框架从ISA(指令集体系结构)到微体系结构,传统的处理器可以用它来换取精度和效率。我们还介绍了一种新的加速器,将热代码区从冯诺伊曼模型映射到神经模型,并提供了显著的性能和效率提高。我们称这类新的加速器为神经处理单元(npu)。这些npu有可能让我们将模拟电路用于通用计算。我对这项工作感到兴奋因为它是冯·诺伊曼和神经计算模型之间的桥梁,这两种模型被认为是相互替代的。我们的论文被选为IEEE微最近还被提名了CACM金宝博娱乐研究突出了。

至于专门化:我们试图重新定义硬件和软件之间的抽象。目前,通用处理器的指令集体系结构(ISA)是硬件和软件之间的抽象和契约。然而,即使这些isa提供了高级的可编程性,它们也不是实现应用程序的最有效方式。众所周知,可编程性和效率之间存在着一种紧张关系。在通用处理器上运行应用程序与使用asic (特定于应用程序的集成电路).

由于目前asic的设计还不适合快速变化的、通用的应用,提供可编程和专用的加速器是一个非常重要和有趣的研究方向。金宝博娱乐可编程加速器在专用集成电路(asic)的效率和传统处理器的通用性之间提供了一个中间点,在有限的应用领域获得了显著的效率。gpu和fpga就是这些特殊加速器的例子。


路加福音你对黑硅的研究从数量上说明了什么?


哈迪我们的结果表明,如果没有在过程技术或微架构设计方面的突破,核心计数可伸缩性提供的性能增益远低于传统观点所认为的。在(高度)乐观的扩展假设下——对于并行工作负载——十年内多核扩展提供了7.9×(每年23%)。在更保守的(现实的)假设下,多核扩展在十年内提供了3.7×(每年14%)的总性能增益,而当足够并行的工作负载不可用时,这一增益明显更小。如果没有在工艺技术或微架构方面的突破,就需要其他方向继续保持性能改进的历史速度。


路加福音你一直在谨慎地说,除非“在工艺技术或微架构设计方面有了突破”,否则你的预测是正确的。你认为这种突破的可能性有多大?实验室经常报告初步结果,“可能”在几年内导致工艺技术或微架构设计的突破这个故事),但你知道这些初步结果中有多少是有希望的吗?


哈迪我一直很小心,因为我坚信创造力!所有这些报告都极有价值,它们很可能是取得突破性进展的前奏。然而,我还没有看到任何技术可以取代推动整个计算机行业的大规模硅制造。

请记住,我们是在和时间赛跑,技术从一个制造原型设备的实验室转移到一个大规模的产业需要相当长的时间。我们的研究结果表明,迫切需要转移注意力。

我喜欢把我们的研究看作是探索执行计算的新途径和非传统方法的动力。我觉得我们已经对社区产生了影响。然而,时机是至关重要的!


路加福音最后,你认为后硅时代的主要技术是什么?


哈迪我个人喜欢看到生物神经组织用于通用计算。此外,利用设备的物理特性和建造模拟-数字混合通用计算机是非常诱人的。

最后,我想要感谢我在黑暗硅项目的合作者,艾米丽布莱姆,蕾妮圣阿曼特。Karthikeyan Sankaralingam, Doug Burger以及我在NPU项目中的合作者,Adrian Sampson, Luis Ceze和Doug Burger。


路加福音:谢谢,哈迪!