高性能计算(HPC),特别是**计算机这个分支在计算容量和能力上取得了巨大的发展。这些发展可以归功于若干创新。首先,按照用英特尔公司联合创始人Gordon Moore名字命名的家喻户晓的摩尔定律的预测,大约每两年芯片上的半导体晶体管数目会增加一倍。依从摩尔定律,英特尔公司已经持续地实现了在降低晶体管尺寸和功耗的同时不断增大其性能。在此半导体上开展第二个创新,就是一系列不断增强的并行CPU微架构,以努力在每一代处理器产品上实现单线程性能和并行性能的**结合。
HPC的发展对社会的贡献是巨大的。尽管人们更容易去关注那些巨大的科学成就突破,例如寻找希格斯玻色子,或宇宙膨胀的宇宙学模型,然而现在每个人所能获得的计算能力同样令人印象深刻。一经启动,现在一台基于英特尔至强E5处理器家族的双路工作站所交付的性能,大约相当于15年前**计算机Top500的**名的峰值浮点性能FLOPS。1997年,当时世界上*快的**计算机是位于美国桑迪亚**实验室的“ASCI 红”,是世界上**突破每秒一万亿次(TeraFLOPS)浮点运算的系统,它采用了9298个英特尔奔腾 Pro处理器,成本约每一万亿次55,000,000美元。到2011年,每一万亿次(TeraFLOPS)的拥有成本降到了低于1000美元。高性能计算确确实实已经为所有人触手可及。
然而,要充分利用系统性能方面的增长,应用本身必须开发微处理器所有的并行特性。*大化应用性能绝不仅仅是写出绝妙的代码。现代并行应用使用了一系列复杂嵌套的并行功能,从处理器内核间的消息通讯,到线程,到在线程上表达数据并行的元素。在英特尔,我们看到了非常多的案例,透过并行优化获得超过十倍速的性能增长。
新的Intel® Xeon PhiTM协处理器构建在这些源自英特尔至强处理器的并行编程原则之上。通过集成众多低功耗内核,每一个处理器核具备一个512位的SIMD处理单元和很多新的向量运算指令,Intel® Xeon PhiTM协处理器优化了每瓦性能。超过每秒一万亿次的计算能力,Intel® Xeon PhiTM创造了在一个芯片上的**计算机。这个崭新的微架构具备突破性的每瓦性能,但也依赖于那些能够充分并行扩展到众多内核、线程和向量的应用程序。英特尔采取了一种崭新的方法来帮助释放这种并行能力。英特尔尽*大可能沿用了我们易于理解的标准编程语言(包括C、C++和Fortran),以及现存并行编程标准。当读者和开发人员通过此书学习如何优化使用这些语言,他们不被强迫采用非标准的或是硬件依赖的编程模式。而且,这种基于标准的方法保证了*大的代码重用,并且通过编写可移植、标准化、面向当前和未来的兼容并行代码获得*大的回报。
2011年,英特尔很高兴同浪潮集团在北京建立了一个并行计算联合实验室。这个新实验室为浪潮集团和一些领先的应用开发人员提供了先期使用Intel® Xeon处理器和Intel® Xeon PhiTM协处理器协同开发并行应用的环境。这个实验室的许多学习经验都体现在这本书里。我们希望本书的内容能有助于***产生更多的科学发现和创新,帮助这个世界找到更清洁的能源,更准确的天气预报,治愈疾病,建立更**的货币体系,或是简单地帮助公司将产品和服务更有效地带入市场。
希望你们喜欢本书。这是**本反映使用Intel® Xeon PhiTM协处理器上编程特点的指南。 Rajeeb Hazra, PhD
副总裁,技术计算集团总经理
英特尔公司 序二:
人类对计算能力的需求永无止境,高性能计算水平成为世界强国比拼实力的竞赛项目,千万亿次的比赛刚刚落幕,百亿亿次的比赛又拉开帷幕。半导体工艺技术约束了处理器频率的无限增长,多核、众核处理器成为提升计算能力的重要选择。当各种类型的众核处理器粉墨登场时,我们很快发现理论计算峰值尽管得到了很大的提升,但应用软件的兼容性变得糟糕了,应用软件的开发变得复杂了。缺少了应用的高性能计算机成为华而不实的摆设。
2012年底,英特尔公司推出了基于集成众核架构的至强融核产品。这个产品具有50个以上的基于x86架构的核心,并集成于一块PCI Express接口的卡中。它为至强系列**处理器提供了有力补充,为用户的高度并行的工作负载带来全新性能体验。该产品编程容易,与传统的程序相比并无明显区别,并且针对至强融核产品编写的代码,可以不加修改地应用于传统基于**处理器的硬件平台,因而可以充分保护用户的软件投资。至强融核产品可以提供数百个同时运行的硬件线程,因而可以带来极高的并行性,可以充分满足现有应用对高并发度的大量需求。
浪潮-Intel中国并行计算联合实验室成立于2011年8月24日,该实验室旨在推动中国“百亿亿次”超算系统架构与应用创新,建立高性能计算产业新技术生态环境,加速中国高性能计算进入“百亿亿次”时代。浪潮-Intel中国并行计算联合实验室的研究创新工作,将对中国未来十年内高性能计算的发展产生积极影响,尤其在全球百亿亿次计算的起步阶段。浪潮-英特尔中国并行计算联合实验室为英特尔至强融核产品的顺利面市做出了很大贡献,并为至强融核产品的普及做出了很大努力。
本书由浪潮-Intel联合实验室的几位成员共同完成。书中介绍了英特尔至强融核产品的相关知识、使用至强融核进行高性能计算的编程方法、优化使用至强融核程序的方法,以及在实际应用中的两个利用至强融核技术提高性能的成功案例。本书结构清晰、通俗易懂,从编程基础到优化到具体工程开发,表述言简意赅,用简单代码实践阐述理论,并配有大量的图、表、程序片段、完整案例帮助读者理解。本书的几位作者都有丰富的项目经验,因此在讲解语法和优化方法的同时,加入了实战的经验总结,使得本书不仅仅是介绍理论,而且能够与实际生产联系得更加紧密。本书也是全球**本介绍英特尔集成众核架构的书籍,从侧面体现了几位作者的实力,也说明中国在高性能软件研发领域,积累了一定的成绩。为了让这本书与英特尔至强融核产品同步发布,几位作者以及浪潮-Intel联合实验室的其他成员付出了巨大的努力,在此我也谨表谢意。
祝愿诸位读者在阅读本书后能够快速掌握英特尔至强融核的使用方法,并通过使用至强融核产品为各自领域的高性能计算应用做出成绩。浪潮集团愿与英特尔公司一道,为高性能产业奉献自己的一份力量。
王恩东
**能服务器和存储技术****实验室主任
浪潮-Intel中国并行计算联合实验室主任