640 likes | 869 Views
计算机系统结构 课程介绍. 龚 斌 山东大学计算机科学与技术学院 2010-2011 学年第二学期. 课程目标. 本课程是计算机科学与技术专业的一门的基础课程。通过本课程的学习,使学生理解计算机系统的基本工作原理,以及在硬件、软件界面划分的权衡策略,建立完整的、系统的计算机软硬件整体概念。. 课程主要内容. 计算机系统结构概论 数据表示、寻址方式与指令系统 存储、中断、总线与 I/O 系统 存储体系 流水和指令级高速并行的超级机 阵列处理机 多处理机 数据流机和规约机*. 课程的重点.
E N D
计算机系统结构课程介绍 龚 斌 山东大学计算机科学与技术学院 2010-2011学年第二学期
课程目标 本课程是计算机科学与技术专业的一门的基础课程。通过本课程的学习,使学生理解计算机系统的基本工作原理,以及在硬件、软件界面划分的权衡策略,建立完整的、系统的计算机软硬件整体概念。
课程主要内容 计算机系统结构概论 数据表示、寻址方式与指令系统 存储、中断、总线与I/O系统 存储体系 流水和指令级高速并行的超级机 阵列处理机 多处理机 数据流机和规约机*
课程的重点 从整体上掌握计算机系统的工作原理,以讲授计算机系统结构的基本概念和基本原理为主,而不是完整介绍各种系统结构,即不是以具体的机器为实例进行教学 让同学们明白计算机技术发展的趋势及影响,激发学习热情、钻研和创新精神 了解新技术、新概念,扩大知识面 如:RISC、RAID、SMP、Cluster等 如:网格计算(Grid Computing),P2P,云计算(Cloud Computing),MapReduce 如:多核技术(Multicore),众核(Manycore)
计算机学科的组织构成 理科 工科 农 医 管理… ★计算机科学与技术专业 ★★计算机系统结构 ★★计算机软件与理论 ★★计算机应用 说明: ★ 一级学科 ★★ 二级学科
计算机技术的发展 自1946年以来,计算机近70年有了惊人的发展 性能:(加法)速度提高了5个数量级 计算机性能以大约每年35%的速度提高 价格:今天$1000的机器相当于60年代中$106的机器,这里同性能计算机的价格比,改善了3个数量级。 从发展过程中体会本课程的含义。
指数增长的世界 • 网络 vs. 计算机性能 • 处理器速度每18个月翻一番 • 存储密度 每12个月翻一番 • 网络速度 每9个月翻一番 • 1986 to 2000 • 计算机: x 500 • 网络: x 340,000 • 2001 to 2010 • 计算机: x 60 • 网络: x 4000
处理器速度持续提高(广度) 从1971年第一颗微处理器Intel 4004问世以来, 40年间处理器芯片集成的晶体管数目从二千三百个 发展到今天的数十亿个,处理器频率从不到1MHz 发展到今天最高接近5GHz,处理器的性能提高了数十万倍。
摩尔定律(1979年) 假设芯片价格保持不变,则微处理器芯片上的晶体管数,每隔18-24个月便翻一番 假设微处理器价格保持不变,则微处理器速度每隔18-24个月便翻一番 假设微处理器速度或芯片内存储器容量不变,则微处理器芯片价格每18-24个月将降低约48%
摩尔定律即将终结 Intel公司负责内部芯片设计的首席技术官盖尔欣格认为:以地球文明所拥有的材料环境,如果芯片的耗能和散热问题不解决,则: 2005年芯片上集成2亿个晶体管,热的像核反应堆 到摩尔定律截至年,2010年,就会达到火箭发射时高温气体喷嘴的水平 2015年,就会与太阳的表面一样热
Memory Capacity (and Cost) have changed dramatically in the last 20 years. year size(Mb) cyc time 1980 0.0625 250 ns 1983 0.25 220 ns 1986 1 190 ns 1989 4 165 ns 1992 16 145 ns 1996 64 120 ns 2000 256 100 ns
Based on SPEED, the CPU has increased dramatically, but memory and disk have increased only a little. This has led to dramatic changed in architecture, Operating Systems, and Programming practices. Capacity Speed (latency) Logic 2x in 3 years 2x in 3 years DRAM 4x in 3 years 2x in 10 years Disk 4x in 3 years 2x in 10 years
Scaling to 0.1µm Semiconductor Industry Association, 1992 Technology Workshop Projected future technology based on past trends 芯片制造工艺在1992年以后, 从0.5微米、0.35微米、0.25微米、 0.18微米、0.15微米、0.13微米、 90纳米一直发展到目前最新的65,45纳米, 而45纳米和30纳米的制造工艺将是下一 代CPU的发展目标。 • 199219951998200120042007 • Feature size: 0.5 0.35 0.25 0.18 0.12 0.10 • Industry is slightly ahead of projection • DRAM capacity: 16M 64M 256M 1G 4G 16G • Doubles every 1.5 years • Prediction on track • Chip area (cm2):2.5 4.0 6.0 8.0 10.0 12.5 • Way off! Chips staying small
ENIAC - background Electronic Numerical Integrator And Computer Eckert and Mauchly University of Pennsylvania Trajectory tables for weapons Started 1943 Finished 1946 Too late for war effort Used until 1955 据说,每当它开机时,费城西区的电灯黯然失色(功率过大)
ENIAC----技术细节 Decimal (not binary) 20 accumulators of 10 digits Programmed manually by switches 18,000 vacuum tubes 30 tons 15,000 square feet 140 kW power consumption 5,000 additions per second
Commercial Computers 1947 - Eckert-Mauchly Computer Corporation UNIVAC I (Universal Automatic Computer) Became part of Sperry-Rand Corporation Late 1950s - UNIVAC II Faster More memory
IBM 360 series 1964 Replaced (& not compatible with) 7000 series First planned “family” of computers Similar or identical instruction sets Similar or identical O/S Increasing speed Increasing number of I/O ports (i.e. more terminals) Increased memory size Increased cost Emulators for the 7000-/1400-series
DEC PDP-8 1964 First minicomputer Did not need air conditioned room Small enough to sit on a lab bench $16,000 $100k+ for IBM 360 Embedded applications & OEM BUS STRUCTURE---Unibus(单总线)
目前最快的计算机(2010年11月) 世界最快的500台计算机系统2010年11月 www.top500.org No1: TIANHE-1A 4701万亿次/秒。2566 No2: Cray Jaguar 美洲虎 2331万亿次/秒。1759 No3: 星云一号 2984万亿次/秒 1271 No4: TSUBAME 2287万亿次/秒 1192 No5: Cray XE6 1288万亿次/秒 1054 No6: BULL(法国) 1254万亿次/秒 1050 No7: Roadrunner(走鹃) 1375万亿次/秒 1042 No8: Cray XT5-He 1028万亿次/秒 831 No9: JUGENE(德国) 1002万亿次/秒 825 No10: Cray XE6 1028万亿次/秒 816
国际超级计算机500强排名(TOP500) 是美国田纳西大学、伯克利NERSC实验室和德国曼海姆大学一些专家为评价世界超级计算机性能而搞的民间学术活动,1993年开始。每年2次排出世界上实际运行速度最快的前500台计算机。(6月、11月) 排名的依据是线性代数软件包Linpack的实际测试数据,而峰值浮点运算速度作为参考值列出。
No 1:天河-1A,国防科技大学 • 这是超过美国橡树岭国家实验室产品高达40%的系统。达到每秒4700万亿次的峰值性能和每秒2507万亿次的实测性能位居榜首。 • 14336颗英特尔六核至强X5670 2.93GHz CPU、7168颗Nvidia Tesla M2050 GPU,以及2048颗自主研发的八核飞腾FT-1000处理器 • 天河一号A将大规模并行GPU与多核CPU相结合,在性能、尺寸以及功耗等方面均取得了巨大进步,是当代异构计算的典型代表。 该系统采用了7168颗英伟达™(NVIDIA®)Tesla™ M2050 GPU以及14,336颗CPU。如果单纯只使用CPU的话,要实现同等性能则需要50,000颗以上的CPU以及两倍的占地面积。 • 更重要的是,如果完全采用CPU打造,可实现2.507 Petaflops(千万亿次)性能的系统将消耗1200万瓦特的电力。 多亏在异构计算环境中运用了GPU,天河一号A仅消耗404万瓦特的电力,节能效果高达3倍。二者之间的功耗之差足够满足5000多户居民一年的电力所需。
三大突破 • “天河一号”除了使用了英特尔处理器,还首次在超级计算机中使用了2048个我国自主设计的处理器。记者见到了这款名为“飞腾-1000”的64位CPU。它利用65纳米技术设计生产,共有8个核心 • 中国首创了CPU和GPU融合并行的体系结构。关注电脑的人都知道,中央处理器CPU和图形处理器GPU的生产厂商近期先是互相竞争,甚至喊出替代对方的口号,现在却开始出现融合发展的趋势。而这个创意,正是“天河一号”的研制过程中由中国科技人员最先提出并实践的 • 制造了先进的通信芯片,设计了先进的互联结构。160Gb/s,是国际上的商用IB的两倍。
NO.2 Jaguar美洲虎,2.331PflopsCray XT5-HE Opteron Six Core 2.6 GHz,近25万个内核
科学应用 • 首个对极端气候变化的模拟 • 辅助超新星研究 • 生物和半衰期 • 从光合作用到燃料:新型燃料 • 聚变加快 • 火山爆发模型模拟极端气候
No.7:走鹊 • IBM Roadrunner耗资1.33亿美元(IBM说1亿美元),由IBM公司和美国新墨西哥州Los Alamos国家实验室的工程师、科学家们完成,将主要用于解决机密军事问题,以确保美国核武器储备的持续发展,包括模拟核爆炸后零点几秒的行为状态。除此之外,科学家们也可以用它更精确地解决全球气候变化等纯科学问题。 • 超过1PFLops到底是什么概念呢?粗略地说相当于大约10万部笔记本,而美国国家核安全局局长Thomas Agostino打了个形象的比喻:如果让全世界60亿人每天24小时、每周7天执行纯手工计算,那么需要46年的时间才能完成Roadrunner一天的工作量。 • Roadrunner拥有130536个计算核心,比最初计划的约1760000个少很多,包括12960颗改进版IBM Cell的116640个PPE和SPE核心,以及6948颗双核心AMD Opteron。 • 该超级计算机拥有80TB内存、576英里(927公里)光纤、3456个Tri-Blade节点,每个节点两台BladeCenter QS22刀片式服务器和一台LS21刀片式服务器组成,分别配置4颗Cell和2颗Opteron,两种处理器使用PCI-E电缆连接在一起。 • 性能强劲的同时,Roadrunner的电力消耗也非常惊人,大约为300万瓦特(IBM说390万瓦特),相当于一个大型郊区购物中心需要的能量。 • IBM Roadrunner标志着美国超级计算机领域在11年内完成了一千倍的跨越,从TFlops进入PFlops时代,而接下来将是EFlops、ZFlops、YFlops和XFlops——10的27次方。
国内TOP100 2002年11月,中国计算数学学会并行计算分会和中国软件行业协会并行软件分会发布了当年的中国TOP50。 2003年11月8日发布了中国TOP100。入选的对象是所有在中国境内安装的前100台Linpack速度最快的计算机。 2010年11月发布了中国TOP100。
趋势与展望 • 中国高性能计算机从1993年到1996年发展平稳(3年),没有量级变化; • 从1996年开始(曙光1000)到1999年(神威I)实现了第一次跨越式发展(3年); • 从1999年到2001年又进入平稳发展期(2年); • 从2001年开始(曙光3000)到2005年,进入另外一次快速发展时期,(曙光4000A,深腾6800,国家气象局21万亿次机器)(4年); • 从2004年2007年,重新进入平稳发展期(3年) • 平稳期在2008年结束,开始进入另外一个活跃发展周期,大约会持续2到3年。
趋势与展望 • 从TOP100性能趋势预测可以看出: • 峰值100TFflops的机器将在2007年到2008年间出现(2008年10月); • 累计Linpack性能将在2008年到2009年间超过Petaflops(2008年10月); • 峰值Petaflops的机器将在2010年到2011年间出现(提前完成!); • 峰值10Petaflops的机器将在2012年到2013年间出现; • 累计Linpack性能将在2011年到2012年间达到10Petaflops; • 峰值100Petaflops的机器将在2014年到2015年间出现; • 累计Linpack性能将在2013年到2014年间达到100Petaflops。
功耗与绿色HPC 每个节点耗电在300到1500瓦之间,而一个机柜耗能在20到30千瓦左右。以百万亿次超级计算机-曙光5000A为例,其采用近7000颗四核处理器构建,总内存容量超过100TB,存储容量达700TB,总体功耗达到700千瓦(不含冷却系统),其每年的电费开销预期为1000万元人民币。其效能虽然在世界目前的高性能计算机里面已经相当优越的了,但依旧让我们普通人感到十分震惊。 而一台持续千万亿次计算的超级计算机系统每小时需要消耗20兆瓦或更高的电能,其每年的电费开销也将高达1亿元人民币以上 www.green500.org
Three Decades of Microprocessor • The Decade of the 1970’s Microprocessors • Programmable Controller • Single-Chip Microprocessors • Personal Computers (PC) • The Decade of the 1980’s Quantitative Architecture • Instruction Pipelining • Fast Cache Memories • Workstations • The Decade of the 1990’s Instruction-Level Parallelism • Superscalar Processors • Speculative Micro-architectures • Aggressive Code Scheduling • Low-Cost Desktop Supercomputing
Computer Architecture- Changing Definition • 1950s to 1960s • Computer Arithmetic • 1970s to mid 1980s • Instruction Set Design, especially ISA appropriate for compilers • 1990s • Design of CPU, memory system, I/O system, Multiprocessors, Networks • 2000s • Multi-core architecture, power aware architecture, energy aware architecture, non Von-Neumann architecture, dynamic reconfigurable
2020年以前超级计算机发展趋势 • 2000年 每秒10万亿次浮点运算 • 2005年 每秒100万亿次浮点运算 • 2009年 每秒1000万亿次浮点运算(Pflop/s) • 2013年 每秒1亿亿次浮点运算 • 2016年 每秒10亿亿次浮点运算 • 2020年 每秒100亿亿次浮点运算(Eflop/s) 基本上每10年左右性能提高1000倍