300 likes | 527 Views
Intel Pentium 4 1.4GHz & 1.5GHz. เกียรติกุล อูทอง ประกาย นาดี. หัวข้อในการนำเสนอ. NetBurst Architecture ของ Pentium 4 Hyper Pipelined Technology Rapid Execution Engine Cache ของ Pentium 4 SSE2 The Interface การสร้างชิพ ชิพเซ็ตและบัส การทดสอบประสิทธิ์ภาพ. NetBurst Architecture.
E N D
Intel Pentium 41.4GHz & 1.5GHz เกียรติกุลอูทอง ประกายนาดี
หัวข้อในการนำเสนอ • NetBurst Architecture ของ Pentium 4 • Hyper Pipelined Technology • Rapid Execution Engine • Cache ของ Pentium 4 • SSE2 • The Interface • การสร้างชิพ • ชิพเซ็ตและบัส • การทดสอบประสิทธิ์ภาพ
NetBurst Architecture • ปัจจุบัน NetBurst Architecture มีใช้อยู่ใน ซีพียู ของ Intel 2 รุ่น คือ Pentium 4 1.4GHz และ 1.5GHz • องค์ประกอบของ NetBurst Architecture ประกอบไปด้วย • Hyper Pipelined Technology • Rapid Execution Engine • Execution Trace Cache • System Bus 400MHz
NetBurst Architecture • นอกจากนั้น ยังปรับปรุง P6 micro – architecture ที่ใช้ใน ซีพียู รุ่นก่อนให้มีความสามารถเพิ่มขึ้น • Advance Dynamic Execution • Advance Transfer Cache • Enhanced Floating Point & Multimedia Unit • Streaming SIMD Extension 2
Hyper Pipeline Technology • การเพิ่มความเร็วในการทำงานของ ซีพียู วิธีการหนึ่งก็คือ เพิ่มความเร็วของสัญญาณนาฬิกา • การที่จะทำให้ ซีพียู ทำงานได้ในสัญญาณนาฬิกาที่สูงขึ้น วิธีการหนึ่งก็คือ ทำการลดขนาดของ Die ลง • การลดขนาดของ Die จะต้องพัฒนาในส่วนของกระบวนการผลิต แต่ต้องใช้ค่าใช้จ่ายสูง ในการพัฒนา
Hyper Pipeline Technology • อีกวิธีการหนึ่ง ในการเพิ่มความเร็วในการทำงาน คือ สร้าง ซีพียูให้ทำงานน้อยลงในหนึ่งรอบสัญญาณ ทำให้สามารถทำงานได้กับสัญญาณนาฬิกาที่เร็วขึ้น • การลดการทำงานให้น้อยลงต่อสัญญาณนาฬิกานั้นสามารถกระทำได้โดยการเพิ่มจำนวนของ stage ที่อยู่ใน pipeline ของ Processor • Pentium Pro มี 5 State, Pentium II/III มี 10State และ Pentium 4มี 20 State
Hyper Pipelined Technology • Pipeline ที่มีความลึก 20-stage ทาง Intel เรียกมันว่า Hyper Pipelined Technology
Hyper Pipelined Technology • เมื่อ Pipeline มีความลึกมากขึ้น จะต้องทำการพัฒนาในส่วนของ Branch Tree Prediction ให้มีความสามารถมากขึ้น • เมื่อมีการทำนายผิดพลาด จะต้องกลับไปเริ่มทำงานใน State แรกเสมอ • Processor ที่มีจำนวน Pipeline 10 State จะเสียเวลากลับไปเริ่มทำงานน้อยกว่า Processor ที่มีจำนวน Pipeline 20 State
Rapid Execution Engine • ความเร็วในการทำงานของ Arithmetic Logic Unit ของ Pentium 4 จะมีความเร็วเป็น 2 เท่าของ สัญญาณนาฬิกา • Pentium 4 ความเร็ว 1.5GHz, Arithmetic Logic Unit จะทำงานที่ความเร็ว 3GHz • หลักการนี้เรียกว่า Double pump
Rapid Execution Engine • การจัดการกับตัวเลขจำนวนเต็ม ไม่เหมาะสำหรับการทำงานแบบ Branch Prediction เพราะจะเกิดการผิดพลาดได้ง่าย • Pentium 4 จะเกิดผลกระทบสูง เพราะมี Pipeline ถึง 20 State เมื่อเทียบกับ Pentium III • Pentium 4 จึงออกแบบส่วนประมวลผงตัวเลขจำนวนเต็มให้มีประสิทธิ์ภาพสูงเข้าไว้
Rapid Execution Engine • ในอนาคต เมื่อมีการพัฒนาส่วนต่าง ๆ ของ Pentium ให้ทำงานแบบ double pumped เพื่อต่อร่วมเข้ากับ double pumped ALUs • ทำให้บางส่วนของ ซีพียู มีช่วงเวลาในการรอคอยลดลง (Low latency)
Cache ของ Pentium 4 • Branch target buffer คือส่วนที่พักกิ่งคำสั่งเป้าหมาย ใน Pentium 4 มีขนาดเป็น 8 เท่าของ Pentium III • ทำให้ Branch predictor มีอัตราการทำนายที่ถูกต้องสูงขึ้น • Cache L1 ของ Pentium 4 มีขนานเล็กเพียง 8 KB ทำให้มี ช่วงเวลาในการรอคอยที่น้อยกว่า (Low latency) • Cache L1 ของ Pentium III มีขนาด 16 KB
Cache ของ Pentium 4 • ความกว้างของช่องทางส่งข้อมูล ระหว่าง Cache L1 และ Cache L2 ของ Pentium 4 มีความกว้าง 512 bits สามารถส่งข้อมูลได้ถึง 48GB/s • Pentium III มีความกว้าง 256 bits สามารถส่งข้อมูลได้ 24GB/s • Athlon มีความกว้าง 64 bits สามารถส่งข้อมูลได้ 6GB/s
Cache ของ Pentium 4 • Execution Trace Cache ทำหน้าที่เป็นตัวกลางระหว่างขั้นตอนในการถอดรหัสและขั้นตอนในการประมวลผลคำสั่ง • เมื่อมีการประมวลผลครั้งใหม่ Pentium 4 จะตรงเข้าไปยัง Trace Cache และรับเอา decoded micro-ops มาเริ่มทำการประมวลผลคำสั่ง • ลักษณะของ Trace Cache ของ Pentium 4 เป็นแบบ 8-way set association • สามารถเก็บคำสั่ง micro-ops ได้ถึง 12 K
SSE2 • SSE (Streaming SIMD Extension) คือความสามารถในการใช้คำสั่งหนึ่งกับข้อมูลที่มีความแตกต่างกับหลาย ๆ ชุด เช่นการแปลงโพลิกอนให้อยู่ในปริภูมิแบบ 3 มิติ (3D space) • SIMD เริ่มใช้ใน Intel ครั้งแรกใน ชุดคำสั่ง MMX • SMID-FP ของ Intel เรียกว่า SSE • Pentium 4 เพิ่มชุดคำสั่งเข้าไปอีก 144 คำสั่ง โดยเรียกว่า SSE2
SSE2 • SSE2 มีการจัดการกับ SIMD-Int ขนาด 64 bits และ SIMD-FP เป็นแบบ double precision 64 bits • การใช้ SSE2 ให้เกิดประโยชน์จะต้องมี Software ที่สนับสนุน SSE2 ปัจจุบันยังไม่มีมากนัก
The Interface • ขณะนี้ Pentium 4 ใช้ Socket-423 และอีกไม่นานจะเปลี่ยนมาใช้ Socket-478
การสร้างชิพ • Pentium 4 ใช้กระบวนการผลิตที่ 0.18 ไมครอน ใช้การเชื่อมต่อด้วย อะลูมิเนียม (Aluminum Interconnects) • ในอนาคตจะถูกพัฒนาโดยใช้ กระบวนการผลิตที่ 0.13 ไมครอน ใช้การเชื่อมต่อด้วย ทองแดง (Copper Interconnects)
การสร้างชิพ • Pentium 4 มีการออกแบบที่ซับซ้อนในส่วนของ Hyper Pipeline Technology ทำให้ประกอบไปด้วย ทรานซิสเตอร์ 42 ล้านตัว ในขณะที่ Athlon ประกอบไปด้วย ทรานซิสเตอร์ 37 ล้านตัว • Pentium 4 มี die size เท่ากับ 271 ตารางมิลลิเมตร ส่วน Athlon มี die size เท่ากับ 120ตารางมิลลิเมตร
การสร้างชิพ • ซิพ Pentium 4 ที่ความถี่ 1.5GHz ผลิตความร้อนออกมา ประมาณ 52W • เมื่อเทียบกับ Athlon ที่ 1GHz ผลิตความร้อนออกมา 54 W และ Athlon ที่ 1GHz ผลิตความร้อนออกมา 64 W
ชิพเซ็ตและบัส • ชิพเซ็ตบนแพลตฟอร์ม Pentium 4 คือ i850 (Tehama) • ประกอบด้วยการสนับสนุน AGP 4x ,รองรับ Ultra ATA/100 และรองรับการทำงานแบบ Multi processor • บัสของ Pentium 4 จะใช้ quad pumped 100MHz ทำให้เสมือนกับทำงานที่ความถี่ 400MHz • i850 จะใช้คอนโทรเลอร์ สำหรับหน่วยความจำ dual channel RDRAM ทำให้แบนวิดธ์ สำหรับหน่วยความจำ เพิ่มขึ้นเป็นสองเท่า
ชิพเซ็ตและบัส • เนื่องจากมีการสนับสนุน RDRAM ทำราคาของ i850 มีราคาแพงเกือบ 2 เท่าเมื่อเทียบกับ AMD760 • แหล่งจ่ายไฟนั้น จะใช้รุ่นใหม่โดย ATX 2.03 Specification นั้นจะเรียก Power Supply รุ่นใหม่นี้ว่า ATX12V ซี่งจะสนับสนุนช่องเสียบจ่ายไฟเพิ่มเติมที่อยู่บนบอร์ด i850 • มีสายต่อสำหรับจ่ายไฟ +12V ที่เพิ่มเข้ามานี้จะจ่ายไปสู่แผงวงจรหลักรอบๆซีพียู ในกรณีที่มีการเปลี่ยนแปลงอุปกรณ์ต่าง ๆ ภายหลัง
การทดสอบประสิทธิ์ภาพ • เนื่องจาก Athlon มี L1 Cache ขนาดใหญ่ ขนาด 64 KB ทำให้สามารถใช้งานกับ ขนาดข้อมูลน้อย ๆ ได้ดีกว่า • เมื่อขนาดของข้อมูลใหญ่ขึ้นทำให้ ประสิทธิภาพจะขึ้นอยู่กับ ความเร็วของสัญญาณนาฬิกา และประสิทธิภาพ ของหน่วยความจำ
สรุป • ใช้กระบวนการผลิต 0.18 ไมครอน และจะพัฒนาให้ทำงานที่ความที่ 2GHz ประมาณไตรมาศที่ 3 ของปีหน้า • ค่า latency ต่ำ เนื่องจาก hit rate ของ Cache L1 สูง และแบนวิดธ์ของ L2 ที่สูง • SSE2 เพื่อรองรับการพัฒนาเพื่อให้ Application สามารถใช้ประโยชน์ ของ Pentium 4 ให้มากยิ่งขึ้น • Branch Predictor ที่เหมาะสำหรับการประมวลผล ตัวเลขทศนิยม ที่มีความซับซ้อน