奥门银河赌城AMD Athlon CPU 全体系回忆录

这是VIA收购Cyrix后发布的一款芯片(话说Cyrix也是命运坎坷,一直颠沛流离)。记得当年发布这款芯片的时候,我刚上高中,还很是激动了一把,那会VIA如日中天,这款CPU又顶着中国芯的光环,大有超英赶美之势。可惜性能实在不济,并没有产生多大的动静。我手上这块是早期版本,主频500M。

“长模式”下如果用户使用64位操作系统以及为64位计算编译的软件,那么就可以获得8个新增64位通用寄存器、扩展6
4位通用寄存器等众多新特性。“长模式”下还包含了一种“兼容模式”,在此模式下用户可以在64位操作系统上运行32位的应用程序,从应用程序的角度看,在“兼容模式”下其所使用的处理器也就是普通32位X86处理器。而从操作系统的角度来看,常规的地址变换,中断以及系统数据结构操作都是在64位“长模式”下进行的。

Pentium拥有8KB数据cache和8KB指令cache,初期的Pentium
60/66使用600纳米的Bi CMOS工艺,采用273
pin的PGA封装,晶体管数量是3.1百万,L2
cache集成于主板上(常见的预安装容量为256KB)。Pentium是一枚32位处理器,拥有64位的外部总线,物理内存定址空间为32位(据说工程样品出现过36位物理定址,但是正式产品降回32位),逻辑内存能力为64TB。

图7/25

从内部而言,Athlon是完整的第七代x86处理器。也是它的同类型中的首位。这颗CPU是由AMD工程师和新雇用的DEC工程师联合开发的。所以融合了AMD以前的CPU和DEC
Alpha
21264的技术。正如AMD的K5和K6,Athlon是一个RISC(精简指令集)的CPU,能够实时解码x86指令到它自己的内部指令。

Intel在发布奔腾的下一代产品Pentium
II时,采用了专利保护的P6(第6代处理器)架构,并且不再向AMD和Cyrix授权,AMD和Cyrix的市场份额急转直下。P6架构与Pentium的P5架构最大的不同在于,以前集成在主板上的二级缓存被移植到了CPU内,从而大大地加快了数据读取和命中率,提高了性能。

奥门银河赌城 1

当然集成内存控制器也是把双刃剑,它在提高性能的同时要求AMD必须及时更新内存支持标准,及时发布新品以支持新的内存标准,同时老的CPU即使更换平台也不能对新的内存进行支持。还有一点需要注意的,Athlon
64并没有将AGP控制器集成在CPU中,如果使用集成显卡,图形芯片需要获得帧缓存(显存),必须检测从HT总线到CPU内建内存控制器部分数据,这将降低整合图形核心的性能。
但是这些缺陷不足以对集成DDR内存控制器的正确性构成威胁,AMD这次的设计还是相当见效的,毕竟对手的模仿也说明了自己的成功。

● 延续辉煌——Thunderbird

图15/25

现在不少CPU都根据其应用需求把内存控制器集成于CPU内,例如IBM的Bluegene/L、Cell、SUN的UltraSPARC
T1(Niagara)等,按照Intel在中科院高性能计算机研讨会上演讲的一份资料,该公司的下一代Itanium体系架构——Tukwila也将会集成内存控制器。Cache再大也是难以避免命中失败,失败后CPU必须去内存寻找数据,当初DEC的Alpha处理器研发人员就一直很渴望把这样的损失透过集成内存控制器降低到最低,Athlon
64终于实现了这一点。

但当Thoroughbred全面上市为Athlon XP争取市场时,Pentium
4已将频率提高到不可思议的3.06
GHz并开始将中端产品全面铺货,加上娴熟的市场操作能力,Intel控制了主流市场并开始普及Pentium和Celeron品牌。AMD由于产能和性能问题,在高、低端市场已无力对抗,被迫放弃低端经典Duron品牌,由低频的Athlon
XP对抗Celeron,高端方面则艰辛地提升频率,推出PR值更高的产品。Thoroughbred
A和B最终将频率提到1800 MHz和2250 MHz,PR值上升为2200+和2800+。

图13/25

从Athlon时代开始,AMD的CPU能够实现乱序执行Out Of
Order(它允许执行指令的顺序和取指令的顺序不同,实际上做到了指令只要有可能就执行。因为关键的路径计算可能随时开始和完成,因此这种方法加快了指令的执行速度)、可编程L2接口、在CPU与芯片组之间使用200MHz
EV6总线(增加与内存之间带宽,获得更大的数据吞吐量)、增强型3DNow!TM指令集(在原有的3DNow!TM上继续完善追加至52个指令,包含一些SSE码,同时获得了更多软件的支持。但是3D
Now!缺乏SSE所具备的IEEE-754兼容性、视频加速能力以及内存流式传输能力,因此虽然3D
Now!一开始的时候威势不少并且有大量媒体借机炒作,但事实证明3D
Now!的确有不少地方不如SSE)。

Pentium采用的P5(第5代处理器)架构领先于竞争对手,并凭借市场运作等手段快速成长。同时Pentium产品的到来也宣布不同厂商的CPU架构设计分道扬镳,开始了激烈竞争。在同一时代,作为竞争对手的AMD和Cyrix显然因为架构上的落后而无法与Intel展开正面竞争,这使当时正在主推K5处理器的AMD开始反思并逐步觉醒。

本文作者:Baifansu27

好了,让我们回到Athlon
64的x86-64计算技术,看看AMD是怎样实现寄存器升级的。

Intel没有想到AMD在K7时代变得异常强大,这让Pentium
III措不及防,Intel迅速将Pentium
III过度到新核心——也就是后来最流行的Coppermine,它使用0.18微米工艺,256KB全速二级缓存,支持Socket
370与Slot 1两种接口。Intel终于把L2
cache集成到了和CPU同一枚管芯(die)内,也是在Pentium
III,Intel引入了71条SSE扩展指令集,显著加强了x86处理器在流媒体处理方面的能力。

奥门银河赌城 2

后来的结果告诉我们K6-2是具有历史意义的CPU,因为它真正为AMD吹响了向Intel挑战的号角,并以极高的性价比打压了Pentium
II。

当年K7的发布让AMD第一次在竞争中占据主动,Athlon处理器捍卫了AMD的尊严。然而性能优秀的K7核心并不能挽回AMD在市场策略上的颓势,市场手腕的缺乏不是仅凭优秀的硬件设计就可以挽回的。在AMD身处逆境的时候,K7成了AMD苦苦支撑战局的唯一武器。这一切一直延续到AMD向大众宣布K8处理器才得到改观,在2001年的微处理器论坛上,人们重新对AMD寄予了无限的希望。

奥门银河赌城 3

● Athlon第一个4年 Athlon诞生——Pluto、Orion、Magnolia

如上图,和我们熟悉的K7架构10级整数流水线相比,K8加长了2级,增加2级线管深度的目的在于提升K8的核心频率。流水线的级数越多,每个时钟频率的负荷就越小,因此CPU就可以运行在更高的频率。拥有很强大的分支预测能力做保障,AMD完全有把握加长流水线,获得更高频率,事实也证实了AMD正确的选择。2级新增的流水线让K8的极限频率达到3.0GHz,这相对于NetBrust微架构最终将频率提升到3.8GHz是很划得来的。一般说来,专家认为当处理器的核心频率处于1G到几G的范围内,最理想的管线深度应该在12至13级。

奥门银河赌城 4

奥门银河赌城 5
如图,左边是新的Barton,右边是Thoroughbred,核心形状明显增长了。

2003年4月24日,AMD在美国纽约发布了AMD第一款64处理器——Opteron,它在专业领域使用,表现出了强劲的性能,但真正的反击还在后面。而2003年9月23日,AMD完全改变了历史。研发代号为Hammer的第八代CPU(K8)——Athlon
64登场,全新的架构,全新的计算技术,全新的总线设计,又一次给Athlon这个光荣的代号带来巨大的性能提升。

Pentium

AMD的缓存设计与Intel相比也有很大不同,Athlon架构使用拥有一个很大的L1
Cache,直到今天的Athlon
64也一样没有发生变化。这表示了CPU需要的大量数据可以从L1获取,而Pentium
III的L1 Cache则很小,为16KB,很大程度上要依赖于L2
Cache提供数据。所以Intel为CPU设计的L2
Cache位宽和关联度都比较高,以此来获得较高的L2带宽。特别是到了Pentium
4时,L1
Cache数据缓存只剩下8KB,Intel用新增的一种一级追踪缓存替代指令缓存,容量为12KμOps,表示能存储12K条微指令。所以Pentium
4必须有一个很大的L2 Cache,L1 Cache在Pentium
4中更多的作用是告诉CPU数据在L2
Cache的某个地方,而并没有存放很多数据。因此在低端市场,AMD可以大幅度削减CPU的L2
Cache,带来性能损失远没有Intel,这也为抢占低端市场打下了坚实的性能基础。

正因为如此,K8才能够“记住”更多的分支,从而提高分支预测的整体效率。要想获得较高的命中率,仅仅是对原有预测机构进行简单修正显然是不够的,AMD还为改进的分支预测单元加入了分支地址计算器(branch
address
calculator简称BAC)。BAC可以快速(5个时钟周期)准确的计算出下一条分支的地址。

这是国家半导体收购Cyrix之后发布的一款处理器,性能并无亮点,但是,这个却是如今APU的祖师爷,它是最早将声卡显卡pci控制集成在CPU内部的处理器,在当年那个PC价格还比较贵的年代,也算为平价攒机提供了一个解决方案。但是,仔细看下,我这块CPU并不是正儿八经的Cyrix
GX,而是一块Pentium打磨而成的,仔细看正面还有intel的一些参数标识,那个年代电脑还不普及,虽然打磨手法不怎么样,但是糊弄小白还是绰绰有余的。也只有那个CPU战国时代才会出现不同厂家CPU打磨造假的情况。

如图,Athlon XP基本的架构没有发生变化,而Pentium 4则完全不同了。Athlon
XP相对于Pentium
4拥有更高的IPC是不争的事实,性能(Performance)=频率(Frequency)×每一时钟周期内所执行的指令多少(IPC
instructions per cycle),IPC是一个较为公正的效率值。比如Athlon XP
1600+,实际频率为1333MHz,它的性能大约相当于1颗1.6GHz的Pentium 4。

在SMP架构中,处理器间也是通过内建额外的HT控制器进行连接的,AMD将这称为“glue
less”(免中介)方式。

奥门银河赌城 6

奥门银河赌城 7

奥门银河赌城 8

打磨版Cyrix GX

集成DDR内存控制器看似简单,其实更重要的作用是在SMP(对称多处理)架构中建立高效的内存读取机制。实测表明,集成内存控制器使K8系统的延迟大幅度低于Xeon、高频P4等系统。同时这项技术可以简化芯片组的设计,如NVIDIA支持AMD64位CPU的nForce3芯片组省去了北桥芯片,成为单芯片芯片组。

当然实际频率低会造成CPU在流媒体和数据转换应用中性能下降,所以Pentium
4在这些方面一直保持着对Athlon
XP的压制。还有一点是不能忽视的,在FSB方面,Athlon
XP也一直没有超越Pentium 4,这意味着Athlon
XP在数据密集型,内存敏感型等方面不能和Pentium 4相比,Athlon
XP运用EV6总线最终将FSB提升到400 MHz,而Pentium
4则使用QDR-speed四倍速前端总线技术把FSB做到800
MHz,内存吞吐量达到6.4GB/s。

图5/25

x86-64寄存器的扩展方式如下:

从内部而言,Athlon是完整的第七代x86处理器。也是它的同类型中的首位。这颗CPU是由AMD工程师和新雇用的DEC工程师联合开发的。所以融合了AMD以前的CPU和DEC
Alpha
21264的技术。正如AMD的K5和K6,Athlon是一个RISC(精简指令集)的CPU,能够实时解码x86指令到它自己的内部指令。

奥门银河赌城 9

奥门银河赌城 10
Pentium(P5)微架构体系图

奥门银河赌城 11

图12/25

2、超标量完全管道化浮点QuantiSpeed采用了超标单元量完全管道化浮点运算单元(FPU),与x86处理器相比,不但能够在每个时钟周期内完成更多的浮点操作,还能提高操作频率,因而能产生最强大的x86
FPU。AMD Athlon
XP处理器有足够的计算能力,能满足计算最密集的软件应用的要求。

2002年6月10日,继Palomino之后,AMD又再发布了新品——采用Thoroughbred核心的新版本Athlon
XP处理器。与此前的Palomino核心的相比,Thoroughbred核心在处理器逻辑线路上并没有重大改动,主要区别在于采用了0.13微米制程的新工艺。

奥门银河赌城 12

第二个改进就是缓冲部分,一级缓存、二级缓存部分,K8同K7核心相比,除了将二级缓存容量统一提升到1MB,二级缓存位宽相比K7核心的64bit倍增为128+12bit之外,并没有在结构上做出太大的变动。然而CPU中另一类重要缓存——主管内存地址翻译的TLB的相关参数,却在K8中相对K7处理器做出了较大的变动。


3、集成DDR内存控制器

奥门银河赌城 13

在得知Pentium 4 3.06
GHz附带HT技术发布时,AMD做出强有力的回应。AMD于2003年2月10日正式推出他们全新采用0.13微米制程,基于Barton核心的Athlon
XP
3000+处理器。Barton仍属于Athlon
XP,采用333MHz FSB,内建512KB L2
Cache。Barton核心面积从84mm2增长到101mm2,而晶体管数目也远远高于Thoroughbred的3,760万,达到接近于Northwood的5430万个。

奥门银河赌城 14

图6/25

奥门银河赌城 15

奥门银河赌城 16

奥门银河赌城 17

当然此时的AMD也背上了严重的财务负担,亏损巨大,债务沉重。人们将期望的目光投降Hammer,因为这才是AMD真正的出路,这颗神秘的CPU能担当起振兴AMD的重任吗?

1、超标量完全管道化微体系结构。QuantiSpeed体系结构的核心是同时发出9条指令的超标量完全管道化微体系结构。这种体系结构能提供更多的路径,并应用指令传送到核心的执行机制,因而处理器能够在给定的时钟周期内完成更多的任务(高IPC)。路径(管道)深度与处理器操作频率之间的良好平衡能产生极高的性能。如果只是管道更长,就会产生较低的IPC和高操作频率。如果只是管道更短,将提高IPC,但频率会降低。AMD
Athlon
XP处理器能够保持管道深度与处理器频率之间的平衡,因而能实现极高的总处理器性能。

Cyrix MII

2003年末,Intel发布了支持超线程(HT)技术的P4至尊版
3.20 GHz,采用0.13 微米制程,具备 512 KB二级高速缓存、2 MB
三级高速缓存和 800 MHz
系统总线速度。Intel显然在继续着NetBrust微架构的发展路径,将提升频率作为首要任务。当然Intel也在计划着新的核心架构——Prescott,它采用新的90纳米工艺,加入了应变硅技术支持。当然它依然遵循NetBrust微架构,流水线长度破记录地达到31级,全力提升频率。

奥门银河赌城 18

Celeron

奥门银河赌城 19

● 4、HyperTransport总线

最早对电脑产生兴趣是在初中,受影视作品影响,觉得做一个黑客特别牛逼,一台电脑在手就可以无所不能,但凡带电的就能控制,奈何那个时候电脑还是奢侈品,只有去我老爸单位才有机会在那台586上打打字。买不起电脑但咱可以纸上谈兵,整个学生时代基本是在电脑报和微型计算机的陪伴下度过的,也无数次的为自己规划DIY的硬件配置。所以,虽然我第一台电脑是迅驰的笔记本,但是也算是见证了IT的兴衰。买下一些并无用处的CPU,只是为了圆一下自己当年的情怀,当年这些CPU是那么的让我遥不可及,今天能把他们收藏在手,也是一种小小的满足。

Pentium采用的P5(第5代处理器)架构领先于竞争对手,并凭借市场运作等手段快速成长。同时Pentium产品的到来也宣布不同厂商的CPU架构设计分道扬镳,开始了激烈竞争。在同一时代,作为竞争对手的AMD和Cyrix显然因为架构上的落后而无法与Intel展开正面竞争,这使当时正在主推K5处理器的AMD开始反思并逐步觉醒。

上图为Athlon的内核设计详细结构,其在设计时参考了Alpha
21264处理器。21264以超标量超流水的方式实现了Alpha体系结构,是一颗设计先进的高性能CPU,其在SPEC
benchmark中取得了相当好的成绩。Alpha
21264的缓存系统也对高性能水平做出了贡献。Athlon继承了它的高效缓存设计——芯片内部L1包括一个64KB的指令缓存器(I-cache)和一个64KB的数据缓存器(D-cache)和外部总线——Alpha
EV6
200MHz,片上和片外缓存提供了低延时的数据访问能力,从而带来了很高的数据访问带宽和整体性能,而且AMD
K7处理器的动态分支预测技术也领先于P6架构,同时具有多重并行x86指令解码器。由于当时制造工艺的局限,
L2
Cache部分只能以2/3、1/2、1/3于CPU主频速度运行,在后来很大程度上又制约了CPU整体性能发挥。以往AMD
CPU较差的浮点性能在Athlon架构中同样得到改善,其浮点性能与Pentium
III相比毫不逊色。

图8/25

其实Pentium II和Pentium III的设计来自于对Pentium
Pro的改进。1995年11月1日,Intel推出了当时看来可以用“硕大”来形容的Pentium
Pro处理器(中文名称是高能奔腾),这款代号P6的产品和Pentium相比革新相当大,例如整数流水线采用了10级工位的超级流水线;能作多重分支预测和猜测执行;具备能够把x86指令转换成RISC风格微操作的译码器;实现了乱序执行等。

奥门银河赌城 20
Pentium III

Pentium II

下表则反应了Athlon 64的x86-64所用寄存器的具体区别:

奥门银河赌城 21

针对自己拥有高IPC,而对手拥有高频率,AMD提出了QuantiSpeed架构理论来反击“频率至上论”。QuantiSpeed架构理论有以下几个部分组成:

AL范围表示0-7的8位寄存器,AH则表示16位寄存器,EAX就是我们大多数用户使用的32位寄存器,如Athlon
XP和Pentium
4,RAX则是AMD拓展的64位寄存器。它能够存放一个64位长的数据,从而让CPU直接处理。从EAX到RAX的扩展,就同15年前Intel发布i386处理器时,将AX扩展为EAX的做法一样。当时i386在应用程序方面比起它的前辈i286来说,表现相当优秀。现在K8也采用了相同的做法,让该处理器可以很轻松的运行32位代码,在这种情况下CPU是没有满负荷运行的。

本文作者:Baifansu27

奥门银河赌城 18

奥门银河赌城 23

灯,等灯等灯,最早对INTEL的CPU的印象就来自这个广告音乐。这代处理器没有沿袭586的名称,而是开创性的使用了pentium,从此甩掉了一众追随者,带领INTEL走向王者之路。这代处理器的生命周期里有几种不同的封装,我这块是比较常见的陶瓷封装的,其实我更喜欢另一种金色顶盖封装的,不过不太好找到。

4、非复用TLB。QuantiSpeed体系结构中的TLB结构能保留关键数据表以及靠近处理器的指令。当再次请求数据或指令时,这种设计使处理器无需等待就能开始操作。这些TLB结构现在更大,在高速缓存之间是唯一的,具有预测性。更大的TLB使AMD
Athlon
XP处理器能访问其它图形;这些结构的排他性消除了信息复制,在二级高速缓存中释放出更多的空间,留给处理器使用其它有用信息;推测使AMD
Athlon
XP处理器能快速产生关键数据和指令的未来图形。对TLB结构的这3种增强进一步提高了每个时钟周期能完成的工作量,从而提高了AMD
Athlon XP处理器的实际应用性能。

现在新增加了R8-R15通用寄存器(GPR),这些寄存器都工作在64位模式下(这意味着在该模式下程序需要重新编译),原来的寄存器诸如EAX、EBX也由32位扩张至64位。Athlon
64在SSE单元中新加入了8个新寄存器以提供对SSE2的支持,寄存器数量的增加将直接带来性能的提升。

这是Cyrix最后独立设计的一款处理器,和pentium同时代的产品,没什么过多亮点,胜在价格便宜,性价比高。话说那个年代的CPU似乎都是金色顶盖,颜值高。

奥门银河赌城 24
Coppermine微架构(0.18微米Pentium III,属于Pentium Pro家族第3代改进型)

第一代Athlon 1GHz在生产时没有能得到高性能的SRAM晶圆,所以很可惜,其L2
Cache是以1/3于CPU主频速度运行的。反而随着Pentium
III的频率上升,性能的增益也越来越强,不要忘了其所采用的全速Cache。在1GHz
决战时,迟到的Pentium III终于超越了Athlon。

第一款SLOT 1
接口CPU,一方面完全内部集成二级缓存成本太高,另一方面也为了甩掉SOCKET接口一路的兼容追随者,INTEL发布这样一款接口的CPU,从此之后再也不用担心追随者们的兼容CPU了。可是谁承想后来逼出一个SLOT
A的K7,和INTEL平分了天下,这又是后话了。

奥门银河赌城 25
如图,核心形状的变化在上图中得到体现。

奥门银河赌城 7

图16/25

为了彻底铲除CPU与内存间的瓶颈,尽可能减小内存到CPU的延迟时间,AMD把以往北桥芯片中的主要部分——内存控制器内建在CPU中。和通常的做法不同,将内存控制器集成在处理器芯片中从而代替了传统的北桥芯片,这样做最大的优点就是该控制器运行频率可以达到处理器核心频率的水平,因此其潜伏期将变得更短。而且随着处理器频率的提高,潜伏期将越来越短。

如图,Athlon
64内部架构简表。核心设计中的以下几个热点我们必须关注:全新设计的AMD
64核心;x68-64计算技术;集成DDR内存控制器;HyperTransport总线;Cool’n’Quiet与EVP。

奥门银河赌城 27

在规格上,Pentium
Pro相当强大,其晶体管集成度发展速度甚至超越了摩尔定律,使CPU的性能进一步提高到惊人的水平。即使是这样,在整个Pentium
III时代,Intel仍无法超越AMD,Athlon优秀的架构抵挡了所有来自Pentium
III的进攻,在性能上几乎全面领先。更重要的是2000年3月6日,AMD抢在Intel之前,在美国加州的Sunnyvale发布了第一款实用的1GHz
Athlon处理器(Magnolia核心),跨越了一个新的里程碑。对于奉行摩尔定律的Intel来说这样的局面是无论如何也抬不起头的。这在当时被称作AMD完全的胜利!

其实Pentium II和Pentium III的设计来自于对Pentium
Pro的改进。1995年11月1日,Intel推出了当时看来可以用“硕大”来形容的Pentium
Pro处理器(中文名称是高能奔腾),这款代号P6的产品和Pentium相比革新相当大,例如整数流水线采用了10级工位的超级流水线;能作多重分支预测和猜测执行;具备能够把x86指令转换成RISC风格微操作的译码器;实现了乱序执行等。

奥门银河赌城 28

与以往的32位X86结构相比,K8在原有的8个通用寄存器的基础上又增添了8个寄存器。这8个寄存器工作在64位下,经过64位编码的程序就可以使用到它们。AMD同时也将原有的EAX等寄存器扩展至64位的RAX。从扩充方式上看,EAX等寄存器可以看作是RAX的一个子集,系统仍旧可以完整地执行以往的32位编码程序。通用寄存器除了可高效的存储数据外,还可作为寻址时的地址指针,从而缩短指令长度和指令执行时间,加快CPU的运算处理速度,同时也给编程带来方便。单单从寄存器结构来看,X86-64较多的寄存器将会大幅度的提升处理器的性能,也会更加受到软件开发人员的喜爱。

2000年11月20日,Intel发布Pentium 4 1.4GHz、Pentium 4
1.5GHz处理器,采用了0.18微米工艺技术,提供256K的二级缓存。这是采用了Willamette核心的第一代Pentium
4,虽然将频率提升到2.0GHz,但相对落后的工艺和缓存容量限制了性能的提升空间,Athlon还是能战胜它。但这时的Athlon已明显感觉体力不支,并预测到未来会迎接更猛烈的挑战。同时Athlon
XP策划已经出炉,越来越多的信息表明AMD要改进核心来应对Intel。

奥门银河赌城 29

对于寻址空间更大的K8,增加TLB条目数,改变TLB联合方式显然具有更重要的意义。同时,在TLB控制机构方面,为了提高在程序间切换时的处理器性能,Athlon
64也相应K7核心做出了一些变化。此外,更大的TLB对于多线程处理和多处理器发展有相当大的积极意义,和Intel的超线程技术一样,更大的TLB有助于在多核心多线程应用的发展上迈出有意义的一步。
Hammer在TLB的连接方式上也有一些变化。TLB也分为2级,主要用于更快的完成虚拟地址向物理地址的映射。这是由于Hammer处理器没有储存或访问物理地址的能力,它必须通过虚拟地址来完成对主存空间的访问。将虚拟地址转化为物理地址需要3个时钟周期。TLB将以前的映射的结果保存下来,这样当需要用到原先访问过的数据时就可以直接在TLB中搜索相关的物理地址,而不需要进行映射运算,这样只花费1个时钟周期。

奥门银河赌城 30
如图,Intel CPU晶体管集成数量的发展

Cyrix GX

奥门银河赌城 31
如图,Pentium III和Pentium 4的流水线长度对比

我们在这里说的位数,也叫做字长。在信息技术领域,“字长”是衡量计算机性能的重要标准之一。字长在很大程度上决定着计算机的内存最大容量、文件的最大长度、数据在计算机内部的传输速度、处理速度和精度等性能指标。

INTEL比较失败的一代产品,高频低能,发热量大,而且初代产品搭配的RDRAM内存价格昂贵,且只能成对使用,虽性能优良,但最终被市场淘汰。这一代产品被AMD的K7吊打,直到酷睿横空出世,局面才得到反转。这也是Pentium最后一次作为INTEL的高端品牌出现,等若干年后Pentium再次现身,已经是作为低端的产品线了。

奥门银河赌城 32
64位指令工作原理示意图

奥门银河赌城 33
图为Socket 462接口的Thunderbird核心Athlon 1.4GHz

图11/25

Intel在发布奔腾的下一代产品Pentium
II时,采用了专利保护的P6(第6代处理器)架构,并且不再向AMD和Cyrix授权,AMD和Cyrix的市场份额急转直下。P6架构与Pentium的P5架构最大的不同在于,以前集成在主板上的二级缓存被移植到了CPU内,从而大大地加快了数据读取和命中率,提高了性能。

L2的扩大带来了面积的增长,当然缓存容量的变化也会引起TAG(二级缓存检索表)的变化,总的来说,这两款核心并没有涉及到内核基本架构的变化。AMD随后再接再厉,将Barton的FSB提升到400
MHz,主频也达到2200 MHz,终于达到了Athlon
XP的极限PR值3200+。此后AMD于2003年10月24日正式公开了新的roadmap蓝图,宣布了Hammer市场计划,也同时不声不响地宣布了Athlon
XP的生命结束。

Celeron是INTEL为在低端市场碾压对手推出的性价比CPU,基本是同档次PENTIUM阉割二级缓存的版本。我手上有两块,一个是PENTIUM
II时代的Celeron,一款是PENTIUM III时代的Celeron,都是SOCKET
370接口,这两代都算得上是那个年代的经典产品。


3、集成DDR内存控制器

这可是AMD当年最成功的一块CPU了,弥补了K6羸弱的浮点性能,又没有k6-3过高的价格,应该是SOCKET
7 平台最后的辉煌了,当年可是给了INTEL很大压力。

如下图要完成这些运算AMD为其引入了少量的新寄存器,作为现有寄存器的扩充:

奥门银河赌城 31
如图,Pentium III和Pentium 4的流水线长度对比

图9/25

第一代K6还只能与具备MMX技术的Pentium打成平手,所以AMD于1998年4月迅速推出K6-2以抗击Pentium
II,它支持新3D Now!
指令集(这是AMD发布的针对三维建模和效果渲染等三维应用场合性能增强的指令集,可以大幅度提高CPU的3D处理性能)及100MHz的前端总线频率(FSB),最初的时钟频率为266MHz,后增到475MHz,带有64KB的一级缓存,二级缓存位于主板上,容量为512KB—2MB之间,与总线频率同步。

AMD的缓存设计与Intel相比也有很大不同,Athlon架构使用拥有一个很大的L1
Cache,直到今天的Athlon
64也一样没有发生变化。这表示了CPU需要的大量数据可以从L1获取,而Pentium
III的L1 Cache则很小,为16KB,很大程度上要依赖于L2
Cache提供数据。所以Intel为CPU设计的L2
Cache位宽和关联度都比较高,以此来获得较高的L2带宽。特别是到了Pentium
4时,L1
Cache数据缓存只剩下8KB,Intel用新增的一种一级追踪缓存替代指令缓存,容量为12KμOps,表示能存储12K条微指令。所以Pentium
4必须有一个很大的L2 Cache,L1 Cache在Pentium
4中更多的作用是告诉CPU数据在L2
Cache的某个地方,而并没有存放很多数据。因此在低端市场,AMD可以大幅度削减CPU的L2
Cache,带来性能损失远没有Intel,这也为抢占低端市场打下了坚实的性能基础。

昙花一现的SLOT接口

Athlon开始面对一场从未预料到的战斗,对手Pentium
4采用了疯狂飙升频率的办法来打压自己,Athlon的战略也不得不做调整。

图2/25

AMD与Intel的关系正在变得越来越“微妙”:一方面,相对Intel而言AMD是弱小的,难以对抗其在多方面的优势及成功。但另一方面,AMD又具有相当的实力,它的处理器足以与Intel产品在主流市场相抗衡,加之其发布的兼容X86的64位架构CPU,正如15年以前Intel在它的80386中所做的一样——同时兼容32位和16位程序,今天聪明的AMD也正在让它的64位处理器重复着当年Intel的成功。

奥门银河赌城 35

VIA C3

需要强调的是,通常所说的64位指令,并不是指指令的全长或操作码的长度为64位,而是指操作数所能达到的最大位数为64位。通过上面的图示,可以很好地理解64位指令和64位处理器的本质。

Duron是AMD面向低端市场的利器,凭借先进的CPU设计构架和优良的血统,在性能上完全超过了Celeron
II,特别是Duron芯片内的L2 Cache较小,芯片面积(die
size)只有100mm,其功耗以及发热量也相对较低。而最令用户对毒龙难以忘怀的,自然还是其极为强大的超频能力,Duron
600通过铅笔破解倍频之后至少能够超频到800MHz,不少极品甚至达到1GHz,使很多DIYer所乐此不彼。

图3/25

奥门银河赌城 35

采用甚深流水线的目的为了在同样的工艺下获得更快的时钟频率,NetBrust正是如此,它采用了20级超长流水线,配合Intel的制造工艺,获得非常高的运行频率。但长流水线也有致命的缺陷——执行效率低下。流水线越长,对于采用乱序+猜测执行的处理器来说,预测失败的成本就越高。Pentium
III的流水线在预测失败的时候会损失10个周期,而在第一代的Willamette
Pentium 4 上就达到了20个周期。即使这样,Pentium
4照样把频率提得超高,一定程度上弥补了分支测错造成的性能损失。

图18/25

从CPU能够处理的指令长度来划分,Athlon
64属于64位CPU,这彻底区别于所有的Athlon XP和Pentium
4处理器。K8能运行64位程序,正是得益于x86-64计算技术,而x86-64的精髓则是向下兼容。

需要强调的是,通常所说的64位指令,并不是指指令的全长或操作码的长度为64位,而是指操作数所能达到的最大位数为64位。通过上面的图示,可以很好地理解64位指令和64位处理器的本质。

图14/25

奥门银河赌城 33
图为Socket 462接口的Thunderbird核心Athlon 1.4GHz

为了彻底铲除CPU与内存间的瓶颈,尽可能减小内存到CPU的延迟时间,AMD把以往北桥芯片中的主要部分——内存控制器内建在CPU中。和通常的做法不同,将内存控制器集成在处理器芯片中从而代替了传统的北桥芯片,这样做最大的优点就是该控制器运行频率可以达到处理器核心频率的水平,因此其潜伏期将变得更短。而且随着处理器频率的提高,潜伏期将越来越短。

Pentium 4

第一个4年(1999年6月23日——2003年9月22日)

在外部封装上,Thunderbird同样表现突出。直立式的Slot
A插槽变为陶瓷封装、体积小巧的Socket
462接口,这一接口也一直沿用到2003年9月22日K7生命终结。Thunderbird同样带动了AMD的再一次腾飞,强大的1.4GHz主频、200
MHz系统总线、全速L2
Cache、工作电压为1.70V~1.75V,相应的功耗也比上一代Athlon小,恐怖的超频能力同样诱人。当然不要忘了Duron,有它在低端的配合,市场上掀起了一股抢购AMD处理器的狂潮,用专业媒体的话说:Athlon、Duron市场供应闹饥荒。

Pentium pro

奥门银河赌城 20
Pentium III

AMD于2001年10月9日正式发布新型的Athlon XP处理器,AMD Athlon
XP中的XP指Extreme
Performance(卓越性能),它支持更大的高速缓存、专业3Dnow!技术和QuantiSpeed架构。首批Athlon
XP采用Palomino核心,制造工艺没有像人们预想的那样有所提升,而是沿用了上一代的0.18微米工艺,二级缓存的大小也维持了256KB,Palomino将Thunderbird的核心元件位置做了更改,内核形状由原来的长方形变为正方形,当时普遍认为这样的改动是为将L2提升到512KB做调整,很可惜实际的产品并没有证实这个想法。Palomino相对于Thunderbird当然还是有一些改进的,它将一级缓存中Data
TLB数据缓存中的4K寻址页的地址变量寄存器由Thunderbird的24项提升到32项。这样可有有效增强缓存命中率,在缓存数量不变的情况下,有效增强了效率,商业应用下性能进一步提升。同时新核心加入了第三代3D
Now!指令集,使3D
Now!通过一些转换能够兼容一些SSE指令。其余架构方面完全没有改动。

图19/25

奥门银河赌城 10
Pentium(P5)微架构体系图