恩怨的延续 XDR2与DDR3决斗未来之王!
Rambus DRAM(RDRAM)与DDR SDRAM家族的恩恩怨怨,想必大家都是清楚的。RDRAM由于超前的串行传输设计而需要对内存底层技术做彻底的颠覆,因此受到了主流市场用У牡种疲土琁ntel这样的巨腕,在力推RDRAM受阻之后最终也只好向主导DDR规格的JEDEC低头。其实,1990年成立的Rambus公司也曾经是JEDEC中的一员,但在1996年,由于Rambus对自己专利技术的坚持与JEDEC的技术共享理念不能很好的协调一致,Rambus退出了JEDEC。从此,Rambus全力使自己的早已开发成功的RSL(Rambus Signaling Level,Rambus发信电平技术)趋向成熟,并最终与Intel一道,在1999年使其应用于台机PC机市场。
然而,DDR SDRAM以出众的产业转移成本优势,迅速赢得了DRAM产业界的支持,这种以传统SDRAM架构为基础,通过局部改进即可提升一倍数据传输率的技术很快将RDRAM打得一败涂地,进而也使Intel完全倒戈——逐渐从PC和服务器领域全面放弃RDRAM。到了2003年,JEDEC则正式推出了DDR的接班人——DDR2 SDRAM。
不过,Rambus并没有就此沉沦,在向英飞凌(Infineon)、三星(SAMSUNG)、海力士(Hynix)、美光(Micron)等DRAM生产巨头起诉索要巨额制授权金的同时,继续在高速接口领域潜心钻研,并获得了业界的认可,比如内存控制器核心与PCI-E接口核心等等。不久前,在光纤通道交换机与HBA(主机总线适配器)领域赫赫有名的QLogic就宣布采用Rambus的PCI-E核心,从侧面也体现出了Rambus在串行接口方面的研发实力。
2003年7月10日,对于内存业界来说,是个重要的日子,Rambus在这一天发布了自RDRAM之后的第二代串行传输内存技术——XDR,即eXtreme Data Rate——极限数据传输率内存。并得到了在PlayStation 2游戏机中采用RDRAM的索尼公司的继续支持——在其PlayStation 3游戏中采用XDR DRAM为主内存。

XDR内存可以认为是RDRAM在主流应用领域里的一次有力反击
XDR DRAM的设计非常灵活新颖,但是其在PC主流市场的应用基础是“0”——没有一家主流芯片组厂商支持这一标准,所以Rambus给它的定的目标是在2006年能杀入PC市场,与DDR家族再战一场。
另一方面,为了应付对带宽需求越来越高的显卡的要求,DDR SDRAM生产厂商又在DDR/DDR2的基础上开发出了专为高速图形应用的内存——GDDR SDRAM,如今已经发展至第三代,即GDDR3,最高数据传输速率1.6GHz。而本来就在高速传输领域见长的Rambus也早已窥视这一市场很久了,虽然XDR所针对的应用领域就包括显示卡,但Rambus显然觉得还不够,它也要仿效DDR向GDDR的演变,开发出更高速并且为图形应用优化的内存技术。
时隔两年后的2005年7月7日,Rambus终于拿出了打击GDDR家族的武器,这就是第二代XDR内存,简称XDR2 DRAM。
XDR2在体系架构上源于XDR,并不像XDR相对于RDRAM那样有着巨大的差异,这从它们之间的系统架构的比较中就可以体现出来。

XDR内存系统架构图

XDR2内存系统架构图
从上面两张图中,我们可以看出XDR2与XDR系统在架构上整体的差别并不大,主要的不同体现在相关总线的速度设计上。首先,XDR2将系统时钟的频率从XDR的400MHz提高到500MHz,其次,在用于传输寻址与控制命令的RQ总线上,传输频率从800MHz提升至2GHz,也就是XDR2系统时钟的4倍。最后就是数据传输频率由XDR的3.2GHz提高到8GHz,即XDR2系统时钟频率的16倍,而XDR则为8倍,也因此,Rambus将XDR2的数据传输技术称为16位数据速率(HDR,Hex Data Rate)。
Rambus表示,XDR2内存芯片的标准设计位宽为16bit(它可以像XDR那样动态调整位宽),按每个数据引脚的传输率为8GHz,即8Gbps计算,一枚XDR2芯片的数据带宽就将达到16GB/s,与之相比,目前速度最快的GDDR3-800的芯片位宽为32bit,数据传输率为1.6Gbps,单芯片传输带宽为6.4GB/s,只有XDR2的40%,差距十分明显。
XDR2在设计之初就是着眼于图形显示卡应用领域,而在这一应用领域中,常用到的访问操作与PC机上的主内存有所不同,那就是经常会访问一些小容量的离散数据集合,因此就有必要对这类应用进行优化。XDR2架构的一大创新就是针对这一操作进行架构优化,Rambus称之为微线程架构(MT,Micro-Theaded)。
对此,Rambus用原来的RDRAM的架构与XDR2进行了对比。

这是一张传统的拥有8个逻辑Bank的RDRAM的内部结构图,灰色的部分是半个逻辑Bank,逻辑Bank中的白条代表行(Row),而Bank中的黑块则代表列(Column)
我们知道,RDRAM有两个数据通道(Data Pins),每个通道位宽为8bit。RDRAM的一个逻辑Bank的由两个子Bank组成,每个子Bank各接有一个数据通道,合计16bit。在工作时,两个子Bank同时寻址并将各自的数据传向数据通道A与数据通道B,下面就让我们看看最终的结果是什么样子的。

传统DRAM核心的访问数据时序图
假设行寻址命令的间隔周期是8ns(指在发出行寻址命令8ns后才能向其他逻辑Bank发送新的行寻址命令),列命令间隔周期是4ns(发出列寻址命令4ns后才能向其他Bank发送新的列寻址命令),而数据通道中的传输周期为0.25ns(4GHz),我们可以算算,在一次行访问间隔内,数据通道共传输了32次数据(8ns÷0.25ns),而数据通道A+B的部位宽为16bit,就是512bit数据,合64字节,而在一次列访问间隔中,共传送16次数据(4ns÷0.25ns),数据通道A+B的总的带宽为256bit,合32字节。这就是传统RDRAM结构所体现的一次行访问容量与一次列访问容量(也可称之为访问颗粒度),也就是说传统的RDRAM核心在一次行访问间隔中至少要传输64字节的数据,而在一次列访问间隔中,至少要传输32字节的数据。
但是,在显卡的应用中,这样大的颗粒度往往会造成带宽的浪费,因为在访问一个图形对象时,一般用不到如此大的数据量,这与图形应用的特点有很大的关系。

在访问由6个像素组成的三角形时,DRAM存储阵列的二维寻址示意图
当我们把DRAM中的一行拿出来以列访问容量为单位做成一个二维表格时,我们就能清楚看到显示卡在访问一个三角形的数据时所进行的寻址情况。假设需要访问的是由6个像素组成的三角形(3D绘图的基本单元就是不同大小的三角形),每个像素占用4个字节(典型的RGBA/32bit格式),那么这6个像素组成的三角形就是24个字节的容量。
虽然,对于一个列访问容量为32字节的DRAM架构来说,一个列访问容量就包括了一个三角形,但是,三角形的数据并不是存放于一个列中的,就像在屏幕中,组成三角形的像素不会是线性排列的一样,因此在访问这些数据时,就需要访问多个列(因为图形数据是线性写入显存的,这就造成了三角形各像素是分布式存储的)。从上图可以看出,对于6像素的三角形来说,至少要访问二个列,最多要访问4个列,而对于4个列来讲,就相当于读取128字节,但这其中只有24个字节是需要的,其他的数据就白白的占用传输带宽与所用的时间。所以,要想提高内存在显卡应用中的效率,在提升传输频率的同时还要有效降低访问颗粒度,而这就是MT架构的设计初衷。
在我们知道了MT架构的设计初衷后,肯定会非常关心XDR2是如何实现它的。从理论上,我们就不难分析出,要减少行与列的访问颗粒度,首先就要将行与列的访问间隔缩小,其次就是减少每次列数据输出的容量。在这方面,XDR2先是在工作频率上进行了改进,其将命令与控制总线(RQ)的工作频率提升至了2GHz,是500MHz时钟频率的4倍,换句话说,就是在原有一个时钟周期内理论上可以发送4个命令。接下来,就是最关键的改进——DRAM核心的全新设计。
简单而言,它是在XDR的外衣下采用了与RDRAM相似的核心设计——再次采用了A+B双数据通道的设计,A和B通道各8bit,并且将逻辑Bank从XDR的8个增加至16个,不过,A和B数据通道是各自独立的,各自连接8个逻辑Bank。

XDR DRAM的内核设计,逻辑Bank数量为8个(红框所示),数据通道只有一个

XDR2 DRAM的内核设计,红框中就是逻辑Bank的架构,共16个,而下方可以看出有两个数据通道DQA和DQB,这样的设计与原有的RDRAM有几分相似,图中的0、1、2、3是对4个子Bank组的编号
在XDR2核心中,16个逻辑Bank对应A和B通道分成两个区,每个区(包含8个逻辑Bank,0到7在A区,8到15在B区)又分成两组,奇数Bank为一组,偶数Bank为一组。这样就形成了4个逻辑Bank组。做成这样一个架构的目的就在于进行交错寻址。他们的工作时的状态如下图所示。

XDR2内存工作流程示意图
在寻址时,XDR2内核中的4个Bank组是跨区交错/同时工作的。简单而言就是在同一时间,A区与B区中各有一个Bank组在工作,而在每个区中的两个Bank组则是交错工作关系。
在寻址时,先指定A和B区某一Bank(共两个Bank),之后同时向这两个Bank发出列寻址命令,这两个Bank各自将数据传输至A区与B区连接的数据通道。这样做的好处就是将原来大的逻辑Bank细化,并且将A和B数据通道独立,使Bank的接口位宽按数据通道的位宽等比例缩小,从而有效的控制住了一次访问时的传输容量。比如在上面的XDR结构图中,数据预取设计是16bit,数据通道的位宽是16bit,这样逻辑Bank的位宽就是16X16bit=256bit=32字节,也就是说一次传输至少32字节的数据。而在XDR2中,预取也是16bit,但数据通道A和B各自独立,也就使XDR2的逻辑Bank的位宽变成了16X8bit=128bit=16字节,有效降低了逻辑Bank一次传输的数据量,但由于另一个通道也在传输另一个Bank的数据,所以总的带宽并没有损失,只是访问精度进一步提高了。
在具体的传输中,与RDRAM和XDR一样,XDR2的A和B通道的每个引脚用16个传输周期串行传输两个字节,而不是在一个周期传输一个字节(8bit),这就是Rambus引以为荣的数据串行多路关联的设计。
下面就让我们来看看MT架构带来的好处。

采用MT架构的内存的寻址时序图
仍以前面的假设条件为准,我们可以发现,由于同时有两Bank在工作,所以行命令间隔与列寻址间隔均要减半(R0与R1的命令是一个集合,先后选择两个Bank,而对这两个Bank的列寻址命令,如C0x和C1x则是同时发出),而且数据通道的宽度也减半,从而使列访问颗粒度降至8字节,而行访问颗粒度降至16字节,是传统DRAM核心的1/4。
我们现在已经清楚了XDR2之所以采用MT架构,就在于要减小行与列的颗粒度,那么在图形应用中,小的颗粒度会体现出多大的优势呢?下面我们就来对比一下。

三角形访问效率比较,左边是采用MT架构的DRAM核心,右边是传统的DRAM核心
我们假设访问一个由6个像素组成的三角形,每个像素4个字节,计24字节。从图中可以看出,对于MT架构的DRAM核心,由于列访问容量8字节,所以2KB的行容量中就有256个列,而对于传统核心的DRAM,4KB行容量则只需要128个列,显然MT架构更为细化,这样做的好处就是寻址更为精确有效。
对于8字节的行访问容量,总共只有两种可能的寻址情况发生,一种是访问4个列,一种是访问5个列。平均下来就是4.5个列。按列容量8字节计算就是36字节,而需要字节为24,有12个字是无效的,访问效率为24/36=66.67%。而对于传统的DRAM核心,共有8种可能出现的情况——4种需要访问2个列、3种需要访问3个列,1种需要访问4个列,平均下来需要访问2.6525个列,按每个列容量为32字节计算,则为84字节,其中有60个字节是无效的,访问效率为28.5%,从这一点中就可以看出MT架构的优势。

传统DRAM核心与MT架构核心的三角形平均访问率对比
在三角形访问率的对比中,我们可以发现MT架构在小三角形访问方面有着显著的优势。图中的tRR limit是指行访问容量的限制,一般的行访问容量是列访问容量的两倍,要访问的数据超过了这一范围,访问率就会下降,而在这一范围之内,效率不变。由于在未来的3D绘图中,出于对细节表现力的追求,小三角形的应用会越来越普及,因此MT架构的DRAM核心的优势也就会更加明显。而这也正是Rambus开发XDR2的缘由。
不过,这里需要指出的是,上面的分析是基于一种假想的设计,事实上,XDR2的数据传输频率为8GHz,即传输周期为0.125ns。而行寻址间隔周期为两个时钟周期,以500MHz的时钟频率计算为4ns,列寻址间隔周期为1个时钟周期,即2ns,因此XDR2的列访问容量为16字节,行访问容量为32字节。

XDR2内存对于6像素(每像素4字节)三角形的访问,共有4种情况
这样,对于上面的例子而言(寻址一个6个像素组成的三角形,每个像素4个字节),XDR2内存需要访问3.75的列,合60字节,访问效率为40%。看来Rambus在数据带宽与访问效率上选择了前者,毕竟与4GHz的数据传输率相比,8GHz提高了一倍,但66.67%的效率相对于40%,只是提高了66.7%,这样看来还是划算的。
小提示:如何迅速计算出列与行访问颗粒度 |
列访问颗粒度,一般就是指从逻辑Bank中读取一次的数据量,而从逻辑Bank中读取一次的数据量就是逻辑Bank的位宽,这个位宽就是以预取的位数乘以内存芯片接口位宽得来的。 比如DDR内存,接口位宽如果是8bit,由于DDR是2bit预取设计,那么其逻辑Bank的位宽就是16bit,合两个字节,这就是该规格的DDR内存的列访问颗粒度。也称之为列容量。对于GDDR3而言,由于位宽是32bit,预取为4bit,那么列访问颗度就是16字节。XDR2的预取设计为16bit,单通道位宽为8bit,因此XDR2的列访问颗粒度也就是16字节了。 而行访问颗粒度一般为列容量的两倍,因此也就不难推算出行访问颗粒度了。 |
理论上,MT架构可以应用于任何一个需要精确寻址的应用场合,而不仅仅是图形领域,比如大型的物理形态模拟计算系统(如流体力学仿真计算),在运算过程中会产生大量的小规模数据块,存储地点的随机性很大,而在网络交换机等设备中,由于网络数据包体积大多较小,并且是随机组合,因此也需要内存系统给予强大的访问效率,以节省宝贵的时间。此外,对于很多应用于消费电子产品中的处理器而言,则内部的缓存行(Cache Line)容量也较小,而Cache Line是缓存与内存之间交换数据的容量单位,较小的访问颗粒度,则可以确保与缓存之间的数据交换保持最佳的效率(比如Cache Line的容量若是16字节,对于32字节的颗粒度来说,就要浪费16字节的传输操作)。因此,Rambus也将XDR2的应用领域锁定在了除显卡以外的高性能运算、网络与消费电子设备领域。
除了最引人关注的MT架构设计之外,为了保证XDR2系统的稳定运行并且更有效率,XDR2它还继承了XDR的优点并加入了新的辅助设计:
自适应同步(Adaptive Timing),在速度不断提升的今天,XDR的FlexPhase(弹性相位)同步电路将进行补偿处理,实时应对电压与温度变化所产生的影响。
FlexPhase的本意是使内存生产者不再费力的去调校PCB的布线设计以减少延迟/潜伏期对数据同步的影响。弹性相位技术使信号本身就具备了数据/时钟同步与自校准能力,从而使外围有关时序跟踪的设计与布线变得非常简单,并有助于提高同步性,提高总线利用率。在XDR系统中,弹性相位控制这一功能由XIO完成,调校单位为bit,精度可达2.5ps(Pico Second,微微秒)。

采用FlexPhase技术之后,内存芯片与控制器之间的走线设计将更为容易
信号传送均衡(Transmit Equalization),这一技术将来自内存系统的电路反射与衰减影响降到最小程度,以稳定达到所需要的速度。
DRSL发信技术,使用200mV的差分信号发送技术,以提供较高的信噪比,另外XDR2还使用芯片内终结与点对点传输技术,结合相关的PCB与芯片装配技术,以最大限度减少信号反射并减少传输周期。
动态位宽(Dynamic data width),与XDR内存一样,XDR2可以动态调整接口的位宽,可以有2bit、4bit、8bit等选择,这样就助于提高系统的设计灵活性,而且位宽改变后,访问颗粒度也将会改变,2bit、4bit、8bit时的列访问颗粒度分别为2字节、4字节和8字节。带宽也降至2GB/s、4GB/s和8GB/s。
零刷新占用(Zero Overhead Refresh),传统的DRAM在刷新时,是对所有逻辑Bank的相同地址行进行刷新,如果正好赶上某一行处于工作状态,或要想访问某一行时,就与刷新操作产生的冲突。而XDR2内部独特的逻辑Bank设计,可以通过交错控制刷新,避免了刷新操作影响正常寻址的情况发生,实现了零刷新系统占用。
XDR2的应用领域虽然很广,但Rambus仍把首要目标瞄准了显卡市场。目前,NVIDIA与ATI的高端显卡均配备了GDDR3显存。XDR2在这一领域中的主要竞争对手就是GDDR3,那么与GDDR3相比,XDR2的优势怎么样呢?
先看看颗粒度的情况,GDDR3的位宽均为32bit,其基于DDR2架构设计,预取4bit,因此列访问颗粒度与XDR2一样,同为16字节。也就是说在访问尺寸相当的三角形时,XDR2与GDDR3的效率是一样的。所以,XDR2在这个方面并不占优势,但是我们不要忘了两者的带宽。单颗芯片来比较的话,现在最高速度的GDDR3的带宽为6.4GB/s,而XDR2则达到了16GB/s,这样一来,在保持相同访问效率的同时,XDR2性能至少是GDDR3的2.5倍,单就这一点来说,就有了很大的优势。下面我们再来比较一下寻址效率。

在耗电方面,虽然GDDR3的标准设计是1.8V,但最高速的GDDR3-800则为2.0V,而XDR2-500则仍保持在1.8V,与第一代XDR内存相同。
未来可能的XDR2系统设计,可以预见的肯定会有64bit的显卡接口规格,此时的XDR2系统的带宽将达到64GB/s,相对于现有的256bit GDDR3架构的51.2GB/s而言,提高了1.25倍,但位宽只有后者的一半,再加上XDR2芯片的引脚为108pin,而GDDR3-800则为136pin,这对于PCB布线设计来说显然会轻松很多。总之,XDR2的设计有着明显的优势,当并行传输方式在高频率下的劣势越来越明显时,XDR的串行传输方面的优势也将得以显露。因此,我们有理由相信,XDR2在未来某个时间点会进入主流显卡领域,以满足未来GPU对高带宽的强烈需求。
小提示:GDDR2与GDDR3的区别 |
很多人都认为GDDR2是显存版的DDR2,而GDDR3是显存版的DDR3,但事实上并非如此。第一代的GDDR是基于DDR SDRAM架构有显存,区别在于针对更高的工作频率进行了设计优化,并提供了高位宽的设计。事实上,GDDR在某种角度上说,就是一个高位宽与高频率版的DDR内存。 到了DDR2时代,也就基于它发展出了GDDR2显存,4bit预取、片外驱动调校(OCD,Off-Chip Driver)、片内终结(ODT,On-Die Termination)设计都是明显的DDR2特征,只不过GDDR2为了达到更高的速度与位宽(32bit)而进行了相关的设计优化。 到了GDDR3,其架构与GDDR2基本一样,但有两点不同。一个就是数据选择脉冲(DQS)不再是单一双向的,而分为读与写两个独立的DQS,这样做的好处是,在读取之后如果马上进行写入时,不用再等DQS的方向转变,通过独立的写入DQS信号可以实现快速度的读写切换,比GDDR2要节省一个时钟周期。
GDDR3与GDDR2的一大区别就是将双向DQS变成了读/写两个单独的DQS 另一个不同点在于,GDDR3将GDDR2的推挽式(Push Pull)接收器设计改为伪漏极开路方式(Pseudo Open Drain),在保证信号质量的前提下,获得了更小的ODT能耗。
GDDR3在接收器/驱动器端的设计差异 除了以上两点,GDDR3与GDDR2并没有本质的不同,因此不要再把GDDR3认为是DDR3的显存版了。 |
讲完XDR2,我们再来看看Rambus的老对手JEDEC组织有何新的动向。虽然早在2002年6月28日,JEDEC就宣布开始开发DDR3内存标准,但3年过去了,DDR2才刚开始普及,DDR3标准更是连影也没见到。不过在今年,有两个厂商并不安分,可能是希望以此来表明自己的实力,纷纷宣布成功开发出了DDR3内存芯片,它们就是三星与英飞凌,从中我们仿佛能感觉到DDR3临近的脚步。而从已经有芯片可以生产出来这一点来看,DDR3的标准设计工作也已经接近尾声。

DDR3内存预计于2006年切入市场,半导体市场调查机构iSuppli预测DDR3内存将会在2008年替代DDR2成为市场上的主流产品,iSuppli认为在那个时候DDR3的市场份额将达到55%
DDR3的市场导入时间预计为2006年下半,最高数据传输速度标准较达到1600Mbps。不过,就具体的设计来看,DDR3与DDR2的基础架构并没有本质的不同。从某种角度讲,DDR3是为了解决DDR2发展所面临的限制而催生的产物。
由于DDR2的数据传输频率发展到800MHz时,其内核工作频率已经达到200MHz,因此再向上提升较为困难,这就需要采用新的技术来保证速度的可持续发展性。另一方面,也是由于速度提高的缘故,内存的地址/命令与控制总线需要有全新的拓朴结构,而且业界也要求内存要具有更低的能耗,所以,DDR3要满足的需求就是:
更高的外部数据传输率
更先进的地址/命令与控制总线的拓朴架构
在保证性能的同时将能耗进一步降低
为了满足上述要求,DDR3在DDR2的基础上采用了以下新型设计:
8bit预取设计,DDR2为4bit预取,这样DRAM内核的频率只有接口频率的1/8,DDR3-800的核心工作频率只有100MHz
采用点对点的拓朴架构,减轻地址/命令与控制总线的负担
采用100nm以下的生产工艺,将工作电压从1.8V降至1.5V,增加异步重置(Reset)与ZQ校准功能。
下面我们通过DDR3与DDR2的对比,来更好的了解这一未来的DDR SDRAM家族的最新成员。
1、逻辑Bank数量
DDR2 SDRAM中有4Bank和8Bank的设计,目的就是为了应对未来大容量芯片的需求。而DDR3很可能将从2Gb容量起步,因此起始的逻辑Bank就是8个,另外还为未来的16个逻辑Bank做好了准备。
2、封装(Packages)
DDR3由于新增了一些功能,所以在引脚方面会有所增加,8bit芯片采用78球FBGA封装,16bit芯片采用96球FBGA封装,而DDR2则有60/68/84球FBGA封装三种规格。并且DDR3必须是绿色封装,不能含有任何有害物质。
3、突发长度(BL,Burst Length)
由于DDR3的预取为8bit,所以突发传输周期(BL,Burst Length)也固定为8,而对于DDR2和早期的DDR架构的系统,BL=4也是常用的,DDR3为此增加了一个4-bit Burst Chop(突发突变)模式,即由一个BL=4的读取操作加上一个BL=4的写入操作来合成一个BL=8的数据突发传输,届时可通过A12地址线来控制这一突发模式。而且需要指出的是,任何突发中断操作都将在DDR3内存中予以禁止,且不予支持,取而代之的是更灵活的突发传输控制(如4bit顺序突发)。
3、寻址时序(Timing)
就像DDR2从DDR转变而来后延迟周期数增加一样,DDR3的CL周期也将比DDR2有所提高。DDR2的CL范围一般在2至5之间,而DDR3则在5至11之间,且附加延迟(AL)的设计也有所变化。DDR2时AL的范围是0至4,而DDR3时AL有三种选项,分别是0、CL-1和CL-2。另外,DDR3还新增加了一个时序参数——写入延迟(CWD),这一参数将根据具体的工作频率而定。
4、新增功能——重置(Reset)
重置是DDR3新增的一项重要功能,并为此专门准备了一个引脚。DRAM业界已经很早以前就要求增这一功能,如今终于在DDR3身上实现。这一引脚将使DDR3的初始化处理变得简单。当Reset命令有效时,DDR3内存将停止所有的操作,并切换至最少量活动的状态,以节约电力。在Reset期间,DDR3内存将关闭内在的大部分功能,所以有数据接收与发送器都将关闭。所有内部的程序装置将复位,DLL(延迟锁相环路)与时钟电路将停止工作,而且不理睬数据总线上的任何动静。这样一来,将使DDR3达到最节省电力的目的。
5、新增功能——ZQ校准
ZQ也是一个新增的脚,在这个引脚上接有一个240欧姆的低公差参考电阻。这个引脚通过一个命令集,通过片上校准引擎(ODCE,On-Die Calibration Engine)来自动校验数据输出驱动器导通电阻与ODT的终结电阻值。当系统发出这一指令之后,将用相应的时钟周期(在加电与初始化之后用512个时钟周期,在退出自刷新操作后用256时钟周期、在其他情况下用64个时钟周期)对导通电阻和ODT电阻进行重新校准。
6、参考电压分成两个
对于内存系统工作非常重要的参考电压信号VREF,在DDR3系统中将分为两个信号。一个是为命令与地址信号服务的VREFCA,另一个是为数据总线服务的VREFDQ,它将有效的提高系统数据总线的信噪等级。
7、根据温度自动自刷新(SRT,Self-Refresh Temperature)
为了保证所保存的数据不丢失,DRAM必须定时进行刷新,DDR3也不例外。不过,为了最大的节省电力,DDR3采用了一种新型的自动自刷新设计(ASR,Automatic Self-Refresh)。当开始ASR之后,将通过一个内置于DRAM芯片的温度传感器来控制刷新的频率,因为刷新频率高的话,消电就大,温度也随之升高。而温度传感器则在保证数据不丢失的情况下,尽量减少刷新频率,降低工作温度。不过DDR3的ASR是可选设计,并不见得市场上的DDR3内存都支持这一功能,因此还有一个附加的功能就是自刷新温度范围(SRT,Self-Refresh Temperature)。通过模式寄存器,可以选择两个温度范围,一个是普通的的温度范围(例如0℃至85℃),另一个是扩展温度范围,比如最高到95℃。对于DRAM内部设定的这两种温度范围,DRAM将以恒定的频率和电流进行刷新操作。
8、局部自刷新(RASR,Partial Array Self-Refresh)
这是DDR3的一个可选项,通过这一功能,DDR3内存芯片可以只刷新部分逻辑Bank,而不是全部刷新,从而最大限度的减少因自刷新产生的电力消耗。这一点与移动型内存(Mobile DRAM)的设计很相似。
9、点对点连接(P2P,Point-to-Point)
这是为了提高系统性能而进行了重要改动,也是与DDR2系统的一个关键区别。在DDR3系统中,一个内存控制器将只与一个内存通道打交道,而且这个内存通道只能一个插槽。因此内存控制器与DDR3内存模组之间是点对点(P2P,Point-to-Point)的关系(单物理Bank的模组),或者是点对双点(P22P,Point-to-two-Point)的关系(双物理Bank的模组),从而大大减轻了地址/命令/控制与数据总线的负载。而在内存模组方面,与DDR2的类别相类似,也有标准DIMM(台式PC)、SO-DIMM/Micro-DIMM(笔记本电脑)、FB-DIMM2(服务器)之分,其中第二代FB-DIMM将采用规格更高的AMB2(高级内存缓冲器)。不过目前有关DDR3内存模组的标准制定工作刚开始,引脚设计还没有最终确定。
除了以上9点之外,DDR3还在功耗管理,多用途寄存器方面有新的设计,但由于仍入于讨论阶段,且并不是太重要的功能,在此就不详细介绍了。下面我们来总结一下DDR3与DDR2之间的对比:

DDR2与DDR3规格对比,业界认为DDR3-800将被限定于高端应用市场,这有点像当今DDR2-400的待遇,预计DDR3在台式机上将以1066MHz的速度起步
从整体的规格上看,DDR3在设计思路上与DDR2的差别并不大,提高传输速率的方法仍然是提高预取位数。但是,就像DDR2和DDR的对比一样,在相同的时钟频率下,DDR2与DDR3的数据带宽是一样的,只不过DDR3的速度提升潜力更大。所以初期我们不用对DDR3抱以多大的期望,就像当初我们对待DDR2一样。当然,在能耗控制方面,DDR3显然要出色得多,因此将可能率先受到移动设备的欢迎,就像最先欢迎DDR2内存的不是台式机,而是服务器一样。在CPU外频提升最迅速的PC台式机领域,DDR3未来也将经历一个慢热的过程。

未来的GDDR4很可能会以DDR3架构为基础设计
另一方面,在显卡领域,有可能会从DDR3家族中派生出GDDR4。按照厂商们给出的时间表,2006年上半年GDDR4就会出现,并向1Gbps数据传输率大关挺进。
不过,在其发展的过程中,Rambus的XDR家族也虎视眈眈的看着DDR SDRAM的宝座。当初RDRAM败在了设计超前,成本高昂上,当时的平台技术还不需要将串行传输引入到内存架构中来。但是,如今的XDR则在成本上做到了较好的均衡,而在速度上则远高于DDR SDRAM。以第一代XDR为例,标准数据传输速率就已经达到3.2Gbps,是DDR3最高速度水平的两倍。8bit的XDR芯片就能提供3.2GB/s的带宽,而如果组成32bit的集合(XIO的标准位宽),那么就是12.8GB/s,与64bit架构的DDR3相当,但与之相比,DDR3的PCB布线难度也可想而知。况且,XDR标准中早有4Gbps的规格(32bit时为16GB/s),而且东芝公司也曾实现了6.4GHz的最高传输频率(32bit时为25.6GB/s),因此,如果在DDR3成熟之前,应用平台的带宽需求超出了DDR SDRAM家族的能力,XDR的机会也就来了。
当初DDR之所以能打败RDRAM,主要的原因就是DDR在满足性能需求的前提下,体现出了明显的生产成本与产业转移成本的优势,但前提仍然是性能相符。如果性能满足不了,成本再低也无济于事。面对XDR家族的进攻,笔者认为DDR SDRAM家族的已经不再底气十足,其最大的家底就是良好的业界承继性,也是强大的市场惯性,因为越是主流的也越难以改变。而XDR一方最先有可能杀入DDR阵营的就是对带宽需求更为迫切的显卡领域。究竟哪一家厂商会先吃这个“螃蟹”呢?也许NVIDIA在PlayStation 3的GPU单元的开发中会对XDR进行深入了解(虽然PS3的GPU仍然用GDDR3显存),进而对其产品的未来规划有所新的设想……哈哈,现在只是猜想,至于未来到底如何,就让我们翘首以待吧!







