第一节 显卡的基本原理及分类
一、显卡的基本原理
利用标准的EGA 、VGA 显卡以及帧缓存(用于存储图像),在早期的DOS 操作系统时代,完全可以处 理大多数图像或者文本文件的显示,但是这种组合对复杂的图形显示及高质量的图像处理就显得无能 为力了。特别是当更多的用户使用Windows 等32 位操作系统后,仅仅依靠CPU 已经无法对众多的图形 函数进行处理,最根本的解决方法就是利用专门的图形加速卡。
图形加速卡拥有自己的图形函数加速器和显存,这些都是专门用来执行图形加速任务的,因 此就可以大大减少C PU 所必需处理图形函数的时间。例如要画一个圆,如果让C PU 去运算,它就 要计算需要多少个像素来实现,用什么颜色等等。如果图形加速卡芯片存储有画圆函数,C PU 只 需要发出让显卡画圆的指令,剩下的工作就由加速卡来进行,这样C PU 就可以执行其他的任务, 由此可以大大提高计算机的整体性能。
现在的显卡大多为图形加速卡,它们或多或少都可以执行一些图形函数。通常所说的加速卡性能, 是指其芯片集能够提供图形函数计算能力,这个芯片集通常也称为加速引擎或图形处理器。一般来说, 在芯片集的内部会有一个时钟发生器、V GA 核心和硬件加速函数,很多新的芯片集在内部还集成了 RAMDAC(数字模拟转换器)。芯片集可以通过它们的数据传输带宽来划分,目前的芯片多为64 位或128 位,而早期的显卡芯片为32 位或16 位。拥有更大的带宽可以使芯片在一个时钟周期中处理更多的信 息,带来更高的解析度和色深。
二、显卡的分类
当今IT 产业发展过程中最富创新和挑战意义的产品除了C PU 外,当属图形产品了。从宏观的 角度看,当前图形图像产品大致可以分为3 大类:纯二维(2 D)产品、纯三维(3 D)产品、二维+三 维(2D +3 D)产品。而区别3 类产品的硬件因素主要有两个:核心加速芯片和显示存储器。
1.纯二维(2 D)产品
由于使用一块计算X 轴和Y 轴像素的处理芯片,并且配合低速显示存储器,因此在处理高分辨率的 图形资料时,就会出现严重的闪烁现象,对人的眼睛伤害极大,且处理数据速度减慢,它的优势在于 低廉的价格。
2.纯三维(3 D)产品
在专业3D 领域中有极强的优势。它与相应的专业3D 软件配合使用时,可以实时处理表现力复杂的 3D 模型。一般为军用/民用企业在组装/运行大规模和表现力复杂的模型时,使用得比较多。但 弱点也比较突出:一是必须使用能与硬件配合的专用3D 软件,否则硬件优势无法发挥;二是在2D 方面的表现不尽理想,分辨率一般为6 40 ×4 80 、8 00 ×6 00,刷新率在7 5 Hz 以下,色彩精度大 部分为16 位色,处理微软Office97 系列、Adobe Photoshop(广告设计专用)、Premiere(影视特技专 用)等图形软件的速度相对较慢;三是多媒体功能方面不断扩展,如视频会议、电视、解压、PC 转TV 、 DVD 播放等方面。
3.二维+三维(2 D +3 D)产品
这也是目前的主流产品。在2D 技术表现方面,这种产品的性能已经非常完善。分辨率达到1900 × 1200,刷新率达到85Hz,色彩精度达到32 位,带宽达到220MHz,这些高性能、稳定的指标可极大范围 的保护眼睛。由于带宽的增大,所以在处理文字表格等文件时速度较快,表现广告、动画、影视效果 也精确逼真。在3D 技术方面,极大范围的容纳了最新3D 技术,如3 DS 、3 D M AX 、OpenGL 、A u t o C AD 、 MicroStation 、DirectDRAW 、Driect 3D 的专业/游戏接口等,使普通(家庭、商业)用户在PC 机上就 可以领略到3D 技术的精妙。硬件三维技术和32 位操作系统的巧妙配合以及在多媒体表现的增强,已经 实现了视频会议、电视、解压、PC 转TV 和DVD 等多种功能,为家庭及商业用户提供了方便。
第二节 显卡组成和接口技术
一、显卡的基本结构
显卡主要由显示芯片、显示缓存、BIOS 和RAMDAC 等几个重要的部分组成,此外还包括一些连接插 座或插针。

显卡总线的发展历经ISA 、VESA 、PCI 、 AGP 这4 种结构。VESA 总线的显卡在PCI 总 线出现以后就销声匿迹了,现在即使在二 手市场上都难得一见;ISA 显卡在配套市场 仍可以找到二手产品,大都是备用主板刷 新BIOS 或早期旧机器更新配件所用;A GP 接口的显示卡目前是市场上的主流产品, 次之则是P CI 接口的显卡。A GP 接口的显 卡更详细地可以分为1X/2X 和4X 的两种, 如图所示,一个AGP 接口有两个缺口,这
说明显卡可以支持AGP 4X 的方式。
1.显示芯片
显示芯片通常是显卡上最大的芯片(也是引脚数最 多的),中高档芯片一般都有散热片或散热风扇。其上
有商标、生产日期、编号和厂商名称,如“S3 ”、“3dfx ” (3dfx 公司已于2000 年12 月15 日被NVIDIA 公司正式收 购)、“NVIDIA ”等。显示芯片就类似于一款专门处理 图像的CPU,它可以处理软件指令以完成某些特定的绘 图功能。

2.显示缓存
作为显卡的重要组成部分,显存也一直随着加速芯片的发展而逐步改变。显示缓存也称为帧缓 存,它实际上是用来存储要处理的图形数据信息。在屏幕上所显现出的每一个像素,都由4 至32 位 数据来控制它的颜色和亮度,加速芯片和C PU 对这些数据进行控制,R A M D AC 读入这些数据并把它们 输出到显示器。有一些高级加速卡不仅将图形数据存储在显存中,而且还利用显存进行计算,特别 是具有3D 加速功能的显卡更是需要显存进行3D 函数的运算。
显存与普通内存一样,也存在速度方面的差别。不同类型(甚至不同品牌)的显卡采用的显存也 不尽相同,这种现象在老式的F PM 和E D O D R AM 中比较多。很多FPM 都是60ns,而当E D O D R AM 广泛 采用后显存的速度达到了2 5 ns,更高的速度产生更大的数据传输带宽,从而提高整个显示系统性能。
但是在同种类型显存中,显存速度的提高对显卡性能的影响就不十分显著。其中,数据传输带 宽指的是显存一次可以读入的数据量,这是影响显卡性能的关键,它决定着你的显卡是否可以支持 更高的分辨率、更大的色深和合理的刷新率。
显存的种类很多,但原则上可以分为两类,即单端口显存和双端口显存。单端口显存从显示芯片 读取数据以及向RAMDAC 传输数据都是经过同一个端口,这样的设计方式就无法同时对数据读写和传输。
(1)FPM(Fast Page Mode)DRAM
F P M D R AM 也叫“快页”内存,属于系统内存。F PM 之所以被广泛应用,一个重要原因就是它 是一种标准而且安全的产品,价格也比较便宜。但是由于它的性能不好,所以不久便被后来居上 的E D O D R AM 所代替。
(2)EDO(Extended Data Out)DRAM
与F PM 相比,E D O D R AM 的速度要快5%,它利用内置的一个逻辑电路在上一个内存数据读取结束
前将下一个数据读入内存。E D O D R AM 原本是非常昂贵,因为当时的PC 市场需要一种替代F P M D R AM
的产品,所以E D O D R AM 被大量应用到第5 代PC 上。E DO 显存可以工作在7 5 M Hz 或更高的频率下。
(3)SDRAM(Synchronous DRAM)
SDRAM 与早期产品的设计思路完全不同,它可以在一个时钟周期内进行数据的读写。SDRAM 与系统 总线同步工作,避免了系统总线对异步设备的额外等待时间。SDRAM 现在已经是显存市场上的主导产品, 这主要是因为其较好的性价比,通常SDRAM 可以工作在100MHz 或以上频率。
(4)SGRAM(Synchronous Graphics RAM)
S G R A M(同步)是一种应用了全新技术的显存产品,它改进了过去低效能显存传输率较低的缺 点,为显卡性能的提高创造了条件。S G R AM 支持写掩码和块写,写掩码减少或消除了对R AM 的读 →修改→写操作的过程,而块写有利于前景或背景的填充。但因其设计制造成本较高,所以在普 通显卡上采用这种显存的显卡较少,一般都是运用在高端显示加速卡上。
(5)Video RAM(VRAM)
Video RAM 是为解决显示数据进出矛盾而出现的,其双端口的设计改善了单端口显卡速度较慢的 问题。它是通过数据从显示芯片的一个端口传送到显存中,而与此同时另一个端口又可以将显存中已 有的数据传送到R A M D AC 中,这样来避免数据进出时浪费时间。但如今市面上常见的3D 加速卡并没有 运用Video RAM,主要是因为它的性价比不高。
(6)WRAM(Window RAM)
WRAM(窗口内存)是VRAM 的一个改进产品。与VRAM 相比,W R AM 的带宽要高出25%,而且当运用块填
充时,W R AM 可以达到更高的效能,此外很重要的原因是W R AM 的制造工艺要比V R AM 简单,其价格自然
要比V R AM 低(相对而言)。W R AM 含有逻辑运算功能以加速常用的视频功能,如块传输和模式填充。
3 .R A M D AC
“Random Access Memory Digital-to-Analog Converter ”(随机存取数模转换存储器)其缩 写就是R A M D AC,它的作用就是将数字信号转换为使显示器能够接受的模拟信号。R A M D AC 的另一 个重要作用就是提供显卡能够达到的刷新率,它也影响着显卡所输出的图像质量。由于现在所有 的C RT 显示器都是采用模拟量输入显示信号,因此显示缓存里面的数字量就是利用R A M D AC 转换 成为模拟量输出。
较早期的显卡其R A M D AC 都是单独的一个芯片,较新的图形处理器大多都将其集成在了内部。 RAMDAC 的速度决定了显卡能支持的最大分辨率和刷新频率,如135MHz 的RAMDAC 在1600 ×1200 的分辨 率上,其最大的刷新频率在理论上能达到73Hz 左右,但实际水平却可能远远低于此数,特别是在真彩 色下。较新的显卡的R A M D AC 普遍在2 5 0 M Hz 以上,能满足大部分显示器对刷新率的要求。
如果要在1 0 24 ×7 68 的分辨率下达到8 5 Hz 的刷新率,R A M D AC 的速率至少是1 0 24 ×7 68 ×85 ×1.344(折算系数)÷1 06 ≈9 0 M Hz 。现在显示卡的R A M D AC 至少是1 7 0 M Hz,高档显卡的多在230MHz 以上,刚刚面市的第4 代3D 显卡大多采用了3 0 0 M Hz 以上的R A M D AC 。
4.显卡B I OS
显卡BIOS 和主板BIOS 的作用有点类似,它存放着显卡的硬件代码,主要关系到显卡对硬件的兼容 性。显卡的BIOS 现在基本上都是存放在一片Flash ROM 里面,可以用软件进行改写 ,方法和主板的BIOS 升级类似。
5.内外部接口
在显卡的基本组成部分中,还有一个重要的方面就是显卡的界面。随着图形应用软件的发展, 特别是这些应用软件在显卡和C PU 及内存中的数据交换量越来越大,而显卡的界面正是一种连接 显卡和C PU 的通道。图形速度的提高(特别是3D 图形)要求C PU 和内存间有极宽的带宽进行数据 交换,而局部总线已经无法满足要求,它已经成为影响图形速度的瓶颈,因此出现一种廉价的解 决方案——A GP 总线,它是第一个为图形卡所设计的界面(严格的讲A GP 不能算是总线,因为总 线可以支持多种设备,而它只是一种端口)。
PCI 显卡以PCI 总线速度的一半即33MHz 工作,它可以达到的峰值传送率为133MHz 。而AGP 以66MHz
的速度工作,AGP 1X 的峰值传送率可达266MHz,AGP 2X 的传输率可以达到532MHz,因为“2X ”可以 在一个时钟周期中传输两次数据(上升沿和下降沿各一次),而一般的工作状态只能进行一次传输,而 AGP 4X 的理论传输率为1.066GB/s,这已经远远超过整个系统总线所能够达到的速度。66MHz 总线的最 大传输率为532MHz,在这种环境下AGP 4X 无法发挥作用。而使用100MHz 总线时,内存的最大数据交 换率可以达到8 0 0 M H z /s 。借助如此高的传输率,我们可以使一些原本只能在显存中进行的函数 运算扩展到主内存中,I n t el 称这种技术为D I M E(内存直接使用)。由于显存的价格要比系统内存 高得多,而且它们只能用于图形运算,高质量的图形运算和输出就要求更多的显存。
例如一款标准配置为4 MB 显存的显卡,其中2 MB 为帧缓存,2 MB 为织法缓存,所以它在3D 游 戏中只能达到6 40 ×4 80 的分辨率,更高的分辨率就需要更多的显存,这就会增大加速卡的成本。
加速卡的芯片集需要局部显存对刷新率、Z-buffer 、像素以及Front Buffer 和Back Buffer 的控制,因此应用程序需要A GP 提供更多的织法缓存以达到更高的解析度。很多程序会要求2 ~1 6 MB的织法缓存,而A GP 就可以满足它们。

除了上面我们所说的那些部分以外,许多显 卡还具有一些其他配置。如左图所示,现在大多 数显卡都有的VIP 接口。VIP 接口主要用于输入一 些视频设备(如VCD/DVD 解码器、电视接收卡等) 的视频信号,然后通过覆盖的方式和显示信号进 行重叠显示。
与通过串联的方式连接相比(就像我们常 见的某些V C D /D VD 解压卡、V o o d oo 卡和显卡 的连接方式),通过V IP 接口接收视频信号 有它的一些好处,如它的视频窗口往往可以 缩放,不会使显卡的显示信号产生衰减等。 不过,采用这种方式进行连接一般会产生更 多的兼容性问题。

视频输出口可用于连接电视机,在玩游戏和看电影时可以享受到大屏幕带来的乐趣,就像专 用的TV 游戏机或V C D /D VD 机一样。视频输出口分为复合视频输出和S 端子,S 端子输出的信号一 般比复合视频端口的信号好一些。视频输入主要也是采用复合视频和S 端子两种,可用于连接摄 像机、录像机等视频设备,也可以把显卡作为视频采集卡来用,或者把显示器当成视频监视器。
DFP(Digital Flat Panel)输出口主要用于连接液晶显示器,它与VGA 的连接口不同,主要采用 数字方式输出显示信号。有D FP 接口的显卡现在并不常见,但是随着使用液晶显示器的用户越来越多, 带有这个端口的显卡也会越来越多。某些特殊的显卡,比如双头的G 4 00 具有两个类似的显示输出口, 其中一个接显示器,另一个通过T V /O UT 转接线可以连接第二个显示器、电视或者是液晶显示器等。
采用M P A C T2 显示芯片的显卡上面可能还具有S /P D IF 输出口,可以输出D VD 影片的A C3 信号。
某些显卡上面还有音频输出口,用于输出视频播放中的声音信号等。
6.刷新频率
刷新频率是指传送信号使显示器每秒重绘屏幕的次数,它的标准单位是Hz 。而影响刷新率有两 个方面,一是显卡每秒可以产生的图像数目,二是显示器每秒能够接收并显示的图像数目。过低的 刷新率会明显地感到屏幕严重闪烁,时间一长就会使眼睛感到疲劳,所以刷新率应该大于8 5 Hz 。
分辨率是指屏幕上的像素数目,它由水平行点数和垂直行点数组成。举个例子,如果分辨率为 8 00 ×6 00,那就是说这幅图像由8 00 个水平点和6 00 个垂直点组成。而更高的分辨率可以在屏幕 上显示更细微的图像。如果你使用1 0 24 ×7 68 的分辨率,就能看到比分辨率为8 00 ×6 00 的屏幕 中更多的文字,也可以在制表时让一个屏幕中显示更多的单元格,更可以在屏幕上放更多的图标。
色深可以看做一个调色板,它决定屏幕上每个像素由多少种颜色控制。由于每一个像素都用 红、绿、蓝3 种基本颜色组成,所以像素的亮度也是由这三原色控制。当3 种颜色都设定为最大 值时,像素就表现为白色,当它们设定为零时,像素就表现为黑色。通常色深可以设定为4 位、8 位、16 位或24 位色,当然色深的位数越高,你所能够看到的颜色就越多,而这时屏幕上的图 像质量就越好。但是当色深增加时,同时也增大了显卡处理的数据量,造成显示速度降低或屏幕 刷新率降低。
7 .A PI
早期的3D 加速卡性能并不出色,而且还有一个很致命的弱点,就是没有统一的技术标准,导致各 种3D 加速卡之间没有互换性。当微软公司的Windows 95 操作系统全面占领市场的同时,也为统一 3D API 奠定了基础。Direct 3D 是微软发布的一种应用程序接口(Application Programming Interface, 缩写为API),它为软件厂商提供了一个统一的标准,只要软件厂商遵循这一应用程序接口,就可以保 证其编写的软件适用于任何支持D3D 的加速卡。其实,计算机在处理3D 图像时,是先由CPU 去计算出 3D 多边形,再由显示芯片构造出栩栩如生的3D 影像,将这些3D 影像贴到3D 多边形上,无数多个这样 的多边形组合在一起,最后才构成所看到的3D 画面。
当某一个应用程序提出一个制图请求时,这个请求首先要被送到操作系统中,然后通过G DI (图形设备接口)和D C I(显示控制接口)对所要使用的函数进行选择。而现在这些工作基本由 D i r e c tX 来进行,它远远超过D CI 的控制功能,而且还加入了3D 图形A PI,即3D 应用程序界面的 配合。显卡的驱动程序会去判断有哪些函数是可以被显卡芯片集运算,如果可以,就被送到显卡 进行加速 。如果某些函数无法被芯片进行运算,这些工作就交给C P U(当然这会影响速度)。
运算后的数字信号写入帧缓存中,最后送入RAMDAC,再转换为模拟信号后输出到显示器。目前我 们接触较多的3DAPI 包括Direct 3DAPI 、Open GLAPI 、3dfx Glide API 。其中,3dfx Glide A PI 是3 d fx 公司专为V o o D oo 系列3D 加速卡设计开发的,没有其他显卡支持此标准,G l i de 由于 功能比较单一,几乎全部应用在游戏方面。而O p e n GL 是一个主要适用于专业图像要求的规范, 本身就源于S GI 的图形工作站,应用范围相对较小。
相对于前两种API,Direct 3D API 是最常用和最普遍的。Direct 3D 是微软公司DirectX SDK 集 成开发包中的重要部分,适合多媒体、娱乐、即时3D 动画等广泛和实用的3D 图形计算。D i r e ct 3D 以其良好的硬件兼容性和友好的编程方式很快得到了广泛的认可 。现在的3D 游戏大多基于 D i r e c t X S DK 开发,所以都以D i r e c t 3D 作为标准的3D 游戏引擎。在时间允许的情况下也为G l i d e 进行一下优化。但是目前在多媒体软件方面采用即时3D 动画的还相对较少。其实D i r e c t 3D 的 使用价值决不只是在游戏方面。采用D i r e c t 3D 技术的即时3D 动画能在多媒体演示等许多领域 发挥出令人叹服的效果。
Direct 3D 硬件加速功能的支持:Fog Vertex(雾化处理)、Fog Table(远端雾化处理)、Specu- l a r H i g h l i g h t s(反射光源处理)、P e r s p e c t i v e C o r r e c t i o n(远眺视野修正)、C o l o r K ey Transparency(Color Key 透视处理)、Alpha Transparency(Alpha 透视处理)、L i n e a r(线性化贴 图处理)、MipMap(渐进化贴图处理)、Dithering(抖色处理)、Fog Vertex and Alpha(雾化与Alpha 透视处理)、F o g V e r t e x a n d C o l o r K e y(雾化与C o l o r K ey 透视处理)。
二、接口特点和带宽
1 .I SA 总线接口
IBM 公司于1 9 81 年推出的基于8 位机P C /XT 的总线,称为PC 线。1984 年I BM 公司推出了16 位
PC 机P C /AT,称为AT 总线。为了能够合理地开发外插接口卡,由I n t el 公司、I E EE 和E I SA 集团
联合开发了与IBM/AT 原装机总线意义相近的I SA 总线,即8 /16位的“工业标准结构”(ISA,Industry
Standard Architecture)总线。
8 位I SA 扩展I /O 插槽由62 个引脚组成,用于8 位的插卡;8 /16 位的扩展插槽除了具有一个8位62线连接器外,还有一个附加的36 线连接器,这种扩展I /O 插槽既可支持8位的插卡,也可支持16位插卡。I SA 总线的主要性能指标如下:I /O 地址空间“O 1 O OH ~0 3 F F H 24 ”位地址线可直接寻址的内容量为1 6 MB,8 /16 位数据线,6 2 /36 引脚,最大位宽16 位(b i t),最高时钟频率8 M Hz,最大稳态传输率1 6 M B /s,D MA 通道功能开放式总线结构,允许多个PU(物理设备)共享系统资源I SA 插槽,可以插入符合该规范的I SA 插卡。
2 .P CI 总线接口
随着图形处理技术和多媒体技术的广泛应用,在以Windows 为代表的图形用户接口(GUI)进入PC 机之后,要求有高速的图形描绘能力和I/0 处理能力。这不仅要求图形适配卡要改善其性能 ,也对总线 接口的速度提出了挑战。实际上当时外设的速度已有了很大的提高,如硬磁盘与控制器之间的数据传率已达1OMB/s 以上,图形控制器和显示器之间的数据传输率也达到60MB/s 。通常认为I/0 总线的速 度应为外设速度的3 ~5 倍。因此原有的ISA 、EISA 已远远不能适应要求,而成为整个系统的主要瓶颈。
于是到了1991年,Intel 公司率先提出了PCI 的概念,并联合IBM 、Compaq 、AST 、HP 、DEC 等100 多家 公司成立了PCI 集团。 新一代的PCI 总线接口的时钟频率为33.3MHz/66MHz,最大数据传输速率可达133MB/s,同时具有与处 理器和存储器子系统完全并行操作的能力。尽管如此,P CI总线仍有诸多不足之处,特别是在3D 技术应的过程中表现更为突出。如在3D 图形描绘时,在P CI 显卡的显存中不仅有影像数据,还有纹理数据 (Texture Data)、Z 轴的距离数据及Alpha 变换数据等,特别是纹理数据的信息量相当大。如果要描绘细 致的3D图形,就要求显存容量很大,再加之必须采用较快速的显存,最终导致显卡价格不菲。因此,3D显卡的制造厂商所期望的是既能增加纹理数据的储存能力,又能降低产品的成本。 一个有效的办法就是将纹理数据从显示内存移到主内存,以便减少显示内存的容量,从而降低 显卡的成本。从整个系统来看,增加显示内存也不如增加主内存划算,因为D R AM 价格已不太昂 贵,而且把纹理数据储存在主内存比储存在显示内存中能更有效的利用内存。存储纹理数据所的内存空间依应用程序而定,也就是说,当应用程序结束后,它所占用的主内存空间又可恢复,纹理数据并不永远占用主内存的空间。然而当纹理数据从显示内存移到主内存时,随着纹数据传输量的加大,数据传输的瓶颈自然地从显卡上的内存总线转移到了P CI 总线上。例如,显示1 0 24 ×7 68 16 位真彩色的3D 图形时,纹理数据的传输速度需要2 0 0 MB /s 以上,但目的P CI 总线最高数据传输速度仅为1 3 3 M B /s,因而也就成为系统的主要瓶颈。
3 .A GP 总线接口
AGP(Accelerated Graphics Port)如今已经成为标准的加速图形端口。它是一种为了提高视频带而设计的总线规范。它支持的AGP 插槽可以插入符合该规范的AGP 插卡。其视频信号的传输速率可以P CI 的1 3 2 M B /s 提高到2 6 6 M B /s(×1 模式)或者5 3 2 M B /s(×2 模式)。虽然现在PC 机的图形处理能力越来越强,但要完成细致的大型3D 图形描绘,P CI 结构的显卡仍然力不从心,为了让PC3D 应用能力可以同图形工作站一较高低,I n t el 公司再次开发了A GP 标准,推出A GP 的主要目的是为了进一步提升PC 机在图形特别是3D 图形方面的处理能力。I SA 、P CI 总线接口有所区别,A GP 总线属于点对点连接,即连接控制芯片和A GP 显卡。采用 A GP 的目的就是为了使3D 图形数据越过P CI 总线,直接送入显示子系统,从而突破原来由P CI 总线成的系统瓶颈。A GP 总线接口与P CI 相比,其最大的优势就在于为主内存与显卡之间提供了一条直 接的通道,使得3D 图形数据得以越过P CI 总线直接送入显示子系统。 A GP 接口以66MHz PCI Revision 2.1 规范为基础,在此基础上又扩充了以下主要功能:一是数据 读写的流水线操作。流水线(P i p e l i n i n g)操作是A GP 提供的仅针对主存的增强协议。由于采用了流线操作减少了内存等待时间,数据传输速度有了很大提高;二是具有1 3 3 M Hz 的数据传输频率。A GP 使用了32 位数据总线和双时钟技术。双时钟技术允许A GP 在一个时钟周期内传输双倍的数据,即在 工作脉冲波形的两边沿(即上升沿和下降沿)都传输数据,从而达到1 3 3 M Hz 的传输速率,即5 3 2 M B /s突发数据传输率;三是直接内存执行D I ME 。 A GP 允许3D 纹理数据不存入拥挤的帧缓冲区(即图形控制器内存),而将其存入系统内存,从而出帧缓冲区和带宽供其它功能使用。这种允许显卡直接操作主存的技术称为D I M E (D i r e c t M e m o ry E x e c u t e)。应该说明的是,虽然A GP 把纹理数据存入主存,也可以称为U M A (U n i t e d M e m o ry
A r c h i t e c t u re,统一内存体系结构)技术;四是地址信号与数据信号分离。AGP 采用多路信号分离技术(Demultiplexing),并通过使用边带寻址SBA(Sideband Address)总线来提高随机内存访问的速度;五是允许并行操作。允许在C PU 访问系统R AM 的同时,让显卡访问A GP 内存,显示带宽也不与其他设备共享,从而进一步提高了系统性能。



4 .A G P P ro 总线接口
AGP Pro 总线接口的设计目的主要是为新一代图形加速卡提供额外的电能。AGP Pro 的内容主要包伸长的AGP 插槽、隔热层、改进的输入/输出托架、末端固定托架、对图形加速卡的接口和主板新布 局的设计要求。AGP Pro 在原有AGP 插槽的两侧进行延伸,以提供额外的电能。 我们习惯上根据其所提供能量的区别,把A G P P ro 细分为A G P P r o 1 10 和A G P P r o 50,能耗50W ~1 0 0W 的A G P P ro 图形加速卡就称为A G P P r o 1 10 显卡。A G P P r o 1 10 显卡要求在其正面有 足够的冷却空间,因此必须空出两个近的P CI 插槽,这两个空置的P CI 插槽能给显卡提供2 .17 英寸的空间。在A G P P r o 1 10 高能耗显卡的一端安装有一个特殊的、有3 个插槽宽的输入/输出架来保证其专用空间,这个托架还有辅助散热的功能。 A G P P r o 50 显卡同样有多种能量供应方式。AGP Pro 规范允许它从插槽上的3.3V 或12V 供电线路 或者两者相互组合得到50W 的电能。A G P P ro 插槽通过两个特别的引脚:P R S N T1#、PRSNT2#完成显卡识 别功能。它们的两个主要作用是:确定插槽中存在一块A G P P ro 显卡;提供插入A G P P ro 插槽中显卡的 最大能量需求信息。AGP Pro50 系统通过PRSNT1 #与PRSNT2 #检测出能量需求超过50W 的AGP Pro 显 卡。如果出现这种情况,系统能采取适当的措施来防止对显卡产生破坏并及时报错。除了这个识别系 统以外,A G P P ro 规范没有采取其它机械结构方面的措施,来防止将一块A G P P r o 1 10 显卡误插入一 个AGP Pro50 插槽中。
从某种意义上讲,A G P P ro 是I n t el 针对原有A GP 系统进行的重新设计,从电能供应、固定以及
散热等方面入手,彻底解决了目前AGP 存在的不足之处。A G P P ro 与一般的AGP 槽不同的是,在槽的 边缘增加了1 2V 和3 .3V 的电源回路。如此设计势必使其可支持功率达到1 1 0W,对于那些需用专业的、 大型显示卡的用户来说十分必要。也正是这个原因,目前民用市场中支持AGP Pro 的显卡还不是很多。
第三节 流行3D 技术
1.点取样(P o i n t S a m p l i n g)
为了增加图像质量,必须采取一定的措施,最先运用的是点采样技术。比如:一个T e x el 像素(屏 幕上的像素称为P i x el,而纹理像素叫T e x e l)在纹理中的位置是X =3 0 0 .9 、Y =3 0 0 .9,在四舍五 入后,得到最近的整数像素坐标X =3 01 、Y =3 01,从而让图像质量变得更好。此方法的缺点是像 素仍然离开了原来的位置,图像质量还是会变差。从平面几何学可知,因为它是一条线,所以3 倍 大的线与1 倍的线是相同的。所以这种最原始的过滤比缩减坐标的做法好得多,而且对性能的影响 不大。
2.双线性过滤(B i l i n e a r f i l t e r i n g)
双线性过滤是今天常见的过滤技术之一,优点是缩放图像时的速度很快,并获得了所有3D 显 卡的支持。其工作原理:取出预处理像素附近的4 个像素坐标,再经过加权算法得到它的位置。 如果我们现在需要对一个位于(1 0 0 .3,1 0 0 .7)的T e x el 像素进行处理,双线性过滤会取出(1 00, 100),(1 01,100),(1 00,1 0 1)和(1 01,1 0 1)的已着色P i x el 像素,加权来计算出预处理像素的坐 标。双线性过滤后的图像比点取样更为平滑,而且减少了色块的产生。不过,双线性过滤看起来 有些朦胧,或者你会认为不够清楚,实际上许多朋友初次见到Quake2 中的墙壁时也有这种感觉。尽管如此,双性线过滤的优势仍然是不可否认。
一个2 ×2 像素的图例,它原来在一块30 ×30 图像中间(14,14)或[ -(15/30),-(15/30)] ,此像 素4 个方向都有15 个像素。把它们定义为(0,0)、(1,1)、(0,1)、(1,0),那么目标像素就是(0.5,0.5)。 左边点取样的结果非常简单,可以选(0,0)或(1,1)的色彩作为预处理像素颜色,得出的是深粉红色, RGB 值为(255,0,255)。右边的方块则是用加权方法计算RGB 值:0.25 ×深粉红色+0.25 ×浅绿+0.25
×浅粉红+0.25 ×深蓝=(143,111,192),即为浅紫色。
3 .M IP 映射(M I P M a p p i n g)
MIP 映射提供更高质量的预排列像素,是优化图像质量的又一手段。不仅软件开发商可以创建,也 可由硬件自动生成,两种方法做出来的东西都会精确地表现出纹理尺寸改变后的图像。例如128 ×128 的纹理就可以作64 ×64 、32 ×32 、16 ×16 甚至更小的MIP 映射。为什么要进行MIP 映射呢?假设我们把一个128 ×128 的纹理放在16 ×16 多边形中(16 ×16 是2D 坐标,并非三维坐标),它会用其中1 个像素表现整个8 ×8 像素块,即使用1024 ×1024 纹理也不过是用其中4 个像素来表现,所以大尺寸 的纹理对图像优化没有任何用处。 如果转换到下一帧,多边形大小变化为20 ×20,由于采用的像素数量不同,会使画面出现严重的
闪烁现象。虽然双线性过滤可以减少这些闪烁,但仍然无法完全消除。而MIP 映射采用一些非常小的 多边形来代替原始纹理,仅用1个MIP映射块就能反映8 ×8 像素,由于这类操作很精确,因此源像素 和目标像素基本上是一一对应的。但是静态画像并不能表现出MIP 映射的优势,例如不能从游戏的截取画面中看到MIP 映射。
4.三线性过滤(T r i l i n e a r F i l t e r i n g)
三线性过滤是目前非常流行的图形处理特效,包括N V I D IA 的G e F o r ce 也支持。尽管M IP 映射
能够很好地消除闪烁,但它仍然有不足之处。例如一个64 ×64 或1 28 ×1 28 的M IP 映射都可以 放在96 ×96 多边形中,不过图形一旦发生变化就可能有麻烦,比如第二帧97 ×97 使用1 28 × 1 28 的M IP 映射,而第三帧95 ×95 换成使用64 ×64 的M IP 映射,画面马上会变得闪烁。 三线性过滤的原理是在两个M IP 映射中做双线性过滤,虽然道理很简单,却能让M IP 映射间的转换做得更平滑。在上面那个96 ×96 的例子中,既然最理想的映射为96 ×96 的M IP 图,我们只需用接近96 ×96 的M IP 图加权处理即可实现,那么转换到下一帧时再也不会出现图面跳动。 三线性过滤的效果非常明显,在采用此种技术的游戏中,你会发现人物角色的构成格外平滑。 由于三线性过滤需要8 个像素才能完成工作,对当今的着色引擎来说,可是一个不小的负担,尤其 是它的带宽要求非常高,许多采用多重纹理技术混合MIP 映射的方法并不能在单周期内完成三线性过 滤,因此它没办法为当今的游戏提供更多的视觉效果,只有在显卡填充率大幅上升和纹理压缩得到广 泛应用时,才可以显出它的优势。
5 .T -B u f f er
T-Buffer 技术解决了许多存在于计算机3D 图形中由边缘锯齿引起的问题。边缘锯齿是由于源图像 的采样率过低引起在屏幕上的图像显示错误。T -B u f f er 在空间、时间和焦距上解决了边缘锯齿 问题。 传统显卡把一个帧的内容渲染到一个帧缓冲,然后将这个帧显示在屏幕上。双缓冲和三缓冲 允许在显示当前帧的时候同时渲染后继帧。而T -B u f f er 的工作原理与当今市场的其他传统显卡截然不同,它允许将多个帧的内容同时渲染到帧缓冲,最后输出的便是多次渲染的累积。
对普通显示卡来说,由于内存、带宽等的限制,能存贮的图形数据比理想情况下少得多。于是,每 次渲染都丢失一些数据,这些丢失的数据有可能会导致图形产生边缘锯齿等。T-Buffer 通过多重渲染、 提高采样率解决了这个问题。 一些显卡厂商主张通过“边缘”反锯齿或“过采样”来实现边缘圆润。如先对多边形的边缘 作标记,然后将标记信息返回到C PU,当场景渲染结束后,C PU 再执行场景边缘圆润。为了支持 边缘圆润,游戏中的场景边缘也得作上标记。这些额外的步骤引发一系列潜在的问题,并且可能 耗尽C PU 所有资源。“过采样”就是在比当前显示器的分辨率高很多的情况下渲染场景,然后按 缩放比例输出到屏幕上。这项技术由P o w e r VR 架构实现。 当然,过采样会耗用很多资源来渲染1600 ×1200 场景,最后以800 ×600 输出。换句话说,这样 做对游戏毫无用处,但对那些O EM 厂商来说,在3 D W i n B e n ch 中可以得高分。而应用T -B u f f er 技术可以提供更真实的全景边缘圆润功能,它解决了像素间隙和锯齿问题。也许T -B u f f er 最大 的好处是它能简单地打开驱动程序,然后在任何由A PI 编写的游戏中自动应用。相对于硬件来 说,软件或驱动程序对资源的占用大得多。作为3 d fx 公司专门用来解决边缘失真问题的一种方 案,T -B u f f er 技术的应用不失为一种成功的突破。
6.全屏抗锯齿(F S A A)
FSAA(Full Scene/Screen Anti -aliasing,全景/屏幕抗锯齿)是1 9 98 年已经提出并付之实行 的概念,但真正有实用性的解决方案到了2 0 00 年才见到,其中最突出的就是3 d fx 的V o o d o o 5 和N V I D IA 的GeForce2 。特别是N V I D IA 的FSAA 基于O G S S (O r d e r e d G r i d S u p e r -S a m p l i ng,顺序 栅格超级采样),它是一种传统的抗锯齿技术,可以用在几乎所有3D 加速卡上,让它们支持非显 示缓冲渲染。非显示缓冲存储了帧的像素颜色、Z 和模板值,与前置和后置缓冲的最大差异是它不能直接显示到屏幕。 O G SS 作为基本的子采样,按一定顺序来对每个像素采样,并以水平或垂直方式排列,建立一 个点矩阵。因此NVIDIA 显卡的抗锯齿处理过程可以简单概括为以下过程:游戏引擎使用D i r e c t 3D 或O p e n GL 创建一个3D 环境,这些3 D A PI 都使用三角形作为基本块,每个三角形在3D 空间中有 一个坐标,通过特殊的驱动程序可计算坐标的转换和光线处理。假设屏幕为10 ×10 像素,三角 形的3 个顶点分别是(5,5)、(10,1 0)和(10,0)。然后,A PI 按照不同的屏幕分辨率供给不同的 坐标,当顶点经过转换和光线处理器之后,它会得到一个屏幕相对坐标,此坐标与3D 应用程序中的真实世界坐标有所区别,最终屏幕分辨率决定了坐标的位置。 在抗锯齿处理中,我们需要进行上行采样来获得更多标本(G e f o r c e /G e f o r c e2 用T &L 单元 来完成采样工作),至少要在垂直和水平方向各采样一次,才能得到有效的抗锯齿图像。当所有 几何图形都从垂直和水平方向同时作缩放,渲染工作当然也会加倍,接着发送到非屏幕缓冲,在里面进行下行采样,去掉一些多余像素,并保留高质量纹理信息,最后送到屏幕显示缓冲。 此例仅基于一个三角形,在实际应用中,抗锯齿工作会在每个三角形中进行,再组成一幅完整 的3D 图像。当超级采样的帧渲染结束,我们会得到一个高分辨率图像,下行采样的主要工作是混合 像素色彩,从4 个邻近的像素颜色值得到一个加权平均数来作为混合像素值,即4 个数值相加再除 以4,与纹理双线性过滤的工作原理一样。由于4 个高分辨率像素是最终像素的子采样,过滤之后会 变得很平滑。
一般情况下,顶点位置的乘法是通过软件来实现的,NVIDIA 借助T &L 单元做到了同样的计算,如 果没有T &L 才交由CPU 处理,因此,NVIDIA 的抗锯齿也是一种硬件特性。除了2 倍采样之外,3 倍、4倍甚至更多的采样也有可能,只要显示芯片速度与显存容量足够,更多的采样会带来更完美的图像。
7.环境凹凸贴图技术
环境凹凸贴图技术通过对物体表面凹凸不平的映射,再加以实时光源来表现真实细腻的图像, 微软D i r e c t X 6 .1 以上版本已包含该技术。应用方面,M a t r ox 公司的G 4 00 是最优秀的环境凹凸 贴图技术代表产品。 以前很多图形加速卡也试图通过种种手段实现“凹凸贴图”,但方法与G400 “环境凹凸贴图”的表 现方式有所不同。比如许多显卡都采用多重Alpha Blending(阿尔发混合)技术来表现凹凸不平的效果,
这就造成了一些弊端。首先它需要图形卡计算较多层次的贴图面,这就会相应减低处理速度;其次,由 于没有硬件光源的加入,多重Alpha Blending 的着色效果无法真实还原顶点光影,所以就给人以不自 然的感觉。为了提高图像的质量和真实效果,显示芯片的研发人员需要采用许多技术,环境凹凸贴图 技术就是其中的一种。环境凹凸贴图技术通过对物体表面凹凸不平的映射并加以实时光源来表现真实 细腻的图像。 G 4 00 的“环境凹凸贴图”主要是通过3 个过程来实现,第一是“常规纹理贴图”,首先绘制 出材质的基本影像;第二是“曲面贴图”,为每个像素描绘出不同的高度和深度,由此产生凹凸效 果;第三个过程就是“环境贴图”,包括光源的产生及其位置与强度的定义等。 3 个过程依次有序进行,从而完成环境凹凸贴图。G 4 00 可以硬件支持此特效,通过微软 D i r e c t X 6 .1 以上版本的各种凹凸贴图测试可以发现,G 4 00 运行M i c r o s o f t E a r th 和N e w W a ve 的场景时,可以比没有此特效的同档次显卡快百倍。所以当某游戏使用较多的“凹凸贴图”时, G 4 00 的“硬件环境凹凸贴图”的效果就很明显了。
8 .S 3 TC 纹理压缩
S 3 TC 是S3 公司提出的一种纹理压缩格式,其目的是通过对纹理的压缩,达到节约系统带宽并提 高性能。S 3 TC 就是通过压缩方式,利用有限的纹理缓存空间来存储更多的纹理,因为它支持6 :1 的 压缩比例,所以6 MB 的纹理可以被压缩为1 MB 存放在材质缓存中,从而在节约了缓存的同时也提高 了显示性能。 通过纹理压缩,可在不严重影响性能的前提下,采用大纹理,营造更为华丽的3D 世界。比如2000×2000 这样的大型纹理,如果不压缩的话,它的文件大小就有16MB,会把你的显存用得干干净净。为 此,游戏不得不使用速度慢得多的系统内存。但采用了纹理压缩之后,它的大小会骤降至2MB 。这样一来,除了避免使用系统内存,还能有效降低对内存带宽的占用。
9 .F X T -1 引擎
为全面实现2 0 48 ×2 0 48 的纹理支持,出现了纹理压缩技术(T e x t u r e C o m p r e s s i o n)。与S3的S 3 TC 、微软的D X TC 不同,F X T -1 可以对同一纹理使用4 种不同的压缩算法,而其他的只能采用一种算法。这意味着S 3 TC 或D X TC 速度虽然较快,但当纹理的色彩丰富并且有较高对比度时,在F X T -1 引擎下将会表现出较好的品质,因为它可以对纹理某些部分进行细化,并且运用不同的算法进行纠错。
1 0 .C l i p p i ng 引擎
所谓C l i p p i ng 引擎,就是在一个场景中,将那些隐藏于一些特器后面,非可见对象或多边形进行剪切处理的过程。对于高速流畅的运行游戏,Clipping 是一项非常有用的技术,因为要完成一 次普通的3D 处理,处理器将会用大部份时间去渲染那些实际上我们并不会在屏幕上看到的对象,就好 像你在一幢房子外却要看到房子内所有物体一样。所以在采用了Clipping 技术后,CPU 仅需对那些可 视部份进行渲染,大大提高了效率,从而使游戏达到更高的帧数。记得在此之前,Videologic 的PowerVR 系列便拥有了此设计,但对于PowerVR 而言,有一个不利因素就是开发者必须基于PowerVR 特有的ICD 进行开发。 显然,P o w e r VR 的S G L I CD 并没有O p e n GL 和D3D 应用广泛。这也是P o w e r VR 在PC 上无法发挥最大威力的原因。但在S E G A D r e a m c a st 游戏机中(使用了P o w e r VR 的芯片),这一现象却得到很好的解决。现在,O p e n GL 和D 3D 终于可以支持C l i p p i ng 技术了,开发商可以在软件中提供对该项功能的支持,或者直接在游戏引擎中加入这项技术。硬件C l i p p i ng 支持将会成为下一代G PU最强劲特性之一,它可以取代C PU 进行C l i p p i ng 操作。
1 1 .T &L
T &L (T r a n s f o r m a n d L i g h t i ng,几何变换和光源处理)技术是N V I D IA 为提高画质而研究出来的一种新型技术,以往的显卡技术中,为了使物体图像真实,不得不大量增加多边形设计,这
样就导致速度下降;而如果采用较少的多边形,画面又很粗糙。G e F o r c e 2 56 中采用的T &L 技术,它能在不增加物体多边形的前提下,进一步提高物体表面的边缘圆滑程度,使图像更真实、准确 和生动。此外光源的作用也得到了重视,传统的光源处理较为单一,无生动感可言,而GeForce256拥有强大的光源处理能力,在硬件上它支持8 个独立光源,加上G P U(图形处理单元)的支持,即时处理的光源将让画面变得更加生动真实,可以产生带有反射性质的光源效果。
1 2 .C h a r i s ma 引擎
Charisma 引擎是Radeon 256 最重要的技术特性,该引擎具有以下几个独到之处:一是顶点皮肤 (V e r t e x S k i n i n g );二是关键帧补偿(K e y f r a m e I n p o l a t i o n)。如果您想使动态人物模型更加自然,可以使用骨骼动画,它让人物模型随着一系列代表骨骼的顶点伸展或收缩。当骨骼移动时,顶点会相应重组。但是当一个变换导致骨骼弯曲时,就有可能产生接触点裂缝,就使人物模型表现得不自然。为了解决这个问题,A TI 引入了顶点皮肤渲染技术。它可以调整顶点来产生一系列连续、弯曲的关节并对其修补、完善,使物体动感十足,且毫无暇疵。为产生顶点皮肤必须通过一系列复杂的连续变换顶点运算,才能得到较好的效果。R a d e o n 2 56 最多可使用硬件同时进行4 个建模运算,而G e F o r c e 2 G TS 只能同时进行两个,所以R a d e o n 2 56 在这一点上比G e F o r c e 2 G TS 要强得多。
Charisma 引擎的另一个诱人之处则是关键帧补偿技术。如果要实现一个连续的面部表情变化需要产生大量的过渡帧,而每个过渡帧都必须单独作为一个模型储存在游戏中,并连续播放,这将占用庞大的存储空间和编程人员的精力,所以我们很少能在游戏中看到栩栩如生的真实表情。不过,Radeon 256 的关键帧补偿技术可能会弥补这个缺陷。 它利用硬件完成关键帧的过渡,只要美工人员确定少量的起始帧、中间帧和结束帧就可以了, 其他都可通过硬件完成。ATI 的关键帧补偿技术还可以插入必要数量的过渡帧,从而非常逼真地改变人
物的表情、动作等。另外,Charisma 还具有一些有用的特性,如硬件顶点光源设置(Hard Vertex Light- ing Setup)、硬件T&L 等。
1 3 .A n t i -A l i a s i n g(边缘柔化或抗锯齿)
由于3D 图像中的物体边缘总会或多或少地呈现三角形的锯齿,而抗锯齿就是使画面平滑自 然、提高画质以使之柔和的一种方法。如今最新的全屏抗锯齿(F u l l S c e n e A n t i -A l i a s i n g)可 以有效地消除多边形结合处(特别是较小的多边形组合)的错位现象,降低了图像的失真度。全景 抗锯齿在进行处理时,需对图像附近的像素进行2 ~4 次采样,以达到不同级别的抗锯齿效果。 3 d fx 在驱动中会加入对2 ×2 或4 ×4 抗锯齿效果的选择,根据串联芯片的不同,双芯片 V o o d o o5 将能提供2 ×2 的抗锯齿效果,而4 芯片则能提供更高的4 ×4 抗锯齿级别。简而言之, 就是将图像边缘及其两侧的像素颜色进行混合,然后用具有混合特性的点,替换原位置的点,以达到柔化物体外形、消除锯齿的效果。
1 4 .N S R (N V I D I A S h a d i n g R a s t e r i z e r)
N S R (N V I D I A S h a d i n g R a s t e r i z e r)技术是由G e F o r c e 2 G TS 最早应用的,它由内置的硬件引 擎实现。当G TS 在进行N SR 渲染运算时,四条渲染管道中的每一条都能在单周期内完成以下七种 像素级操作控制,其中包括基本贴图(B a s e T e x t u r e)、凹凸贴图(B u m p M a p p i n g)、散光效果 (D i f f u s e L i g h t i n g)、光晕效果(Ambient Light)、镜面光泽(S p e c u l a r L i g h t i n g)、阿尔法透明(A l p h a T r a n s p a r e n c y)、彩色雾化(Colored Fog)等特殊效能。
众所周知,以前实现光源技术普遍应用两种技术:一种是光源贴图,另一种是顶点光源技术。前者的缺陷在于光效不是实际生成,而是通过编程人员绘制出来的,所以想让游戏开发人员将每 个场景的动态光照效果表现出来将异常困难。而顶点光源技术则是根据三角形三个顶点的位置、 颜色、纹理以及其他参数再通过内插法计算三角形内每个位置的光源强度。 顶点光源技术的缺陷在于当人物和场景使用的三角形较少时,那么光效就会模糊。每像素光源 技术则是以上两种合成方法的优势结合体,它将顶点光源中的每三角形运算换成了每像素运算。与 顶点光源类似,像素包含了颜色、位置、纹理等参数,只要再增加一幅由编程人员绘制的法向量贴图就可以计算出每个像素的光亮和方向了,这极大地减少了编程人员的工作量,并且让图形卡显示 的画面更细致。由于G TS 对画面光源的控制精度达到了像素级,所以其实现凹凸映射的方式肯定比 Matrox 的G 4 00 多,它包括环境贴图凹凸映射(Environment Mappen Bump Mapping)、立方体环境映 射(Cabic Environment Mapping)和Dot Product3(DirectX 7.0 中的一种凹凸映射)等至少3 种以上的凹凸映射方式。尤其是立方体环境映射,可将物体在6 维立方体空间内实现反射。
1 5 .W -B u f f er 技术
一个深度缓冲,统称为Z -B u f f er 或W -B u f f er,是一个D i r e c t D r aw 表面,它保存着D i r e c t 3D 使用的深度信息。W 深度缓冲比Z -B u f f er 能更均匀地在远近剪切面之间进行分配,它的最大好 处就是远近剪切面的距离比不再是关键因素。
这样就可以让程序使用更大的距离范围,同时仍能保持深度缓冲与观察位置间的精确联系。 W -B u f f er 有时也会使近处物体的隐藏表面产生失真,W -B u f f er 的另一个缺点是不能得到硬件的 广泛支持。总之,W -B u f f er 与Z -B u f f er 类似,但它的作用范围更小、精度更高。
第四节 显卡的散热
显卡的发展和CPU 的发展过程类似。功能越来越强 大,功耗也越来越大,导致其主芯片温度不断升高,因
为对显卡进行必要的散热是显卡厂家设计必须考虑的问 题,所以下面就介绍几种常用的方法。
一、加散热片
加入散热片是首选。显卡上的芯片和其他主板上的 芯片或CPU 不太一样,因为不仅仅要考虑到其芯片散热, 还要考虑到其AGP 与PCI 插槽的宽度,以及其AGP 显卡的 稳定度,而散热片满足该条件。目前散热片的制造工艺主 要有以下几种:

1.压铸型
是最常见的方式。它的价格低廉,并且其外形易于加工。液态的铝被工厂按照特定的形状进行加工,形成一条长长的特型铝棒。当这条铝棒冷却下来以后,就可以用机器切割,分切为散热片。
2.折叠鳍
薄薄的金属片按照一定的间距被折叠起来,然后用金属卡板扣在散热片基座上。这种方式最大的 好处是获得了鳍片所形成空隙,可以让空气更好地流动(从而获得更好的制冷效果)。采用这种设计的 散热片轻盈、紧凑,缺点是这种设计会造成生产上的不便,并且价格也因此而变得更高,更何况只有 少数的厂商可以制造这种产品。
3.冲压薄鳍
这种设计非常类似于折叠鳍,但与折叠鳍不同的是,在许多基板上冲压而成的薄金属鳍代替了折 叠鳍。
4.铸造法
此方法可以让设计人员的设计自由大为增加,可以把一些不能用冲压来实现的形状也设计出来。
5.冷锻
该方法通常在国外采用得多。国外比较流行的Alpha PFH6035MUC 散热片就是采用该方法制作而成 的。该工艺非常适用于针状的金属鳍。
6.轧齿边
类似于冷锻,用这种方法制造的散热片有着完全与众不同的外观。轧齿边可以为设计人员提供许多发挥空间,但是它的价格非常昂贵。 当然,这里列出的产品样式还不能算是一个完整的列表,但是我们在市场上看到的散热片,基本 上都可以在上面找到类似的结构。散热片仅适合用于发热量不太高的设备,如T N T 2 V a n ta 。其 标准频率为1 0 0 M Hz,完全满足其散热要求,但对于频率更高的设备,如T N T 2 P ro,其工作频率 为1 5 0 M Hz,那么就不能满足其散热要求了。

散热风扇的转动系统可分为:轴承系统、滚轴系统和磁浮系统。 滑动轴承风扇大都价格低廉、运转宁静,但是其可靠性较低。最简单的滑动轴承只是一个环, 上面有几个可以添加润滑油的小孔。风扇的马达就在这个环中转动,添加的润滑油就在小孔内积 存着来润滑轴承。 滚珠轴承成本通常比滑动轴承高,运转时声音稍大,但是它的效率较高。目前用于PC 机箱内的风 扇大都使用非常细小的滚珠构成的轴承,这样可以获得较低的摩擦系数及磨损率。区分滑动轴承和滚 珠轴承的主要方法是将风扇四角的固定螺丝卸下,取出风扇,揭开风扇背面的油封(有时油封在正面), 看看里面是不是有一颗滚珠轴承的“芯”。 磁浮系统主要利用轴承与风扇不接触,通过磁场使轴承处在风扇的中间,并通过磁力线推动风 扇高速运转。该风扇的特点是速度高、噪音低。但由于属于一种新技术,其稳定性有待时间来验证。 另外,使用风扇还有一个地方需要考虑的就是噪音。高速气流会产生噪音——这是不可避免 的,所以许多高品质的风扇通常都会产生较大的噪音。通常机箱风扇都会产生较高速的气流,因 而会产生一些气流声。大的风扇在较低的速度下所产生的噪音要小于小风扇在高速下所产生的噪 音,即使大家提供的空气流量都相等。因此,风扇应该是越大越好。 但是如何来识别风扇的性能呢?在英制作为度量衡的国家,通常都会采用空气流量单位C F(每分钟立方英尺,C u b i c F e e t p e r M i n u t e)来识别。对于国内而言,则会使用“立方米/分 钟”来作为识别依据。5 0 mm ×1 0 mm 的C PU 风扇会达到1 0 C FM,6 0 mm ×2 5 mm 风扇通常能达到20 ~ 3 0 C FM,而8 0 mm ×2 5 mm 则会产生30 ~40 的C FM,1 2 0 mm 可以产生超过1 0 0 C FM 的流量。
因为风扇会带来噪音的问题,所以只是在必要的 时候才采用。但经常会有这种情况发生,如采用散热 片,稍显不足,而用风扇,又好象没有太大的必要, 能否在这两者之间找到一个平衡点呢?技嘉科技的 专利技术——双散热冷却系统解决了这个问题。

双散热冷却系统是在显示芯片的两侧均附加散热 片,提高其散热效果。该方法在技嘉显卡上被广泛采 用,如采用T N T 2 M 64 芯片的G A -6 22,只需安装双散 热片即可,而采用T N T 2 P ro 的G A -6 6 0 P l us,也采用 了双散热片+风扇技术,通过该技术,可将其标准 工作频率由1 4 3 M Hz 和1 6 6 M Hz 都提高到1 9 0 M Hz,而 此时温度仅为32 度。通过测试表明,采用该技术能 够得到更高的性能和稳定度。

第五节 主流显卡芯片介绍和性能指标
1 .R i v a T N T2
主控芯片:N V I D I A T N T2 核心/显存频率:1 2 5 /1 5 0 M Hz 像素填充率:2 5 0 M p i x e l /s RAMDAC:300MHz A G P 2X /4 X:支持8 ~3 2 MB 显存 主要产品:T N T2 、TNT2 -P RO 、TNT2 -U l t ra 、T N T 2 V a n ta 、T N T 2 M 64 特性:单通道多纹理、单周期双像素、双线/三线/各向异性过滤/32bit 渲染/32bit Z-Buffer
2 .G e F o r c e 2 56
主控芯片:NVIDIA GeForce 256 核心/显存频率:120 /160MHz
像素填充率:480Mpixel /s RAMDAC:350MHz AGP2X /4X:支持32 ~64MB 显存 主要产品:G e F o r c e 2 5 6 S D R AM 、 GeForce 256 DDRAM 、Quadro 特性:单周期四像素、双线/三线/ 各向异性过滤/32bit 渲染/32bit Z- Buffer/硬件T &L 引擎/立方环境映射 /DXTC 纹理压缩

3 .3 d f x V o o d o o3
主控芯片:3dfx Voodoo3 核心/显存频率:143 /143MHz 像素填充率:286Mpixel /s RAMDAC:300MHz
AGP2X /PCI:支持16MB 显存 主要产品:Voodoo3 2000 、Voodoo3 3000 、Voodoo3 3500 特性:单通道多纹理、双线/三线过滤/16bit 渲染/Glide 支持
4 .S 3 S a v a g e 4
主控芯片:S3 Savage 4 核心/显存频率:110 /125MHz 像素填充率:110Mpixel /s RAMDAC:300MHz
AGP2X /4X:支持8 ~32MB 显存 主要产品:Savage 4 GT 、Savage 4 Pro 、Savage 4 Pro
+、Savage 4 Xtreme 特性:单通道多纹理、双线/三线过滤/32bit 渲染/ S3TC 纹理压缩

5 .S 3 S a v a g e 2 0 00
主控芯片:S3 Savage 2000 核心/显存频率:125 /155MHz 像素填充率:250Mpixel/s RAMDAC:350MHz
AGP2X /4X:支持32 ~64MB 显存 主要产品:Savage 2000 特性:单周期四纹理/双像素双纹理渲染引擎、双线/三线过滤/32bit 渲染/S3TC 纹理压缩



第六节 相关软件的操作和使用
一、Fast Card 简介
Fast Card 是目前应用最多的一款3D 加速卡超频软件,利用Fast Card 几乎可以针对每一种主流 3D 加速卡分别进行优化。如果你使用的是Voodoo 系列3D 加速卡,那么Fast Card 可以针对3dfx 的Glide 和微软的Direct 3D 分别进行细微的调整。如果使用Voodoo 3,那么在Glide Option 中,用户可以 强迫Voodoo 3 使用22 位渲染以得到更加细腻的画质,而且可以通过非同步刷新选项提高Voodoo 3 在 游戏中的表现速度。如果是Voodoo 2,那么通过反锯齿、三线性过滤等选项可以使Voodoo 2 在3D 游 戏中表现出更佳的画质。 当然对3dfx 的元老,Voodoo 和Voodoo Banshee 两块加速卡,Fast Card 也提供了很多调整项目, 而且通过F a s t C a rd 还可以对上述3D 加速卡的显卡核心以及显存工作频率进行调整,不过V o o d oo 3 在超频以后的温度会非常高,如果没有加装散热风扇就很难稳定工作。对于N V I D IA 的T NT 以及 T N T2 两种加速卡,F a s t C a rd 提供了更为丰富的调整选项,用户可以通过这些选项在速度和画 质间进行协调以得到满意的性能。当然,F a s t C a rd 也为T NT 、T N T2 提供了显存、核心的超频功 能,而且还可以对显存的工作周期进行调整。除去以上几种3D 加速卡以外,F a s t C a rd 支持的 3D 加速卡还有Matrox G100/200 、S3 Savage3D 、ATI Rage 128 。 在运行Fast Card 之前,首先要安装微软的VB6 运行库。Fast Card 支持的显卡比较少,只包括一 些主流3D 加速卡。调整之前要先选择显卡类型,目前还不能自动探测显卡。Fast Card 对于3dfx 显卡 的调节非常全面,只是在选项中没有列出Voodoo Rush 的选项,不过如果您以Voodoo 来进行默认方式的调节也可以NEXT 。启动Fast Card 进行超频,该软件会自动给出每种显卡的超频上限,虽然一定程 度上保护了显卡的安全,但对于一些超频狂就显得有些多余了。 例如TNT2,利用Fast Card 最高可超频达240MHz 。另外值得一提的是,Fast Card 还针对3D 动作 游戏“Unreal ”等做了特别的优化,如真彩色和3 次线性过滤,选中它再到“Unreal ”里看看,效果 比3dfx 的Glide 还好。不过也有一些遗憾,在Fast Card 中没有对G400 和Savage4 超频的选项,而从 支持度来分析,Fast Card 明显偏心于3dfx 和NVIDIA 两大公司,不过这对于大多数普通玩家来说可能 已经足够了。当然,在Fast Card Options 中出提供了Registery Watcher 的选项,启动这个选项, Fast Card 在第二次启动运行时便会对显卡的调整自动生效,而并不需要用户再次运行Fast Card 。还 有,利用Fast Card 还可以对CPU 进行超频。不过它和CPU 专用超频工具SoftFSB 有明显的不同,那就 是用户不必选择主板的ICS,只要轻轻一点Updata Speed,就可以让CPU 频率提升1MHz 。
二、PowerStrip 简介
Powerstrip 是一款32 位的显示管理软件,它的主要功能有:设置显示器的屏幕刷新频率;进行RGB 三色色温调节和GAMMA 对比度调节——这可是只有比较高级的显示器才有的功能,一般的显示器能进行 9300K(偏绿)和6500K(偏红)两种色温调节就不错了;屏幕姿态调整——用Powerstrip 可以使屏幕居中; 显示你的显示系统信息——比很多硬件侦测软件还要全面准确,而它的显示卡超频功能只是PowerStrip 数项功能中的一项。
PowerStrip 的主要功能包括设置显示器的刷新频律、进行RGB 三色的色温调节、进行GAMMA 对比度 调节等。随着版本的不断更新,目前PowerStrip 支持的显示卡已经有多种,从3dfx 、3Dlabs 、Alliance 、 ATI 、Cirrus Logic 、Intel 、Matrox 、NVIDIA 、S3 、SiS 、Trident 、Rendition 等,也是目前所有软 超频显示卡软件中支持度最高的一款。
安装PowerStrip 时要小心,因为PowerStrip 会在安装时显示用户显示器的最大行频、场频和显示 卡的最高分辨率。在经过这个步骤的时候,千万不要疯狂地过于追求不切实际的高分辨率和高刷新速 度,否则轻可造成无法正常显示,重则损坏显示器,一定要谨慎行之。在安装时,你还可以对Powerstrip 的开始状态进行设置,包括是否隐藏工具栏、禁止位图菜单等。
第一次启动PowerStrip 用户可以在主菜单 中选择进阶选项,然后选择“进阶选项”下级菜 单中的“执行效能调整”,用鼠标器拖动记忆体 时脉(显示内存频率),将时钟调高,按“套用” 后有一个警告提示,如果选择确定后就开始使 用新的频率了。如果出现花屏的情况,立刻按 “ESC ”键可以回到调整前的状态。否则,按确 定,将新的频率保存,以后显卡就在新的频率 下运行。
针对某些显卡,上面还有一项是“F a st memory timing ”,将它选中后将会提高部分性 能,如下页图所示。如果PowerStrip 不支持对 某种显卡进行超频的话,上面两项会显示灰色, 不能对其进行操作,这就避免了误操作。如果 您觉得在这里的时钟范围太小,可以打开Win-


其中第一个数70 为最低值,100 为最大值,80 为缺省值。比如将70 改为60,将100 改为120,保 存文件后重新启动PowerStrip,在“执行效能调整”中就可以在60 ~120 的范围中选择。一般来说,缺省的最大值就是可超的最大上限了,不推荐将频率改为超 过缺省的最大值。PowerStrip 可以对市面上绝大多数图 形芯片进行超频和调节,成功率很高。如果用户在调整完 毕后再次运行游戏或测试软件时没有死机,所有的3D 画 面也都十分正常,这时不要忘了做好PowerStrip 超频后 的显示卡降温工作。PowerStrip 还具备更改显示器刷新 频率的强大功能,在主菜单的“PowerStrip 配置”中,重 描速率的地方可以设置刷新率,一般是越往右移动越好, 如右图所示。
还包括调整DirectX 和OpenGL 方式下的效果,Direct 3D 效果的调整有“Don ’t sync buffer swaps to re- fresh rate ”(程序刷新时不允许同步交换内存)、“Disable fog table emulat ”(程序不需要雾化效果)、“Disable DX6 extensions ”(程序不允许DX6 扩展)3 项。调整的执行效果 中我们可以选择“Quality ”、“Speed ”两个效果端点,选 择“Quality ”表示注重显示质量,但是速度就会降低。而 选择“Speed ”表示注重显示速度,同样会损失显示质量。
