Unity Shader学习-1.渲染流水线
先了解一下什么是流水线:(下面是百度百科的定义)
流水线:流水线又称为装配线,一种工业上的生产方式,指每一个生产单位只专注处理某一个片段的工作,以提高工作效率及产量
一、什么是渲染流水线
1.概念
渲染流水线的概念与上面说到的流水线的概念也是一致的,其主要任务是输入一个三维场景,然后输出一个二维的图像。这个过程是由CPU和GPU一起完成的。
2.渲染流水线的三个阶段
渲染流水线可以分为三个阶段:应用阶段、几何阶段、光栅化阶段
a.应用阶段(CPU处理)
这一阶段是由开发者主导的,在这一阶段中开发都有3个主要的任务:
首先,需要准备好场景数据(摄相机位置、视锥体、模型和光源等)
接着,还需要做粗粒度的剔除工作
最后,需要设置好每个模型的渲染状态(使用的材质、使用的纹理、使用的Shader等)
这一阶段最重要的输出是渲染所需的几何信息,即渲染图元,渲染图元可以是点、线、三角面等。
b.几何阶段(GPU处理)
几何阶段主要用于处理所有和我们绘制的几何相关的事情。几何阶段负责和每个渲染图元打交道,进行逐顶点、逐多边形的操作。这个阶段可以进一步分成更小的流水线阶段。
几何阶段的一个重要任务就是把顶点坐标变换到屏幕空间中,再交给光栅器进行处理。
总结:输入的渲染图元->屏幕空间的二维顶点坐标、每个顶点对应深度、着色等信息
c.光栅化阶段(GPU处理)
将会使用上一个阶段传递的数据来产生屏幕上的像素,并渲染出最终的图像。主要任务是决定每个渲染图元中的哪些像素应该被绘制在屏幕上。
3.CPU与GPU之间的通信
渲染流水线的起点是CPU,即应用阶段。应用阶段可以分为下面3个阶段:
1.把数据加载到显存中
2.设置渲染状态
3.调用Draw Call
1.数据加载到显存中
基本步骤就是纹理、网格等数据从硬盘加载到系统内存再加载到显存。数据加载到显存后系统内存中的数据就可以被移除了,但是对于一些数据来说CPU需要访问他们,例如用于碰撞检测用的网格数据,这些数据则会被保留。
2.设置渲染状态
渲染状态指的是场景中的网格是如何被渲染的,例如使用哪个Vertex Shader或者哪个Fragment Shader、光源属性、材质等。
3.调用Draw Call
Draw Call指的是一个命令,发起方为CPU,接收方为GPU。当给定了一个Draw Call时,GPU会根据渲染状态(例如材质、纹理、着色器等)和所有输入的顶点数据进行计算,最终输出成在屏幕上的像素。这个计算的过程就是GPU流水线。
4.GPU流水线
当GPU收到CPU发送过来的Draw Call指令后,会进行一系列的流水线操作,最终把图元渲染到屏幕上。对于几何阶段和光栅化阶段其实现的载体是GPU,而开发者对这两个阶段的实现细节无法完全控制。而GPU流水线可以细分成不同的流水线阶段
(1)顶点着色器:
从图中可以看到GPU的流水线接收顶点数据作为输入,接着顶点数据被传递给顶点着色器。顶点着色器的处理单元是顶点,输入进来的每个顶点都会调用一次顶点着色器。(顶点着色器本身不可以创建或销毁任何顶点,并无法得到顶点与顶点之间的关系)
顶点着色器是完全可编程的,它主要完成的工作有:坐标变换和逐顶点光照。
坐标变换:就是对顶点的坐标进行某种变换—把顶点坐标从模型空间转换到齐次裁剪空间。我们可以通过坐标变换来模拟水面、面料等。
(2)曲面细分着色器:
是一个可选的着色器,主要用于细分图元。
(3)几何着色器:
是一个可选的着色器,可用于执行逐图元的着色操作,或者被用于产生更多的图元。
(4)裁剪:
这一阶段是可配置的。目的是把那些不在视野内的顶点裁剪掉,并剔除某些三角形图元的面片。
一个图元与摄像机视野的关系有3种:完全在视野内、部分在视野内、完全在视野外。
完全在视野内的图元会继续传递给下一个流水线阶段
完全在视野外的图元不会继续向下传递
部分在视野内的图元需要做裁剪处理
和顶点着色器不同的是,这一步是不可编程的。我们无法通过编程来控制裁剪的过程,而是硬件上的固定操作。
(5)屏幕映射:
这一阶段是可配置和编程的,负责把每个图元的坐标(三维坐标系)转换成屏幕坐标(二维坐标系)
。这一步输入的坐标仍然是三维坐标系下的坐标。屏幕映射得到的屏幕坐标决定了这个顶点对应屏幕上哪个像素以及距离这个像素的距离。
注意:OpenGL把屏幕的左下角当成最小的窗口坐标值,而DirectX则定义屏幕的左上角为最小的窗口坐标值。(就不能统一一下吗。)
这样的差异会给开发者造成不少的坑,如果你发现开发过程中得的图像是倒转的,那可能是因为这个问题。
(6)三角形设置:(开始进入光栅化阶段)
中文名 光栅化
释? ? 义: 将图转化为一个个栅格组成的图象
过? ? 程: 把顶点数据转换为片元的过程
特? ? 点: 每个元素对应帧缓冲区中的一像素
上一阶段我们可以得到的数据是屏幕坐标系下的顶点位置以及和它们相关的其他信息,如深度值、法线方向、视角方向等。
光栅化阶段的目标:1.计算每个图元覆盖了哪些像素? 2.为这些像素计算它们的颜色
三角形设置作为光栅化的第一个阶段,会计算出光栅化一个三角网格所需要的信息。上一阶段的输出是三角网格的顶点,如果我们想得到整个三角网格的覆盖情况,就必须计算每条边上的像素坐标而得到三角形边界的表示方式。这样一个得到三角形边界表示方式的过程就是三角形设置。
(7)三角形遍历:
这一阶段会检查每个像素是否被一个三角风格所覆盖。如果覆盖的话,就会生成一个片元,这样一个查找哪些像素被三角形覆盖的过程就是三角形遍历。
上一阶段得到的三角网格的表示形式会在这一阶段用来判断一个三角网格覆盖了哪些像素,并使用三角网格的3个顶点信息对整个覆盖区域的像素进行插值。这一阶段输出的是片元的序列。
注意:一个片元并不是真正意义上的像素,而是包含了很多状态的集合,这些状态用于计算每个像素的最终颜色。这些状态包括了屏幕坐标、深度信息,及从几何阶段输出的顶点信息,如法线和纹理坐标等。
(8)片元着色器:
片元着色器的输入就是上一阶段对顶点信息插值得到的结果,更具体点说,是根据从顶点着色器中输出的数据插值得到的。而这一阶段的输出是一个或者多个颜色值。这一阶段可以完成很多重要的渲染技术,如纹理采样,但是它的局限在于,它仅可以影响单个片元。
(9)逐片元操作:(渲染流水线最后一步)
这一阶段的目的是:合并。那么是合并哪些数据呢?
这一阶段的几个主要任务:
决定每个片元的可见性。这涉及了深度测试、模板测试等
如果一个片元通过了所有的测试,那么就要把这个片元的颜色值和已经存储在颜色缓冲区中的颜色进行合并,或者说是混合。
这一阶段是可编程的,我们可以设置每一步的细节。
可见性:
这一阶段颜色首先要解决每个片元的可见性问题,每个片元需要进行以下的测试,如果在中间任何一个阶段没通过测试的都将被舍弃。
模板测试:
如果开启了模板测试,GPU会首先读取模板缓冲区中该片元位置的模板值,然后将该值和读取到的参考值(可以开发者自己指定)进行比较,开发者可以设定成小于时舍弃或者大于等于时舍弃该片元。模板测试通常用于限制渲染的区域,另外模板测试还有别的高级用法,如渲染阴影,轮廓渲染。
深度测试:
如果一个片元幸运的通过了模板测试,那么就会进行深度测试,如果开启了深度深度,GPU就会把该片的深度值和已经存在于深度缓冲区中的深度值进行比较,这个比较函数也是由开发者设定的,可以选择大于此值时舍弃也可以选择小于等于此值时舍弃。但通常这个比较函数是小于等于的关系,这是因为我们我们总想只显示出离摄像机最近的物体,而那些被其他物体遮挡的片元就不需要出现在屏幕上。和模板测试不同的是,如果一个片元没有通过深度测试,他就没有权利修改深度缓冲区中的值。而如果通过了测试,开发者可以通开启/关闭深度写入来决定是否要利用这个片元的深度值覆盖缓冲区中的值。
混合:
对于不透明物体,开发者可以关闭混合操作,这样片元着色器计算得到的颜色值就会直接覆盖掉颜色缓冲区中的像素值。但对于半透明的物体,我们就需要开启混合操作来让这个物体看起来是半透明的?;旌喜僮魇歉叨瓤膳渲玫模⒄呖梢匝≡窨?关闭混合功能。如果开启了,GPU会取出源颜色和目标颜色,将两种颜色进行混合。源颜色是指片元着色器得到的颜色值,而目标颜色则是已经存在于颜色缓冲区中的颜色值。
透明度测试会导致性能下降的原因:如果我们在片元着色器中进行了透明度测试,而这个片元没有通过透明度测试,我们会在着色器中调用API(例如clip操作)来手动将其舍弃掉。这就会导致GPU无法提前执行各种测试。所以现代的GPU会判断片元着色器中的操作是否和提前测试发生冲突。如果有冲突,就会禁用提前测试。但这样会导致更多的片元需要进行处理了,因为性能会下降
二、关键词答疑
1.OpenGL和DirectX
开发者直接访问GPU是一件非常麻烦的事情,可能需要与各种寄存器、显存打交道,而图像编程接口在这些硬件的基础上实现了一层抽象。
而OpenGL和DirectX就是这些图像应用编程接口,他们之间江湖恩怨,可以去看这篇文章。这些接口架起了上层应用程序与底层GPU的沟通桥梁。上层应用程序向这些接口渲染命令,而这些接口会依次向显示驱动发送渲染命令,而显卡驱动会把这些命令翻译成GPU能听懂的语言来让他们进行工作。
2.HLSL、GLSL和CG
这三个指的都是着色器的编程语言。
HLSL:High Level Shading Language,DirectX的着色器语言,由微软控制着色器的编译,就算使用了不同的硬件,其编译结果也是一样的,其使用的平台比较局限,几乎都是微软自己的产品,如Windows、Xbox 360等
GLSL:OpenGL Shading Language,OpenGL的着色器语言,优点在于其跨平台性,可以在Windows、Mac、Linux甚至移动平台使用,这种跨平台性是由于OpenGL没有提供着色器编译器,而是由显卡驱动来完成着色器的编译工作的。即只要显示驱动支持对GLSL的编译它就可以运行。
CG:C for Graphics,NVIDIA的着色器语言,实现了真正意义上的跨平台,它会根据平台不同,编译成相应的中间语言。
3.Draw Call
Draw Call本身的意义很简单,就是CPU调用图像编程接口。
1.CPU和GPU是如何实现并行工作的?
主要的解决方案是命令缓冲区,命令缓冲区包含了一个命令队列,由CPU向其中添加命令,而由GPU从中读取命令,添加和读取的过程是独立的。这样使得CPU和GPU可以相互独立工作。当CPU需要渲染对象时,则向命令缓冲区中添加命令,而当GPU完成上一次渲染任务后,它就可以从命令队列中取出一个命令并执行它。
2.为什么Draw Call多了会影响帧率?
在每次调用Draw Call之间,CPU需要向GPU发送很多内容,包括数据、状态和命令。CPU需要完成很多工作,例如检查渲染状态等。而一旦CPU完成了这些准备工作,GPU就可以开始本次的渲染。GPU渲染的速度是比较CPU提交指令的速度要快很多的。所以性能的瓶颈会出现在CPU身上,如果Draw Call的数量太多,CPU就会把大量的时间花费在提交Draw Call上,造成CPU过载。
3.如何减少Draw Call?
主要的解决方案是批处理(Batch),把众多小的合并Draw Call合并成一个Draw Call,当然不是所有情况都能合并的。我们可以对网格进行合并,但是合并的过程是比较消耗时间的,因此批处理技术更适合于静态的网格。
合并需要注意的点:
避免使用大量很小的网格,当不可避免的要使用这些这么小的网格时,考虑是否可以合并他们。
避免使用过多的材质,因为相同的材质会方便我们进行合并
4.什么是固定函数的流水线?
简称固定管线,通常是指在旧GPU上实现的渲染流水线??⒄呙挥卸粤魉咄耆刂迫?,只有一些配置操作,配置操作只有开和关