視頻編碼是視頻會議中重要的一個組成部分,是對一個數字視頻信號的編碼和解碼的過程.我們現在討論數字圖象和視頻信號的結構和特征以及對于視頻編碼來說很重要的一些基本概念,比如采樣格式等.數字視頻是對于一人自然的視覺場景的從時間和空間上進行采樣的表示方式.一個場景是由通過在時間上對于點進行采樣來得到幀從而產生的(一種對于在時間上點在整個視頻場景中的表示方法)或是一個場(由奇數或偶數行的空間采樣組成).采樣在一定的時間間隔上(通常是1/25或1/30秒時間間隔)進行重復,從而產生一個可動的視頻信號。一般來說,需要三種采樣集來表示一個有色的場景。表示數字視頻的流行的方法是使用ITU-R 601標準并使用"中間集"。對于一個視覺場景的重建的準確性必須被計算來決定一個視頻通信系統的性能,這是一個出了名的困難和極為不準確的過程。主觀的測量方法是極耗時間而且它與觀察者對于變換的反應程序不同而不同。客觀的測量方法實現起來就更簡單一些,但是目前還不能與人類實際視覺感完完全全匹配。
1、自然視頻場景
一個經典的“現實世界”或“自然世界“的視頻場景是由多個有各自特征形狀,深度,紋理和亮度的物體構成的。視頻場景的顏色和明亮度在不同的場景中根據不同程序的光滑度而定。一個與視頻處理和壓縮相關的經典的自然視頻場景包括空間特征(紋理變換,物體的數目和形狀,顏色等)和時間特征(物體運動,亮度的變化,視點的移動等)
2.、捕捉
一個自然視頻場景在空間和時間上是連續的。用數字的形式表示一個視頻場景包括在空間對實際場景進行采樣(通常是通過在視頻圖形面上用長方形格處理)和時間采樣(以一系列以某時間間隔采樣得到的靜態幀組成)。數字視頻就是在數字形式下的一個視頻場景的采樣的表示方式。每一個時-空采樣(像素)用一個數或一組數來表示,用來描述采樣點的亮度和色度。
為了得到一個二維的采樣圖像,攝像頭把一個視頻場景的二維投影聚焦到傳感器上,比如一組電荷耦合裝置(CCD)。在帶色的圖像捕捉過程中,每一個顏色成員都分別被過濾并投影到一組CCD中。
3、空間采樣
一組CCD的輸出就是一個模擬的視頻信號,一組可以表示一個視頻圖像的電信號。在時間上對一點進行采樣就形成了一個有定值的采樣點圖像或幀。最常用的采樣方法是把采樣點置于一個正方形或長方形格中進行操作。然后對于每個格交點處的點進行采樣,重建過程就以采樣值對應到像素上進行顯示。重建圖的視覺效果取決于采樣點的數量。選擇一個粗糙的采樣格會得到一個低分辨率的采樣圖像,而增加采樣點的數量就會增加采樣圖像的分辨率。
4、時間采樣
一個可動的視頻圖像是通過對信號在周期性的時間間隔上進行快照得到的。重放這一系列的幀會得到一個運動的效果。一個高的時間采樣率(幀率)會產生更加平滑的運動但是它就要求有更多的采樣要被捕捉并被保存。在10幀每秒之下的幀率有些被用于一些很低碼率的視頻通信中(因為被傳輸的數據量非常的小)但是運動卻看起來很笨拙而且不自然。在10-20幀每秒是比較經典的低碼率視頻。在25-30幀每秒進行采樣是標準電視信號圖象的采樣幀率(配合隔行掃描采樣來達到更好的運動效果)。50-60幀每秒就可以形成平滑的運動(代價就是幀率太過高,傳輸和存儲的壓力大).
5、幀和場
一個視頻信號可以被通過對于一系列幀(漸進采樣)或一個序列的隔行掃描的場(隔行掃描采樣)來進行采樣。在一個隔行掃描采樣的視頻序列里,一幀的一半的數據是在每個時間采樣間隔進行采樣的。一個場由奇數個或偶數個掃描線組成,而一個隔行掃描的視頻序列包括一系列的視頻幀。這種采樣方式的優點在于與有相同幀數的同樣碼率的漸進序列相比,可以在一秒中傳輸兩倍多的場,這樣就可以形成更加平滑的運動。比如,一個PAL視頻序列由50場/秒的碼率組成,在回放過程中,運動可以比與之相同的25幀每秒的用漸進視頻序列形成的運動顯得更加的平滑。
6、顏色空間
大多數數字視頻程序都依賴于彩色視頻的顯示,這樣的話,就需要一個來捕捉并表示顏色空間的表示方法。一個單色的圖像只需要一個在空間內表示一個像素點的亮度或流明度的值就可以了。但對于顏色圖像來說,對于一個像素點至少需要三個數來把顏色信息準確地表示出來。用來表示亮度和顏色的方法叫做顏色空間。
RGB
在RGB顏色空間中,一個帶顏色的圖象采樣是用三個值來表示一個象素點的相對的紅,綠和藍色比(三種光線的主樣構成顏色)。任何顏色都可以通過把紅,綠和藍來通過不同的比例相混得到。RGB顏色空間更加適合于捕捉并顯示顏色圖像。捕捉RGB圖像包括過濾出紅,綠和藍色的構成比率,并用一個單獨的傳感器數組來捕捉。CRT和LCD通過分別對每個像素點的紅綠藍值進行顯示來得到各種顏色。從一個通常的觀察距離來看,不同的構成部分可以達到顏色上的真實感。
YCbCr
人類視覺系統(HVS)相比亮度來說對于顏色不是那么敏感的。在RGB顏色空間中,三種顏色被平等地看待,并用相同的分辨率存放起來。但是通過把亮度與顏色信息分離,并對亮度值取更高的分辨率可以更有效地表示一個顏色圖像。
YCbCr顏色空間和它的變換(通常寫為YUV)是一種流行而高效的表示一個顏色圖像的方法。Y是亮度值,由R,G,B的加權平均可以得到: Y=krR + kgG + kbB
這里k是加權因子。
顏色信號可以由不同的顏色差別來表示:
Cb = B-Y
Cr = R-Y
Cg = G-Y
對于一個顏色圖像的完整的描述由給定Y和三個色差:Cb,Cr,Cg來表示。
目前為止,我們的表示方法好像并不那么好,因為相比RGB表示來說,我們這次用了四個參數。然后Cb+Cr+Cg是一個常數,那么我們只需要兩個色度參數就可以了,第三個可以通過其他兩個計算出來。在YCbCr空間中,只有Y和Cb,Cr值被傳輸和存儲,而且Cb和Cr的分辨率可以比Y低,因為人類視覺系統對于亮度更加敏感。這就減少了表示圖像的數據量。通常的觀察情況下,RGB和YCbCr表示的圖像看上去沒有什么不同。對于色度采用比亮度低的分辨率進行采樣是一種簡單而有效的壓縮辦法。
一個RGB圖像可以在捕捉之后轉換為YCbCr格式用來減少存儲和傳輸負擔。在顯示圖象之前,再轉回為RGB.注意沒有必要去指明分別的加權值kg(因為kb+kr+kg=1),而且G可以從YCbCr中解壓出來,這說明不需要存儲和傳輸Cg參數。
Y = kr R + (1-kb-kr)G + kb B
Cb = 0.5/(1-kb) * (B-Y)
Cr = 0.5/(1-kr) * (R-Y)
R = Y + (1-kr)/0.5 * Cr
G = Y - 2kb(1-kb)/(1-kb-kr) * Cb - 2kr(1-kr)/(1-kb-kr) * Cr
B = Y + (1-kb)/0.5 * Cb
ITU-R的BT.601決議定義了kb=0.114,kr=0.299,那么代換參數就有了如下等式:
Y = 0.299R + 0.587G + 0.114B
Cb = 0.564(B - Y )
Cr = 0.713(R - Y )
R = Y + 1.402Cr
G = Y - 0.344Cb - 0.714Cr
B = Y + 1.772Cb
YCbCr采樣格式
4:4:4采樣就是說三種元素Y,Cb,Cr有同樣的分辨率,這樣的話,在每一個像素點上都對這三種元素進行采樣.數字4是指在水平方向上對于各種元素的采樣率,比如說,每四個亮度采樣點就有四個Cb的Cr采樣值.4:4:4采樣完整地保留了所有的信息值.4:2:2采樣中(有時記為YUY2),色度元素在縱向與亮度值有同樣的分辨率,而在橫向則是亮度分辨率的一半(4:2:2表示每四個亮度值就有兩個Cb和Cr采樣.)4:2:2視頻用來構造高品質的視頻彩色信號.
在流行的4:2:0采樣格式中(常記為YV12)Cb和Cr在水平和垂直方向上有Y分辨率的一半.4:2:0有些不同,因為它并不是指在實際采樣中使用4:2:0,而是在編碼史中定義這種編碼方法是用來區別于4:4:4和4:2:2方法的).4:2:0采樣被廣泛地應用于消費應用中,比如視頻會議,數字電視和DVD存儲中。因為每個顏色差別元素中包含了四分之一的Y采樣元素量,那么4:2:0YCbCr視頻需要剛好4:4:4或RGB視頻中采樣量的一半。
4:2:0采樣有時被描述是一個"每像素12位"的方法。這么說的原因可以從對四個像素的采樣中看出.使用4:4:4采樣,一共要進行12次采樣,對每一個Y,Cb和Cr,就需要12*8=96位,平均下來要96/4=24位。使用4:2:0就需要6*8=48位,平均每個像素48/4=12位。
在一個4:2:0隔行掃描的視頻序列中,對應于一個完整的視頻幀的Y,Cb,Cr采樣分配到兩個場中。可以得到,隔行掃描的總采樣數跟漸進式掃描中使用的采樣數目是相同的。
7.、視頻格式
這本書中描述的視頻壓縮標準可以壓縮很多種視頻幀格式。實際中,捕捉或轉化一個中間格式或一系列中間格式是很平常的事情。CIF就是一種常見的流行的格式,并由它衍生出了4CIF和Sub-QCif。幀分辨率的選擇取決于應用程序,可使用的存儲量以及傳輸帶寬。比如說4CIF對于標準定義的電視和DVD視頻來說是合適的,CIF和QCIF在視頻會議中是常被使用的格式。QCIF和SQCIF對于移動設備的多媒體程序來說是合適的,在這樣的情況下,顯示分辨率和碼率都是有限的。以下是各種格式的具體使用位數的需求(使用4:2:0采樣,對于每個元素用8個位大小表示):
格式: Sub-QCIF 亮度分辨率: 128*96 每幀使用的位: 147456
格式: QCIF 亮度分辨率: 176*144 每幀使用的位: 304128
格式: CIF 亮度分辨率: 352*288 每幀使用的位: 1216512
格式: 4CIF 亮度分辨率: 704*576 每幀使用的位: 4866048
一種在電視信號中被應用的很廣的數字視頻信號編碼格式就是ITU-R的BT.601-5 提案。亮度元素被在13.5MHz下采樣,而亮度值則在6.75MHz下采樣,這樣就形成了一個4:2;2的Y:Cb:Cr采樣結果。采樣數字信號的參數取決于視頻碼率(對于NTSC來說是30Hz,對于PAL/SECAM來說是25Hz)。NTSC的30Hz是對低空間分辨率的補償,這樣總的碼率就是216Mbps.實際顯示的激活部分的區域要比總量小,因為它去掉了在一幀邊緣處的水平和垂直空白間隔。
每一個采樣都有0-255的采樣范圍。0和255兩個等級被留作同步,而且激活的亮度信號被限制到26(黑色)到235(白色)之間.
質量
為了指定,評價和比較視頻通信系統,我們需要決定向觀察者顯示的視頻圖像的質量。衡量視頻信號的質量是一件困難的事情,通常也是不準確的,因為有太多的因素會影響到衡量的結果了。視覺質量與生俱來就是主觀的因素,它被很多因素影響著,這就使對于這個衡量結果的準確性變得更難了。比如說,一個視頻信號的質量對于一個觀察者來說主要取決于任務本身,比如說,被動地觀看一部DVD影片,主動地參與一個視頻會議,用符號評議進行通信交流,或是試圖從一個視頻場景中認出一個人。衡量視頻信號的客觀分類給定了一個準確的可重復的結果,但是沒有哪種客觀的測量方法可以完全地模擬人類視覺主觀的感受。
1、主觀質量測量
影響主觀質量的因素
對于一個視頻場景的感覺是由人類視覺系統對于不同元素復雜交互性決定的----眼睛和大腦.對于視頻信號的感知是受空間保真度的影響的(不管有沒有明顯的失真,問題在于我們是否可以清楚地看到一個場景的各個部分)和時間保真度(運動是否自然平滑)。然而,一個觀察者對于質量的看法經常會被觀察環境,觀察者的心情和觀察者與場景的交互程序相關。一個執行特定任務的用戶需要關注于視頻場景的一部分。觀察一個場景常與看一個電影時的對于“好”的概念是不同的。例如,一個觀察者的對視頻質量的看法在觀察環境好的情況下會更好一些(而這一點不取決于視頻信號本身的好壞)
其他的重要的影響因素包括視覺焦點(一個觀察者通過一系列的觀察點而不是同時觀察所有的內容)和所謂的"最新效應"(我們對于一個視頻序列的看法總是更多地受更新看到的內容的影響而不是老的內容)。所有的這些因素都讓衡量一個視頻的質量的好壞的任務變得極為困難。
很多的關于主觀質量認下的測試過程都在ITU-R BT.500-11中被定義。一個常用的過程就是Double Stimulus Continuous Quality Scale(DSCQS)方法,評價者被展示了一系列的圖片或兩個視頻序列A和B(一個接一個地),然后被要求給出A和B的質量評價值,方法是在五個分隔著的評價值(從"Excellent"到"Bad")畫連續線來定。在一個典型的測試會話中,評價者被展示了一系列的序列,并被要求對它們進行評價。對于每對序列來說,一個是未受損的"參考“序列,另一個是同樣的序列,它被在測試的系統或過程中修改了。
這兩個序列的順序,原始的和有損的,在測試地過程中被隨機的給出,這樣評價者就不知道哪個是原始的,哪個是改變過的序列。這樣就防止了評價者帶偏見地比交這兩個測試序列。在結束的時候,評分被轉化到一個規范化的范圍內,最終的結果是用平均評價值來說的,用它來指明相應的幀的質量。
像DSCQS這樣的測試被廣泛地接受,并被用來評價主觀的視頻效果。然而,這樣的測試受實際問題的影響。這樣結果對于評價者來說差別會非常大。這個不同會被在重復測試的過程中被彌補過來。一個有經驗的評價者(對視頻壓縮失真了解的比較多的)會比那些非有經驗性的用戶會給出一個更帶偏見的評分。這就意味著一個很大的評價用戶群是需要的,因為沒有經驗的用戶很快會發現被改變的視頻的一些特征。這些因素使得使用DSCQS方式的代價更大。
2、客觀的質量測量
主觀測量質量的方法的復雜性和消耗性讓用算法自動測量質量要更加的吸引人。視頻壓縮的開發者和視頻處理系統很大程序上依賴于所謂的客觀質量測量方法。最廣泛應用的方法是PSNR方法,但是這種方法的局限性使人們不得不找更加復雜的方法來逼近人類視覺性。
PSNR
PSNR是用來在對數級上描述質量,并且依賴于原始信號和改變后信號的均方差(MSE):
PSNR(db) = 10log(10)(2^n-1)^2/MSE
PSNR可以很方便而快速地被計算出來,這樣它就成為了一種很流行使用的方法,并用來測量壓縮和解碼視頻圖像的質量。
PSNR方法有幾個局限性,PSNR需要一個原始的圖像做為對比,但是這也許是無法在所有情況下都可以實現的,也難保所謂的原始圖象沒受過影響。PSNR不能準確地給出主觀的視頻質量值。對于給定的一個圖象或一個圖象序列來說,高的PSNR通常說明質量高,低PSNR說明質量低。然而,一個特定的PSNR值并不等于絕對的主觀的質量。主觀上感覺好的圖象不一定PSNR值高。這種情況下,人類的觀察敏感區中心讓人感覺清晰度很好,但信嗓比不一定高。
其他的客觀質量衡量方法
因為PSNR方法的局限性,最近有很多工作用來開發更加復雜的客觀的測試過程,而且表示更準確的主觀信息。很多不同的方法都被提出了。但是沒有一個可以完全代替主觀測試。所以還沒有一個比較標準的,準確的,可用的方法。意識到這一點之后,ITU-T視頻質量專家組(VQEG)就致力于提出一種客觀的視頻質量評價機制。每一步就是測試并比較隱藏的模型與測試模型。在2000年三月,VQEG宣布有10個這樣的測試系統備選。不幸的是,沒有一種被認為是適合的。VQED在2003年進行了第二次的評估。除非非常在自動質量評價中有一個非常大的突破,否則這個問題是很難被解決了。
結論
采樣模擬信號會形成數字視頻信號,它有準確,高質量和對于數字媒體的存儲傳遞等各種優勢,但是會占用比較在的空間。與生俱來的問題包括空間和時間分辨率,顏色表示和視頻質量的測量問題。

售前咨詢專員
