熱點聚集

在今天的移動網絡時代,我已經不習慣直播類的產品了,比如看游戲直播、給美女播音員頒獎、聽直播課等。 另外,隨著抖動、快手等短篇視頻類應用的爆發,視頻類產品總是充斥著我們的生活。 那么,直播系統和視頻產品背后的音視頻技術知識有哪些呢? 本文從直播類產品的基礎結構出發,闡述一些基礎的音視頻技術知識。

營銷:產品經理,你要了解一點音視頻技術

(音視頻行業非常精密,本文只是從一個pm的角度總結了最基本的副本)

實時功能通用的基礎架構有三個部分:音頻視頻收集端、云服務端和音頻視頻播放端。

下圖是app實時功能的體系結構。

從上圖可以看出,每個部分都有各自需要解決的地方。

通常,視頻廣播類功能的整體流程由以下副本組成。

在具體理解每個過程之前,先從音視頻的基本知識開始。

聲音:

我們平時用手機和電腦聽的音頻是已經數字化的音頻模擬信號。 最初,這些音頻都是從物理聲音開始的。

中學的物理都學過。 聲音是波,是由物體的振動產生的。

聲波有三個要素

模擬信號的數字化過程:

模擬信號的數字化過程是將模擬信號轉換為數字信號的過程,包括采樣、量化和編碼。

這個過程可以從下圖中理解。

通過以上流程,實現了語音信號的數字化。 轉換為數字信號后,可以進行這些數據的存儲、再現、復制獲取等其他操作。

音頻編碼:

以上,編碼是指以一定的模式記錄采樣和量化的數據,到底為什么需要編碼呢?

收集和量化的數據非常大,從存儲和互聯網實時分發的角度來看,這個數據量太大了。 存儲和傳輸非常困難,需要編碼壓縮。

壓縮編碼的指標是壓縮比,壓縮比一般小于1。

壓縮編碼算法分為有損壓縮和無損壓縮兩種。

壓縮編碼的本質是壓縮冗馀信號,冗馀信號是人眼感知不到的信號,包括人耳聽覺范圍外的聲音信號和隱蔽的聲音信號。 信號掩蔽可以分為頻域掩蔽和時域掩蔽,關于信號掩蔽大家可以自己百度進行,但這里不多說。

那么,語音壓縮編碼的一般風格有那些嗎?

主要是wma碼mp3碼aac編碼,這是現在比較受歡迎的不可逆壓縮編碼技術,也是現在直播和小動畫中經常使用的編碼風格。 ogg代碼等。

數字視頻:

我們平時在手機和pc上看到的視頻由復印元素、編碼樣式和包裝容器組成。

圖像:

圖像是人類在視覺上感受到的物質的再現。 三維圖像的對象包括深度、紋理和亮度新聞,二維圖像包括紋理和亮度新聞,可以簡單地將紋理理解為圖像。

談了圖像的概念,現在視頻:視頻由多個圖像組成,是一組連續的圖像。 基本的數字視頻基本上是由“收集-解決-顯示”形成的。

編碼模式:

以上描述了音頻編碼,視頻也同樣有編碼的過程。 視頻編解碼器的過程是壓縮或解壓縮數字視頻的過程。

進行視頻編解碼時,視頻的質量、表現視頻所需的數據量(通常稱為編碼率)、編碼算法和解碼算法的復雜度、比較數據丟失和錯誤的魯棒性、便利性、隨機訪問、。

常用的視頻編解碼方法是h.26x系列和mpeg系列,但目前最常用的視頻編碼模式是h.264,其優點是低編碼率、畫質高、容錯性強、互聯網適應性強、同時真實

再介紹一下關于h.264的知識。

在h.264中,圖像包括幀、前場和后場,完美的圖像是幀。

如果在收集視頻信號時使用逐行掃描,則每次掃描時得到的信號是圖像,即一幀。 如果使用隔行掃描(奇數、偶數行),則掃描的1幀圖像被分為2個部分,分別稱為場,依次分為前場(也稱為偶數場)和后場(也稱為奇數場)。

幀和場的概念還帶來了不同的編碼方法:幀編碼和場編碼。 漸進式掃描適于動態圖像,因此對動態圖像使用幀編碼比較好。 另一方面,隔行掃描適于非動態圖像,因此更優選在非動態圖像中使用場編碼。

另外,各幀圖像被分成多個片,各片由宏塊構成,各宏塊由子塊構成。

包樣式:

視頻封裝風格可以看作是承載了視頻、音頻、視頻編解碼方法等新聞的容器。 一種視頻包樣式可以支持多種視頻編解碼方法,包括quicktime(.mov )支持幾乎所有編解碼方法,mpeg(.mp4 )也支持大多數編解碼方法。

pc中經常使用. mov的視頻文件。 通過以上介紹,此視頻的文件樣式為. mov,包樣式為quicktime file format,但不知道視頻編解碼器的方法。 如果我們想專業記述視頻,可以記述h.264/mov的視頻文件,即其封裝方法為quicktime file format,文件樣式為. mov,編碼方法為h.264。

營銷:產品經理,你要了解一點音視頻技術

h.264:

h.264是高性能的視頻編解碼技術,是“國際電車”和“國際標準化組織iso”共同建立的聯合視頻集團共同制定的新的數字視頻編碼標準。

以上敘述了h.264編碼技術的特征,接下來看看與h.264相關的重要技術。

我們首先必須知道無論是視頻還是音頻,其目的都是壓縮。 視頻編碼的目的是提取包括空間冗余、時間冗余、編碼冗余、視覺冗余和知識冗余的冗余新聞。

在此基礎上,h.264的壓縮技術如下。

a )幀內預測壓縮處理空間數據冗馀的問題。 空間冗馀數據是指,圖像數據在寬高度的空間中含有很多顏色和光,用人類的肉眼很難注意到的數據。 對于這些數據,我們可以直接壓縮。

幀內壓縮對應于I幀,即關鍵幀。 那么什么是I幀呢? 在線教程有一個典型的例子。 如果照相機對著你拍的話,一秒內你實際發生的變化非常少。 照相機通常每秒捕捉幾十幀的數據。 例如,像動畫一樣,25幀/秒。 視頻文件通常為30幀/秒左右。 哪個對幀組來說變化較小,為了便于壓縮數據,完全保留第一個幀。 I幀特別重要,因為這個關鍵幀后面沒有解碼數據是不可能的。

營銷:產品經理,你要了解一點音視頻技術

b )幀間預測壓縮處理時間數據的冗馀問題。 在上面的例子中,照相機在一定時間內捕獲的數據沒有大的變化,壓縮了這段時間內的相同數據的是時間數據壓縮。

幀間壓縮對應于p幀和b幀。 p幀是前面參考幀,壓縮時只參考前面的幀。 另一方面,b幀是雙向參照幀,壓縮時即使參照前一幀也參照后一幀。

c )整數離散余弦變換( dct )將空間相關性變換為頻域上的無關數據并進行量化。

d)cabac壓縮:無損壓縮。

h.264除了上述重要技術外,還需要理解一些重要的概念。

進行視頻解碼時,在接收一組幀gof之前,我們先接收sps/pps數據。 沒有這一組參數就無法解碼。

因此,如果解碼時發生錯誤,首先檢查是否有sps/pps。 否則,檢查是對方沒送來,還是在對方送來的時候丟失了。

更詳細的h.264編碼原理這里不介紹。 可以在網上查閱宏塊的數據包分割、宏塊的搜索、幀內預測、dct壓縮、h.264的碼流結構等資料。

通過以上介紹,我們了解了一點音視頻的基本知識。 接下來,我們再來談談直播類應用的整體流程。

音視頻收集階段包括語音收集和圖像收集。

語音收集除了上述采樣率、量化級數、通道數的參數以外,還需要語音幀。

聲音與影像大不相同,影像每1幀是1張圖像,但從聲音的正弦波可以看出,聲音數據是流,沒有確定的1幀概念。 在實際的應用程序中,為了便于音頻算法的解決/傳輸,通常約定以2.5ms~60ms為單位的數據量為1幀音頻。

這個時間被稱為“采樣時間”,其長度沒有特別的基準,根據編解碼器和具體的應用程序的訴求來決定。

如果某個音頻信號是采樣率8khz、雙通道、量化級數16bit、采樣時間20ms,則1幀的音頻數據的大小為8000 *2* 16 bit * 0.02 s = 5120 bit = 640 byte,

圖像捕獲構成一組連續播放捕獲的圖像結果的動畫,即視頻中肉眼可見的副本。

圖像的取入主要是用照相機等機器拍攝yuv編碼的原始數據,編碼后一個一個地發送壓縮成h.264等圖案的數據。 在圖像收集階段,涉及圖像傳輸圖案、圖像圖案、傳輸通道、分辨率、采樣率等主要技術參數。

在音視頻的收集階段,常用的收集源包括手機前后設置照相機等照相機。 游戲直播采用的屏幕錄音電視節目中視頻文件的直接推送流。

音視頻解決分為視頻解決和語音解決。

視頻解決包括美顏、濾鏡、面部識別、水印、剪輯拼接等。 語音解決包括混合、降噪和語音效果。

讓我簡單說明一下美顏和視頻水印的基本原理。

美顏的第一原理是用【去皮】+【美白】達到整體的美顏效果。 剝皮的技術術語是去噪,即去除或模糊圖像中的噪聲點,一般的去噪算法有平均模糊、高斯模糊、中值濾波器等。 這個環節還提到了人臉和皮膚的檢測技術。

視頻水印有兩種方法:播放器水印和視頻嵌入水印。 對于播放器的水印來說,如果沒有比較有效的防盜措施,對于沒有再生認證的推送流,客戶端在得到直播流后,無論哪個沒有水印的播放器都可以再生。 這將失去視頻保護的能力。 因此,通常通過選擇在視頻中嵌入水印的方法來將水印嵌入視頻中,在視頻播放中也繼續顯示。

營銷:產品經理,你要了解一點音視頻技術

再說幾句話,視頻嵌入水印也適用于軟件。 在軟件中播放內部版權保護的視頻片段視頻時,適用于嵌入水印技術。

語音視頻編碼和視頻打包在上述基礎知識部分進行了介紹,因此在此不進行說明。

現在說說編碼器的知識。 上述知道h.264的編碼技術,編碼過程是基于編碼器進行的。

編碼器的第一個流程是幀內預測(空間冗馀消除) /幀間預測(時間冗馀消除) -變換(空間冗馀消除) -量化(視覺冗馀消除) -熵編碼(編碼冗馀消除)。 通過這種流程,可以完成語音視頻的編碼過程。

推送流是指通過流媒體協議將已解決的音頻和視頻數據發送到流媒體服務器。請參見

推送流協議:

推送流遵循的協議是基于rtmp、webrtc和udp的專用協議。

cdn:

這里需要cdn互聯網,以便為地理位置的每個觀眾展示發布的流媒體。 cdn是客戶訪問互聯網資源緩慢而產生的技術。

cdn包括邊緣節點、二次節點和源站。 拷貝供應商可以將拷貝放在源站上,客戶可以從邊緣節點獲取數據,cdn的輔助節點用于緩存,減輕源站的壓力。

在直播行業,cdn支持的服務包括。

流媒體服務器進行的事件包括數據一個一個( cdn )、支持上述cdn的一點服務、實時轉碼、拷貝的檢測(監黃)等。

流式提取是指客戶端從流媒體服務器上拉而取得的上述步驟中的音頻視頻數據。。 同樣,這個過程也是基于上述協議和cdn。

在上述h.264代碼的介紹中,敘述了sps/pps是解碼所需的數據。 這個步驟需要向下流解碼編碼的音頻視頻數據.。

解碼過程是編碼的逆過程,該過程包括熵解碼、變換解碼、預測解碼[/s2/]。

h.264標準規定了解碼器的結構,解碼過程大致以宏塊為單位,依次進行熵解碼、逆量化、逆變換,得到殘差數據。 組合宏塊內的預測消息,找到解碼后的被參照塊,進一步組合解碼后的被參照塊和本塊殘差數據,得到本塊的實際數據。 宏塊解碼后,組合片,片進一步組合圖像。

營銷:產品經理,你要了解一點音視頻技術

這里證明的是,如果h264碼流中的I幀錯誤或丟失,則會引起錯誤的傳播,個別的p幀或b幀無法完成解碼操作。 I幀存儲了完美的視頻幀,是解碼的關鍵。

音頻視頻數據解碼完成后,可以在硬件設備(手機或pc )上的播放器上渲染和播放音頻視頻文件。

那么,上述架構圖中的信令服務器是做什么的呢?

——信令服務器用于解決播音員和客戶端的一點信令命令。

網上傳輸著各種各樣的信號。 其中一部分是我們需要的(例如,打電話的語音、連接到互聯網的分組等),另一部分是我們不需要的(直接不需要的)用于控制電路,對這種類型的信號進行信令(百 即,信令是通信系統中的控制命令。

營銷:產品經理,你要了解一點音視頻技術

在此基礎上說明整個這個過程。

那么,以上是直播類應用程序最基本的架構和過程。

本文通過直播系統應用的架構,介紹了一點音視頻技術的相關知識,同時詳述了直播系統功能的整體流程。

音視頻技術是一個高度的行業,本文只是做了一點基礎知識總結,如果大家想知道越來越多的音視頻技術,我建議大家可以學習雷神(雷霆駿)的博客。

流年,所有人都是產品經理的專欄作家。 網絡產品設計師,4年網絡產品設計經驗。 擅長顧客體驗設計,喜歡在訴求功能背后的技術實現方法上下功夫。 走上成為綜合型產品設計師的道路!

上一篇:營銷:怎么為產品定價?這里有4種做法

下一篇:營銷:網絡產品經理必修課:產品訴求管理


標題:營銷:產品經理,你要了解一點音視頻技術
地址:http://www.galaxydg.com.cn/xinwen/35679.html


免責聲明:文芳閣軟文營銷平臺所轉載內容均來自于網絡,不為其真實性負責,只為傳播網絡信息為目的,如有異議請及時聯系btr2030@163.com,本人將予以刪除。