摘要:在現(xiàn)代信息技術(shù)不斷發(fā)展的背景下,圖像識別技術(shù)在我國得到了較大的發(fā)展和廣泛的應(yīng)用,同時視頻通信業(yè)務(wù)范圍也日益擴(kuò)大。本文主要就圖像識別技術(shù)的發(fā)展及其在視頻通信領(lǐng)域的應(yīng)用現(xiàn)狀進(jìn)行了探析,以期能夠更好地提升圖像識別技術(shù)的應(yīng)用價值。
關(guān)鍵詞:圖像識別技術(shù),視頻通信,發(fā)展應(yīng)用現(xiàn)狀
一、引言
圖像識別技術(shù)是以圖像為基礎(chǔ),利用計算機(jī)對圖像進(jìn)行處理后,將其中的目標(biāo)對象識別出來并加以分析的技術(shù)。隨著20世紀(jì)60年代以來計算機(jī)技術(shù)與信息技術(shù)的發(fā)展,圖像識別技術(shù)越來越被人類所發(fā)掘和研究,圖像識別技術(shù)已經(jīng)應(yīng)用到人們的日常生活方方面面中。應(yīng)用范圍包括醫(yī)學(xué)、航空航天、農(nóng)業(yè)生產(chǎn)、工業(yè)工程、通信、交通、軍事安防等多個領(lǐng)域,如醫(yī)療診斷中各種醫(yī)學(xué)圖片的分析與識別、天氣預(yù)報中衛(wèi)星云圖識別、遙感圖像識別、指紋識別、臉譜識別、智能機(jī)器人、電子警察系統(tǒng)等,其中最典型的應(yīng)用是在通信工程和生物醫(yī)學(xué)中的應(yīng)用。
隨著社會的發(fā)展和通信技術(shù)的進(jìn)步,人們對通信的需求發(fā)生了巨大的變化,由最初單一的文字或語音通信提升為對視頻和音頻多方面的通信需求,通信領(lǐng)域的發(fā)展熱點也逐步轉(zhuǎn)向以傳送語音、圖像、數(shù)據(jù)和視頻為一體的視頻通信業(yè)務(wù)。不僅如此,在視頻監(jiān)控、電視會議、遠(yuǎn)程醫(yī)療和遠(yuǎn)程視頻教育等方面,視頻通信也成了不可替代的一項技術(shù)。
隨著電子技術(shù)和互聯(lián)網(wǎng)的快速發(fā)展,視頻通信中對信息準(zhǔn)確性及圖像清晰度要求的提高成為可能。與之相對應(yīng)的是,如今的圖像識別技術(shù)更加先進(jìn),更加精準(zhǔn),能用納秒級的時間處理和加工非常復(fù)雜的圖像。因此,圖像識別技術(shù)在視頻通信領(lǐng)域的發(fā)展與應(yīng)用是非常值得關(guān)注的。
二、計算機(jī)圖像識別技術(shù)的發(fā)展
計算機(jī)圖像識別技術(shù)模仿人類對于圖像的識別過程,通過分類并提取圖像的重要特征且排除多余的信息,然后對識別出來的信息進(jìn)行整合,最終將分階段識別出來的信息形成一個完整知覺映像,從而判斷出識別目標(biāo)。簡單來說,識別過程包括圖像預(yù)處理、圖像分割、特征提取和判斷分類匹配,如圖1所示。
從計算機(jī)圖像識別技術(shù)的發(fā)展階段來看,早在20世紀(jì)20年代,這項技術(shù)就已經(jīng)開始在西方多國出現(xiàn)并且得到初步應(yīng)用。50年代,計算機(jī)圖像識別技術(shù)還停留在數(shù)字、文字處理方面。60年代,隨著計算機(jī)性能大幅度提升,計算機(jī)圖像識別與處理技術(shù)發(fā)展勢頭迅猛,比如60年代出現(xiàn)的CT掃描進(jìn)行疾病診斷,在70年代末被授予諾貝爾獎。到了90年代,圖像識別與處理技術(shù)真正進(jìn)入到大規(guī)模發(fā)展階段,真正飛躍發(fā)展是在21世紀(jì)。
進(jìn)入到21世紀(jì),智能化時代已悄然來臨,人們的生活方式也得到了極大的改變,我們在通信的過程中也可以傳輸圖像、聲音、文字等信息。網(wǎng)絡(luò)能夠承載電視、電話以及綜合類型的數(shù)字通信,滿足人們的各種日常生活工作需求。移動互聯(lián)網(wǎng)、智能手機(jī)以及社交網(wǎng)絡(luò)的發(fā)展,使人們的生活充滿了海量的圖片信息,圖片與視頻成為通信交流的又一大主要媒介。在此環(huán)境下,計算機(jī)圖像識別處理技術(shù)顯得尤為重要。
三、圖像識別技術(shù)
圖像識別主要有模式識別和神經(jīng)網(wǎng)絡(luò)兩種技術(shù)。
(一)模式識別
模式識別是指對表征事物或現(xiàn)象的各種形式的圖像信息進(jìn)行處理和分析,通過計算機(jī)用數(shù)學(xué)技術(shù)方法來研究模式的自動處理和判讀、識別圖像所具備的多種特征。簡單來說,模式識別就是利用計算機(jī)對圖像的特征提取后進(jìn)行分類,在錯誤概率最小的條件下,使識別的結(jié)果盡量與目標(biāo)對象相符合。模式識別可用于文字和語音識別、遙感和醫(yī)學(xué)診斷等方面,但在當(dāng)前的實際操作過程中,計算機(jī)圖像識別模式和人類大腦圖像識別圖形圖像的模式還存在著一定差異,在處理的過程中難免會出現(xiàn)一些錯誤信息。
(二)神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)具體來說,就是模仿動物神經(jīng)網(wǎng)絡(luò)行為特征,進(jìn)行分布式并行信息處理的數(shù)學(xué)模型。這種網(wǎng)絡(luò)基于系統(tǒng)的復(fù)雜程度,通過調(diào)整內(nèi)部大量節(jié)點之間相互連接的關(guān)系,從而達(dá)到處理信息的目的。相比之前的模式識別,該方法取得了很大成功。當(dāng)前在圖像識別領(lǐng)域廣泛應(yīng)用的主要有多層神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)技術(shù)。
1.多層神經(jīng)網(wǎng)絡(luò)
多層神經(jīng)網(wǎng)絡(luò)由輸入層、隱藏層、輸出層三個部分組成,其中隱藏層也被稱為中間層(可以從幾層到數(shù)百層)。每層都由多個神經(jīng)元組成,層與層之間相互連接,每一個連接均有一個權(quán)重值與之相對應(yīng)。在多層神經(jīng)網(wǎng)絡(luò)中,每一個像素點都需要有一個神經(jīng)元與之對應(yīng)。顯而易見,這種方法費時費力,例如識別一段1000幀每幀1000像素*1000像素組成的視頻,輸入層將由10^9個神經(jīng)元組成,導(dǎo)致計算成本過大,顯然此方法并不存在實際的應(yīng)用價值。
2.卷積神經(jīng)網(wǎng)絡(luò)
為解決多層神經(jīng)網(wǎng)絡(luò)所需樣本多和計算量大的問題,在中間層引入卷積層和池化層,將其稱之為卷積神經(jīng)網(wǎng)絡(luò)。卷積神經(jīng)網(wǎng)絡(luò)根據(jù)神經(jīng)元間的相似性進(jìn)行篩選與過濾,使得圖像計算大幅度簡化。對于某個給定層,輸入和神經(jīng)元之間并不是一一對應(yīng)的關(guān)系,而是專門限制了連接,這樣任意神經(jīng)元只能接受來自前一層的一小部分的輸入(例如3×3或5×5)。因此,每個神經(jīng)元只需要負(fù)責(zé)處理其中某一個特定部分,這樣所需樣本數(shù)量及運算資源顯著降低。
四、計算機(jī)圖像識別技術(shù)在視頻通信領(lǐng)域的應(yīng)用現(xiàn)狀
邁入新時代后,社會文明和科技水平的發(fā)展日新月異,視頻通信應(yīng)用越來越廣泛,成為眾多行業(yè)不可或缺的一環(huán)。現(xiàn)如今,在通信工程領(lǐng)域中,主要的研究方向是聲音、文字、圖像和視頻之間的結(jié)合,即所謂的現(xiàn)代流媒體通信,而其中最復(fù)雜的當(dāng)屬數(shù)字圖像通信,主要原因在于圖像傳輸時對于數(shù)據(jù)帶寬的需求非常龐大。舉個例子,目前智能電視機(jī)傳輸帶寬必須達(dá)到100 M/s以上。因此,在對于圖像信號進(jìn)行輸送的過程當(dāng)中,必須使用編碼技術(shù)壓縮信息量。
就目前而言,圖像識別技術(shù)在流媒體通信領(lǐng)域發(fā)展是非常顯著的,并且也取得了一定的成果。
(一)視頻通信即服務(wù)
在現(xiàn)階段發(fā)展中隨著寬帶網(wǎng)絡(luò)建設(shè)快速增長,移動互聯(lián)網(wǎng)有了明顯的變化,移動通信、社交媒體以及視頻通信等通信技術(shù)已經(jīng)展現(xiàn)出了全新的發(fā)展趨勢。視頻圖像通信主要包括兩個過程,一是攝錄本地會場的視頻圖像、語音和數(shù)據(jù)信息并進(jìn)行壓縮編碼處理,處理為適合信道傳輸?shù)男盘柡蟀l(fā)送出去;二是將接收到的各種信號進(jìn)行濾波和譯碼等操作,把原始的基帶信號再現(xiàn)出來。目前視頻通信運營涉及以下兩個模式:第一,視頻會議電視,這是一種集圖像、語音為一體的常見的視頻通信業(yè)務(wù),它利用互聯(lián)網(wǎng),通過會議電視終端把相隔異地的會議室連接起來,使出席會議的人可以進(jìn)行相當(dāng)于面對面的交談。第二,基于互聯(lián)網(wǎng)基礎(chǔ)上的會議云服務(wù),例如騰訊會議、ZOOM等軟件能夠同時支持多個人多路視頻圖像,具有瀏覽批注、共享電子文檔等功能。
(二)視頻監(jiān)控
當(dāng)前視頻監(jiān)控系統(tǒng)遍布在我們生活和工作環(huán)境中各個角落。在安防設(shè)備布置過程中,智能化計算機(jī)圖像識別技術(shù)的應(yīng)用有兩個好處。一是可以不再派人長時間駐守在監(jiān)控前,有效降低人工成本。二是降低由主觀判斷所造成的疏漏,有效提升視頻監(jiān)控的準(zhǔn)確性,并且計算機(jī)對視頻監(jiān)控的處理更加高效。視頻監(jiān)控圖像的自動化、智能化處理,使得視頻信息可以成為事故鑒定的有效且主要依據(jù)。監(jiān)控技術(shù)、運動檢測和圖像識別技術(shù)互相結(jié)融合發(fā)展,無人自動智能監(jiān)控系統(tǒng)由此誕生,被廣泛應(yīng)用于電力、交通、智能防火等領(lǐng)域。
(三)遠(yuǎn)程視頻醫(yī)療
遠(yuǎn)程醫(yī)療、在線診療的普及,使得醫(yī)生可以通過視頻通話、互動平臺與患者交流病情,醫(yī)生們相互之間也可以通過上述方法交流,共同對疾病及時做出綜合醫(yī)療決策。通過醫(yī)療設(shè)備拍片查看,比如常見的X射線、CT技術(shù)、超聲波、心電圖、顯微圖像、染色體辨別、癌細(xì)胞辨別等一些醫(yī)療診斷技術(shù),都利用了圖像識別技術(shù)。這些顯示圖像可為醫(yī)生提供行之有效的診斷依據(jù),進(jìn)而對疾病進(jìn)行針對性的治療手段。但是限制于目前的技術(shù)水平和音視頻質(zhì)量,尚未滿足遠(yuǎn)程醫(yī)療對于實時性和高畫質(zhì)的要求。
(四)遠(yuǎn)程視頻教育
遠(yuǎn)程視頻教育是一種新興的教育模式。網(wǎng)絡(luò)開放課程打破了傳統(tǒng)課堂時間和空間的限制,更多的學(xué)習(xí)者能夠共享優(yōu)秀的教育資源。然而,目前開放課程仍然存在諸多問題,比如:師生之間不能實時互動交流、缺乏行之有效的學(xué)習(xí)效果跟蹤手段等,這些因素都影響到了開放課程更大規(guī)模的應(yīng)用,造成了許多優(yōu)質(zhì)教育資源的閑置與浪費。目前,利用實時互動、數(shù)字視頻通信、多媒體智能圖像識別檢索等關(guān)鍵技術(shù),構(gòu)建云計算環(huán)境下的大規(guī)模實時互動學(xué)習(xí)平臺是支持學(xué)習(xí)者隨時隨地、使用各種終端進(jìn)行大規(guī)模在線點播互動學(xué)習(xí)的重要方式,使得開放課程的應(yīng)用從單純的資源供給一方向課程與教學(xué)的轉(zhuǎn)變。
(五)基于內(nèi)容的視頻信息檢索
傳統(tǒng)的視頻信息檢索采用基于關(guān)鍵詞的檢索方式,即通過對每一個視頻文件進(jìn)行標(biāo)注,然后僅需文本信息的檢索就可以完成對視頻內(nèi)容的檢索。由于標(biāo)注描述有限、手工標(biāo)注速度以及主觀性強(qiáng)等等問題,當(dāng)前方法已經(jīng)遠(yuǎn)遠(yuǎn)不能達(dá)到成千上萬的視頻檢索的要求,因此基于視頻和圖像內(nèi)容信息的檢索技術(shù)應(yīng)運而生。該技術(shù)的原理是先令機(jī)器儲存大量的圖像或視頻,建立圖像數(shù)據(jù)庫。隨后對需要檢索的視頻進(jìn)行檢索包含目標(biāo)物體的圖像(或視頻片段),從而對該視頻內(nèi)容自動進(jìn)行歸納。
算法的核心技術(shù)是通過自動圖像識別或理解圖像重要特征的方法對視頻進(jìn)行整合與歸類,從而實現(xiàn)按圖像內(nèi)容從視頻庫中檢索圖像文件。底層視覺特征和高層語義特征的提取是圖像檢索技術(shù)在發(fā)展中遇到的兩大難題,從而導(dǎo)致目前還未大規(guī)模應(yīng)用。
五、結(jié)束語
隨著人們對視頻通信服務(wù)的需求量與日俱增,人們對通信業(yè)務(wù)的服務(wù)質(zhì)量要求也越來越高。由于當(dāng)前網(wǎng)絡(luò)寬帶建設(shè)尚存不足,編碼也存在優(yōu)化的空間,視頻會議、視頻監(jiān)控和遠(yuǎn)程視頻教育等的服務(wù)尚存在諸多值得改進(jìn)的部分。因此目前相關(guān)人員需要著力解決視頻圖像技術(shù)亟待解決的問題,提升視頻圖像處理整體質(zhì)量,以滿足大眾多樣化、高質(zhì)量通信服務(wù)需求。
參考文獻(xiàn):
[1]劉海洋.計算機(jī)智能化圖像識別技術(shù)的探討[J].中國新通信,2021,23(13):127-128.
[2]李亞奇.計算機(jī)圖像識別技術(shù)的發(fā)展現(xiàn)狀與應(yīng)用實踐[J].信息與電腦(理論版),2019(14):30-31+34.
[3]馬晨.圖像識別的技術(shù)現(xiàn)狀和發(fā)展趨勢探析[J].中國新通信,2017,19(09):39.
[4]向曉華.計算機(jī)智能化圖像識別技術(shù)的探討[J].科技創(chuàng)新導(dǎo)報,2020,17(13):141-142.
[5]黃春.計算機(jī)圖像識別技術(shù)的現(xiàn)狀及改進(jìn)建議[J].電子技術(shù)與軟件工程,2019(16):73-74.
[6]劉顯龍.視頻通信技術(shù)發(fā)展趨勢探討[J].電視技術(shù),2019,43(13):78-80.
[7]張曉娟,高瑾.計算機(jī)圖像識別技術(shù)的應(yīng)用及細(xì)節(jié)問題闡述與分析[J].電子技術(shù)與軟件工程,2016(06):89.
[8]張家怡.圖像識別的技術(shù)現(xiàn)狀和發(fā)展趨勢[J].電腦知識與技術(shù),2010,6(21):6045-6046.
[9]馬晨.基于視頻流的圖像識別技術(shù)發(fā)展與應(yīng)用[J].電子技術(shù)與軟件工程,2017(06):78.
[10]葉晨.醫(yī)學(xué)圖像數(shù)字處理及識別技術(shù)研究[D].電子科技大學(xué),2012.
[11]楊東.5G+人工智能機(jī)器視覺探索[J].通信與信息技術(shù),2021(01):60-63.
[12]陳環(huán)宇,高鶯,李曉珂,余永華,周宇哲.基于圖像識別的在線視頻教育平臺[J].科技創(chuàng)新與生產(chǎn)力,2018(12):24-25+31.
[13]徐苑苑.云計算環(huán)境下的開放課程應(yīng)用研究[D].華東師范大學(xué),2013.
作者: 山東科技大學(xué) 高俊杰 來源: 《中國新通信》2022年第7期
? 2019-2021 All rights reserved. 北京轉(zhuǎn)創(chuàng)國際管理咨詢有限公司 京ICP備19055770號-1
Beijing TransVenture International Management Consulting Co., Ltd.
地址:梅州市豐順縣留隍鎮(zhèn)新興路881號
北京市大興區(qū)新源大街25號院恒大未來城7號樓1102室
北京市海淀區(qū)西禪寺(華北項目部)
深圳市南山區(qū)高新科技園南區(qū)R2-B棟4樓12室
深圳市福田區(qū)華能大廈
佛山順德區(qū)北滘工業(yè)大道云創(chuàng)空間
汕頭市龍湖區(qū)泰星路9號壹品灣三區(qū)
長沙市芙蓉區(qū)韶山北路139號文化大廈
站點地圖 網(wǎng)站建設(shè):騰虎網(wǎng)絡(luò)
歡迎來到本網(wǎng)站,請問有什么可以幫您?
稍后再說 現(xiàn)在咨詢