從技術(shù)角度來說,智慧城市就是感知、分析和提取城市系統(tǒng)的各種信息并做出相對應(yīng)反饋的一整套城市管理系統(tǒng),其中,原始的視頻數(shù)據(jù)是城市系統(tǒng)信息的重要組成部分?,F(xiàn)如今,海量視頻數(shù)據(jù)已成必然,需要一套可以自動從視頻中提取結(jié)構(gòu)化信息的方案,把視頻、圖像“翻譯”成機器可以理解的語言,并進行保存,確保后續(xù)提供給上層應(yīng)用平臺調(diào)用和處理的素材。
視頻或者圖像數(shù)據(jù),從前端傳感器直接獲得,從技術(shù)上來說,是一種非結(jié)構(gòu)化信息。只有在實現(xiàn)結(jié)構(gòu)化處理之后,才能將其中有價值的數(shù)據(jù)直觀、高效的保存、處理和應(yīng)用。
在智慧城市建設(shè)中,有成千上萬路監(jiān)控攝像頭或者傳感器,晝夜不停地監(jiān)視或采集其他原始數(shù)據(jù)。其中,會產(chǎn)生海量的音視頻數(shù)據(jù),需要監(jiān)控管理平臺處理。即便人力充沛的情況下,面對龐大的視頻數(shù)據(jù),要求快速、準確地從海量數(shù)據(jù)中找到有效的信息,幾乎是不可能的。受制于肉眼識別勞動強度的極限,在發(fā)生緊急事件時,人力調(diào)配和視頻資源往往存在矛盾,不依靠計算機自動進行篩選,必然造成貽誤戰(zhàn)機。
視頻結(jié)構(gòu)化就是實現(xiàn)將海量視頻中的人、車目標進行提取并識別的過程。一旦有重要事件發(fā)生,系統(tǒng)就可在數(shù)據(jù)庫中快速查找到關(guān)鍵的“人”、“車”、“物”等相關(guān)音視頻線索。針對海量監(jiān)控視頻錄像的事后分析,傳統(tǒng)以人海戰(zhàn)術(shù)為主的視頻線索查找,顯然不能滿足高效查找,正面臨巨大挑戰(zhàn),急需一種更為高效的、自動的、智能的系統(tǒng)實現(xiàn)上述需求。
過去幾年中,得益于高速的計算芯片(GPU)及大量的標注數(shù)據(jù),作為當(dāng)下最流行的機器學(xué)習(xí)方法,深度學(xué)習(xí)在各個應(yīng)用領(lǐng)域中都取得了突破性的成績,未來人們會擁有大量的AI,各種為私人定制的AI,包括醫(yī)療領(lǐng)域,制造業(yè)領(lǐng)域,在商業(yè)方面也會有各式各樣的AI應(yīng)用產(chǎn)生,包括:營銷,供應(yīng)鏈,預(yù)測及人力資源等,AI會以各種不同的方式出現(xiàn)在我們身邊,例如:機器人,無人機和一些小型機器,AI將使機器更具智能化,使其變得更加安全易用。未來的AI發(fā)展速度將超越摩爾定律。由于幾乎所有的人工智能領(lǐng)域的問題都可以轉(zhuǎn)化為分類問題,因此機器學(xué)習(xí)的基本步驟可分為如下形式:
如上圖所示機器學(xué)習(xí)是一個級聯(lián)串行結(jié)構(gòu),因此每一環(huán)節(jié)的處理結(jié)果都會影響到最后的分類效果,在傳統(tǒng)的機器學(xué)習(xí)中針對其中的各個環(huán)節(jié)都有其各自獨立的算法。由于上述方法具有各自獨立性,因此傳統(tǒng)機器學(xué)習(xí)算法在處理問題時需要對各個環(huán)節(jié)進行優(yōu)化,并通過組合優(yōu)化方法在各個模塊中選取最優(yōu)的組合方式。
與傳統(tǒng)機器學(xué)習(xí)相比深度學(xué)習(xí)可以把機器學(xué)習(xí)中的各個部分合成一個整體結(jié)構(gòu),通過統(tǒng)一的訓(xùn)練方法(Backpropagation)對其中所有的參數(shù)進行調(diào)節(jié)。當(dāng)前人們所指的深度學(xué)習(xí)主要是以CNN(卷積網(wǎng)絡(luò))為核心的一系列應(yīng)用算法,其算法結(jié)構(gòu)如下圖所示:
上圖中的每一層都是采用卷積方式與某一卷積核進行卷積所得到的結(jié)果,每一結(jié)果代表了從原始圖像所提取的特征,通過級聯(lián)方式對圖像或信號進行特征提取,最后得到人們想要的分類結(jié)果。
在安防行業(yè)中,通過深度學(xué)習(xí)對視頻進行結(jié)構(gòu)化信息提取,完成了傳統(tǒng)算法無法完成的功能,算法效果也得到大幅度提高。
在安防大數(shù)據(jù)背景下,大華推出“DeepSense睿智”系列的視頻結(jié)構(gòu)化服務(wù)器,可搭載8塊Tesla-P4卡(176 TOPS),2顆E5系列CPU,128G內(nèi)存,4個千兆網(wǎng)口,功耗在1600W左右,支持2+2冗余電源。其最大可支持192路1080P高清實時視頻分析,完成結(jié)構(gòu)化信息提取。
“DeepSense睿智”系列的視頻結(jié)構(gòu)化服務(wù)器主要功能是把實時視頻進行結(jié)構(gòu)化分析。將復(fù)雜場景中的人、機動車、非機動車分離(共可區(qū)分轎車、面包車、公交車、卡車、貨車,2輪非機動車、3輪非機動車、行人等類型),全方位提取車輛特征,如車型、車系、車身顏色、車牌顏色、車牌號碼識別、主副駕駛是否系安全帶、是否打電話、有無遮陽板、有無年檢標、有無掛墜、有無紙巾盒;針對行人,“DeepSense睿智”服務(wù)器可以多方面分析其相關(guān)特征,包括性別、表情、年齡段、服飾特征(上下衣著顏色、眼鏡)、攜帶物特征(背包、打傘)、運動特征等。同時,也可以針對符合像素要求的人臉、車輛號牌,進行識別。
傳統(tǒng)的CV算法在處理視頻算法時,往往先用檢測或者比較簡單的識別算法,將目標從背景中提取出來。然后,通過識別算法分辨是否是正常目標,最后判斷目標類型。
而利用深度學(xué)習(xí)技術(shù),可直接通過分類器,將目標從背景中識別出來再進行跟蹤,同時可以直接得到目標類別。這種模式下,目標檢測的準確率和跟蹤的穩(wěn)定性都能夠大幅度提高。
同時,算法不需要根據(jù)不同目標類型調(diào)用不同模塊進行目標分割或者特征提取,可直接利用目標識別結(jié)果,進行特征識別,直接獲得相應(yīng)的目標屬性。
深度學(xué)習(xí)技術(shù)顛覆傳統(tǒng)算法,輕松完成視頻結(jié)構(gòu)化信息提取。除此之外,結(jié)合深度學(xué)習(xí)本身的技術(shù)特色,還對車輛信息提取、人臉識別等已有功能進行改善,效果尤為明顯。
在這之前,人臉識別在傳統(tǒng)算法中,有非常好的效果。在預(yù)處理之后,通過提取特定的特征并對特征值進行訓(xùn)練,最后得到分類器,進行識別。深度學(xué)習(xí)優(yōu)化了人臉識別的方案,將比較依靠專家選擇的特征提取模塊簡化,通過輸入樣本即可直接訓(xùn)練得到分類器。
智能交通卡口或者電警攝像頭智能抓拍車輛圖片,并識別車輛號牌字符、車輛顏色、車輛類型等數(shù)據(jù)。引入深度學(xué)習(xí)技術(shù)之后,車輛的車系信息、年款等信息也被開發(fā)出來,更多的車輛信息被挖掘,為后續(xù)平臺應(yīng)用提供的更多的數(shù)據(jù)支撐。
“DeepSense睿智”系列視頻結(jié)構(gòu)化服務(wù)器,應(yīng)用深度學(xué)習(xí)算法,支持192路實時全高清視頻處理,同時搭載英偉達最新Tesla®P4 GPUs,極大的提高了安防行業(yè)的算法應(yīng)用和硬件配置,夯實了智慧城市和城市數(shù)據(jù)大腦等建設(shè)提供智能化服務(wù)的基礎(chǔ)。同時,服務(wù)器集群設(shè)計,充分考慮到可擴展性和云架構(gòu)的兼容性,并發(fā)計算能力和服務(wù)器臺數(shù)成正比例增加。另外,服務(wù)器集成度高,相對每路視頻分析的功耗非常低。以上這些完全符合大數(shù)據(jù)計算的高要求。
另外,算法訓(xùn)練和應(yīng)用都在英偉達統(tǒng)一平臺進行搭建,節(jié)約研發(fā)開發(fā)成本,統(tǒng)一智能化效果,為行業(yè)提供了一套應(yīng)用深度學(xué)習(xí)技術(shù)、快速研發(fā)產(chǎn)品的新方案,為使用GPU方案進行深度學(xué)習(xí)研發(fā)的公司樹立了榜樣。