近一兩年來,人工智能領域得到了媒體界、產(chǎn)業(yè)界和學術界等前所未有的關注,機器正在越來越多的取代人類特有的優(yōu)勢和技能,這其中最為重要的可能就是圖像識別技術。本文將從圖像識別技術的原理闡述出發(fā),介紹這一技術在安防行業(yè)的具體應用,并且闡述其在當前安防應用上碰到的困難。當然,面對這些困難,圖像識別技術將以此為契機,與安防技術實現(xiàn)更大范圍的融合與發(fā)展。
圖像識別技術與人工智能
說起圖像識別,人類的這一能力非常突出。圖形**作用于感覺器官,人們辨認出它是經(jīng)驗過的某一圖形,甚至能感知到與圖像距離或者形狀的改變,這一過程叫做圖像再認。在圖像識別中,既要有當時進入感官的信息,也要有記憶中存儲的信息。只有通過存儲的信息與當前的信息進行比較的加工過程,才能實現(xiàn)對圖像的再認。
計算機圖像識別技術,則是利用計算機對圖像進行處理、分析和理解,以識別各種不同模式的目標和對象的技術。圖像識別所研究的問題,是如何用計算機代替人類去自動處理大量的物理信息,解決人類所無法識別或者識別過于耗費資源的問題,從而很大程度上解放人類的勞動力。
圖像識別技術是人工智能的一個重要領域。圖像識別技術是以圖像的主要特征為基礎的。每個圖像都有它的特征,對圖像識別時眼動的研究表明,視線總是集中在圖像的主要特征上,也就是集中在圖像輪廓曲度最大或輪廓方向突然改變的地方,這些地方的信息量最大。而且眼睛的掃描路線也總是依次從一個特征轉(zhuǎn)到另一個特征上。由此可見,在圖像識別過程中,知覺機制必須排除輸入的多余信息,抽出關鍵的信息。同時,在大腦里必定有一個負責整合信息的機制,它能把分階段獲得的信息整理成一個完整的知覺映象。
為了編制模擬人類圖像識別活動的計算機程序,人們提出了不同的圖像識別模型。例如模板匹配模型。這種模型認為,識別某個圖像,必須在過去的經(jīng)驗中有這個圖像的記憶模式,又叫模板。當前的**如果能與大腦中的模板相匹配,這個圖像也就被識別了。但這種模型強調(diào)圖像必須與腦中的模板完全符合才能加以識別,有一定的局限性。格式塔心理學家又據(jù)此提出了一個原型匹配模型。這種模型認為,在長時記憶中存儲的并不是所要識別的無數(shù)個模板,而是圖像的某些“相似性”。從圖像中抽象出來的“相似性”就可作為原型,拿它來檢驗所要識別的圖像。如果能找到一個相似的原型,這個圖像也就被識別了。但是,這種模型沒有說明人是怎樣對相似的刺 激進行辨別和加工的,它也難以在計算機程序中得到實現(xiàn)。因此又有人提出了一個更復雜的模型,即“泛魔”識別模型。
隨著計算機技術及人工智能技術的發(fā)展,圖像識別技術越來越成為人工智能的基礎技術,它將是未來科技領域幾大關鍵產(chǎn)業(yè)的核心技術之一。微軟、谷歌、Facebook、亞馬遜、百度、騰訊等巨頭都在傾注大量資源推動這項功能進步。比如微軟的圖像識別應用“我看起來有多大”(How Old Do I Look?),成為網(wǎng)絡上紅極一時的話題。在去年舉行的第六屆ImageNet圖像識別技術比賽中,微軟憑借“圖像識別的深度殘差學習”(Deep Residual Learning for Image Recognition)系統(tǒng)獲得第一名??萍脊救绱藷嶂杂趫D像識別技術的應用和創(chuàng)新,這種進步顯然會大大方便互聯(lián)網(wǎng)、傳媒行業(yè)及科研領域的相關工作。
圖像識別技術與安防技術的融合
現(xiàn)在,圖像識別技術的應用范圍已經(jīng)遠遠突破視覺的范圍,而更多地體現(xiàn)為機器智能、數(shù)字技術的特點??梢哉f,圖像識別技術就是人類視覺認知的延伸。
視頻監(jiān)控在過去的實際應用中,面臨的最大問題就是必須由人工查看視頻。視頻智能分析技術正是為解決這一問題而生,它通過對視頻進行智能分析、有效信息的結(jié)構(gòu)化數(shù)據(jù)提取,從而讓視頻監(jiān)控的使用者真正告別人工安防而走進自動化安防的新時代。
目前視頻智能分析主要有兩種產(chǎn)品形態(tài):前端智能和后端智能。前端智能以科達感知型攝像機為代表,將智能分析算法嵌入到前端攝像機,前端攝像機對采集的視頻內(nèi)容立即進行分析,提取出畫面中關鍵的、感興趣的、有效的信息,形成結(jié)構(gòu)化的數(shù)據(jù),將后端感興趣的內(nèi)容實時傳給后端做存儲或深入分析。后端智能是前端攝像機只負責采集視頻圖像,將碼流傳遞到后端服務器做集中處理。這樣對于后端的計算壓力比較大,也不利于實時處理。更合理的方式是前端攝像機進行基礎的結(jié)構(gòu)化數(shù)據(jù)提取,后端服務器再進行深度二次分析;也就是說,將前端和后端配合起來做智能分析,才真正讓視頻圖像智能分析實現(xiàn)最大化價值。
視頻監(jiān)控領域是圖像識別技術一直在尋求突破的主要領域之一。視頻智能分析技術目前在公安、交通、零售、司法、教育等行業(yè)都獲得了普及性應用。
公安
公安行業(yè)借助智能視頻分析主要用于實現(xiàn)城市道路、廣場及各類重點場所的人、車、物等目標的識別,提取包括人的性別、人臉、全身等信息,車的車標、車牌、車身顏色等信息,這些信息均可提煉為計算機能識別的結(jié)構(gòu)化數(shù)據(jù),送入后端進行專業(yè)的安全管理應用,主要包括實時布控、高危人員比對、以圖搜圖、多點碰撞、語義搜索等方面。
交通
具有分析、感知能力的智能攝像機通過視頻識別分析技術,可對每輛車進行完整的違法行為分析、識別、抓拍和錄像,記錄車輛違法的整個過程,再將每條記錄生成非結(jié)構(gòu)化的視頻、照片數(shù)據(jù)和結(jié)構(gòu)化的文本數(shù)據(jù)提交給后端智能管理與分析系統(tǒng),由系統(tǒng)進行高度智能的交通違法行為處理?;谥悄芤曨l分析技術,智能交通管理系統(tǒng)還能得出不同品牌的車型擁有量、過車高峰期、車輛進出城高峰期及行駛方向等豐富的交通數(shù)據(jù),為城市交通流量管控、交通道路規(guī)劃等提供詳實的數(shù)據(jù)支撐。
零售
視頻智能分析在零售門店視頻監(jiān)控方面的領先應用,是科達為聯(lián)合利華門店建設的熱點統(tǒng)計系統(tǒng),系統(tǒng)通過感知型攝像機和后端的大數(shù)據(jù)分析平臺相配合,用于開展個人護理類商品陳列和貨架布局的顧客行為數(shù)據(jù)收集及分析,比如顧客在不同商品前的停留時間是多少、商品陳列和貨架布局調(diào)整前后的人流動向?qū)Ρ群唾徺I金額對比等,進而作為最終的經(jīng)營決策參考。這一系統(tǒng)不僅創(chuàng)新了視頻監(jiān)控系統(tǒng)遠程管理零售門店的應用,更為連鎖零售行業(yè)如何通過視頻監(jiān)控系統(tǒng)開展消費數(shù)據(jù)比對、分析等大數(shù)據(jù)應用開創(chuàng)了有益啟示。
司法和教育
在監(jiān)獄和看守所,視頻智能分析技術更是較早得到了運用。除傳統(tǒng)的智能分析技術應用之外,感知型攝像機也被用在AB門等出入口,用于對所有過往人員進行臉部和全身的圖像采集,同時提供結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)給后端管理平臺,平臺對人員進行實時比對,用于有效杜絕非法出入。學校采用視頻智能分析技術可以開展安全管理和教育錄播兩種應用,后者通過教室內(nèi)的智能跟蹤攝像機自動識別、跟蹤老師的運動圖像,同時對視頻和聲音進行記錄,再生成錄播課程。
應該說,圖像識別技術對于整個安防方案來說都是一項艱巨而又關鍵的任務,直接決定了后續(xù)圖像處理與分析的準確性和便捷性。在視頻監(jiān)控領域,圖像識別技術正面臨著不小的挑戰(zhàn),具體可闡釋為:其一,對圖像質(zhì)量的要求越來越高,圖像識別與處理的算法也越來越復雜;其二,對圖像的實時性處理和傳輸要求越來越高;其三,圖像識別的算法更加個性化,也更加成為市場競爭力的關鍵所在;其四,圖像數(shù)據(jù)往往涉及隱私,因此也需要提供可以信任的安全保證。面對這些挑戰(zhàn),科達深知要使圖像識別技術與安防技術實現(xiàn)更好的融合,任重而道遠。盡管在業(yè)界已經(jīng)擁有了一定的知名度,科達仍然深耕于安防行業(yè),把感知型攝像機視為視頻監(jiān)控的未來,在將圖像識別技術更好地應用于具體的行業(yè)需求方面,為其他人工智能的應用提供了一條有價值的參考路徑。