[摘要] 科達告訴你,公安大數(shù)據(jù)應(yīng)用的構(gòu)建方式與難點,及公安大數(shù)據(jù)應(yīng)用的市場競爭點。
公安行業(yè)一直是安防技術(shù)應(yīng)用的前沿市場,在安防領(lǐng)域,目前對于公安大數(shù)據(jù)的應(yīng)用方式,可以分為以下三個層次:
1、統(tǒng)計查詢:這是對大數(shù)據(jù)最基本的應(yīng)用方式,主要面向歷史與現(xiàn)狀,回答已經(jīng)發(fā)生了什么事情,如流動人口分區(qū)域統(tǒng)計、實有車輛歸屬地統(tǒng)計、各類案件的數(shù)量分布和趨勢。
2、數(shù)據(jù)挖掘:是目前大數(shù)據(jù)的核心應(yīng)用方式,其重點不在于發(fā)現(xiàn)因果,而是發(fā)現(xiàn)數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系。這種關(guān)系可能可以直觀解釋,也可能不能馬上發(fā)現(xiàn)其中的深層次原因,但對工作具有一定指導(dǎo)意義,比如季節(jié)氣候與某些類型案件的關(guān)聯(lián)關(guān)系、車輛活動范圍、活動習(xí)慣與黑車的關(guān)聯(lián)關(guān)系。
3、預(yù)測預(yù)判:是大數(shù)據(jù)應(yīng)用未來的發(fā)展方向,在數(shù)據(jù)統(tǒng)計、分析、挖掘的基礎(chǔ)上,建立起合適的數(shù)據(jù)模型,從數(shù)據(jù)的關(guān)聯(lián)關(guān)系入手,推導(dǎo)出因果關(guān)系,能夠?qū)σ欢〞r期內(nèi)的趨勢走向做出預(yù)測,對危險信號做出預(yù)警,指導(dǎo)預(yù)防工作的走向。
這三個層次具體到實際業(yè)務(wù)系統(tǒng),包括圖偵、車輛特征分析系統(tǒng)、人員特征分析系統(tǒng)、視頻偵查系統(tǒng)等等。這些系統(tǒng)以普通視頻監(jiān)控、車輛/人員卡口、智能IPC等監(jiān)控前端獲取的視頻、圖片、結(jié)構(gòu)化描述為基礎(chǔ),通過大數(shù)據(jù)平臺的智能分析,實現(xiàn)如以圖搜圖、語義搜圖、車輛/人員布控、疑似案件對比、詳細特征分析等等深度大數(shù)據(jù)應(yīng)用,幫助公安能夠快速、科學(xué)地偵破案件。
公安大數(shù)據(jù)應(yīng)用于不同警種,由于其實際應(yīng)用需求的區(qū)別,解決的問題也有所區(qū)別。如智能交通領(lǐng)域,目前大數(shù)據(jù)主要應(yīng)用于車輛的疏導(dǎo),比如基于不同道路、路口車流量的統(tǒng)計(時、日、月統(tǒng)計等),根據(jù)這些統(tǒng)計可以分析不同時段某條道路實時的車流密度、發(fā)展方向和趨勢等。這些應(yīng)用目前已在很多大城市落地,比如平時大家在公交上看到移動電視里播放的上下班高峰路段實時畫面,就是基于大數(shù)據(jù)的技術(shù)分析所得。
公安大數(shù)據(jù)應(yīng)用的構(gòu)建方式與難點
以車輛分析系統(tǒng)為例,介紹如何在平安城市大數(shù)據(jù)平臺上構(gòu)建應(yīng)用:
1、數(shù)據(jù)的來源與構(gòu)成
基于大數(shù)據(jù)平臺的車輛分析系統(tǒng),其數(shù)據(jù)可分為靜態(tài)數(shù)據(jù)與動態(tài)數(shù)據(jù)。靜態(tài)數(shù)據(jù)主要來源于車駕管庫、盜搶庫、布控車輛庫、涉案車輛庫等公安業(yè)務(wù)系統(tǒng)的資源情報類數(shù)據(jù)庫,這些數(shù)據(jù)構(gòu)成了車輛數(shù)據(jù)倉庫的核心庫。動態(tài)數(shù)據(jù)主要是來源于卡口聯(lián)網(wǎng)平臺,其數(shù)據(jù)可分為結(jié)構(gòu)化的卡口通行數(shù)據(jù)與非結(jié)構(gòu)化的卡口過車圖片,這些數(shù)據(jù)隨著時間的推移而不斷增長,構(gòu)成了車輛數(shù)據(jù)倉庫的中心庫。來自于其他設(shè)備如槍機、球機等視頻監(jiān)控設(shè)備抓拍或截取的車輛圖片,來自于系統(tǒng)外的車輛圖片,構(gòu)成了車輛數(shù)據(jù)倉庫的外圍庫。
2、數(shù)據(jù)的存儲
對于核心庫的車輛靜態(tài)數(shù)據(jù),通常都是存儲于關(guān)系型數(shù)據(jù)庫中。對于中心庫的卡口通行數(shù)據(jù),則存放在面向列的高可靠高性能分布式數(shù)據(jù)庫HBase中,其中實時過車記錄部分,因其查詢量大且更新速度快,放置在內(nèi)存中以優(yōu)化吞吐量,降低系統(tǒng)I/O負荷。外圍庫的車輛圖片數(shù)據(jù),則存儲在類似于IPSAN這樣的普通存儲空間內(nèi)。
3、數(shù)據(jù)的結(jié)構(gòu)化與搜索查詢
對于卡口過車圖片這樣的海量非結(jié)構(gòu)化數(shù)據(jù)而言,為了實現(xiàn)數(shù)據(jù)的檢索,必須通過智能分析技術(shù)對其進行結(jié)構(gòu)化并入庫,從卡口圖片中提取出車牌顏色、車身顏色、車標、細分車型等傳統(tǒng)卡口前端不能提供的結(jié)構(gòu)化信息并存儲在HBase中。
在對數(shù)據(jù)進行結(jié)構(gòu)化以后,系統(tǒng)設(shè)計的大數(shù)據(jù)搜索引擎可以提供多種條件的簡單檢索和復(fù)合檢索,這些條件包括時間、地點、車標、細分車型庫等等;同時,基于車輛號牌的模糊搜索、混淆搜索(如“B”和“8”、“V”和“U”、”2”和”Z”等)功能為車輛分析系統(tǒng)的后續(xù)應(yīng)用奠定了基礎(chǔ);此外,通過與核心庫數(shù)據(jù)的對接,在查詢過程中可以自動調(diào)出車輛關(guān)聯(lián)的車主信息、駕駛員信息、事故/ 違法信息等。
4、數(shù)據(jù)的挖掘分析與應(yīng)用
在經(jīng)過數(shù)據(jù)的結(jié)構(gòu)化后,結(jié)合平臺提供的GIS引擎,我們可以方便的對其進行各種類型的統(tǒng)計,為交通、刑偵等部門提供服務(wù)。這些統(tǒng)計報表包括路段路口的流量統(tǒng)計、車輛歸屬地統(tǒng)計、路段平均行程時間統(tǒng)計、路網(wǎng)交通流量統(tǒng)計、車輛出行規(guī)律統(tǒng)計等等。
利用卡口圖片結(jié)構(gòu)化的成果以及與車輛核心庫的對接,系統(tǒng)可以提供一套達到實戰(zhàn)水平的假套**應(yīng)用。該應(yīng)用可以進行假牌、套牌、輪換車牌等涉牌違法行為的分析,同時可以區(qū)分套牌車輛與被套牌車輛,更加精準地打擊違法車輛。
利用卡口通行數(shù)據(jù)的挖掘分析,結(jié)合公安干警多年工作經(jīng)驗的智慧結(jié)晶,系統(tǒng)提供一系列的卡口技戰(zhàn)法,供用戶在不同場景下使用。這些技戰(zhàn)法包括:車輛尾隨跟蹤分析、團伙車輛分析、晝伏夜出車輛分析、區(qū)域徘徊車輛分析、區(qū)域車輛頻次分析、車輛活動區(qū)域分析、路徑匹配分析、頻次變化分析等十多種。
5、數(shù)據(jù)的展示
利用平安城市大數(shù)據(jù)平臺所提供的展示框架,車輛分析系統(tǒng)的應(yīng)用功能既可以整合在平臺框架中,與其他系統(tǒng)構(gòu)成一套完整的平安城市解決方案,提供統(tǒng)一的訪問界面與接口,也可以作為現(xiàn)有卡口聯(lián)網(wǎng)應(yīng)用系統(tǒng)的功能增強模塊單獨部署,提供單獨的訪問界面與接口。
準確率與適用性,公安大數(shù)據(jù)應(yīng)用的市場競爭點
誠然,如人臉識別、車輛識別等大數(shù)據(jù)技術(shù)已在安防市場中有所應(yīng)用,通過對視頻進行智能分析、有效信息的結(jié)構(gòu)化數(shù)據(jù)提取,讓視頻監(jiān)控的使用者真正告別人工安防,走進自動安防的新時代也是目前安防行業(yè)共同的追求。但是,公安大數(shù)據(jù)的應(yīng)用還遠未成熟,準確率與適用性將決定誰在不久的未來脫穎而出。
先是準確率,以人臉分析技術(shù)為例。所謂人臉識別的“準確率”,是指基于全世界最權(quán)威的人臉數(shù)據(jù)庫LFW進行比對測試的成績。LFW由美國馬薩諸塞大學(xué)阿默斯特分校管理,可以認為是一個考察深度學(xué)習(xí)系統(tǒng)人臉識別能力的“題庫”,它從互聯(lián)網(wǎng)上提取6000張不同朝向、表情和光照環(huán)境下的人臉照片作為考題,可以讓任何系統(tǒng)在里面“跑分”。跑分過程如下:LFW給出一組照片,詢問測試中的系統(tǒng)兩張照片是不是同一個人,系統(tǒng)給出yes或no的答案。99%的準確率,意味著在測試的所有題目中,人臉識別系統(tǒng)答對了99%的題目。
問題的關(guān)鍵是LFW以及類似數(shù)據(jù)庫FDDB等,只是一個純粹實驗室級別、學(xué)術(shù)性質(zhì)的測試工具,在樣本量可能達到十萬級、百萬級的實際商業(yè)場景下,測試得分高的系統(tǒng)不一定能保持已有成績,其誤識率將直線上升,甚至可能根本沒法用。部分真實復(fù)雜場景測試中,十萬分之一的誤識率下,98%的人臉識別準確率會直線下降到70%左右。借助人臉識別等智能分析技術(shù),將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)是后續(xù)大數(shù)據(jù)應(yīng)用的基礎(chǔ),所以,從目前的智能分析水平而言,準確率仍將是很長一段時間內(nèi)安防業(yè)共同的追求。
其次是適用性,這里的適用性主要指安防廠商對用戶的了解程度,涉及到應(yīng)用建設(shè)的設(shè)計到實現(xiàn)的各個方面,各個功能模塊是否是用戶真正的關(guān)注點、系統(tǒng)操作方式是否真正方便用戶等等,直接決定了用戶對應(yīng)用系統(tǒng)的體驗感,這主要取決于安防廠商的行業(yè)、實際項目積累。當然,無論是準確率還是適用性,都無法改變大數(shù)據(jù)應(yīng)用成為公安業(yè)務(wù)應(yīng)用未來的方向。