智能識別技術(shù)讓計算機看懂世界
隨著互聯(lián)網(wǎng)多模態(tài)數(shù)據(jù)的大量出現(xiàn)和傳播,“管不住”和“用不好”兩大問題也日益突出?!肮懿蛔 笔侵付嗄B(tài)大數(shù)據(jù)中隱藏著大量涉恐、涉暴等有害信息,極大地危害著國家安全和社會穩(wěn)定,目前還缺乏自動的分析與識別技術(shù)?!坝貌缓谩笔侵脯F(xiàn)有技術(shù)一般是單模態(tài)分析與識別,僅針對信息有限的單模態(tài)數(shù)據(jù),難以對多模態(tài)數(shù)據(jù)進行有效利用。如何讓計算機看懂世界,實現(xiàn)對互聯(lián)網(wǎng)多模態(tài)大數(shù)據(jù)的有效監(jiān)管與利用,是目前急需解決的重大問題。
針對上述問題,北京大學(xué)彭宇新教授團隊在國家自然科學(xué)基金、國家863計劃、國家科技支撐計劃等支持下,歷經(jīng)10余年技術(shù)攻關(guān),在圖像視頻概念檢測、視覺目標(biāo)檢測、多模態(tài)數(shù)據(jù)分析與識別、互聯(lián)網(wǎng)輿情監(jiān)測四個方面取得了多項重大技術(shù)突破和發(fā)明創(chuàng)新。在2016年北京市科學(xué)技術(shù)獎評選中,“互聯(lián)網(wǎng)多模態(tài)內(nèi)容分析與識別關(guān)鍵技術(shù)及應(yīng)用”項目榮獲一等獎。
突破單模態(tài)分析與識別技術(shù)
單模態(tài)分析與識別是突破互聯(lián)網(wǎng)多模態(tài)內(nèi)容識別的基礎(chǔ)和關(guān)鍵技術(shù)。圖像、視頻和文本是單模態(tài)信息的重要形式,如何使計算機能夠自動分析與識別圖像、視頻和文本的內(nèi)容便成為了研究與應(yīng)用的難點問題。
圖像、視頻中一般包含某種語義概念,如籃球比賽、奧運會等;同時也包含視覺目標(biāo),如行人、汽車、旗幟等。
“雖然人類能夠很容易地識別與理解這些概念與目標(biāo),但在計算機看來,數(shù)字圖像就是由一個個像素點構(gòu)成,這樣人類的語義概念及視覺目標(biāo)與計算機看到的二進制數(shù)值之間就存在難以逾越的‘語義鴻溝’。”北京大學(xué)彭宇新說。
由于圖像、視頻的語義概念比較抽象、視覺目標(biāo)復(fù)雜多變,如“奧運會”這一概念很難從視覺上準(zhǔn)確定義,而“旗幟”等目標(biāo)不具有固定的形態(tài),導(dǎo)致計算機自動分析與識別的難度很大。
彭宇新團隊針對圖像視頻概念檢測難題,發(fā)明了基于注意力模型和增量深度學(xué)習(xí)的分類方法,一方面注意力模型能夠定位圖像的顯著性區(qū)域以提高檢測精度;另一方面增量學(xué)習(xí)在新概念增加過程中,能夠利用已經(jīng)學(xué)習(xí)到的知識加速新知識學(xué)習(xí),同時通過動態(tài)擴容以支持新概念的檢測。該方法使得特定概念的檢測精度突破90%。針對復(fù)雜場景下視覺目標(biāo)檢測問題,發(fā)明了級聯(lián)分類器與極角拓?fù)浼s束相結(jié)合的判別方法,一方面通過級聯(lián)分類器從海量數(shù)據(jù)中快速篩選出可能包含特定目標(biāo)的候選區(qū)域,加快檢測速度;另一方面通過極角拓?fù)浼s束對候選區(qū)域進行二次判別,提高檢測精度。該方法提高了低分辨率、形變、仿射變換等復(fù)雜情況下的檢測效果,使得特定視覺目標(biāo)檢測精度突破90%?;谏鲜鲅芯砍晒?,彭宇新教授團隊參加了國際權(quán)威評測TRECVID的視頻高層概念檢測比賽,獲得第一名,參賽隊伍包括卡內(nèi)基梅隆大學(xué)、牛津大學(xué)、IBMWatson研究中心等國際著名大學(xué)和研究機構(gòu)。
在文本內(nèi)容分析上,熱點話題檢測與敏感信息發(fā)現(xiàn)是互聯(lián)網(wǎng)輿情監(jiān)測的兩個主要應(yīng)用需求。熱點話題與敏感信息通常包含特定的人名、地名、機構(gòu)名等實體信息,有效地識別實體信息是文本內(nèi)容分析的關(guān)鍵。針對上述問題,項目團隊發(fā)明了基于知識元的多模態(tài)語義分析方法和基于情感觀點的話題追蹤方法,有效解決了互聯(lián)網(wǎng)內(nèi)容的語言規(guī)范性差、噪音大、時效性高導(dǎo)致實體難以識別和利用的問題。在國際權(quán)威評測TREC2014年和2015年的微博信息檢索比賽中獲得第一名。
多模態(tài)內(nèi)容的語義協(xié)同
“與互聯(lián)網(wǎng)數(shù)據(jù)的發(fā)展趨勢一樣,我們的研究思路也是從‘單’到‘多’,以單模態(tài)內(nèi)容的分析與識別技術(shù)為基礎(chǔ),重點研究多模態(tài)內(nèi)容的分析與識別技術(shù)。”彭宇新說到。
多模態(tài)數(shù)據(jù)在語義表達上具有“共通性”,在內(nèi)容上也是互相關(guān)聯(lián)的。據(jù)此,項目團隊提出了基于多模態(tài)分解與融合的語義協(xié)同方法,綜合分析圖像、視頻、文本等多模態(tài)內(nèi)容以獲得更加全面準(zhǔn)確的識別結(jié)果,并通過跨模態(tài)語義互補性實現(xiàn)多模態(tài)數(shù)據(jù)的綜合分析與有效利用。
項目團隊首先提出了多模態(tài)分解方法,能夠?qū)Π环N或多種模態(tài)的輸入數(shù)據(jù),按照模態(tài)的不同自動分發(fā)到對應(yīng)的分析與識別模塊。例如,對于視頻,首先進行鏡頭分割和關(guān)鍵幀提取,然后分發(fā)到鏡頭檢索、片斷檢索、概念檢測、視覺目標(biāo)檢測、人臉識別和視頻字幕識別等模塊?;诙嗄B(tài)信息的分發(fā)結(jié)果,對各模態(tài)內(nèi)容分別進行分析與識別,提取文本、圖像、視頻鏡頭、視頻片斷、視覺對象(如視覺目標(biāo)、人臉)等語義描述信息。進一步對多模態(tài)數(shù)據(jù)進行關(guān)聯(lián)分析,構(gòu)建多模態(tài)關(guān)聯(lián)圖來融合不同模態(tài)的分析結(jié)果,從跨模態(tài)關(guān)聯(lián)層面糾正單模態(tài)語義描述中的錯誤結(jié)果,以實現(xiàn)多模態(tài)信息的語義協(xié)同優(yōu)化。
基于上述成果,項目團隊于2009年—2016年多次參加國際權(quán)威評測TRECVID的視頻語義搜索比賽,均獲得第一名。
管住與用好互聯(lián)網(wǎng)大數(shù)據(jù)
“除了‘科技頂天’,在關(guān)鍵核心技術(shù)上取得突破,我們也追求‘市場立地’,將我們的技術(shù)實現(xiàn)產(chǎn)業(yè)化,服務(wù)于社會。這也是我們北大計算機研究所的創(chuàng)立者王選院士對我們的要求?!迸碛钚抡f道。
瞄準(zhǔn)互聯(lián)網(wǎng)大數(shù)據(jù)“管不住”和“用不好”這兩大難題,項目團隊以上述技術(shù)為核心,形成了互聯(lián)網(wǎng)多模態(tài)內(nèi)容分析與識別系統(tǒng)、方正智思互聯(lián)網(wǎng)輿情監(jiān)測分析系統(tǒng)、方正智思智能分析系統(tǒng)等系列產(chǎn)品,實現(xiàn)了對互聯(lián)網(wǎng)文本、圖像、視頻等多模態(tài)內(nèi)容的全面監(jiān)測與數(shù)據(jù)利用。
項目團隊的系統(tǒng)和產(chǎn)品已成功應(yīng)用于國家相關(guān)部門等上百家重要單位,涵蓋多個行業(yè)領(lǐng)域,在維護我國互聯(lián)網(wǎng)內(nèi)容安全、促進網(wǎng)絡(luò)文化健康發(fā)展等方面發(fā)揮了巨大作用。