當前位置：協(xié)會首頁 > 行業(yè)速遞 > 大數(shù)據(jù)數(shù)量驚人盲目信任會讓你產(chǎn)生錯覺

大數(shù)據(jù)數(shù)量驚人盲目信任會讓你產(chǎn)生錯覺

時間:2016-06-27 09:24:02 來源:深圳市智慧安防行業(yè)協(xié)會作者:中國安防網(wǎng)

　　【智慧安防網(wǎng)訊】進行大數(shù)據(jù)分析的巨頭們可以輕松地看到大數(shù)據(jù)的價值潛力，這也極大的刺激著他們進一步采集、儲存、循環(huán)利用我們的個人數(shù)據(jù)的野心。如果我說美國人現(xiàn)在開始越來越以自我為中心了，你也許會想這個老家伙肯定又要嘟囔些「過去才是好日子」之類的。但是，如果我說我有著對1500億個文本詞語的分析來支持這個的宣稱呢？在幾十年前，這樣規(guī)模的證據(jù)簡直是天方夜譚。而在今天，1500億個數(shù)據(jù)已經(jīng)過時了?！复髷?shù)據(jù)」分析的熱潮已經(jīng)卷過了生物學(xué)、語義學(xué)、金融學(xué)以及其相間的各種領(lǐng)域。
　　

　　盡管沒有人能夠在如何定義上取得一致，但大致概念是找到足夠大的數(shù)據(jù)庫，這樣他們可以發(fā)現(xiàn)傳統(tǒng)調(diào)查里無法發(fā)現(xiàn)的規(guī)律。這些數(shù)據(jù)來源于數(shù)百萬個現(xiàn)實用戶的行為，例如，發(fā)推特或信用卡消費，并且這些行為需要上千臺計算機來收集、存儲與分析。而對于許多計算機和研究者來說，這個投資是值得的，因為數(shù)據(jù)中的規(guī)律可以解鎖從基因序列到明日股票價格的一切信息。
　　
　　但是有一個問題：我們會不禁認為在如此驚人數(shù)量的數(shù)據(jù)的支持下，基于大數(shù)據(jù)的研究不可能是錯的。然而，數(shù)據(jù)的海量特征會給結(jié)果灌注一種錯誤的確定感。許多的結(jié)果都是不真實的——而其原因會讓我們重新思考那些盲目信任大數(shù)據(jù)的研究。
　　
　　在語言和文化中，大數(shù)據(jù)隆重地在2011年出場，那時谷歌發(fā)布了它的Ngrams工具。谷歌在《Science》雜志中發(fā)表的文章大張旗鼓地宣布，Ngrams可以讓用戶在谷歌掃描書籍數(shù)據(jù)庫中尋找特定短語——這個數(shù)據(jù)庫囊括了幾乎4%的出版過的書籍!——并獲知這些短語的頻率如何隨著時間而變化。這篇論文的作者預(yù)言了「文化經(jīng)濟學(xué)」的降臨，一個基于大量數(shù)據(jù)的對文化的研究，并且自此以后，谷歌Ngrams變成了一個幾乎無限的娛樂來源——但也是語義學(xué)、心理學(xué)和社會學(xué)的一座金礦。例如，他們搜羅了數(shù)百萬書籍去展示，是的，美國正在變得愈來愈個人主義，我們正在「每一年都在加速忘記我們的過去」，道德理想正在從我們的文化意識中消失。
　　

　　我們正在失去「希望」：網(wǎng)絡(luò)漫畫《xkcd》的作者Randal Munroe所創(chuàng)造的許多有趣的小漫畫之一是一個關(guān)于「希望」的Ngrams表格。如果Ngrams真的反射出了我們的文化，我們也許正在前往一個黑暗的未來。
　　
　　問題開始于Ngrams語料庫建立的方式。在去年十月發(fā)表的一篇研究中，三位來自佛蒙特大學(xué)(University of Vermont，UVM)的研究者指出，總體來說，Google Books收納了每一本書的復(fù)印版。這與它的最初目標完美相符：讓這些書本的內(nèi)容完全呈現(xiàn)于谷歌的強大檢索技術(shù)中。盡管從社會學(xué)研究的角度來說，它讓語料庫有了危險的歪曲。
　　
　　舉個例子，一些書籍淪落到了低于它們真正文化重量的境地：《指環(huán)王》的影響力還沒有《巴伐利亞的巫術(shù)迫害》多。而相反的，一些作家則開始變得十分凸顯。從英文小說的數(shù)據(jù)來看，你可以總結(jié)出在上世紀初期的20年里，每個角色的兄弟都叫做Lanny。實際上這個數(shù)據(jù)甚至反映了一位(并不一定是受歡迎的)作家Upton Sinclair有多么多產(chǎn)：他寫出了11部有著同一個「Lanny Budd」的小說。
　　

　　到底誰是Lanny：「Lanny」與其他英文小說中常見名字相對比的谷歌Ngrams圖標
　　
　　更加糟糕的是Ngrams并不是已出版書籍的一種連續(xù)的、平衡的縮影。同一份UVM的研究證明，在許多發(fā)生的創(chuàng)作變化之中，值得注意的是開始于上世紀60年代的科幻小說的增多。所有這些都讓我們很難相信谷歌的Ngrams能夠準確地反映出文字文化主流隨著時間的變化。
　　

　　FIGURE圖表：主要用于標題的大寫字母F開頭的「Figure」使用頻率在20世紀大幅上升，意味著語料庫中科技文章開始增加。這也許解釋了一些關(guān)于社會的問題，但是并沒有更多解釋大多數(shù)社會是如何用這些詞語的。
　　
　　即使通過了數(shù)據(jù)的來源的檢驗，在「理解」這一關(guān)依然存在尖銳的問題。的確，像「性格」和「尊嚴」這樣的用詞在過去幾十年的使用也許下降了。但是這意味著人們對于道德的關(guān)注就減少了嗎?伊利諾伊斯大學(xué)香檳分校的英文學(xué)教授TedUnderwood警告說，不要這么快下定義。他指出，我們現(xiàn)在關(guān)于道德的理解也許與在19、20世紀之交時的概念有著巨大出入，并且「尊嚴」也許因為非道德的原因變得逐漸普及化。因此任何我們從將眼下的關(guān)聯(lián)投射到過去所總結(jié)的結(jié)論都是可疑的。
　　
　　當然了，這些對于統(tǒng)計學(xué)和語義學(xué)來說都不是新鮮事。數(shù)據(jù)與表征是他們的面包與黃油。而谷歌Ngrams不同的是，它有著讓純粹的數(shù)據(jù)遮蔽了我們的雙眼并導(dǎo)致人們誤入歧途的危險。
　　
　　這種傾向不僅僅出現(xiàn)在對于Ngrams的研究中。相似的錯誤也損害著各種大數(shù)據(jù)項目。例如，谷歌的Google FluTrends(GFT)項目。誕生于2008年的GFT項目會計算數(shù)百萬的谷歌檢索中「發(fā)燒」與「咳嗽」等詞語出現(xiàn)的數(shù)量，利用它們?nèi)ァ割A(yù)測」多少人得了流感。有了這些估測，公眾健康機構(gòu)就能夠在疾疫控制中心從醫(yī)生報告中得出真正數(shù)量的兩周前就采取行動。
　　
　　當大數(shù)據(jù)不再被看成一個萬金油的時候，它才會真正有顛覆性。
　　
　　最初，GFT宣稱自己有97%的準確度。但是根據(jù)西北大學(xué)文檔的研究，這種準確度僅僅是一個僥幸。首先，GFT完全忽視了2009年春天和夏天「豬流感」的蔓延(最后證實GFT大部分預(yù)測的是冬天)。接著，系統(tǒng)開始去過度預(yù)測流感。實際上，它在2013年的峰值預(yù)測是真實的140%。最終，谷歌直接停了整個項目。
　　
　　那么，到底是哪里錯了呢?有了Ngrams，人們會不再仔細考慮他們手中數(shù)據(jù)的來源和詮釋。谷歌檢索中的數(shù)據(jù)資源并不是一個靜止的野獸。當谷歌開始自動補充檢索內(nèi)容時，用戶們開始習(xí)慣于接受提供的關(guān)鍵詞，扭曲GFT所看到的搜索。在理解方面，GFT的工程師在最開始讓GFT采用面值數(shù)據(jù);幾乎每一個檢索術(shù)語都被當成潛在的流感指示。有了數(shù)百萬個檢索術(shù)語后，GFT毫無疑問的開始過度詮釋一些季節(jié)性的詞語，例如把「雪」來當做流感的證據(jù)。
　　
　　但是，當大數(shù)據(jù)不再被看做是萬金油時，它才真正具有了顛覆性。哥倫比亞大學(xué)的研究者JeffreyShaman和其他許多團隊在流感預(yù)測上利用CDC去補償GFT的誤差，其結(jié)果比CDC和GFT兩者都要好。根據(jù)CDC來看，「Shaman的團隊測試了這個季節(jié)已經(jīng)出現(xiàn)的實際流感的模型」。通過將過去的短時間情況納入到考慮當中，Shaman和他的團隊精確調(diào)整了他們的數(shù)學(xué)模型，去更好地預(yù)測未來。團隊所需要的就是去嚴格地評估關(guān)于數(shù)據(jù)的假設(shè)。
　　
　　為了不讓我自己聽起來像一個反谷歌斗士，我不得不再說下，谷歌絕對不是唯一的一個犯錯者。我的妻子，一位經(jīng)濟學(xué)家，曾在一家統(tǒng)計整個互聯(lián)網(wǎng)的職位發(fā)布并收集整合成為國家勞動部門的統(tǒng)計數(shù)據(jù)的公司工作。公司的經(jīng)理曾經(jīng)夸口他們分析了整個國家80%的職位，數(shù)據(jù)的數(shù)量致使他們盲目走向了誤解的方向。舉例來說，一家當?shù)氐奈譅柆斠苍S會發(fā)布一個銷售助理職位，而它實際上想要招十個，或者它也許會讓這個發(fā)布一直在掛在那里幾周，直至人滿為止。
　　
　　因此，相比于屈服在「大數(shù)據(jù)廢墟」下，我們最好在心里保持我們的質(zhì)疑——即使在有人提到海量文字支持的時候。

上一篇：建聯(lián)盟-搭生態(tài) 物聯(lián)網(wǎng)巨頭在忙什么？
下一篇：1300億智能家居市場這幾方面將有改變

企業(yè)資訊

: 共繪藍圖，2024熵基科技全球合作伙伴大會圓滿成功; 近日，以“共繪藍圖”為主題的2024熵基科技全球合作伙伴大會在東莞成功落下帷幕。作為熵基科技規(guī)模最大、面向全球全品類核心伙伴的頂

: 一文讀懂熵基國密門禁; 在數(shù)字化轉(zhuǎn)型的洪流中，信息安全不僅是企業(yè)穩(wěn)健運營的基石，更是公共部門安全無虞的保障。隨著數(shù)據(jù)價值的日益凸顯，其保密性和安全性成為

: 門禁“隱形冠軍”？是時候重新認識熵基科技了; 在智慧出入口與身份識別、辦公等領(lǐng)域深耕多年的熵基科技，早已不局限于傳統(tǒng)的門禁與考勤系統(tǒng)，而是悄然邁入了智能物聯(lián)（AIoT）的廣闊

項目活動

會員專區(qū)

熱門專題

熵基科技出席數(shù)字經(jīng)濟及智慧城市空間未來應(yīng)用創(chuàng)新峰會
2021年智能安防機器人市場或?qū)⑦M入井噴期
2021年的智慧城市建設(shè)該怎么發(fā)展？聽聽行業(yè)大咖的觀點
達實信息：顛覆傳統(tǒng)經(jīng)營模式構(gòu)建互聯(lián)網(wǎng)+門禁新時代

大數(shù)據(jù)數(shù)量驚人 盲目信任會讓你產(chǎn)生錯覺

時間:2016-06-27 09:24:02 來源:深圳市智慧安防行業(yè)協(xié)會 作者:中國安防網(wǎng)

大數(shù)據(jù)數(shù)量驚人盲目信任會讓你產(chǎn)生錯覺

時間:2016-06-27 09:24:02 來源:深圳市智慧安防行業(yè)協(xié)會作者:中國安防網(wǎng)