還曾記得去年阿爾法狗與圍棋世界冠軍李世石的對弈嗎?阿爾法狗的勝利引起了公眾對于人工智能的高度關注。在今年《自然》發(fā)表的一篇論文《Mastering the game of Go without human knowledge》再次掀起大家對人工智能的關注。
不需要任何人類的經(jīng)驗
據(jù)悉,這一款新版的AlphaGo計算機程序能夠從零學起,在不需要任何人類輸入的條件下,迅速自學圍棋。這款新程序名叫AlphaGoZero(阿爾法元),以100比0的戰(zhàn)績打敗了它的前任AlphaGo(在2016年3月的錦標賽中,其前任打敗了圍棋世界冠軍李世石)。
這篇論文中所介紹的AlphaGo是全新的,它不是戰(zhàn)勝柯潔的那個最強的Master,但卻是孿生兄弟,它的名字叫AlphaGoZero。與以前的AlphaGo相比,它從零開始學習,不需要任何人類的經(jīng)驗。
據(jù)悉,AlphaGoZero最初是隨機落子,但通過反復與自己對弈,它的水平迅速提高。在進行實驗3天后,面對2017年5月時對戰(zhàn)全球最強棋手柯潔九段取得3連勝的AlphaGo,取得了100戰(zhàn)全勝。也就是說,AlphaGoZero只需要在4個TPU上,花3天時間,自己左右互搏490萬棋局。而阿爾法狗,需要在48個TPU上,花幾個月的時間,學習3000萬棋局,才打敗人類。
是一個跨時代的進步
怎么看待AlphaGoZero100-0擊敗AlphaGo這件事?這個趨勢我們都能看到,但是沒想到這一天來得這么早。這個事情最大的突破,就是無監(jiān)督的深度學習。無監(jiān)督指的就是訓練數(shù)據(jù)沒有類別標簽,就是我們并不知道我們訓練的數(shù)據(jù)它到底是什么。比如說,紅色的、圓形的、甜味的,我們并不知道它是蘋果,但是我們要學出來它是一個蘋果。之前阿爾法狗觀察了上萬小時的視頻,從中自主學習到了一只貓,它用了數(shù)月的時間并且消耗了大量資源,而今天阿爾法元在一個短時間內(nèi)的學習就擊敗了阿爾法狗,這是一個非常大的可以說是一個跨時代的進步。
人工智能的第一個方向,就是無監(jiān)督的學習,就是不需要標簽,不需要人工的經(jīng)驗知識,不需要人為干預的一個學習過程,就像我們小時候?qū)W到一些基礎的數(shù)學知識之后,可以自主地去學習、推理、思考,很像我們?nèi)祟悓W習的過程。在這樣一種學習過程中,它丟掉了人為制約。大家可以看到國外的評論,它在開局和收官的過程中,跟我們?nèi)祟惖乃伎挤绞交蛘呤窍缕宓姆绞浇咏?;但是在盤中的時候,是一種完全不一樣的思路。而之前的阿爾法狗,由于有人為的、棋譜的限制,它并沒有跳出這樣的局限和約束。因此,阿爾法元的這種突破是對人類固有思維模式的一個突破。
“人類多余”?
AlphaGo擊敗的全球最強圍棋選手柯潔在社交平臺上表示:“一個純凈、純粹自我學習的AlphaGo是最強的,對于AlphaGo的自我進步來講,人類太多余了?!?/span>
如果說人類完全多余,短時間內(nèi)至少我們是看不到的。但是在不遠的將來,有很大一部分從事簡單、重復、不需要人類付出創(chuàng)意的、思考的、抽象的這樣一些工作就會被完全替代。但是需要人類思考的、抽象的、需要我們?nèi)?chuàng)造的一些工作,比如說藝術類,比如說去構建這個人工智能本身等等這些工作,會隨著人工智能的普及變得越來越重要、越來越吃香。
長遠來看,從最本質(zhì)上講,人工智能和人類智能或許沒什么不同,只是階段問題,這個話題比較遠,暫且不論了。在幾十年的周期內(nèi),人工智能應該仍會在人類設定的目標范圍內(nèi)來完成特定任務,但也存在失控的風險。
原來的AlphaGo雖然比人快,但不可能比人能創(chuàng)造知識,現(xiàn)在發(fā)現(xiàn)它也有了。所以說,AlphaGoZero的出現(xiàn),為強人工智能的出現(xiàn)奠定了基礎。過去我們說,在專一的問題上人工智能有突破,通用問題上它差得遠,而阿爾法元基本上已經(jīng)半通用了,它沒有用上人的知識,從0開始學起的。
結語:新阿爾法狗的出現(xiàn)是一直質(zhì)的跨越,對一切都產(chǎn)生了巨大的影響。未來電影中的人工智能將不再是幻想。