科學(xué)現(xiàn)場
人工智能:讀書“破萬卷”,,難答“小兒科”
閱讀來自維基百科的536篇文章,,回答10萬個(gè)基于文章內(nèi)容的問題,除了題量大一點(diǎn),這場比賽挺像大學(xué)英語六級(jí)考試的閱讀理解測試,。
但你不可能聽到考場里奮筆疾書的“唰唰”聲,,因?yàn)椤皡①愓摺敝皇且欢未a,。輸入文章和問題后,,計(jì)算機(jī)的中央處理器(CPU)和圖形處理器(GPU)開始高速計(jì)算,最后交出答卷,,由出題者批閱,。
對(duì)來自世界各國的研究者來說,這是一場沒有盡頭的競賽——任何人可以在任意時(shí)間加入,,排行榜實(shí)時(shí)更新,;即使是第一名,不保持“學(xué)習(xí)”和“更新”,,隨時(shí)有可能被新加入者超越,。它可能發(fā)生在你吃飯和睡覺的時(shí)候,而“對(duì)手”不過是“啪啪啪”地敲擊了一串代碼,。
這場競賽全稱SQuAD(Stanford Question Answering Dataset)文本理解挑戰(zhàn)賽,,由斯坦福大學(xué)在2016年9月發(fā)起,是業(yè)內(nèi)公認(rèn)的機(jī)器閱讀理解標(biāo)準(zhǔn)水平測試,,也是這個(gè)領(lǐng)域的頂級(jí)賽事,。
在2018年1月3日以前,人類始終保持著領(lǐng)先的優(yōu)勢——從來沒有任何一個(gè)團(tuán)隊(duì)能夠設(shè)計(jì)出一種答題正確率超過人類的算法,。這一天,,微軟亞洲研究院自然語言計(jì)算組提交的新模型獲得了82.650的精確匹配分?jǐn)?shù),,超過了人類得分82.304,。僅過了兩天,,阿里巴巴iDST-NLP團(tuán)隊(duì)也拿到了82.440的精確匹配分?jǐn)?shù)。
微軟亞洲研究院院長洪小文告訴中國青年報(bào)·中青在線記者:“這對(duì)微軟和自然語言處理(NLP)研究領(lǐng)域來說,,都是一個(gè)重要的里程碑,。計(jì)算機(jī)文本理解能力首次超越人類,預(yù)示著該領(lǐng)域的研究將會(huì)有更大突破,�,!�
在計(jì)算機(jī)看來,世間萬物都是一串?dāng)?shù)字
微軟亞洲研究院副院長,、自然語言計(jì)算組負(fù)責(zé)人周明博士坐在計(jì)算機(jī)前,,緊張地等待測試結(jié)果。經(jīng)過1個(gè)多月對(duì)模型和算法的更新,,他們提交了最新代碼,。
這支團(tuán)隊(duì)在SQuAD挑戰(zhàn)賽初期,一度以穩(wěn)定的成績長期位居排行榜榜首,,但周明知道,,這場競賽的排名瞬息萬變。2017年最后兩個(gè)月里,,科大訊飛與哈工大聯(lián)合實(shí)驗(yàn)室,、騰訊DPDAC NLP團(tuán)隊(duì)先后超過了他們。
新選手參賽大約兩三分鐘后,,系統(tǒng)就完成了約50篇數(shù)百詞的文章閱讀和約1萬個(gè)問題的回答,。即使母語是英語的成年人,這個(gè)時(shí)間也才勉強(qiáng)讀完5篇文章,。
“對(duì)人類來說,,讀完一篇文章就會(huì)在腦海中形成一定的印象,比如這篇文章講的什么人,,發(fā)生了什么故事,。人們能夠輕而易舉地歸納出文章里的重點(diǎn)內(nèi)容,但對(duì)計(jì)算機(jī)來說不是這樣,�,!敝苊鞲嬖V中國青年報(bào)·中青在線記者。
在SQuAD測試中,,計(jì)算機(jī)需要閱讀一段材料,,然后回答諸如人名、地理位置等問題,。不同于類似測試,,SQuAD測試的回答可能是一段短語,而非某個(gè)單詞或單個(gè)內(nèi)容,。它可能遭遇同義詞替換,、句子結(jié)構(gòu)變換等情況,,甚至需要綜合多個(gè)句子進(jìn)行邏輯推理。
為了解決這個(gè)問題,,研究組模擬人類做閱讀理解過程的方式,,他們將整個(gè)過程分成了四步。拿到測試題后,,計(jì)算機(jī)首先會(huì)學(xué)習(xí)文本和問題,,就像我們做閱讀題時(shí),首先會(huì)通讀文章,,然后審題,,獲得一個(gè)整體印象。
下一步,,計(jì)算機(jī)會(huì)將問題和文章進(jìn)行比對(duì),,找出相關(guān)段落,就像人類定位關(guān)鍵信息的環(huán)節(jié),。接下來,,計(jì)算機(jī)會(huì)把初步結(jié)果放到上下文里比對(duì),類似人會(huì)綜合全文看待問題,。最后,,它會(huì)斟酌并選出最像答案的內(nèi)容。
在這場競賽中,,不同團(tuán)隊(duì)設(shè)計(jì)的答題模式可能完全不同,。周明介紹說,他們的設(shè)計(jì)中,,最獨(dú)特的就是第3步,,是通過“注意力機(jī)制”達(dá)到的。這讓關(guān)鍵信息像被畫上了重點(diǎn)一樣,,成為計(jì)算機(jī)眼中高亮的部分,。
“除了自然語言處理,注意力機(jī)制在圖像識(shí)別領(lǐng)域也是關(guān)鍵的概念,�,!泵绹鐐惐葋喆髮W(xué)計(jì)算機(jī)系碩士生何欽堯告訴中國青年報(bào)·中青在線記者。
人類視覺能夠通過快速掃描整體圖像后,,找到需要重點(diǎn)關(guān)注的區(qū)域,,并投入更多注意力,以獲得更多細(xì)節(jié),,抑制其他無用信息,。研究者也嘗試讓計(jì)算機(jī)學(xué)習(xí)并利用這種機(jī)制。不同于人類擁有動(dòng)植物、山川河流的概念,,所有單詞和圖像在計(jì)算機(jī)看來都是一串?dāng)?shù)字,。它必須從數(shù)字背后微妙的聯(lián)系中,洞悉它們的意義,。
真理隱藏在數(shù)據(jù)和概率里
周明所在團(tuán)隊(duì)使用的計(jì)算機(jī)并不是憑空學(xué)會(huì)做題,。參加SQuAD競賽前,,它就像“學(xué)霸”考前刷題一樣,,先看過了約500篇文章和與之對(duì)應(yīng)的10萬道題目、答案,。
但周明表示,,“目前基于深度學(xué)習(xí)的機(jī)器閱讀理解模型都是黑盒的狀態(tài),很難直觀地表示機(jī)器進(jìn)行閱讀理解的過程和結(jié)果,。未來,,可解釋性的深度學(xué)習(xí)模型值得進(jìn)一步探究�,!�
通過大量學(xué)習(xí),,計(jì)算機(jī)明白了什么數(shù)字意味著與文章內(nèi)容相關(guān),怎樣的聯(lián)系意味著這就是問題的答案,。
“真理就隱藏在數(shù)據(jù)和概率里,,我們這個(gè)領(lǐng)域的研究者大多都這么看�,!焙螝J堯說,。一個(gè)1歲人類孩童看過狗以后,就能識(shí)別各種體型,、品種和不同拍攝角度的狗,,形成概念,但計(jì)算機(jī)需要看過很多照片后,,才能判斷某個(gè)物體是不是狗,。“我們不知道人類是怎么形成這個(gè)概念的,,但對(duì)計(jì)算機(jī)來說,,概念是靠積累數(shù)據(jù)、靠計(jì)算概率得來的,�,!�
直到20世紀(jì)90年代之前,人們還在試圖讓計(jì)算機(jī)學(xué)會(huì)人類語言的規(guī)則,,從而理解背后的含義,。但語言在使用時(shí)往往不規(guī)范,機(jī)器無法處理偏離規(guī)則的內(nèi)容。后來,,人們開始讓機(jī)器自己進(jìn)行學(xué)習(xí),,獲取語言知識(shí)。
發(fā)展到今天,,自然語言處理領(lǐng)域的研究已經(jīng)基本可以應(yīng)付單個(gè)句子,,理解句子成分。各大手機(jī)廠商也推出了自己的人工智能語音系統(tǒng),,可以識(shí)別并完成用戶的指令,,還能進(jìn)行簡單的交流和對(duì)話。
“長文本的理解一直是難點(diǎn),,這涉及句子之間的連貫性,、上下文銜接和邏輯推理等更高難度的內(nèi)容�,!敝苊髡f,。
當(dāng)我們告訴計(jì)算機(jī),“萊茵河上最大的城市是德國科隆,,它是中歐和西歐區(qū)域的第二長河流,,位于多瑙河之后”,并問它“什么河比萊茵河長”時(shí),,很多計(jì)算機(jī)會(huì)回答“科隆”,。
如何理解代詞“它”、理解“位于……之后”表示比較而非物理上的前后,,成為這些“選手”很大的障礙,。人類擁有“科隆是城市而非河流”這種常識(shí),幾乎不會(huì)在這個(gè)問題上犯錯(cuò),,但計(jì)算機(jī)無法理解這個(gè)概念,。
SQuAD競賽不是第一個(gè)計(jì)算機(jī)“超越”人類的領(lǐng)域
計(jì)算機(jī)很早就在計(jì)算、記憶的領(lǐng)域碾軋人類,,后來又擊敗了人類最優(yōu)秀的國際象棋,、圍棋棋手。
“其實(shí),,計(jì)算,、下棋、機(jī)器翻譯等只聚焦單一任務(wù)本身的人工智能都屬于弱人工智能,,”周明說,,“不過弱人工智能并不弱,它可以具備超越人類的某些能力,,有很大的價(jià)值,,但是弱人工智能還無法真正理解它接收到的信息,而這就使得通往強(qiáng)人工智能的道路十分艱難�,!�
60多年前,,曾有人嘗試讓計(jì)算機(jī)用6條規(guī)則和200個(gè)詞匯做俄英翻譯,這被認(rèn)為是最早的人工智能嘗試,。那時(shí)的研究人員信心滿滿,,宣稱能在5年內(nèi)完全解決一種語言到另一種語言的自動(dòng)翻譯問題。
這個(gè)目標(biāo)至今沒有完成,,人工智能也因?yàn)檠芯窟M(jìn)展緩慢經(jīng)歷過兩次低潮,。一直到近10年,計(jì)算機(jī)性能的大幅度提升和機(jī)器學(xué)習(xí)理論的興起讓人工智能再次熱了起來,。人們發(fā)現(xiàn),,計(jì)算機(jī)能夠?qū)懺娫~,、與人對(duì)話,,它變得越來越像人。
據(jù)統(tǒng)計(jì),,21世紀(jì)以來新創(chuàng)辦的人工智能企業(yè)中,,有近三分之二是在5年內(nèi)創(chuàng)辦的。最近3年,,人工智能領(lǐng)域的就業(yè)崗位數(shù)量飆升近8倍,。在亞洲,過去17年內(nèi)投向人工智能領(lǐng)域的51億美元中,,有95%是在過去5年內(nèi)投入的,。
翻看SQuAD競賽排行榜,前3名都是來自中國的團(tuán)隊(duì),�,!斑@在過去是不敢想象的�,!敝苊髡f,。放在20年前,中國甚至還沒有在這個(gè)領(lǐng)域的頂級(jí)會(huì)議上發(fā)表過文章,。而現(xiàn)在,,中國發(fā)表的文章數(shù)已經(jīng)穩(wěn)居世界第二,2017年還有5篇文章入選該會(huì)議的22篇杰出論文,。
在SQuAD競賽中,,計(jì)算機(jī)得分比人類高0.346分,可以理解為同樣做1萬道題時(shí),,計(jì)算機(jī)多做對(duì)35道,。“這遠(yuǎn)不代表計(jì)算機(jī)超越了人類的閱讀理解水平�,!敝苊鞲嬖V中國青年報(bào)·中青在線記者,。也有人質(zhì)疑,這里代表“人類”的,,不過是眾包平臺(tái)上一小時(shí)掙9美元,、受教育水平參差不齊的人。
一個(gè)公認(rèn)的人工智能的標(biāo)準(zhǔn)是能夠通過“圖靈測試”——如果一臺(tái)機(jī)器能夠與人進(jìn)行交流,,并且被人誤以為是人,,那它就具有智能。
“ ‘能理解,、會(huì)思考’,,這其中,理解自然語言是最核心的問題,�,!敝苊髡f。目前,,計(jì)算機(jī)還是很難在日常交流中理解雙關(guān)和諷刺,。在中文語境下,計(jì)算機(jī)還需要面對(duì)如何將一個(gè)句子拆分為數(shù)個(gè)詞匯的問題,。很多對(duì)人類而言無需學(xué)習(xí)的事情,,例如保持平衡、用手拿起一個(gè)杯子,,對(duì)機(jī)器而言也是無比困難的事情,。
機(jī)器沒有經(jīng)過幾億年的演化,也沒有人類大腦里由神經(jīng)元數(shù)百萬次電脈沖轉(zhuǎn)化成的觸覺,、聽覺或是視覺,。在人類程序員的馴導(dǎo)下,它把一切轉(zhuǎn)化為數(shù)字,。
時(shí)至今日,,谷歌仍然在特意審查“大猩猩”詞條的搜索結(jié)果,避免圖像搜索引擎把它和黑種人的圖像混淆,。了解識(shí)別特性的工程師可以通過肉眼無法識(shí)別的微調(diào),,讓計(jì)算機(jī)把小狗圖片當(dāng)成鴕鳥,或是將一片馬賽克認(rèn)成獵豹,。有時(shí),,把中文翻譯成英文再翻譯回來,整句話都變得面目全非,。
在人工智能威脅論不絕于耳的今天,,周明幾乎沒有擔(dān)心,,他向中國青年報(bào)·中青在線記者舉了SQuAD競賽中的一個(gè)例子。
機(jī)器閱讀了“按質(zhì)量算,,氧氣是宇宙中第三多的元素,,排在氫和氦之后”,面對(duì)“什么是第二多的元素”的問題,,它的回答卻是“氧”,。不管是微軟還是阿里巴巴團(tuán)隊(duì)設(shè)計(jì)的算法,都不能解決這個(gè)再簡單不過的問題,。
這不只是人工智能之間的競賽,,也是人類和自己的競賽。
中國青年報(bào)·中青在線見習(xí)記者 王嘉興 來源:中國青年報(bào) ( 2018年01月24日 11 版)