萬小軍在辦公室工作中,。
本報記者 沈 慧攝
“早春江上雨初晴,,楊柳絲絲夾岸鶯。畫舫煙波雙槳急,,小橋風(fēng)浪一帆輕,�,!�
平仄規(guī)矩、清新別致,,這首不久前引發(fā)熱議的小詩讀起來是不是朗朗上口,?如果告訴你,它的作者是個機器人,,你會不會大吃一驚,?事實上,對于人工智能來說,,吟詩作對只是牛刀小試
如今,,隨著人工智能技術(shù)日新月異,各式各樣的智能機器人早已各顯其通,�,!皬姶蟮娜斯ぶ悄茚绕穑词侨祟悮v史上最好的事,,要么是最糟的,。我們應(yīng)該竭盡所能,確保它的未來發(fā)展對我們和環(huán)境有利,�,!彼沟俜摇せ艚鹕叭缡蔷选.�(dāng)創(chuàng)作這一被視為“人類精神文化的堡壘”被逐漸攻破,,你我手中的飯碗是不是已岌岌可危,?
寫稿作詩——信手拈來
人工智能寫稿機器人不但任勞任怨、迅如閃電,,其原創(chuàng)詩集更圈粉無數(shù)
白皙的臉上架副眼鏡,,身材頎長,北京大學(xué)計算機科學(xué)技術(shù)研究所研究員萬小軍投身人工智能領(lǐng)域已有十幾年,。早年專注自然語言處理技術(shù)的他,,2016年8月份曾與今日頭條實驗室聯(lián)合研發(fā)推出國內(nèi)第一款綜合利用大數(shù)據(jù)分析、自然語言處理與機器學(xué)習(xí)技術(shù)的人工智能寫稿機器人——“張小明”,。
“北京時間8月10日00:00,,現(xiàn)世界排名第2的丁寧在奧運會乒乓球女子單打四分之一決賽中勝出,確保進入下一輪,。丁寧本輪的對手是現(xiàn)世界排名第7的韓英,,實力不俗,。但經(jīng)過4場大戰(zhàn)的激烈較量,最終,,丁寧還是以總比分4:0戰(zhàn)勝對手,,笑到了最后,為中國延續(xù)了在這個系列賽事中最終奪冠的機會,�,!�
里約奧運會期間,“張小明”正式上崗,,成為眾多記者中的一員。16天撰寫450多篇體育新聞,,并以與直播同步的速度發(fā)布,,“張小明”最終不負(fù)眾望,一戰(zhàn)成名,。
任勞任怨,、迅如閃電,這是“張小明”們最大的賣點:2017年四川九寨溝地震時,,某機器人僅用時25秒就寫出了速報,,通過國家地震臺官方微信全球首發(fā);第一財經(jīng)的“DT稿王”有著1900篇/天的產(chǎn)出速度,,這相當(dāng)于100位資深證券編輯1個小時的產(chǎn)量,;2017年,面向民生領(lǐng)域的寫稿機器人“小南”驚艷亮相,,從數(shù)據(jù)采集分析到文稿結(jié)構(gòu)規(guī)劃,,再到遣詞造句,僅用時不到1秒就完成了文稿……
快,,不是創(chuàng)作型機器人唯一的優(yōu)勢,。
“看那星,閃爍的幾顆星/西山上的太陽/青蛙兒正在遠(yuǎn)遠(yuǎn)的淺水/她嫁了人間許多的顏色”,。自出生之日起,,“小冰”匿名投稿的詩篇多次被《北京晨報》《長江詩歌》等刊發(fā)。她的第一部原創(chuàng)詩集《陽光失了玻璃窗》,,更是圈粉無數(shù),。
胡適、李金發(fā),、林徽因,、徐志摩、聞一多,、余光中,、北島,、顧城、舒婷,、海子,、汪國真……擅長詩歌的“小冰”,師承1920年以來的519位中國現(xiàn)代詩人,。歷經(jīng)6000分鐘,、1萬次的迭代學(xué)習(xí),如今“小冰”已形成了一套屬于自己的獨特文風(fēng)和行文技巧,。
“如果說,,小冰以前的詩還只是小學(xué)生水平,那么現(xiàn)在算得上是大一新生的水平了,�,!痹娙酥苌缡屈c評。
功夫如何練就——深度學(xué)習(xí)
創(chuàng)作型機器人的核心技術(shù)是自然語言理解與生成,,這主要由深度學(xué)習(xí)技術(shù)來實現(xiàn)
“你那邊天氣怎樣——廣州,,今日:多云17℃~26℃;明日:多云18℃~27℃,。深圳,,今日:多云18℃~26℃;明日:多云19℃~27℃,�,!眻�(zhí)行完春運任務(wù)后,“小南”又添了一項技能——播報天氣,。
不斷成長的“小南”只是近年來創(chuàng)作型機器人迅速崛起的一個剪影,。這些“大牛”們究竟是怎樣煉成的,?萬小軍告訴經(jīng)濟日報記者,,無論是寫詩機器人還是寫稿機器人,其核心技術(shù)都是自然語言理解與生成,,而自然語言的處理是目前人工智能領(lǐng)域難度最大的課題之一,。
“寫稿機器人實際上是一款利用編程語言實現(xiàn)的智能寫稿軟件�,!比f小軍說,,從現(xiàn)有寫稿機器人來看,它們多數(shù)專注于財經(jīng),、體育等領(lǐng)域,,因為這兩個領(lǐng)域具有一定規(guī)則和數(shù)據(jù)可循,實現(xiàn)起來相對容易,。目前機器人寫稿主要有兩種方式:原創(chuàng)和二次創(chuàng)作,。原創(chuàng),,即借助結(jié)構(gòu)化的數(shù)據(jù)來生成稿件,比如利用數(shù)據(jù)庫可以直接寫成天氣預(yù)報,、財報和年報的稿件,。二次創(chuàng)作,即對已有的相關(guān)報道進行拼湊,,進而改寫成為新的稿件,。
不過,兩者所依賴的技術(shù)并不完全一致,。原創(chuàng)采用的是自然語言生成技術(shù),,是從結(jié)構(gòu)化數(shù)據(jù)/意義表達生成自然語言語句。二次創(chuàng)作采用的是自動摘要技術(shù),,從已有的文字素材中進行摘要,,從而生成一個新的稿件。例如,,一個體育簡訊的生成需要先從網(wǎng)上抓取關(guān)于體育賽事的一些基本數(shù)據(jù),據(jù)此做一些數(shù)據(jù)分析,,就可以生成一個比較簡單的體育賽事報道,,這就屬于原創(chuàng)。
據(jù)業(yè)內(nèi)人士吳俁的說法,,所謂自動撰稿機器人,,廣義的說也可稱為“文本生成”。它的寫稿方式之一是抽句子——找一堆句子,,拼成一篇文章,。寫稿機器人“張小明”就是利用這項技術(shù)實現(xiàn)基于體育直播文字的體育長文自動生成,從而走在技術(shù)前列,。
寫詩機器人,,也不例外�,!澳壳皩懺姍C器人主要基于深度學(xué)習(xí)技術(shù),,對它來說,學(xué)習(xí)樣本越大越有規(guī)律可循,,學(xué)起來效果也更好,。”在萬小軍看來,,機器人寫詩其實是個“編碼與解碼”過程,,編碼過程對用戶輸入信息進行語義編碼,解碼過程則逐詞生成得到每行詩,。研究人員先搜集成千上萬首詩,,利用詩的標(biāo)題或關(guān)鍵詞作為輸入,,訓(xùn)練深度學(xué)習(xí)模型生成相對應(yīng)的詩句。充分學(xué)習(xí)訓(xùn)練后,,機器人會摸索出一套作詩的規(guī)律,,按照主題需要解碼輸出第一句詩,然后把這句詩與輸入的關(guān)鍵詞合并作為新的輸入,,就可解碼得到第二句,,如此循環(huán)便可得到一首完整的詩。
“人工智能特別擅長寫這種有規(guī)律的,、被條條框框約束的內(nèi)容,,在一些簡單重復(fù)性的腦力勞動中,它具有一些先天優(yōu)勢,�,!比f小軍稱。
能否取代人類——分工協(xié)作
創(chuàng)作型人工智能的優(yōu)勢是執(zhí)行簡單,、重復(fù)性的創(chuàng)作輸出,,而人類可以聚焦更富創(chuàng)造性的智力勞動
日本研發(fā)的人工智能創(chuàng)作了科幻小說《電腦寫小說的那一天》,不僅騙過了所有人類評審,,還成功入圍日本微小說文學(xué)獎,;谷歌人工智能還可進行繪畫創(chuàng)作,有畫作被拍出了8000美元高價……當(dāng)智能機器人大行其道,,人類會不會真如霍金所言“大難來臨”,?
“讓機器具有思維與情感、學(xué)會推理和歸納,,短時間還做不到,。”萬小軍以“小南”舉例,,在教小南寫稿過程中,,遇到的一個難點就是可供學(xué)習(xí)的樣本不夠豐富,訓(xùn)練語料較為缺乏,。而且,,因為缺乏情感表達和思維能力,它寫出的作品大多平鋪直敘,,不夠生動,。如果僅看幾篇沒有太大問題,看多了難免會感覺單調(diào),、枯燥,。
寫詩機器人同樣存在類似的問題。萬小軍說,,得益于近年來深度學(xué)習(xí)技術(shù)的進步,,機器人寫詩水平有了質(zhì)的飛躍——由于古詩中留有大量寫景詩,,它們尤其擅長寫景抒情。這些詩普通人猛一看“嗯,,不錯,,挺美”,但若讓對古詩頗有研究的專家審視,,便免不了一番品評,。另外,它或許可以模仿得有模有樣,,但若交給它一個從未遇過的主題,,就很難勝任了。
不僅行文相對單一,,“小冰”“小南”們即便寫出了美文,,也不知道自己寫的是啥,更談不上陶醉其中自我欣賞,�,!坝浾邔懜鍟r很清楚他在寫什么,知道自己要表達的語義信息,�,!比f小軍說,機器人不然,,雖然它把每一個句子都寫出來了,但內(nèi)容是什么,,它不知道也無法理解,,這是人和機器最大的不同,對寫詩機器人來說同樣適用,。
關(guān)于這點,,知乎專欄作者蕭瑟曾在《當(dāng)AI邂逅藝術(shù):機器寫詩綜述》一文中有過這樣的描述:機器詩歌生成的工作,起始于20世紀(jì)70年代,。但在計算機誕生之前,,就有好事者弄了個高頻詩歌詞語轉(zhuǎn)盤,轉(zhuǎn)到哪個詞就記錄下來,,然后連起來形成一首“詩”,。這種詩自然會出現(xiàn)類似“蘋果吃姑娘,殘紅殺馬特”這樣邏輯不通,、不倫不類的句子,。當(dāng)然,也可能偶然搞出佳句,。
雖然前路依舊漫漫,,但隨著深度學(xué)習(xí)技術(shù)的發(fā)展和數(shù)據(jù)積累,,人工智能的春天已漸行漸近�,!熬蛯懜鍣C器人而言,,目前它僅能做到將一個基本的新聞事實描述清楚;一些深度,、調(diào)查類報道還必須依賴記者完成,。創(chuàng)作型人工智能的優(yōu)勢是執(zhí)行一些簡單、重復(fù)性的創(chuàng)作輸出,,人類可以集中精力聚焦一些更富創(chuàng)造性的智力勞動,,構(gòu)建一種和諧的分工協(xié)作關(guān)系�,!比f小軍說,。(經(jīng)濟日報-中國經(jīng)濟網(wǎng)記者 沈 慧)