中國(guó)經(jīng)濟(jì)網(wǎng)編者按:隨著技術(shù)的進(jìn)步,,有人指出2024年大模型應(yīng)用將迎來巨大機(jī)會(huì),。文化有大模型嗎,?文化大模型的應(yīng)用條件是否具備,?近日,,中央宣傳部原文改辦副主任,、一級(jí)巡視員,,中國(guó)公共關(guān)系協(xié)會(huì)文化大數(shù)據(jù)產(chǎn)業(yè)委員會(huì)副主任高書生以《文化大模型 蓄勢(shì)待發(fā)》一文回應(yīng)了這些問題。本文經(jīng)作者授權(quán)發(fā)布,,略有刪減,,轉(zhuǎn)載請(qǐng)注明來源“中國(guó)經(jīng)濟(jì)網(wǎng)”。
2023年的最后一天,,國(guó)家數(shù)據(jù)局聯(lián)合16個(gè)部門印發(fā)了《“數(shù)據(jù)要素×”三年行動(dòng)計(jì)劃(2024—2026年)》,,文件提出:挖掘文化數(shù)據(jù)價(jià)值,貫通各類文化機(jī)構(gòu)數(shù)據(jù)中心,,關(guān)聯(lián)形成中華文化數(shù)據(jù)庫(kù),,鼓勵(lì)依托市場(chǎng)化機(jī)制開發(fā)文化大模型。文件剛剛對(duì)外公布,,參與文化大模型研發(fā)的中國(guó)公共關(guān)系協(xié)會(huì)文化大數(shù)據(jù)產(chǎn)業(yè)委員會(huì)(以下簡(jiǎn)稱“專委會(huì)”)成員單位群情激動(dòng),,紛紛表示要將文化大模型打造成為“數(shù)據(jù)要素×”三年行動(dòng)計(jì)劃的“樣本項(xiàng)目”,。
中國(guó)經(jīng)濟(jì)網(wǎng)資料圖 成琪/攝
文化大模型研發(fā)進(jìn)程
美國(guó)OpenAI公司研發(fā)的ChatGPT在全球范圍所產(chǎn)生的沖擊波,不可避免波及到意識(shí)形態(tài)領(lǐng)域,,對(duì)青少年價(jià)值觀認(rèn)同產(chǎn)生直接影響,。專委會(huì)征詢了相關(guān)專家意見,認(rèn)為應(yīng)當(dāng)充分運(yùn)用文化數(shù)字化建設(shè)積累的數(shù)據(jù),,同科技公司聯(lián)手研發(fā)文化大模型,。
2023年5月,專委會(huì)同華為云計(jì)算技術(shù)有限公司(以下簡(jiǎn)稱“華為云”)就聯(lián)合研發(fā)文化大模型和應(yīng)用場(chǎng)景問題進(jìn)行了深入溝通,,華為云認(rèn)同專委會(huì)提出的人工智能大模型是文化和科技深度融合產(chǎn)物的觀點(diǎn),,雙方應(yīng)當(dāng)發(fā)揮各自優(yōu)勢(shì)、實(shí)現(xiàn)強(qiáng)強(qiáng)聯(lián)合,,充分運(yùn)用文化數(shù)字化建設(shè)成果,,發(fā)揮華為云在人工智能大模型領(lǐng)域的技術(shù)優(yōu)勢(shì)和研發(fā)能力,聯(lián)合研發(fā)文化大模型和應(yīng)用場(chǎng)景,,探索人工智能時(shí)代維護(hù)意識(shí)形態(tài)和文化安全的有效途徑,。
文化大模型是基于華為盤古大模型而開發(fā)的。華為的盤古大模型是一個(gè)基礎(chǔ)大模型,,主要作用就是做好海量基礎(chǔ)知識(shí)的學(xué)習(xí),,可以形象地理解為“讀萬卷書”。在此基礎(chǔ)上依托行業(yè)伙伴的專業(yè)數(shù)據(jù)打造行業(yè)模型和場(chǎng)景模型,,可以稱作“行萬里路”,。文化大模型是在基礎(chǔ)大模型的基礎(chǔ)上形成的行業(yè)模型,文化機(jī)構(gòu)再基于文化大模型開發(fā)專業(yè)模型,,也就是場(chǎng)景模型,。
2023年8月,專委會(huì)邀請(qǐng)20余家成員單位,、國(guó)家文化大數(shù)據(jù)標(biāo)識(shí)基地負(fù)責(zé)人,,在北京召開文化大模型評(píng)測(cè)工作座談會(huì),就文化大模型如何賦能文化數(shù)字化建設(shè)進(jìn)行深入研討:
——針對(duì)文化企事業(yè)單位在文化數(shù)字化建設(shè)中面臨的數(shù)據(jù)體量大,、處理成本高,、數(shù)據(jù)處理效率低等問題,通過文化大模型的自動(dòng)智能化標(biāo)識(shí),、圖像元素自動(dòng)提取,、文生圖和圖生文的多模態(tài)能力可以有效解決。文化大模型幫助文化機(jī)構(gòu)在多個(gè)應(yīng)用場(chǎng)景高效完成各種工作,,包括數(shù)字人對(duì)話,、基于NLP的知識(shí)問答和搜索、多模態(tài)知識(shí)圖譜生成、AIGC文生圖自動(dòng)標(biāo)注,、畫作鑒真,、長(zhǎng)視頻拆條自動(dòng)處理等。
——針對(duì)文化機(jī)構(gòu)自有數(shù)據(jù)量多,、但因大模型投入大而裹足不前,,專委會(huì)和華為云可以提供安全且自主可控的基礎(chǔ)設(shè)施平臺(tái),保障數(shù)據(jù)端到端的安全處理,,文化機(jī)構(gòu)不需要投入巨額資金建立自己的算力存儲(chǔ)基礎(chǔ)設(shè)施和工具鏈,,就可以使用自有數(shù)據(jù)擁有專業(yè)模型。
2023年9月,,文化大模型開發(fā)應(yīng)用大會(huì)在中國(guó)(南京)文化和科技融合成果展覽交易會(huì)期間舉行,,大會(huì)展示了基于文化大模型開發(fā)應(yīng)用的示范案例和相關(guān)工具等。
經(jīng)文化機(jī)構(gòu)的評(píng)測(cè),,文化大模型基本達(dá)到了設(shè)計(jì)目標(biāo),,能夠滿足實(shí)施國(guó)家文化數(shù)字化戰(zhàn)略中AI能力建設(shè)的各類應(yīng)用場(chǎng)景,包括但不限于:自然語言處理能力(NLP),,圖片自動(dòng)分類聚類能力,,自動(dòng)化標(biāo)簽?zāi)芰ΓL(zhǎng)視頻切片能力,,知識(shí)圖譜(語義識(shí)別,、概念抽取),,AIGC能力,,賦能數(shù)字人等。
文化大模型大規(guī)模開發(fā)應(yīng)用的基礎(chǔ)條件已具備
《“數(shù)據(jù)要素×”三年行動(dòng)計(jì)劃(2024—2026年)》對(duì)文化大模型開發(fā)應(yīng)用指出了清晰的路徑:一是挖掘文化數(shù)據(jù)價(jià)值,,二是貫通各類文化機(jī)構(gòu)數(shù)據(jù)中心,,三是關(guān)聯(lián)形成中華文化數(shù)據(jù)庫(kù)。自2020年成立以來,,專委會(huì)積極組織成員單位協(xié)同推進(jìn)國(guó)家文化大數(shù)據(jù)體系建設(shè),,為實(shí)施上述路徑奠定了堅(jiān)實(shí)的基礎(chǔ):
1、布局國(guó)家文化大數(shù)據(jù)標(biāo)識(shí)基地,。大模型時(shí)代,,數(shù)據(jù)是人工智能的三大核心要素之一,。優(yōu)質(zhì)的數(shù)據(jù)集直接決定了大模型的競(jìng)爭(zhēng)力,,要把文化大模型打造為便捷、好用的文化數(shù)字化生產(chǎn)工具,,離不開高質(zhì)量數(shù)據(jù),。數(shù)據(jù)不標(biāo)注,等于沒內(nèi)涵;數(shù)據(jù)不標(biāo)識(shí),,等于沒身份,。為提升文化數(shù)據(jù)的供給規(guī)模和質(zhì)量,專委會(huì)自2023年起布局國(guó)家文化大數(shù)據(jù)標(biāo)識(shí)基地,,旨在對(duì)文化資源數(shù)據(jù)進(jìn)行分類,、編目、標(biāo)引和賦碼,。目前,,國(guó)家文化大數(shù)據(jù)標(biāo)識(shí)基地已有11個(gè),分布于文化,、藝術(shù),、電影、出版,、廣電網(wǎng)絡(luò),、文化投資等細(xì)分行業(yè)。
2,、推動(dòng)建設(shè)國(guó)家文化大數(shù)據(jù)體系省域中心,。中辦、國(guó)辦印發(fā)的《關(guān)于推進(jìn)實(shí)施國(guó)家文化數(shù)字化戰(zhàn)略的意見》指出:依托現(xiàn)有有線電視網(wǎng)絡(luò)設(shè)施,、廣電5G網(wǎng)絡(luò)和互聯(lián)互通平臺(tái),,部署提供標(biāo)識(shí)編碼注冊(cè)登記和解析服務(wù)的技術(shù)系統(tǒng),完善結(jié)算支付功能,,形成國(guó)家文化專網(wǎng)以及國(guó)家文化大數(shù)據(jù)體系的省域中心和區(qū)域中心,,服務(wù)文化資源數(shù)據(jù)的存儲(chǔ)、傳輸,、交易和文化數(shù)字內(nèi)容分發(fā),。
國(guó)家文化大數(shù)據(jù)體系省域中心的主要職能,就是按照物理分布,、邏輯關(guān)聯(lián)原則,,貫通文化機(jī)構(gòu)數(shù)據(jù)中心。目前,,全國(guó)11個(gè)省級(jí)廣電網(wǎng)絡(luò)公司已建成國(guó)家文化大數(shù)據(jù)省域中心,,能夠?yàn)槲幕瘷C(jī)構(gòu)接入國(guó)家文化專網(wǎng)提供網(wǎng)絡(luò)服務(wù),其中四川廣電網(wǎng)絡(luò)公司承建的省域中心,,已為全省314個(gè)文化,、圖書、博物,、旅游等機(jī)構(gòu)提供國(guó)家文化專網(wǎng)接入服務(wù),。
3、推動(dòng)建設(shè)標(biāo)識(shí)解析體系。不同于互聯(lián)網(wǎng)的域名解析,,文化數(shù)字化采用的是標(biāo)識(shí)解析,。
2015年,國(guó)際標(biāo)準(zhǔn)化組織(ISO)發(fā)布了由我國(guó)提案創(chuàng)建的信息與文獻(xiàn)領(lǐng)域國(guó)際標(biāo)準(zhǔn),,中文叫國(guó)際標(biāo)準(zhǔn)關(guān)聯(lián)標(biāo)識(shí)符,,英文簡(jiǎn)稱ISLI(International Standard Link Identifier)。依托這項(xiàng)國(guó)際標(biāo)準(zhǔn)進(jìn)行技術(shù)架構(gòu),,即在廣電網(wǎng)絡(luò)公司機(jī)房部署提供標(biāo)識(shí)編碼注冊(cè)登記和解析服務(wù)的技術(shù)系統(tǒng),、在文化機(jī)構(gòu)數(shù)據(jù)中心部署底層關(guān)聯(lián)服務(wù)引擎和應(yīng)用軟件,就可以形成了標(biāo)識(shí)解析體系,,數(shù)據(jù)即使在分布式存儲(chǔ)的狀態(tài)下,,依然可以互聯(lián)互通,實(shí)現(xiàn)“物理分布,、邏輯關(guān)聯(lián)”,,把零散的文化資源數(shù)據(jù)關(guān)聯(lián)起來,把思想理論,、文化旅游,、文物、新聞出版,、電影,、廣播電視、網(wǎng)絡(luò)文化文藝等不同領(lǐng)域的文化資源數(shù)據(jù)關(guān)聯(lián)起來,,把文字,、音頻、視頻等不同形態(tài)的文化資源數(shù)據(jù)關(guān)聯(lián)起來,,最終形成中華文化數(shù)據(jù)庫(kù),。
4、推動(dòng)建設(shè)國(guó)家文化大數(shù)據(jù)交易體系,。在國(guó)家文化大數(shù)據(jù)體系架構(gòu)上,,交易扮演著十分重要的角色——既是資源與生產(chǎn)的中介,又是生產(chǎn)與消費(fèi)的中介,。針對(duì)目前數(shù)據(jù)交易所存在的交易不活躍等問題,,文化數(shù)據(jù)交易倡導(dǎo)“一碼通”,即交易主體及其交易標(biāo)的被賦予唯一的關(guān)聯(lián)標(biāo)識(shí)符(ISLI碼),,憑碼交易,、拼碼結(jié)算。
文化數(shù)據(jù)交易由買賣雙方在“數(shù)據(jù)超市”完成交易,,文化產(chǎn)權(quán)交易所提供第三方交割,,交割完成后“點(diǎn)對(duì)點(diǎn)”交付數(shù)據(jù),以確保數(shù)據(jù)安全,。目前,,由深圳文化產(chǎn)權(quán)交易所承建的全國(guó)文化大數(shù)據(jù)交易中心和由江蘇文化產(chǎn)權(quán)交易所承建的華東區(qū)域交易平臺(tái)均已上線運(yùn)行。
5,、組織開展文化元宇宙試驗(yàn),。文化大模型具有領(lǐng)域?qū)挕?yīng)用廣的特點(diǎn),。中辦,、國(guó)辦印發(fā)的《關(guān)于推進(jìn)實(shí)施國(guó)家文化數(shù)字化戰(zhàn)略的意見》明確,集成全息呈現(xiàn),、數(shù)字孿生,、多語言交互、高逼真,、跨時(shí)空等新型體驗(yàn)技術(shù),,大力發(fā)展線上線下一體化、在線在場(chǎng)相結(jié)合的數(shù)字化文化新體驗(yàn),。
數(shù)字化文化新體驗(yàn),,是文化大模型最重要的應(yīng)用場(chǎng)景。專委會(huì)正在組織開展文化元宇宙試驗(yàn),,旨在培育文化數(shù)據(jù)要素應(yīng)用場(chǎng)景,,基本思路是把電視機(jī)作為文化元宇宙的入口,路徑是將機(jī)頂盒升級(jí)為文化元宇宙發(fā)射器,,機(jī)構(gòu)和個(gè)人進(jìn)入文化元宇宙需進(jìn)行身份認(rèn)證,,即被賦予唯一的關(guān)聯(lián)標(biāo)識(shí)符(ISLI碼),作為生產(chǎn)者或消費(fèi)者的憑證,。目前,,文化元宇宙發(fā)射器已研發(fā)出來,正在貴州,、遼寧,、寧夏等地進(jìn)行測(cè)試。
6,、合作研發(fā)文化大模型一體機(jī),。對(duì)計(jì)算資源的需求、超百億甚至千億級(jí)的參數(shù)規(guī)模,、體系架構(gòu)設(shè)計(jì)的高難度,,提升了中小機(jī)構(gòu)其開發(fā)應(yīng)用大模型的門檻。為加速大模型的行業(yè)落地,,針對(duì)百億級(jí)模型應(yīng)用,,華為公司打造了大模型一體機(jī)系列,,免去大量適配調(diào)優(yōu)、系統(tǒng)搭建的成本,,為大模型伙伴提供“拎包入住”式的部署體驗(yàn),,2小時(shí)內(nèi)即可完成部署。
為加速推進(jìn)國(guó)家文化大數(shù)據(jù)體系建設(shè),,專委會(huì)組織成員單位同華為公司合作研發(fā)出國(guó)家文化大數(shù)據(jù)一體化機(jī)柜,,機(jī)柜內(nèi)部實(shí)現(xiàn)了專業(yè)機(jī)房環(huán)境,裝配了服務(wù)器,、交換機(jī)等硬件設(shè)備,,配置文化數(shù)據(jù)標(biāo)識(shí)服務(wù)系統(tǒng),對(duì)機(jī)柜微環(huán)境參數(shù)實(shí)施實(shí)時(shí)監(jiān)控,,由各級(jí)廣電網(wǎng)絡(luò)公司負(fù)責(zé)運(yùn)維,。隨著文化大模型的開發(fā)應(yīng)用,專委會(huì)同華為公司達(dá)成共識(shí),,將國(guó)家文化大數(shù)據(jù)一體化機(jī)柜升級(jí)為文化大模型一體機(jī),,底層算力全部采用華為昇騰AI芯片,配備推理等功能,,實(shí)現(xiàn)“一機(jī)在手,,開發(fā)場(chǎng)景模型不愁”。
文化大模型作為智能化工具,,應(yīng)用范圍很廣泛,,涵蓋了宣傳思想文化全戰(zhàn)線。文化大模型的文化,,是“大文化”或跨部門范疇,,從部門講包括宣傳、網(wǎng)信,、文旅,、新聞出版、電影,、廣播電視,、網(wǎng)絡(luò)文化文藝,從領(lǐng)域上講包括思想理論,、文化旅游,、文物、新聞出版,、電影,、廣播電視和網(wǎng)絡(luò)文化文藝。大模型時(shí)代,,文化機(jī)構(gòu)一定要跟上科技發(fā)展步伐,,否則就會(huì)落伍甚至被邊緣化,。文化機(jī)構(gòu)無論規(guī)模多大,擁有的數(shù)據(jù)量多么龐大,,如果游離于體系之外,,僅僅靠自身的實(shí)力開發(fā)文化大模型,都會(huì)很吃力,。在文化大模型開發(fā)應(yīng)用上,“抱團(tuán)取暖”,,“眾人拾柴火焰高”,,依然是共贏的法寶。