高書生,中央宣傳部文化體制改革和發(fā)展辦公室原一級巡視員、副主任。2003年以來,參與文化體制改革總體文件和配套政策、文化產(chǎn)業(yè)振興規(guī)劃、文化產(chǎn)業(yè)促進法、文化產(chǎn)業(yè)統(tǒng)計標(biāo)準、金融支持文化產(chǎn)業(yè)、文化和科技融合、文化數(shù)字化和文化大數(shù)據(jù)等文件制定,發(fā)表多篇文章,出版《感悟文化改革發(fā)展》、《文化數(shù)字化:關(guān)鍵詞與路線圖》等著作。
演講內(nèi)容正文
(資料圖)
各位學(xué)界朋友,非常高興受邀參加開幕式,今天我就文化數(shù)字化和文化元宇宙跟大家交流。
一、破題——從生產(chǎn)的角度探索文化元宇宙
首先我覺得開幕式的主題很好,“開啟文化元宇宙的新紀元”,我對這個主題的理解是從生產(chǎn)的角度探索文化元宇宙,這個意義非常大。因為目前這個階段我們談到“元宇宙”的時候,應(yīng)該還是在消費層面,但今天這個標(biāo)題是從生產(chǎn)的角度,不管是過去的PGC還是UGC一直到現(xiàn)在的AIGC,都是從不同的生產(chǎn)方式來講的,這一點還是非常有啟發(fā)性的。國家文化數(shù)字化戰(zhàn)略就是從供給側(cè)入手的,我們叫發(fā)力供給側(cè),激活文化資源,推動文化生產(chǎn)體系現(xiàn)代化。
就目前來說,在元宇宙的初級階段,主要還是從消費層面做,也應(yīng)是數(shù)字化文化消費的新場景,而且是數(shù)字化文化體驗的一種形式。但我覺得再往前走,實際上已經(jīng)進入到一個比較高的階段了,實現(xiàn)生產(chǎn)和消費同一,這樣來推動文化元宇宙的發(fā)展會更好一些,這是我對今天開幕式主題的理解。
二、數(shù)據(jù)——數(shù)字化時代的生產(chǎn)要素
現(xiàn)在大家都已經(jīng)認為數(shù)據(jù)是數(shù)字化時代的一個生產(chǎn)要素,但我覺得現(xiàn)在叫“要素”的多,叫“生產(chǎn)要素”的不是太多。
1、數(shù)據(jù)保真:下一步人工智能發(fā)展的充分必要條件
從目前非?;鸬腃hatGPT談起,ChatGPT給我們的啟示有兩點,一個是數(shù)據(jù)如何保真,這個可能是大家非常關(guān)心的問題??赡苁俏夜ぷ鲘徫坏脑?,我們更多還是從管理的角度考慮問題,所以我們在想數(shù)據(jù)的保真可能是下一步人工智能發(fā)展一個非常重要的充分必要條件。如果說數(shù)據(jù)不能做到保真,人工智能發(fā)展的方向可能就會出現(xiàn)一些不應(yīng)有的失誤。
從各種討論文章當(dāng)中大家也都看到了,目前ChatGPT訓(xùn)練的數(shù)據(jù)集來源大體上分為六類,包括維基百科、書籍、期刊、互聯(lián)網(wǎng)的網(wǎng)站等等,訓(xùn)練的數(shù)據(jù)集在GPT-3里面實際上總量應(yīng)該有3000億的詞匯,有1750億的參數(shù),這給我們的觸動是非常大的,如果沒有這樣一個數(shù)據(jù)量訓(xùn)練的話,人工智能發(fā)展確實有很大制約。
這段時間大家都在測試,都是在試新鮮,看看新的聊天機器人水平到底有多高,在這個過程中,可能有些人已經(jīng)提出了一些問題。第一個大家比較關(guān)心的問題就是:互聯(lián)網(wǎng)上的數(shù)據(jù)并不都是準確的,當(dāng)錯誤的數(shù)據(jù)量足夠大的時候,就會導(dǎo)致得出的結(jié)論也是錯誤的。有一個案例是基于GPT-3的醫(yī)療聊天機器人曾經(jīng)建議病人自殺,這可能是個案,但如果個案多的話,就成了普遍性的了,歸根結(jié)底就是數(shù)據(jù)的保真問題。而且現(xiàn)在所有的人工智能模型的學(xué)習(xí)都是基于一些歷史數(shù)據(jù),還有一些社會學(xué)學(xué)者也在研究,有可能這些數(shù)據(jù)當(dāng)中存在不必要的偏見,這種偏見也會導(dǎo)致社會的排斥和歧視。所以說,扣好文化元宇宙第一??圩臃浅V匾?,我認為這是AIGC的充分必要條件,也是開發(fā)人工智能非常重要的條件。
這方面,跟我們現(xiàn)在正在推動實施的國家文化數(shù)字化戰(zhàn)略有相通的地方。也就是這些數(shù)據(jù)集到底從哪里來,不光我們國人,國外也在問,在中文互聯(lián)網(wǎng)的數(shù)據(jù)質(zhì)量堪憂的情況下,我們的數(shù)據(jù)到底應(yīng)該從哪里來?我們認為應(yīng)該從中華民族積淀了五千多年的文化資源中轉(zhuǎn)化而來,這可能是我們下一步應(yīng)該重點考慮的??赡苡腥苏f你這個都是理論的東西,怎么變成現(xiàn)實?
其實在國家文化數(shù)字化戰(zhàn)略當(dāng)中,已經(jīng)提出了非常明確的要求了。我國是文明古國,也是文化資源大國,這些年我們在推動文化數(shù)字化過程中,特別是文化資源數(shù)字化過程中,也積攢了大量的文化資源數(shù)據(jù),這些數(shù)據(jù)大多數(shù)都集中在公共文化機構(gòu)。所以說這次中辦國辦文件當(dāng)中明確提出公共文化機構(gòu)要向社會釋放數(shù)據(jù),要依法向社會公眾開放,讓大家都從這些數(shù)據(jù)當(dāng)中提取具有歷史傳承價值的中華文化元素、符號和標(biāo)識,并把它們轉(zhuǎn)化為文化生產(chǎn)要素,從而就成為文化元宇宙,以及文化創(chuàng)新和創(chuàng)造的文化素材,這在國家文化數(shù)字化戰(zhàn)略當(dāng)中是非常明確的。
具體來說,我們現(xiàn)在數(shù)據(jù)量是非常大的,包括文化館、圖書館、美術(shù)館、博物館。我們尤其關(guān)注的一個點是地方志,地方志的數(shù)據(jù)也是非常珍貴的。根據(jù)中國地方志指導(dǎo)小組統(tǒng)計,到2020年,我們省、市、縣三級的地方志志書已經(jīng)完成了有5000多部,到2020年底公開出版的已經(jīng)有4900多部,同時現(xiàn)在又增加了一些部門志、行業(yè)志和專題志,這個數(shù)量就更大了,有25000多部。
同時像鄉(xiāng)鎮(zhèn)志、村志,還有過去的舊志,應(yīng)該說這個量是非常大的。更重要的是這些年地方志的數(shù)字化已經(jīng)有了一個長足的進展,截止到2019年年底,省、市、縣三級光建成的數(shù)字方志館(數(shù)據(jù)庫)就有100多個,我估計現(xiàn)在會更多,像新華智云說已經(jīng)有25個省、自治區(qū)和直轄市的數(shù)字方志館。我們?yōu)槭裁从玫胤街灸?,因為地方志是中華民族積淀5000年文化資源的底部,如果我們把地方志做通了,可能很多東西都可以做的。
還有就是文化旅游部下面有一個中國民族民間文藝發(fā)展中心,業(yè)內(nèi)人認為這是一個文藝長城工程,大概是從“六五”時期開始做的,花用了三十年時間,動員了三十多萬人的力量,最后收集到民族、民間的文藝資料是非常多的,總量應(yīng)該是在50億漢字左右,包括民歌、民間故事等等?,F(xiàn)在已經(jīng)出了很多書,也在推動進一步的數(shù)字化。還有一些中央新聞單位的數(shù)據(jù)量也是非常大的,例如人民日報、新華社、中央電視臺、中央人民廣播電臺,還有國際臺。我們出版業(yè)的數(shù)據(jù)也非常多,期刊里面有知網(wǎng)、萬方、維普等,圖書領(lǐng)域綜合性的有國家數(shù)字圖書館,還有一些專業(yè)專題性的數(shù)據(jù)庫也非常多。
同時,我們民間的數(shù)據(jù)量也非常大,為什么說是民間的,實際上從1983年、1984年開始,錢鐘書老先生曾經(jīng)開辟了一項事業(yè),就是對中國古典文獻做數(shù)字化,他在世的時候做了17年,去世以后這項工程又持續(xù)了二十多年,他們有個公司叫“掃葉”,現(xiàn)在積累的漢字數(shù)總量在20億左右,其中漢字庫是目前我們看到的最全的。我們知道《康熙字典》最多是4萬多字,現(xiàn)在據(jù)說他們已經(jīng)達到了將近8萬個漢字,收錄了36萬人,比《中國人名大辭典》多出5倍,這里面有作品庫、地名庫,還有一些工具庫、圖片庫、地圖庫等等,這個量也是非常大的。包括我們中華書局也在做相應(yīng)古籍的整理,這個量也是很大的。
再看看有些地市級也在做大量的數(shù)據(jù)庫,包括陜西渭南有一個“兩河一山”文化數(shù)字記憶項目,他們積攢的數(shù)據(jù)庫就有十個,包括重點文物保護、古代的書院、民間傳說、詩詞歌賦、歷史文化名城、名鎮(zhèn)、名村、名人數(shù)據(jù)庫、非遺數(shù)據(jù)庫、古籍目錄數(shù)據(jù)庫、傳統(tǒng)戲曲劇目劇本數(shù)據(jù)庫,還有紅色文化資源數(shù)據(jù)庫,有10個數(shù)據(jù)庫,量還是非常非常大的。所以說,我們現(xiàn)在在推動實施國家文化數(shù)字化戰(zhàn)略過程中的一項重要任務(wù),就是關(guān)聯(lián)形成中華文化數(shù)據(jù)庫,這對整個人工智能的發(fā)展,通過人工智能創(chuàng)造生產(chǎn)更多面向大眾的文化數(shù)字內(nèi)容而言,是一個基礎(chǔ)性的工程。
我們現(xiàn)在講數(shù)據(jù)驅(qū)動,這個數(shù)據(jù)應(yīng)該是具有文化內(nèi)涵的數(shù)據(jù),現(xiàn)在數(shù)據(jù)量非常大,但還沒有去做標(biāo)注、標(biāo)引,那文化內(nèi)涵是體現(xiàn)不出來的。我們過去經(jīng)常說一句話“基礎(chǔ)不牢,地動山搖”,現(xiàn)在我們許多產(chǎn)業(yè)項目、在推廣的很多東西,包括互聯(lián)網(wǎng)大廠在做的一些事,總的感覺是在沙漠上蓋高樓,地基不穩(wěn),什么事都做不大。所以為什么人家說,ChatGPT沒有在中國產(chǎn)生,我覺得這就是因為我們基礎(chǔ)不牢。
2、數(shù)據(jù)標(biāo)注:把數(shù)據(jù)的采集、加工和數(shù)據(jù)服務(wù)變成一種經(jīng)常性的工作
第二個啟示,就是數(shù)據(jù)的標(biāo)注。有專家向ChatGPT提出:“請模仿杜甫寫一首詩”,結(jié)果并不是很理想,因為呈現(xiàn)并不好。有的專家分析,在它的語料庫中沒有對漢語的韻律、字節(jié)做標(biāo)注和訓(xùn)練,這可能是非常重要的原因。我們有了數(shù)據(jù)但不去做標(biāo)注,那人工智能也發(fā)展不起來。對于數(shù)據(jù)的標(biāo)注,我們這次在國家文化數(shù)字化戰(zhàn)略當(dāng)中有了一個明確的要求,就是希望各級各類文化機構(gòu),要把數(shù)據(jù)的采集、加工和數(shù)據(jù)服務(wù)變成一種經(jīng)常性的工作。
數(shù)據(jù)的標(biāo)注主要是從三個方面著手,第一要對數(shù)據(jù)進行分類,我們現(xiàn)在按照聯(lián)合國教科文組織分的六大類別,包括自然和文化遺產(chǎn)、表演和慶?;顒?、視覺藝術(shù)和手工藝、圖書和出版、視聽和互動傳媒、設(shè)計與創(chuàng)意服務(wù)六大類別,然后在這個基礎(chǔ)上,每個類別里都有一些專題的知識圖譜,我們就可以依據(jù)它來做編目。分類和編目,實際上對數(shù)據(jù)定下坐標(biāo)了,最后我們還要對數(shù)據(jù)的特征進行描述,即數(shù)據(jù)的標(biāo)簽化。
在這方面,我們國家這幾年有了長足的進展,例如百度在全國有七個已經(jīng)建成的數(shù)據(jù)標(biāo)注基地,我去看過其中一個在山西太原的基地,當(dāng)時我還沒有什么感覺,去年突然間發(fā)現(xiàn)這是一個非常非常大的產(chǎn)業(yè)。山西太原這個基地是入駐在山西的綜改示范區(qū),到2022年的5月份,辦公面積已經(jīng)超過19000平米,有5000名數(shù)據(jù)標(biāo)注師,有53家代理商入駐,從2018年進駐到2020年5月份,累計的產(chǎn)值已經(jīng)超過5個億,累計培育孵化了41家的數(shù)據(jù)標(biāo)注企業(yè)。
文化領(lǐng)域的里面也有,同時我也參觀了中國知網(wǎng)在太原的數(shù)據(jù)加工基地,他們是對期刊和報紙,包括一些論文做標(biāo)注,而且這個量也是非常大的。剛才我們說太原的百度基地,每年的營收應(yīng)該在1個億左右,中國知網(wǎng)的太原數(shù)字出版數(shù)據(jù)加工基地營收也是在一年1個億左右,這個量也是非常大。因此我們今年就想,在全國建設(shè)國家文化大數(shù)據(jù)標(biāo)識基地,在標(biāo)注的基礎(chǔ)上再賦標(biāo)識符(ISLI碼),使具有文化內(nèi)涵的數(shù)據(jù),真正能夠在國家文化專網(wǎng)互聯(lián)互通,這是一項基礎(chǔ)性工作。
在這兒,我想多解釋幾句,我們用的標(biāo)識是我國提案創(chuàng)建的國際標(biāo)準,叫ISLI,就是國際信息和文獻領(lǐng)域關(guān)聯(lián)標(biāo)識符的國際標(biāo)準。我們現(xiàn)在文化數(shù)字化采用的是標(biāo)識解析,這跟互聯(lián)網(wǎng)的域名解析有很大的區(qū)別。區(qū)別在哪里呢?我們的域名解析是把域名變成了IP地址,用IP尋址的方式來解析。文化數(shù)字化用標(biāo)識解析,用我們國家提案并創(chuàng)建的國際標(biāo)準,為每一個數(shù)據(jù)賦標(biāo)識碼,然后我們自己有一套解析系統(tǒng)。它跟域名解析最大的區(qū)別是,我們標(biāo)注的標(biāo)識碼后面都包含兩個主要內(nèi)容,一個是數(shù)據(jù)的元數(shù)據(jù)信息,一個是數(shù)據(jù)的訪問地址。
這樣的話,這個國際標(biāo)準就發(fā)揮它的四大功能:第一就是標(biāo)識,標(biāo)識編碼由十進制的數(shù)字和三個字段構(gòu)成的;第二用這個碼構(gòu)建數(shù)據(jù)和數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,這一點非常重要,這也是國際信息和文獻領(lǐng)域當(dāng)中唯一一個具有關(guān)聯(lián)功能的國際標(biāo)準;第三就是它的解析功能;第四是鑒權(quán)功能,驗證用戶是不是擁有訪問系統(tǒng)的權(quán)利,也即版權(quán)的認證,這些問題我們?nèi)鉀Q了,在數(shù)字化時代,所有數(shù)據(jù)涉及到的版權(quán)問題,用標(biāo)識解析就可以解決。
這樣就達到了三個目的:第一是數(shù)據(jù)的互聯(lián)互通,因為它有地址和元數(shù)據(jù);第二是數(shù)據(jù)的分布式存儲,現(xiàn)在的文化機構(gòu)最大的問題是擔(dān)心自己的數(shù)據(jù)被別人盜取,所以我們一方面先用了國家文化專網(wǎng),跟互聯(lián)網(wǎng)是物理隔離的,同時我們也采用了標(biāo)識解析,可以實現(xiàn)物理分布、邏輯關(guān)聯(lián),即誰的數(shù)據(jù)還是在誰的服務(wù)器里,或者數(shù)據(jù)中心里面,但是由于它可以互聯(lián)互通,別人知道你有數(shù)據(jù),然后可以進行交易,通過授權(quán)使用用這個數(shù)據(jù)來做加工;最后一個是數(shù)據(jù)的確權(quán),每個數(shù)據(jù)都有唯一的身份證,而且是伴隨著這個數(shù)據(jù)的全生命周期,從采集、加工、生產(chǎn)、交易到最后數(shù)據(jù)的呈現(xiàn)全過程,以及它和其它的數(shù)據(jù)融為一體之后所產(chǎn)生的新的文化數(shù)字內(nèi)容,這個過程中每個數(shù)據(jù)都可溯源,這是標(biāo)識解析解決的非常重要的問題。
最后我想這樣一個標(biāo)識解析,對于文化元宇宙下一步的發(fā)展很有啟發(fā)意義。我們認為文化元宇宙的核心要素就是三個:第一是數(shù)字身份,第二是數(shù)字貨幣,第三是數(shù)字資產(chǎn)。在這個過程中,如果把電視機作為元宇宙的入口,把電視機的機頂盒變成元宇宙的發(fā)射器,用剛才說的國際標(biāo)準的標(biāo)識符作為數(shù)字身份,而且國際注冊機構(gòu)已經(jīng)授權(quán)中國公共關(guān)系協(xié)會文化大數(shù)據(jù)委員會作為中國區(qū)的注冊機構(gòu),ISLI的DRA扮演元宇宙“戶籍警”的角色。
數(shù)據(jù)身份認定之后,給個人機構(gòu)以及對數(shù)據(jù)和內(nèi)容都可以做標(biāo)識,那整個元宇宙發(fā)展的“底座”就有了,不會像過去那樣先發(fā)展后治理的模式。在這個基礎(chǔ)上,我們就可以發(fā)展一種主權(quán)鏈。在中辦國辦文件里面明確提出推動標(biāo)識解析與區(qū)塊鏈、大數(shù)據(jù)等技術(shù)融合發(fā)展,在這個基礎(chǔ)上依托我國主導(dǎo)的國際標(biāo)準,它的手段就是依托國家文化大數(shù)據(jù)標(biāo)識注冊中心,實現(xiàn)這個標(biāo)識解析體系和當(dāng)下在發(fā)展的各種聯(lián)盟鏈對接。用這樣一套系統(tǒng),給各個基于區(qū)塊鏈的聯(lián)盟鏈做背書,也就是說我們可以扮演一種公鏈的角色,從而推動整個區(qū)塊鏈技術(shù)向前一步。
最后我建議我們在研究過程中,對文化元宇宙還是要考慮它的治理成本,千萬不能再重蹈互聯(lián)網(wǎng)“先發(fā)展、后治理”的覆轍,成本太高了。
?
責(zé)任編輯:李楠
分享到:版權(quán)聲明:凡注明來源“流媒體網(wǎng)”的文章,版權(quán)均屬流媒體網(wǎng)所有,轉(zhuǎn)載需注明出處。非本站出處的文章為轉(zhuǎn)載,觀點供業(yè)內(nèi)參考,不代表本站觀點。文中圖片均來源于網(wǎng)絡(luò)收集整理,僅供學(xué)習(xí)交流,版權(quán)歸原作者所有。如涉及侵權(quán),請及時聯(lián)系我們刪除!關(guān)鍵詞: 人工智能 國際標(biāo)準 文化資源