国产成人精品a有声小说,在线观看亚洲网站,91最新地址永久入口,欧美精品国产第一区二区

            中國西藏網(wǎng) > 即時(shí)新聞 > 時(shí)政

            數字化為古籍研究帶來(lái)怎樣的“蝶變”

            發(fā)布時(shí)間:2022-04-13 10:00:00來(lái)源: 光明網(wǎng)-《光明日報》

              光明日報記者 韓寒

              數字與古籍,以前像兩條涇渭分明的河流。

              當它們相遇后,能產(chǎn)生怎樣的效能和反應?

              循著(zhù)新近出臺的《關(guān)于推進(jìn)新時(shí)代古籍工作的意見(jiàn)》所提出的“推進(jìn)古籍數字化”“積極開(kāi)展古籍文本結構化、知識體系化、利用智能化的研究和實(shí)踐”等要求,記者采訪(fǎng)了國內從事古籍智能化研究的學(xué)者,探一探數字化能給古籍保護與研究帶來(lái)怎樣的“蝶變”。

              沉寂的典籍,動(dòng)起來(lái)了

              一幅橫向流動(dòng)的《千里江山圖》上,標注了“涑水”“濂溪”“玉山”等若干個(gè)古地名。數百個(gè)衣袂飄飄的儒生,正在圖上緩緩挪動(dòng),像是在“趕路”。他們從一個(gè)地方挪到另一個(gè)地方的行程,代表著(zhù)他們的求學(xué)歷程和所屬學(xué)派。

              這是北京大學(xué)人工智能專(zhuān)業(yè)學(xué)生馬源和她的同學(xué)們向首屆“北京大學(xué)數字人文作品展”所提交的展品——用JavaScript完成的H5習作,取名為“宋元學(xué)案傳承可視化系統”。

              “像《宋元學(xué)案》這樣的大部頭古籍,離我們的時(shí)代太遙遠了。如果不是做專(zhuān)業(yè)研究的學(xué)者,可能根本想不起來(lái)要翻閱它。我們想通過(guò)這種像游戲界面一樣的形態(tài),吸引年輕人了解古籍。”馬源說(shuō)。

              展覽現場(chǎng),同樣能帶來(lái)“躍動(dòng)”感的,是北京大學(xué)中國古代史研究中心副主任史睿指導桑宇辰等同學(xué)制作的“朱子年譜可視化系統”,它利用GIS(地理信息系統)技術(shù),對《朱熹年譜長(cháng)編》進(jìn)行了時(shí)空的可視化呈現,讀者能自主點(diǎn)擊、了解朱熹求學(xué)、游歷、交友的生平。

              數字技術(shù)甚至賦予古籍研究人文學(xué)科的能力,遠不止讓它們像游戲一樣動(dòng)起來(lái)。

              “數字人文代表著(zhù)智能信息環(huán)境下,人文社會(huì )科學(xué)研究范式的轉型,從傳統的文本驅動(dòng)向數據驅動(dòng)轉型。人文研究的材料,如文獻、圖錄、器物等,都可轉化成某種形態(tài)的數據,從而使得大數據和人工智能技術(shù)也能處理它們。視覺(jué)化只是數字人文帶來(lái)的附帶效應,讓人易于理解學(xué)術(shù)成果。而其深層邏輯,是研究范式的變化。”北京大學(xué)數字人文研究中心主任王軍教授告訴記者。

              展覽現場(chǎng)有他指導的博士生王林旭對《宋元學(xué)案》《明儒學(xué)案》《清儒學(xué)案》所做的數據挖掘成果展示——

              “學(xué)術(shù)關(guān)系網(wǎng)絡(luò )圖”,用正則表達式對《宋元學(xué)案》和《清儒學(xué)案》進(jìn)行人物關(guān)系統計,共有“弟子”“家學(xué)”“私淑”“同調”“學(xué)侶”“講友”“交游”“從游”“其他”9種類(lèi)型,出現頻次一目了然。

              “通過(guò)知識圖譜的重構,古籍不再是一座座文字的大山,古文里的內在結構和語(yǔ)義關(guān)系能在短時(shí)間內被清晰的抽繹和展示出來(lái)。”王軍說(shuō)。

              除了中國古籍能“數”讀,國外的古籍能“數”讀嗎?

              答案是肯定的。

              在北京大學(xué)外國語(yǔ)學(xué)院西葡意語(yǔ)系教師成沫對意大利詩(shī)人但丁進(jìn)行的數字化研究項目中,《神曲》中重復頻率最高的三行詩(shī)韻律結構valle(山谷)、spalle(肩膀)、calle(小道)被精準地提煉了出來(lái)。

              不僅是“讀取”,還要能“演繹”

              過(guò)去的典籍研究,主要靠大師。

              大師在大量閱讀文獻的基礎上,靠一己的記憶與思辨能力,產(chǎn)出具有思想性的研究成果,再訴諸筆端,以文字的形態(tài)傳遞給大眾。

              機器智能輔助下的典籍研究,則是以數據為基礎的。在機器智能的介入下,學(xué)者能獲得瞬間處理海量資料的能力,王軍分析。

              清華大學(xué)中文系教授劉石和首都師范大學(xué)中國詩(shī)歌研究中心專(zhuān)職研究員尹小林發(fā)表的一篇文章,對先秦到清代的百部經(jīng)典古籍做了大數據分析,發(fā)現頗豐。如果依賴(lài)于人工統計,這樣的成果是難以在短時(shí)期內產(chǎn)生的。數字帶給經(jīng)典典籍研究的變化之一,是效率的提升。

              “在詩(shī)歌研究領(lǐng)域,前輩學(xué)者主要通過(guò)例證,來(lái)進(jìn)行分析和總結中國古典詩(shī)詞的聲律。后來(lái)出現了手工標注統計和基于大量詩(shī)詞的定量分析統計。然而這些研究結論都來(lái)源于人工統計,單項研究的耗時(shí)長(cháng)。”北京大學(xué)中文系教授杜曉勤回顧道。

              有沒(méi)有一個(gè)軟件,能“一鍵”就準確標注所有中國古典詩(shī)詞的聲律格式和合律程度呢?

              從2004年起,杜曉勤等開(kāi)始建設中國古代音韻數據庫和中國古代詩(shī)歌文本數據庫,共錄入1萬(wàn)多個(gè)漢字的音韻和900多萬(wàn)字的詩(shī)歌。在此基礎上,他們研發(fā)了“中國古典詩(shī)歌聲律分析系統”。這個(gè)系統,能快速、大批量標記與統計分析中國古典詩(shī)歌的聲律。

              利用這個(gè)系統,杜曉勤撰寫(xiě)了《齊梁詩(shī)歌向盛唐詩(shī)歌的嬗變》《六朝聲律與唐詩(shī)體格》等多部專(zhuān)著(zhù),刊發(fā)了多篇論文。

              在古籍數字化領(lǐng)域耕耘多年,王軍想做的不僅僅是對古籍進(jìn)行單向度的知識抽取和信息集成。

              他指導唐雪梅、嚴承希等博士生研發(fā)的古籍自動(dòng)整理系統,通過(guò)對算法的深度學(xué)習和大規模語(yǔ)料訓練,能對古籍的句讀和人名、地名、職官、書(shū)名、時(shí)間五類(lèi)實(shí)體進(jìn)行自動(dòng)標記。其中句讀平均準確率達94%,命名實(shí)體識別在史料上的準確率達98%。

              “智能技術(shù)支持下的古典文獻研究,是未來(lái)古籍研究的重要方向之一。”王軍說(shuō)。

               人文學(xué)科新氣象的“薪火”,從這里誕生

              “昨夜星辰昨夜風(fēng),千秋靈會(huì )此宵同。一枝月桂和煙秀,人在瓊樓玉宇中。”在一次公開(kāi)演講中,清華大學(xué)計算機科學(xué)與技術(shù)系教授孫茂松向聽(tīng)眾展示了一首詩(shī)。

              “你們能看出,這是一首從4篇古詩(shī)里摘錄句子組成的集句詩(shī)嗎?關(guān)鍵是,能看出這是機器人創(chuàng )作的嗎?”孫茂松問(wèn)。

              通過(guò)算法和深度學(xué)習,人工智能已經(jīng)能媲美人類(lèi)進(jìn)行攝影、畫(huà)畫(huà)、作曲、寫(xiě)詩(shī)。

              創(chuàng )造性,這一人類(lèi)所獨有的領(lǐng)域,正逐步被機器介入,由此也產(chǎn)生了一些倫理問(wèn)題——例如,機器通過(guò)習得而非人類(lèi)在感情充沛時(shí)產(chǎn)生的創(chuàng )造物,能被稱(chēng)為“藝術(shù)”嗎?

              同樣的問(wèn)題,也易產(chǎn)生在人工智能賦能后的人文學(xué)術(shù)研究領(lǐng)域。

              機器介入各類(lèi)古籍研究后產(chǎn)生的結果,如各類(lèi)統計數據、可視化“圖譜”或者“頁(yè)面”,能被認定為具有思想性的人文研究成果嗎?如果能,怎樣量化它們的學(xué)術(shù)價(jià)值?

              “這些應該也算作成果的一種形式。在各個(gè)學(xué)界,對數據集的重視都在日益增強,以古籍研究為基礎的史學(xué)、文學(xué)等人文學(xué)科不應輕視,而且要更加重視。而可視化本身,一方面可以幫助學(xué)者獲得更多洞見(jiàn),另一方面也能更好地向大眾進(jìn)行傳播。有一些方式,是傳統手段難以達到的,是人文學(xué)科新氣象的‘薪火’,需要保護好。”北京大學(xué)智能學(xué)院教授袁曉如這樣回答記者的疑問(wèn)。

              “無(wú)論是可視化成果本身,還是成果產(chǎn)生的傳播效應,都是可以計量的。當然,雖然數據驅動(dòng)將智能技術(shù)引入了人文學(xué)科,但是數據的使用和意義的闡釋?zhuān)€是需要人文學(xué)者的介入和指導。”王軍說(shuō)。

              新近出臺的《關(guān)于推進(jìn)新時(shí)代古籍工作的意見(jiàn)》要求,“加強古籍數據流通和協(xié)同管理,實(shí)現古籍數字化資源匯聚共享”“支持古籍數字化重點(diǎn)單位做強做優(yōu),加強古籍數字化資源管理和開(kāi)放共享”。

              這背后,有著(zhù)怎樣的原因?

              “因為古籍智能化及以其為基礎的人文學(xué)術(shù)研究需要大量的資金投入。計算工具平臺、數據資源、技術(shù)服務(wù)團隊等,都需要投入。然而,每個(gè)研究機構的資金實(shí)力是不一致的。傳統依靠一兩位學(xué)者皓首窮經(jīng)就能產(chǎn)生大量成果的研究方法,在數字化時(shí)代可能不適用了。為了彌補資金投入差別造成的學(xué)術(shù)鴻溝,就有必要加強共享。”王軍談道。

              “北京大學(xué)可以肩負起建設國家基礎設施的任務(wù),同時(shí)也將這些設施對外分享,幫助偏遠地區或者學(xué)術(shù)資源不足的地方開(kāi)展研究。”袁曉如說(shuō)。

              古籍數字化保護與利用的新樂(lè )章,已經(jīng)奏響了。

            (責編: 李雨潼)

            版權聲明:凡注明“來(lái)源:中國西藏網(wǎng)”或“中國西藏網(wǎng)文”的所有作品,版權歸高原(北京)文化傳播有限公司。任何媒體轉載、摘編、引用,須注明來(lái)源中國西藏網(wǎng)和署著(zhù)作者名,否則將追究相關(guān)法律責任。