本報訊 11月15—16日,第二屆語言資源與計算人文學(xué)術(shù)研討會在華中科技大學(xué)召開。來自全國多所高校和科研機構(gòu)的近百位專家學(xué)者,圍繞語言資源建設(shè)與人文計算方法創(chuàng)新等議題展開深入探討。
會議內(nèi)容涵蓋特邀報告、主旨報告、分組論壇、工作坊、期刊論壇及海報展示等多個環(huán)節(jié),以四場工作坊拉開序幕。中國社會科學(xué)院民族學(xué)與人類學(xué)研究所研究員龍從軍、華中科技大學(xué)唐旭日教授與劉道煥博士、南京農(nóng)業(yè)大學(xué)博士研究生劉暢與碩士研究生楊帆、華中師范大學(xué)副教授沈威,分別就多民族語言數(shù)據(jù)處理、弗思搭配應(yīng)用、古籍智能體設(shè)計和提示詞工程等主題,進行系統(tǒng)講解和實踐演示。
推動多學(xué)科深度融合
在主旨報告和特邀報告環(huán)節(jié),多位專家學(xué)者分享了最新觀點與研究成果。
香港理工大學(xué)教授黃居仁從回顧數(shù)字人文學(xué)的核心定義切入,強調(diào)當(dāng)代人文學(xué)研究必須回應(yīng)當(dāng)代問題。他表示,語言文字在傳承中扮演關(guān)鍵角色——它既是知識的表達系統(tǒng),也是知識能跨時代延續(xù)的根本媒介;各種語言均承載具身感知的維度,并且深植于文化與經(jīng)驗之中。他介紹了傳統(tǒng)生態(tài)知識保存的關(guān)鍵性,提出關(guān)鍵挑戰(zhàn)在于如何從古籍、典籍中提取可服務(wù)當(dāng)代科學(xué)研究的數(shù)據(jù)點與信息結(jié)構(gòu);結(jié)合其團隊在《廣群芳譜》《山海經(jīng)》的知識圖譜構(gòu)建等項目中的經(jīng)驗,展現(xiàn)了大語言模型在語言資源建設(shè)方面帶來的效率躍遷。
中國社會科學(xué)院民族學(xué)與人類學(xué)研究所教授黃行的報告以《中國語言文字概況》為核心框架,系統(tǒng)介紹了中國語言國情與語言資源的基本面貌,回顧了傳統(tǒng)與新創(chuàng)少數(shù)民族文字的形成路徑,梳理了我國文字類型的多元構(gòu)成。報告還解讀了國家在新時代語言文字工作中的政策部署,包括推廣國家通用語言文字、保護語言資源、加強民族語文教育、推動語言信息化與標(biāo)準(zhǔn)化建設(shè)、傳承優(yōu)秀語言文化以及提升中文的國際影響力。
華中科技大學(xué)外國語學(xué)院教授唐旭日以“言語迷霧”為喻,提出語言作為一個復(fù)雜適應(yīng)系統(tǒng),其研究面臨復(fù)雜性挑戰(zhàn),隱喻現(xiàn)象更是其復(fù)雜性的典型表現(xiàn)。他系統(tǒng)闡述了“動態(tài)隱喻論”,主張從語言使用出發(fā),將隱喻視為一種由個體交互推動、在頻繁使用中逐步固化的涌現(xiàn)結(jié)構(gòu),并結(jié)合復(fù)雜系統(tǒng)科學(xué)、大規(guī)模語料與機器學(xué)習(xí)方法,為破解隱喻共時復(fù)雜性與歷時演化機制提供了新的理論與路徑。
內(nèi)蒙古師范大學(xué)研究員白雙成介紹,清代蒙古文滿文檔案是研究國家治理、旗務(wù)與軍政制度的核心資料,也是多民族交往交流交融與多語種并存歷史的原始證據(jù),現(xiàn)存著錄約120萬卷。他強調(diào),這些檔案與大語言模型和數(shù)字人文的結(jié)合意義重大:其復(fù)雜的手寫體是OCR、機器翻譯等NLP技術(shù)的天然“試驗場”;檔案中富含的實體信息適合構(gòu)建知識圖譜,并可作為新模型的測試語料,從而推動多學(xué)科深度融合。
提升語言文字?jǐn)?shù)字化能力
中國社會科學(xué)院民族學(xué)與人類學(xué)研究所副研究員安波提出,應(yīng)構(gòu)建一個面向?qū)W者與政策部門的多模態(tài)民族領(lǐng)域知識服務(wù)平臺,利用大模型驅(qū)動技術(shù),實現(xiàn)多源異質(zhì)數(shù)據(jù)的統(tǒng)一加工、關(guān)聯(lián)挖掘與跨模態(tài)知識重構(gòu)。他強調(diào),多模態(tài)大模型不僅提升民族研究的數(shù)據(jù)能力和知識生產(chǎn)方式,也為政策咨詢和文化保護提供智能化支撐,推動民族學(xué)、人類學(xué)在人工智能時代實現(xiàn)方法創(chuàng)新與范式升級。
中國科學(xué)院軟件研究所高級工程師劉匯丹系統(tǒng)梳理了當(dāng)前數(shù)字環(huán)境中漢字信息處理的關(guān)鍵挑戰(zhàn),提出在實際應(yīng)用中,生僻字難以錄入、顯示錯誤、多音字處理不一致、繁簡轉(zhuǎn)換受政策差異影響等問題普遍存在,并且有部分人名、地名用字及古文字、少數(shù)民族文字仍未被完整收錄。為此,中國科學(xué)院軟件研究所正在推進漢字生僻字處理平臺、語音合成、多民族文字輸入法和Unicode國際標(biāo)準(zhǔn)提案等工作,以提升語言文字的數(shù)字化能力。
新疆大學(xué)教授馮志偉從語言規(guī)劃的理論淵源出發(fā),提出傳統(tǒng)的“地位規(guī)劃”和“本體規(guī)劃”難以滿足當(dāng)下語言技術(shù)快速發(fā)展需求,必須將“語言文字的資源規(guī)劃”提升為第三類核心規(guī)劃。報告回顧了語言規(guī)劃的社會性、權(quán)威性、交際目的性、長期性、實踐性和數(shù)據(jù)導(dǎo)向性等特征,強調(diào)語言數(shù)據(jù)已成為國家信息資源和科技競爭的基礎(chǔ)。面對語言資源的高速增長與全球競爭加劇,報告提出四項規(guī)劃重點:加強大語言模型對齊、加快中文語言資源建設(shè)、完善語言數(shù)據(jù)的知識產(chǎn)權(quán)制度、強化低資源語言建設(shè)。
南京師范大學(xué)教授李斌深入剖析了大數(shù)據(jù)如何推動語言研究從傳統(tǒng)定性分析向定量建模轉(zhuǎn)型,強調(diào)實證方法在破解語言復(fù)雜規(guī)律中的核心作用。李斌提出,當(dāng)前計算語言學(xué)已在三大關(guān)鍵領(lǐng)域?qū)崿F(xiàn)重要突破:一是超大規(guī)模真實語言材料帶來的數(shù)據(jù)突破,二是超大規(guī)模集群服務(wù)器與超算中心提供的算力支撐,三是機器學(xué)習(xí)模型在海量樣本學(xué)習(xí)、多值分類與神經(jīng)網(wǎng)絡(luò)等方面取得的技術(shù)進展。這些突破共同構(gòu)成語言研究的新范式,為揭示語言本質(zhì)、推動人工智能與語言學(xué)的交叉創(chuàng)新開辟了新路徑,為語言資源建設(shè)與計算人文研究拓展了廣闊前景。
推動數(shù)字人文產(chǎn)業(yè)生態(tài)構(gòu)建
中國傳媒大學(xué)副教授王璐璐表示,當(dāng)前,教師對大模型的使用能力有限、通用模型產(chǎn)出的語法教學(xué)資源質(zhì)量不穩(wěn)、文化語境與語法等級匹配度不足。為應(yīng)對這些挑戰(zhàn),團隊通過教師訪談與課堂實踐調(diào)研總結(jié)需求,并基于提示工程,構(gòu)建適用漢語語法教學(xué)的提示方案體系,設(shè)計了語法教學(xué)提示庫與“靈犀”提示平臺,支持教師一鍵調(diào)用、個性化生成教學(xué)資源,為國際中文教育提供了可擴展的智能輔助工具。
北京師范大學(xué)副教授胡韌奮介紹了她與學(xué)生團隊圍繞大模型高階智能展開的三項深入評測。在多輪對話能力方面,通過設(shè)計模擬用戶、設(shè)計話輪,揭示模型在應(yīng)對復(fù)雜對話情境時存在的問題;在創(chuàng)造力方面,通過測量模型在語義聯(lián)想上的多樣性與關(guān)聯(lián)性,發(fā)現(xiàn)模型在原創(chuàng)性與認(rèn)知靈活性方面仍存在明顯局限;在大模型的具身語義表征評測上,發(fā)現(xiàn)多模態(tài)模型對比純文本模型并無顯著效果提升。她強調(diào),大模型的評測體系需更關(guān)注真實語境中的認(rèn)知機制、情境理解與人機互信,以推動大模型向更加穩(wěn)健、可信、可解釋的方向發(fā)展。
中華書局古聯(lián)公司總編輯朱翠萍從產(chǎn)學(xué)研協(xié)同視角切入,展示了中華書局?jǐn)?shù)字化智能化轉(zhuǎn)型的最新成果與合作模式。中華書局通過共建實驗室、專題數(shù)據(jù)庫、教材開發(fā)、科研平臺與人才共育機制,與多所高校形成“數(shù)據(jù)—技術(shù)—人才—應(yīng)用”全鏈條協(xié)同,推動數(shù)字人文從學(xué)科建設(shè)邁向產(chǎn)業(yè)生態(tài)構(gòu)建。朱翠萍強調(diào),出版機構(gòu)與學(xué)術(shù)界應(yīng)共同探索文化資源的深度加工與智能再生,實現(xiàn)傳統(tǒng)文化的現(xiàn)代傳播與創(chuàng)新表達。
澳門大學(xué)教授袁毓林認(rèn)為,所謂的“語言第一性原理”,無法為打造小而美的低資源語言模型提供理論支持。其報告針對當(dāng)前大模型發(fā)展中存在的資源消耗大、場景適配性不足等問題,結(jié)合語言第一性原理與普遍語法理論,論證小型化、輕量化語言模型的構(gòu)建邏輯與應(yīng)用價值,為特定領(lǐng)域語言模型研發(fā)提供新方向。
會議期間,專家學(xué)者還圍繞大模型與語言資源建設(shè)、計算人文方法與應(yīng)用、古籍?dāng)?shù)字化與智能處理等議題展開分組討論。
會議由中國民族語言學(xué)會語言資源與計算人文專委會主辦,華中科技大學(xué)外國語學(xué)院承辦,中國社會科學(xué)院民族學(xué)與人類學(xué)研究所民族語言文化行為實驗研究室等單位共同協(xié)辦。
?。ㄖ鬓k方/供稿)