亚洲女人性视频_亚洲精品久久久久午夜_国产1区2区三区不卡_久久免费高清视频

探求真理 發展學術 服務社會
歡迎訪問深圳市社會科學網 今天是

理論前沿

理論前沿

大語言模型在民間文獻數據分析中的應用

 日期:2024-09-09   來源:中國社會科學網

  習近平總書記在文化傳承發展座談會上強調:“只有全面深入了解中華文明的歷史,才能更有效地推動中華優秀傳統文化創造性轉化、創新性發展,更有力地推進中國特色社會主義文化建設,建設中華民族現代文明。”優秀傳統文化的文獻載體主要有傳世官方文獻和歷代民間文獻兩種,其中民間文獻是目前人文社會科學研究的熱點領域。在數字人文高度發展的時代背景下,將人工智能技術應用于民間文獻的整理與研究,是人文社科與計算機科學交叉融合的必然趨勢,必將促進兩個領域的協同發展,也為破解民間文獻研究中的“同質化”難題提供新的技術手段。

  民間文獻數據分析的瓶頸

  民間文獻的特點在于分布范圍廣、類型多樣、數量龐大,主要集中在敦煌吐魯番、徽州、福建、清水江、山西等地。其中,敦煌吐魯番文書群中能夠看到大量唐宋時期的契約文書;徽州文書最大的特點在于數量多、跨越年代久遠、延續性好、歸戶性強,徽州文書的數量據安徽大學劉伯山教授估計當在55萬—80萬件左右;福建文書的整理與研究開始于傅衣凌先生的專著與論述,并成為我國學者研究民間契約文書的學術前導,近些年也有井噴式的新發現;清水江文書以錦屏林業契約為主要內容和主要特色,是反映當地林業與苗族、侗族人民生存、發展等社會關系的原始記載,總數也在30萬件以上。

  面對動輒幾十萬件的民間文獻,傳統的研究方法已顯不足,難以高效處理這些十萬、百萬計的數據,使研究陷入了瓶頸期。隨著數字人文的興起,學術界普遍認為引入人工智能、大數據技術是解決此類問題的有效途徑。近年來,迅速崛起的大語言模型應用技術為海量民間文本數據的分析提供了新的可能性。這些技術的應用能夠極大增強民間文獻如契約文書、賬簿、書信及僑批等材料的自動化處理能力。通過對文獻類型進行精確分析和命名,能夠更有效地分類和索引文獻材料。同時,通過文獻要素的提取和數據的量化分析,不僅能夠提升研究效率,還能深化對文獻材料復雜性的理解。在優化文獻保存和整理流程的同時,大語言模型還能夠高效地進行數據處理和內容分析,為民間文獻研究提供強有力的技術支持。

  大語言模型的應用技術與場景

  2022年OpenAI公司發布ChatGPT產品,為生成式人工智能技術的跨越式發展揭開序幕。2023年發布的GPT-4進一步提升了GPT系列模型在語言理解和語言生成方面的能力,該系列產品目前已廣泛應用于文本理解和生成、編程輔助、教育和研究輔助等領域。在開源大模型方面,Meta公司發布的Llama系列模型具有良好的開源生態,支持本地化部署,應用可擴展性強,適用場景靈活多樣,因此被廣泛應用于涉及文本等數據處理的研究領域,開源社區中產生了大量以Llama系列模型為基座、以特定任務數據微調的衍生模型、垂直領域模型。同期國內大語言模型研發也取得了顯著進展,在中文處理方面具有較大優勢,目前較為常用的中文開源模型包括Qwen系列模型、Baichuan系列模型、GLM系列模型等。

  大語言模型常見的應用技術包括提示詞工程、檢索增強生成(RAG)和模型微調等。提示詞工程是與大語言模型有效溝通的技巧和策略,通過合理設計提示詞引導模型生成符合期望的輸出,常用提示詞策略包括明確任務目標、設定角色身份、列出任務步驟、提供參考示例等,可根據不同場景組合使用。檢索增強生成技術將檢索技術加入生成過程中,使用向量數據庫引入外部知識信息,提升生成結果的準確性和豐富性,減少大語言模型“幻覺”的產生,適用于知識庫相關文本生成等場景。模型微調技術是指使用特定任務相關的數據集基于預訓練模型進行再訓練,以增強模型處理特定任務的能力。模型微調技術廣泛應用于各類文本處理任務,可將任務相關的顯性知識和隱性知識灌注到模型當中,打造符合特定場景需求的垂直領域模型。這些技術各具優勢,可適用于不同場景,通過組合使用能夠為文獻數據分析工作提供新工具和新方法。

  大語言模型在文獻處理方面的應用,目前主要包括詞法分析、自動句讀、信息抽取、摘要生成等。詞法分析指自動分詞、詞性標注等任務,是文本分析的基礎工作。大語言模型通過其內化的語言理解能力和豐富的語言知識,為詞法分析提供強大支持。自動句讀是指將連續的文本根據古漢語語法特點和文本語義進行自動切割,經過大量古代語料訓練的大語言模型能夠有效提升古文自動句讀的準確性。信息抽取是指自動提取文本中的關鍵信息,如時間、地點、人物等實體信息抽取,實體間關系抽取,以及基于實體和關系的事件信息抽取等。經過特定數據集訓練的大語言模型可理解任務規則和文本語義,實現信息自動抽取。對文獻進行自動摘要就是進行主題概括、篇幅壓縮及可讀性提升,有助于讀者快速了解古籍的主題內容框架并生成簡潔準確的摘要。

  大語言模型助力民間文獻處理

  在民間文獻研究中,可通過查閱方言文獻、實地走訪相關當事人等方式,把握所獲得的民間文獻的真實含義及語素特性,深入了解文本背后的文化和社會背景,有助于揭示單個文本的核心內涵和文化特征。在此基礎上,可以運用大語言模型應用技術,實現民間文獻如契約文書、賬簿、書信及僑批等材料的自動化批量處理、深層次數據挖掘及關系網絡建構等。具體而言,大語言模型可輔助民間文獻處理完成以下四類任務。

  一是文獻類型分析。利用民間文獻文本數據建立針對分類任務的訓練數據集,對選定的基座模型進行微調,并根據微調結果評估進行參數優化和迭代,訓練出能夠自動識別和分類文獻的語言模型,依據各類民間文獻的特定屬性和內涵,提高分類的系統性和科學性。針對民間文獻的數據集建立規則可進行多級分類,一級分類將民間文獻分為契約文書、賬簿、書信及僑批等;在此基礎上,二級分類則進一步細化,將契約文書按照交易性質、交易時間、交易內容等進行分類。這種分級分類方法不僅有助于系統整理和分析文獻材料,還為后續的深入研究提供了明確的框架和依據。

  二是文獻要素提取。針對已經分析好的類型文書,可進一步建立有針對性的要素提取任務數據集,并進一步微調模型使之具有要素識別能力。通過要素識別模型從文獻中提取核心要素,是提高文獻研究效率和準確性的關鍵步驟。以契約文書為例,可以提取出立契人、標的物、地點、租數、相對人、價款、中禮錢、立契時間、中見人、利率等核心信息。要素提取為后續的量化分析和深入研究奠定了基礎,使得研究者能夠準確、高效地處理大量材料,并獲取所需關鍵信息。

  三是文獻自動命名。為確保民間文獻研究的標準化和一致性,有必要根據文獻的結構和內容特點制定統一的命名規則。在文獻類型分析和要素提取工作的基礎上,可利用大語言模型,依據規則示例批量為每一件民間文獻生成便于檢索、具有高區分度和涵蓋度的名稱和摘要。民間文獻的統一命名不僅提高了文獻管理和檢索的效率,也為相關研究者之間的交流與合作提供了便利。

  四是數據量化分析。除利用大語言模型的基礎文本處理能力外,可進一步利用其數據分析能力和編程輔助能力等其他擴展能力,對提取出的文獻信息進行量化處理和統計分析,揭示文獻材料的分布規律、發展趨勢及其可能的社會影響。例如,建立歸戶民間文獻中核心人物的關系網絡,分析身份關系對交易主體選擇、交易頻率、標的物價值、借貸利率等的影響。應用大語言模型對數以十萬、百萬計的民間文獻進行量化分析,不僅能夠揭示文獻背后的社會經濟規律,還可以全面地展現歷史事件、社會現象的復雜性和多樣性,并為史學研究提供新的視角和方法。

  (作者系中共天津市委黨校網信辦工程師)

亚洲女人性视频_亚洲精品久久久久午夜_国产1区2区三区不卡_久久免费高清视频

        黄色成人在线看| 亚洲欧美日韩精品一区| 最新天堂中文在线| 99中文字幕在线观看| 中文字幕在线观看第三页| a级网站在线观看| 日av中文字幕| 今天免费高清在线观看国语| 搡女人真爽免费午夜网站| 国产一区二区三区在线免费| 国产高清视频网站| 999在线观看视频| 午夜激情视频网| 不卡av免费在线| 大伊香蕉精品视频在线| 亚洲精品中文字幕乱码无线| 俄罗斯av网站| www.国产二区| 亚洲一区二区在线视频观看| av天堂永久资源网| 日本五级黄色片| 五月六月丁香婷婷| 国产小视频精品| 能在线观看的av| 欧美精品在欧美一区二区| 伊人成人222| mm1313亚洲国产精品无码试看| 日韩成人三级视频| 91亚洲一区二区| www.久久久精品| 毛片av免费在线观看| 很污的网站在线观看| 黄色a级在线观看| 五月激情婷婷在线| 日本免费观看网站| 情侣黄网站免费看| 成年人视频网站免费观看| 男人的天堂avav| 国产欧美123| av电影一区二区三区| 超碰人人草人人| 婷婷激情四射五月天| 国产乱子夫妻xx黑人xyx真爽| 日韩人妻无码精品久久久不卡| 色乱码一区二区三区熟女| 污污网站在线观看视频| 污片在线免费看| 艹b视频在线观看| 亚洲xxxx2d动漫1| 九色porny自拍| 国产无色aaa| 国产无色aaa| 一区二区三区四区毛片| 欧美一级xxxx| 天堂av.com| 欧美aaa在线观看| 三级黄色片播放| 日韩精品福利片午夜免费观看| 日韩精品一区二区三区电影| 黄色影视在线观看| 97超碰在线视| 久久国产精品网| 国产极品尤物在线| 欧美黄色一级片视频| 日本999视频| 8x8x成人免费视频| 青娱乐国产精品视频| 欧美做受777cos| 精品少妇人欧美激情在线观看| 亚洲色成人www永久在线观看 | 免费极品av一视觉盛宴| 女人床在线观看| 99er在线视频| 无码人妻精品一区二区三区在线| 精品国产免费av| mm1313亚洲国产精品无码试看| 色噜噜狠狠永久免费| 手机在线视频一区| 日本一级黄视频| 国产欧美在线一区| 天堂视频免费看| 国产成人一二三区| 亚洲午夜精品久久久久久人妖| 另类小说第一页| 手机福利在线视频| www.成年人视频| 六月丁香婷婷激情| 欧美在线aaa| 日韩视频 中文字幕| 久久久久久久中文| 中文av一区二区三区| 午夜久久久久久久久久久| 亚洲熟妇无码另类久久久| 91激情视频在线| 九九久久九九久久| 亚洲五月天综合| 中国一级黄色录像| 99爱视频在线| 永久免费黄色片| 久久久999视频| www.色就是色.com| 国产综合av在线| 亚洲图片 自拍偷拍| 波多野结衣综合网| 老司机久久精品| 777av视频| 午夜精品久久久久久久99热影院| 97干在线视频| 午夜一区二区视频| a在线视频观看| 色乱码一区二区三区熟女| 日本精品一区在线观看| 男女激烈动态图| 天堂社区在线视频| 给我免费播放片在线观看| 天天色天天综合网| 99色精品视频| www.欧美黄色| 亚洲自拍第三页| 国产无套粉嫩白浆内谢的出处| 8x8ⅹ国产精品一区二区二区| 国产激情在线观看视频| 人人妻人人澡人人爽欧美一区 | 自拍一级黄色片| 中文字幕欧美人妻精品一区| 成年在线观看视频| 亚洲色图 在线视频| 成人免费毛片在线观看| 精品亚洲视频在线| 成人黄色一区二区| 日本丰满少妇xxxx| 成人在线免费观看网址| 国产一级片自拍| 欧美丰满熟妇xxxxx| 黄网站欧美内射| 欧美性猛交内射兽交老熟妇| 中文字幕 欧美日韩| 一区二区三区国产免费| 麻豆tv在线播放| av在线免费观看国产| 色乱码一区二区三区熟女| 亚洲视频一二三四| 99热手机在线| 中文字幕乱码人妻综合二区三区| 免费看欧美一级片| 日本xxxxx18| 热这里只有精品| 亚洲精品mv在线观看| 羞羞的视频在线| 亚洲激情在线观看视频| 欧美日韩国产精品激情在线播放| 无码粉嫩虎白一线天在线观看| 在线观看av的网址| 久久久久久久久影视| 99精品视频网站| 国产又粗又硬又长| 亚洲AV无码成人精品一区| 婷婷激情综合五月天| 在线黄色免费看| 亚洲一二三av| 永久免费黄色片| 99热都是精品| 久久男人资源站| 隔壁人妻偷人bd中字| 精品一区二区三区无码视频| 国产av熟女一区二区三区| 成年人网站国产| 久久99中文字幕| 亚洲熟妇av一区二区三区漫画| 干日本少妇首页| 黄色国产小视频| 五月天av在线播放| 亚洲 欧洲 日韩| 91大学生片黄在线观看| 无码 制服 丝袜 国产 另类| 老太脱裤子让老头玩xxxxx| 丝袜老师办公室里做好紧好爽 | 欧美一级小视频| xxx中文字幕| 5月婷婷6月丁香| 免费在线a视频| 别急慢慢来1978如如2| 欧美三级理论片| 国产高清免费在线| 六月婷婷激情综合| www一区二区www免费| 丝袜制服一区二区三区| 91福利免费观看| 久久99国产精品一区| 成人免费性视频| 黄色国产小视频| av在线网站免费观看| 国产中文字幕乱人伦在线观看| 妺妺窝人体色www在线小说| 国内自拍视频一区| 一级做a爱视频| 免费观看国产精品视频| 性欧美videossex精品| 加勒比海盗1在线观看免费国语版| 日本欧美黄色片|