基于大數(shù)據(jù)的區(qū)域國別研究創(chuàng)新
日期:2024-10-31 來源:中國社會科學(xué)網(wǎng)
大數(shù)據(jù)是互聯(lián)網(wǎng)技術(shù)發(fā)展的產(chǎn)物。大數(shù)據(jù)的特點通常被概括為“5V”,即體量大(Volume)、速度快(Velocity)、種類多(Variety)、價值高(Value)和有效性(Validity)。大數(shù)據(jù)兼顧了樣本數(shù)和維度數(shù),是大樣本和多維度變量的結(jié)合。因此,對其使用和研究,需要采用新的方法,如社會網(wǎng)絡(luò)分析、數(shù)據(jù)可視化分析、空間數(shù)據(jù)分析等。這些方法不同于傳統(tǒng)的研究方法,將給區(qū)域國別研究帶來新的變化和發(fā)展。
大數(shù)據(jù)的分類
對世界范圍內(nèi)不同國家和組織進(jìn)行研究的資料,是一種海量的大數(shù)據(jù)。這些大數(shù)據(jù)大致可分為兩類。
一類是靜態(tài)的數(shù)據(jù)(庫),傳統(tǒng)意義上的數(shù)據(jù)庫多可歸于此類。在學(xué)術(shù)研究進(jìn)入計算機(jī)時代后,數(shù)據(jù)資料方面發(fā)生的首要變化是紙質(zhì)資料的電子化,即通過掃描的方式將圖書、期刊等資料變成電子化資源,但這種圖片化的資料一般無法進(jìn)行檢索。其次是紙質(zhì)資料的數(shù)字化,即在掃描的基礎(chǔ)上,加入了文本識別,因而可以對資料的內(nèi)容進(jìn)行檢索,對數(shù)據(jù)資源的使用效率也會提高很多。將這些原始資料進(jìn)行系統(tǒng)化、條理化整理后就形成了數(shù)據(jù)庫,目前市面上常見的商業(yè)數(shù)據(jù)庫和開源數(shù)據(jù)庫多是此類,可稱之為1.0版數(shù)據(jù)庫。
就區(qū)域國別研究的主題而言,目前規(guī)模較大的靜態(tài)數(shù)據(jù)庫是社會科學(xué)文獻(xiàn)出版社開發(fā)的“國別區(qū)域與全球治理數(shù)據(jù)平臺”(CRGG),該平臺的原型是《列國志》系列叢書及在此基礎(chǔ)上開發(fā)的電子資源,圍繞國別、區(qū)域、國際組織等領(lǐng)域,全方位整合基礎(chǔ)信息、一手資料、科研成果。除了綜合性的數(shù)據(jù)庫資源,一些國內(nèi)高校和科研機(jī)構(gòu)也開發(fā)了專題性的數(shù)據(jù)庫,如復(fù)旦大學(xué)美國研究中心的“美國研究信息系統(tǒng)”(ASIS),該數(shù)據(jù)庫致力于建設(shè)一個美國研究的公共服務(wù)平臺,在為專業(yè)研究人員提供深度信息的同時,也成為普通民眾了解美國的一個窗口。
外文的區(qū)域國別研究類數(shù)據(jù)庫,全球范圍內(nèi)規(guī)模較大的有美國圣智(Cengage)旗下的參考文獻(xiàn)出版商Gale數(shù)據(jù)出版集團(tuán),它擁有數(shù)百個在線數(shù)據(jù)庫,其中與區(qū)域國別研究相關(guān)的有美國《國家地理》虛擬圖書館、史密森學(xué)會美國歷史原始資料庫等。外文專題數(shù)據(jù)庫較有代表性的美國東方觀察信息服務(wù)公司開發(fā)的《俄羅斯大全》,是迄今為止全球最大的收錄俄羅斯學(xué)術(shù)資源的數(shù)據(jù)庫。
另一類新型大數(shù)據(jù)是動態(tài)的數(shù)據(jù)平臺,也可稱之為2.0版數(shù)據(jù)庫。它是在傳統(tǒng)靜態(tài)數(shù)據(jù)資料的基礎(chǔ)上,加上動態(tài)追蹤研究對象國和地區(qū)的網(wǎng)站、媒體、資訊、論壇等開源渠道數(shù)據(jù),利用數(shù)據(jù)挖掘技術(shù)等手段,實時采集、定期采集、重點板塊高頻率采集等獲得的大數(shù)據(jù)。這些數(shù)據(jù)不僅可以實時更新,而且可以存儲下來,幫助研究者掌握研究對象國和地區(qū)的最新情況,而這正是區(qū)域國別研究的一個重要方面。
目前較有代表性的是廣西大學(xué)中國—東盟信息港大數(shù)據(jù)研究院開發(fā)的“中國—東盟大數(shù)據(jù)”平臺,該平臺圍繞中國—東盟信息港建設(shè)目標(biāo),整合政府、高校、科研機(jī)構(gòu)及企業(yè)等多方資源,充分利用云計算、物聯(lián)網(wǎng)、大數(shù)據(jù)等新一代信息技術(shù),力圖全方位、多角度呈現(xiàn)東盟國家政治、經(jīng)濟(jì)、軍事、教育、文化等方面的資訊,提供最新輿情追蹤,為用戶提供嚴(yán)謹(jǐn)、翔實的數(shù)據(jù)資料,為政府決策、企業(yè)投資提供高效的決策參考。
此外,教育部下屬的多個區(qū)域國別研究備案中心也正在建設(shè)類似的區(qū)域國別研究數(shù)字化平臺,如蘭州大學(xué)的“文明互鑒與‘一帶一路’大數(shù)據(jù)平臺”、四川外國語大學(xué)的“區(qū)域國別研究數(shù)字化綜合平臺”等。這些新型區(qū)域國別研究大數(shù)據(jù)平臺的開發(fā)與利用,將會促進(jìn)中國區(qū)域國別研究整體水平的提升。
大數(shù)據(jù)的應(yīng)用方式
大數(shù)據(jù)的廣泛應(yīng)用可以為高質(zhì)量開展區(qū)域國別研究創(chuàng)造便利條件。由于大數(shù)據(jù)有著不同于傳統(tǒng)數(shù)據(jù)資料的特征,因此,對其應(yīng)用和研究需要采用一些新的方法。
一是社會網(wǎng)絡(luò)分析。區(qū)域國別研究的一個重要方面,是對各國重要政治人物的分析,而分析政治人物,考察其社會網(wǎng)絡(luò)則是一種重要途徑。社會網(wǎng)絡(luò)分析是一種研究人際關(guān)系和社會網(wǎng)絡(luò)的方法,主要通過數(shù)據(jù)可視化工具建立網(wǎng)絡(luò)圖來表示個體、組織和社會之間的聯(lián)系。進(jìn)入網(wǎng)絡(luò)時代以后,社交媒體的用戶在應(yīng)用程序上產(chǎn)生了巨量數(shù)據(jù),包括用戶的地理位置、發(fā)布內(nèi)容、時間等信息。這些數(shù)據(jù)可以用來分析特定地理位置或不同社交媒體平臺里特定的事件,展示用戶在社交媒體上的活動。透過社會網(wǎng)絡(luò)分析,可以揭示組織和個體之間的互動方式、信息傳播路徑和影響力等信息,從而更好地了解人與人之間的關(guān)系。這就為區(qū)域國別研究中的人物分析提供了重要渠道。
二是文本數(shù)據(jù)分析。區(qū)域國別研究中還存在大量的文本材料。基于大數(shù)據(jù)的文本分析技術(shù)是一種對海量文本數(shù)據(jù)進(jìn)行自動化挖掘和分析的技術(shù)。它通過數(shù)據(jù)統(tǒng)計分析軟件,采取數(shù)據(jù)搜集、分詞、數(shù)據(jù)清洗、特征提取以及建模和其他分析等步驟,對文本進(jìn)行可視化(詞云分析)、情感分析、聚類分析、社會網(wǎng)絡(luò)分析等應(yīng)用,以幫助研究者更好地理解文本數(shù)據(jù)和信息,從而加深對區(qū)域國別問題的認(rèn)知。
三是大數(shù)據(jù)可視化。區(qū)域國別研究會涉及海量的數(shù)據(jù)。大數(shù)據(jù)可視化是一種將大數(shù)據(jù)呈現(xiàn)為可視化形式的技術(shù)和方法。通過將大數(shù)據(jù)轉(zhuǎn)化為圖表、圖形、地圖等可視化元素,使得數(shù)據(jù)更加直觀、易于理解和分析,從而使得人們能夠更好地利用大數(shù)據(jù)為決策和判斷提供支持。
在區(qū)域國別研究中,除了以上三種常見的大數(shù)據(jù)處理方法之外,還有地理信息系統(tǒng)、兵棋推演等大數(shù)據(jù)的應(yīng)用方式,在專門領(lǐng)域也可以做出好的研究成果。
大數(shù)據(jù)的使用案例
大數(shù)據(jù)的出現(xiàn)和應(yīng)用不僅促使區(qū)域國別研究的對象從國家和體系層次擴(kuò)展至個體層次,還將研究的領(lǐng)域從宏觀擴(kuò)展至微觀。在大數(shù)據(jù)時代,研究者不僅可以從靜態(tài)的數(shù)據(jù)庫中獲取區(qū)域國別研究的海量信息,而且可以利用各種大數(shù)據(jù)處理軟件工具,從網(wǎng)絡(luò)中快速挖掘可用于區(qū)域國別研究的個人數(shù)據(jù),從而擴(kuò)展研究的范圍和深度。
案例一:海南大學(xué)“一帶一路”國際數(shù)據(jù)與輿論研究中心通過關(guān)注具有國際影響力人物的社交媒體賬號,運用機(jī)器學(xué)習(xí)模型分析其與關(guān)注者的發(fā)文情況,初步判斷兩者之間的相互影響狀況。
案例二:北京大學(xué)可視化與可視分析實驗室通過可視化推文對相關(guān)國家領(lǐng)導(dǎo)人的個人行為進(jìn)行分析。社交媒體作為一個分享、交流、傳播平臺,尤其是一些國家領(lǐng)導(dǎo)人,發(fā)文的數(shù)量非常可觀,從而形成一個可供觀察和研究的文本資料。通過挖掘這些文本,可以大致刻畫出用戶的行為特征。
案例三:清華大學(xué)國際關(guān)系研究團(tuán)隊使用“事件數(shù)據(jù)分析法”大數(shù)據(jù)來分析國家間關(guān)系。在區(qū)域國別研究中,兩個國家之間的雙邊關(guān)系是一個常見的研究主題。對于兩國雙邊關(guān)系的研究,過去通常采用歷史學(xué)、政治學(xué)的研究方法對雙邊關(guān)系作定性的描述,而大數(shù)據(jù)的出現(xiàn)則使雙邊關(guān)系的研究實現(xiàn)了由定性到定量的轉(zhuǎn)變。清華大學(xué)國際關(guān)系研究團(tuán)隊對1950年以來,中國與美、日、俄、英、法、德、印等大國的外交事件進(jìn)行編輯整理,將雙邊關(guān)系量化,編輯成數(shù)據(jù)庫,并借助可視化軟件,將兩國關(guān)系的變化轉(zhuǎn)化成坐標(biāo)系中的圖形,從而幫助研究者更詳細(xì)地了解中外關(guān)系的變化,并對雙邊關(guān)系的未來發(fā)展做出更準(zhǔn)確的預(yù)測。
創(chuàng)新是區(qū)域國別研究不斷前進(jìn)的動力。隨著大數(shù)據(jù)在區(qū)域國別研究中的日益推廣,各類數(shù)據(jù)庫的建設(shè)將不斷完善,大數(shù)據(jù)研究方法的重要地位也將愈加凸顯。
(作者系四川外國語大學(xué)區(qū)域國別研究院執(zhí)行院長、教授)


