時(shí)間: 分類:教育論文 瀏覽次數(shù):
摘要:[目的/意義]從數(shù)字圖書館資源利用與整理角度出發(fā)設(shè)計(jì)學(xué)者數(shù)據(jù)識別與學(xué)者數(shù)據(jù)庫的構(gòu)建方式,幫助提升數(shù)字圖書館資源建設(shè)效率與特色服務(wù)。[方法/過程]從學(xué)者遴選與收錄來源、學(xué)者描述內(nèi)容及其框架、學(xué)者庫構(gòu)建與學(xué)者庫應(yīng)用方式四個(gè)方面調(diào)研國內(nèi)外學(xué)者庫研究及實(shí)踐情況。通過分析學(xué)者特征屬性,研究學(xué)者數(shù)據(jù)結(jié)構(gòu)化表達(dá)方式,提出基于數(shù)字圖書館的學(xué)者庫構(gòu)建流程和總體框架。[結(jié)果/結(jié)論]提出學(xué)者庫構(gòu)建與應(yīng)用齊頭并進(jìn)的推進(jìn)策略,強(qiáng)調(diào)學(xué)者庫要融入科研管理過程,發(fā)動(dòng)學(xué)者參與建設(shè),增加展示與宣傳效果,與人才識別相結(jié)合,服務(wù)于團(tuán)隊(duì)和專題資源建設(shè);與知識管理相結(jié)合,兼顧學(xué)者存檔與學(xué)者畫像功能,拓展精準(zhǔn)服務(wù)功能。
關(guān)鍵詞:學(xué)者庫數(shù)字圖書館機(jī)構(gòu)知識庫學(xué)者識別
圖書館方向論文范文:全球經(jīng)濟(jì)放緩背景下圖書館的生存與發(fā)展
自2009年以來,世界經(jīng)濟(jì)克服金融危機(jī)的影響正在緩慢復(fù)蘇中,但由希臘債務(wù)危機(jī)引發(fā)的歐盟主權(quán)債務(wù)危機(jī)、以美國為首的貿(mào)易保護(hù)主義、英國脫歐等遏制經(jīng)濟(jì)發(fā)展的因素,給世界經(jīng)濟(jì)復(fù)蘇蒙上陰影,全球經(jīng)濟(jì)增速放緩,西方各國紛紛出臺財(cái)政緊縮政策,依靠政府撥款的圖書館發(fā)展無疑受到了影響:預(yù)算的減少導(dǎo)致大量圖書館關(guān)停、館員減少、服務(wù)時(shí)間縮水等情況。為應(yīng)對危機(jī),各國和國際圖書館組織紛紛呼吁政府重視圖書館在公民信息和技能獲取中的重要作用,支持圖書館發(fā)展。
學(xué)者庫以學(xué)者為資源組織對象開展學(xué)術(shù)特征信息描述,是存儲、檢索、利用和發(fā)現(xiàn)學(xué)者科研產(chǎn)出的數(shù)據(jù)系統(tǒng)。學(xué)者庫不僅對學(xué)者學(xué)術(shù)特征、屬性和學(xué)術(shù)成果進(jìn)行著錄識別,而且對學(xué)者學(xué)術(shù)關(guān)系、學(xué)術(shù)生涯和學(xué)術(shù)軌跡進(jìn)行描述、鏈接;其形成的學(xué)術(shù)資源集,不僅是構(gòu)建機(jī)構(gòu)知識庫的基礎(chǔ)單元,也是評價(jià)學(xué)者學(xué)術(shù)績效的基本元素,還是展示機(jī)構(gòu)實(shí)力和學(xué)者風(fēng)采的基本素材[1]。因此,學(xué)者庫構(gòu)建不僅是數(shù)字圖書館與科研平臺特色資源建設(shè)的重要課題,還成為圖書館和科研組織精準(zhǔn)服務(wù)于科研評價(jià)和科研人員的重要措施。近年來,數(shù)據(jù)庫商、高校和科研機(jī)構(gòu)及部分科研項(xiàng)目資助機(jī)構(gòu)都基于自建的數(shù)字圖書館資源和平臺開展了學(xué)者庫構(gòu)建的實(shí)踐探索。
其中,高校和科研機(jī)構(gòu)及科研項(xiàng)目資助常以滿足自身的需求為導(dǎo)向,構(gòu)建中采用人工方式,或借助數(shù)字圖書館技術(shù)與平臺提升學(xué)者庫的自動(dòng)化水平;數(shù)據(jù)庫商的學(xué)者庫構(gòu)建則注重滿足各類用戶的應(yīng)用需求,全面覆蓋各學(xué)科、機(jī)構(gòu)的學(xué)者,推進(jìn)構(gòu)建流程的自動(dòng)化,是當(dāng)前研究與實(shí)踐的重點(diǎn)。然而以商業(yè)數(shù)據(jù)庫或知識機(jī)構(gòu)庫資源為基礎(chǔ)數(shù)據(jù),僅側(cè)重于學(xué)術(shù)產(chǎn)出的集成與計(jì)量,存在無法全面揭示學(xué)者特征和無法全面涵蓋學(xué)者學(xué)術(shù)成果的現(xiàn)象。為此,本文擬在完善學(xué)者庫元數(shù)據(jù)體系的基礎(chǔ)上,優(yōu)化基于數(shù)字圖書館的學(xué)者庫總體框架和構(gòu)建流程設(shè)計(jì),采用多源數(shù)據(jù)整合的方式優(yōu)化學(xué)者庫構(gòu)建的基礎(chǔ)資源,并提出學(xué)者庫構(gòu)建與應(yīng)用推進(jìn)策略。
1國內(nèi)外學(xué)者庫建設(shè)現(xiàn)狀
學(xué)者庫的建設(shè)主要涉及學(xué)者科研活動(dòng)、交流行為、學(xué)術(shù)關(guān)系、產(chǎn)出成果的揭示,以及學(xué)者評價(jià)與展示、學(xué)者識別與服務(wù)等方面。本文對國內(nèi)外學(xué)者庫收錄范圍、學(xué)者遴選方式進(jìn)行分析,對學(xué)者描述系統(tǒng)和體系進(jìn)行調(diào)研,對學(xué)者庫構(gòu)建方式及應(yīng)用現(xiàn)狀進(jìn)行梳理,分析學(xué)者庫構(gòu)建的必要步驟。其中,學(xué)者遴選方式和收錄來源影響學(xué)者庫構(gòu)建效果,學(xué)者特征描述是構(gòu)建學(xué)者庫的關(guān)鍵環(huán)節(jié)和有效應(yīng)用的前提。
1.1學(xué)者遴選與收錄來源
不同的構(gòu)建目標(biāo)使學(xué)者庫擁有不同的學(xué)者遴選范圍和資源獲取方式。商業(yè)數(shù)據(jù)庫和學(xué)術(shù)搜索引擎根據(jù)一定的篩選條件,選擇具有科研成果的學(xué)者為目標(biāo)學(xué)者建立學(xué)者庫。AMiner以人工智能等領(lǐng)域?qū)<覟槟繕?biāo)遴選范圍,將相關(guān)領(lǐng)域的論文進(jìn)行集成整合,通過大規(guī)模的計(jì)算得出目標(biāo)學(xué)者。百度學(xué)術(shù)為具有一定發(fā)文量與被引量的學(xué)者自動(dòng)聚合學(xué)術(shù)成果,其他學(xué)者也能通過認(rèn)領(lǐng)成果構(gòu)建自己的主頁,目前共生成400多萬個(gè)學(xué)者主頁。通過自動(dòng)聚合學(xué)者信息,商業(yè)數(shù)據(jù)庫和學(xué)術(shù)搜索引擎構(gòu)建了大量的學(xué)者頁面,但學(xué)者認(rèn)領(lǐng)學(xué)術(shù)成果和頁面數(shù)量較少,如中國知網(wǎng)學(xué)者庫匯集了1200萬學(xué)者,但僅有10萬人認(rèn)領(lǐng)成果信息[2]。高校、科研機(jī)構(gòu)所構(gòu)建的學(xué)者庫則以本單位學(xué)者為學(xué)者遴選范圍,如西安交通大學(xué)XJTUAcademicHub規(guī)定提交者身份限定于本校教師、科研人員、在讀研究生、本科生及本校其他教工[3]。
學(xué)術(shù)成果的收錄范圍影響學(xué)者庫構(gòu)建的效果。數(shù)據(jù)庫商常以其收錄的數(shù)據(jù)為基礎(chǔ),如中國知網(wǎng)學(xué)者庫以CNKI中文期刊全文數(shù)據(jù)庫為基礎(chǔ)。這種方式受限于其收錄資源的范圍,無法全面揭示學(xué)者的學(xué)術(shù)成果,也難以涵蓋學(xué)術(shù)成果之外的學(xué)者信息,而集成整合多源數(shù)據(jù)能夠獲得更豐富、完整的學(xué)者成果。百度學(xué)術(shù)發(fā)揮數(shù)字圖書館分布式資源與運(yùn)行技術(shù)優(yōu)勢,通過與內(nèi)容供應(yīng)商合作獲取題錄數(shù)據(jù),采用AIPMH協(xié)議等的元數(shù)據(jù)收割技術(shù)對開放資源進(jìn)行收割,并通過搜索引擎爬取數(shù)據(jù),集合學(xué)者中外學(xué)術(shù)成果。對于高校和科研機(jī)構(gòu)來說,其常以購買和自建的數(shù)字學(xué)術(shù)資源為基礎(chǔ)進(jìn)行構(gòu)建,如清華大學(xué)、西安交通大學(xué)等高校以WOS、EI、Nature、Science等數(shù)據(jù)庫為收錄范圍,并與機(jī)構(gòu)知識庫的科研成果資源相結(jié)合[3],同時(shí)輔以機(jī)構(gòu)學(xué)者提交的個(gè)人信息,這種方式在初始建設(shè)環(huán)節(jié)常常可以收到不錯(cuò)效果,但后續(xù)的維護(hù)更新難以保證信息的時(shí)效性和準(zhǔn)確性。
1.2學(xué)者描述內(nèi)容及其框架
學(xué)者庫的構(gòu)建需要對學(xué)者特征、成果和關(guān)系進(jìn)行組織和描述,以此實(shí)現(xiàn)學(xué)者庫的展示和應(yīng)用。數(shù)據(jù)商、科研機(jī)構(gòu)和學(xué)者唯一標(biāo)識符系統(tǒng)通過對數(shù)據(jù)庫資源整合、網(wǎng)絡(luò)爬取、科研成果登記等不同方式對學(xué)者數(shù)據(jù)進(jìn)行集成,描述內(nèi)容和效果具有差異:ResearcherID、ORCID等唯一標(biāo)識符面向全球?qū)W者,能夠最大范圍地展示學(xué)者引文、合著等學(xué)術(shù)合作關(guān)系[4]。
數(shù)據(jù)商、高校與科研機(jī)構(gòu)構(gòu)建的學(xué)者庫對學(xué)者發(fā)文、被引等描述項(xiàng)揭示較為充分、及時(shí),主要集成了學(xué)術(shù)經(jīng)歷、發(fā)文量分布、學(xué)科主題、合作者等特征信息等[5],基于數(shù)據(jù)庫和知識庫的資源優(yōu)勢,提供全文或鏈接。高校與機(jī)構(gòu)學(xué)者庫通過本單位獲取職務(wù)、職稱、榮譽(yù)等較為全面的學(xué)者基本信息。當(dāng)前大部分的學(xué)者庫從數(shù)據(jù)庫抽取學(xué)者機(jī)構(gòu)、合作者等信息,對數(shù)據(jù)庫中學(xué)者相關(guān)的文獻(xiàn)元數(shù)據(jù)進(jìn)行動(dòng)態(tài)計(jì)量,但各科研實(shí)體間的關(guān)系揭示不夠充分,沒有從語義層面對學(xué)者信息進(jìn)行推理、補(bǔ)充。而一些知識發(fā)現(xiàn)服務(wù)搜索系統(tǒng)為提高學(xué)者語義信息的抽取與描述,構(gòu)建可存儲、可運(yùn)算的學(xué)者描述框架,實(shí)現(xiàn)學(xué)者及相關(guān)科研實(shí)體、關(guān)系的表達(dá),可以成為優(yōu)化數(shù)字圖書館學(xué)者描述與揭示方式的參考。
AMiner建立學(xué)者描述本體,通過拓展FOAF本體框架,定義包含研究者和出版物兩個(gè)類型實(shí)體和24個(gè)屬性、合作者和創(chuàng)作兩對關(guān)系,更好地推理與挖掘?qū)W術(shù)實(shí)體間的關(guān)系,得出社交能力、活躍度等更多元特征指標(biāo)[6]。為了將微軟學(xué)術(shù)圖譜(MAG)和AMiner學(xué)術(shù)圖譜兩個(gè)億級異構(gòu)數(shù)據(jù)進(jìn)行融合,開放學(xué)術(shù)圖譜(OAG)建立venueschema、authorschema、paperschema實(shí)體和屬性框架,建立6500萬個(gè)匹配關(guān)系,對出版者、論文和作者進(jìn)行結(jié)構(gòu)化數(shù)據(jù)描述[7]。
1.3學(xué)者庫構(gòu)建方式
目前,大部分學(xué)者庫結(jié)合自動(dòng)化與眾包的思想,基于數(shù)字圖書館的數(shù)據(jù)庫文獻(xiàn)資源自動(dòng)構(gòu)建學(xué)者庫,之后采用多種方式鼓勵(lì)學(xué)者人工審核與完善學(xué)者信息。在資源組織與描述基礎(chǔ)上,數(shù)字圖書館自動(dòng)化構(gòu)建學(xué)者庫的關(guān)鍵是實(shí)現(xiàn)學(xué)者學(xué)術(shù)成果與學(xué)者的關(guān)聯(lián)。關(guān)聯(lián)過程中,不可避免地出現(xiàn)學(xué)者姓名歧義現(xiàn)象,需要區(qū)分同名學(xué)者不同的身份信息與學(xué)術(shù)資源,這也是當(dāng)前研究與實(shí)踐的難點(diǎn)。為在海量學(xué)術(shù)資源中準(zhǔn)確定位學(xué)者及其科研成果,AMiner采用網(wǎng)絡(luò)分析法,根據(jù)實(shí)體關(guān)系權(quán)值,分析重名學(xué)者自我中心網(wǎng)絡(luò)特點(diǎn)和屬于不同團(tuán)塊的特性,通過集團(tuán)劃分來區(qū)分不同實(shí)體,實(shí)現(xiàn)學(xué)者人名消歧[8];中國知網(wǎng)、萬方主要通過“姓名+單位”的組合方式進(jìn)行學(xué)者消歧[9-10];清華大學(xué)學(xué)者庫挑選具有價(jià)值的學(xué)者為其設(shè)立學(xué)者標(biāo)識符THUID,啟動(dòng)發(fā)文自動(dòng)追蹤項(xiàng)目,制定完整的分析和追蹤策略[11];還有一些研究與實(shí)踐則針對文獻(xiàn)作者姓名的消歧方法展開探索[12-13],或是試圖通過關(guān)聯(lián)ORCID、ResearcherID等唯一標(biāo)識符和建立規(guī)范文檔進(jìn)行學(xué)者識別[14]。
在促進(jìn)學(xué)者人工審核與完善學(xué)者信息方面,當(dāng)前學(xué)者庫主要通過科研管理的手段和設(shè)置資源權(quán)限獎(jiǎng)勵(lì)的方法,促進(jìn)學(xué)者參與科研成果注冊登記。廈門大學(xué)將學(xué)者庫作為科研信息管理平臺,與統(tǒng)一身份認(rèn)證平臺進(jìn)行數(shù)據(jù)共享,根據(jù)學(xué)者反映的信息補(bǔ)充、更正學(xué)者庫數(shù)據(jù)[15]。ResearchGate需要學(xué)者完成注冊才能使用庫內(nèi)資源,通過學(xué)者自主注冊與庫中已有學(xué)術(shù)資源、學(xué)者信息進(jìn)行匹配,提交學(xué)術(shù)成果的文檔、鏈接或相關(guān)證明,經(jīng)過審核后完成學(xué)者注冊。在理論研究方面,也有研究者以機(jī)構(gòu)庫、學(xué)者庫為基礎(chǔ),在學(xué)者甄別的基礎(chǔ)上,設(shè)計(jì)學(xué)者標(biāo)識、甄別匹配、推送認(rèn)領(lǐng)、補(bǔ)充認(rèn)領(lǐng)等學(xué)者學(xué)術(shù)成果認(rèn)領(lǐng)流程[16-17]。
1.4學(xué)者庫應(yīng)用方式
大多數(shù)的學(xué)者庫都設(shè)立學(xué)者檢索頁面和學(xué)者主頁,用于展示學(xué)者的基本信息、研究成果及動(dòng)態(tài)。澳門大學(xué)學(xué)者庫設(shè)置ORCID、題名、作者等14個(gè)檢索字段,支持圖片檢索、高級檢索和專業(yè)檢索[18]。AMiner學(xué)者庫成為搜狗學(xué)術(shù)搜索數(shù)據(jù)提供者[19],增加學(xué)者數(shù)據(jù)使用頻次。清華大學(xué)、蘭州大學(xué)、澳門大學(xué)等高校的學(xué)者庫在首頁推送本機(jī)構(gòu)學(xué)者在Cell、Nature和Science等頂尖學(xué)術(shù)期刊發(fā)表的論文;設(shè)置“推送高被引/熱點(diǎn)文章”和“本期推薦”欄目,定期推薦熱門文章和學(xué)者[20]。
廈門大學(xué)學(xué)者庫與科研產(chǎn)出相關(guān)聯(lián),成為年度績效考核、職稱評定、項(xiàng)目申報(bào)和管理的基礎(chǔ)數(shù)據(jù),設(shè)置獨(dú)立評價(jià)指標(biāo)庫,利用可視化工具為學(xué)校管理層提供決策支持[15];清華大學(xué)學(xué)者庫于2017年成為職稱申報(bào)的學(xué)術(shù)論文數(shù)據(jù)來源和教師年終考核工作的學(xué)術(shù)論文數(shù)據(jù)源。除了服務(wù)學(xué)者和科研部門,學(xué)者庫在人才挖掘領(lǐng)域也得以利用。AMiner學(xué)者庫以智能服務(wù)為基礎(chǔ),構(gòu)建國家自然科學(xué)基金委員會專家Profile系統(tǒng),并為科技部構(gòu)建專家畫像庫;建立阿里巴巴人才地圖、CFF專家系統(tǒng),服務(wù)于企業(yè)與科研機(jī)構(gòu)。ResearchGate通過學(xué)者與機(jī)構(gòu)的關(guān)聯(lián),計(jì)算機(jī)構(gòu)科研水平幫助學(xué)者快速查找具有合作潛力的項(xiàng)目、機(jī)構(gòu)與學(xué)者并提供科研招聘服務(wù),機(jī)構(gòu)與個(gè)人能夠通過ResearchGate雇傭高質(zhì)量研究人員[21]。
總之,近年來學(xué)者庫得到快速發(fā)展,人名消歧、學(xué)術(shù)成果自動(dòng)追蹤、建立學(xué)者唯一標(biāo)識符等成為學(xué)者信息及其資源采集和整合的常用技術(shù)手段和方法;人工智能、機(jī)器學(xué)習(xí)已開始運(yùn)用于學(xué)者庫建設(shè)與應(yīng)用之中,通過語義挖掘、深度學(xué)習(xí),建立本體或結(jié)構(gòu)化的描述體系對學(xué)者進(jìn)行揭示。當(dāng)然學(xué)者庫在建設(shè)過程中,依然存在構(gòu)建方式與效果不理想的問題:①學(xué)者特征揭示不全面,重視對學(xué)術(shù)產(chǎn)出的集成和計(jì)量,學(xué)者學(xué)術(shù)關(guān)系的推理和學(xué)者實(shí)體特征的挖掘不深入;學(xué)者身份信息與學(xué)術(shù)資源的識別與匹配不夠精確,自動(dòng)追蹤學(xué)者學(xué)術(shù)產(chǎn)出的程度不高。
②數(shù)據(jù)來源單一,主要基于數(shù)字圖書館資源建立學(xué)者資源庫,沒有融合海量的網(wǎng)絡(luò)資源;一些數(shù)字圖書館沒能發(fā)揮出資源分布式存儲與管理的優(yōu)勢,沒有集成多方數(shù)據(jù)源全方位整合學(xué)者學(xué)術(shù)產(chǎn)出,無法為學(xué)者庫的構(gòu)建提供完整支撐。③學(xué)者庫應(yīng)用的推動(dòng)力不足,局限于學(xué)者頁面的生成、學(xué)者檢索等基礎(chǔ)功能;沒有成為學(xué)者知識存檔、學(xué)者軌跡展示以及機(jī)構(gòu)知識庫構(gòu)建的有效手段;與科研管理、科研評價(jià)的結(jié)合還不夠緊密,在專家發(fā)現(xiàn)和人才評價(jià)、績效考核方面沒有發(fā)揮出最大成效。
2學(xué)者特征及其元數(shù)據(jù)模型
基于數(shù)字圖書館的學(xué)者庫既要反映學(xué)者各項(xiàng)基本信息,應(yīng)用于文獻(xiàn)服務(wù)中的學(xué)者消歧,又要深刻揭示學(xué)者學(xué)術(shù)屬性,為更深層次的個(gè)性化服務(wù)提供數(shù)據(jù)基礎(chǔ)。學(xué)者庫應(yīng)對反映學(xué)者屬性特征的元數(shù)據(jù)進(jìn)行有效組織,結(jié)合應(yīng)用目標(biāo)和需求,從海量的學(xué)術(shù)資源中提取和識別元素,形成結(jié)構(gòu)化的學(xué)者信息描述框架,需要通過對學(xué)者信息的有序組織,學(xué)術(shù)屬性的識別與揭示,準(zhǔn)確把握學(xué)者特征,動(dòng)態(tài)反映學(xué)者學(xué)術(shù)軌跡。
2.1學(xué)者特征屬性分析
學(xué)者是在科學(xué)、文化、教育領(lǐng)域?qū)iT從事研究工作的人員[22],具有相應(yīng)特征實(shí)體和屬性,如接受的專業(yè)教育、擁有的高等教育學(xué)位、所在單位性質(zhì)(科研院所、高校、企業(yè)研發(fā)部門等)、從事的科學(xué)研究和生產(chǎn)的專業(yè)領(lǐng)域、學(xué)科或?qū)I(yè)特長;公開發(fā)表的論文、擁有的專利、獲得學(xué)術(shù)榮譽(yù)、擁有的學(xué)術(shù)關(guān)系網(wǎng)絡(luò)等。每個(gè)學(xué)者又因?qū)W術(shù)經(jīng)歷、學(xué)科領(lǐng)域的不同而擁有不同的特征,如人文社科類學(xué)者較少擁有發(fā)明專利。這些學(xué)者屬性分散在數(shù)字圖書館學(xué)者注冊信息、文獻(xiàn)數(shù)據(jù)庫、學(xué)者個(gè)人頁面、學(xué)術(shù)新聞、社交網(wǎng)絡(luò)等來源之中,可以反映學(xué)者各式各樣的特征。
所以,學(xué)者特征的遴選應(yīng)面向數(shù)字圖書館學(xué)者庫的應(yīng)用需求,從學(xué)者識別、科研評價(jià)、人才挖掘、個(gè)性化服務(wù)等應(yīng)用場景出發(fā),同時(shí)注重學(xué)者學(xué)術(shù)特征的揭示的全面性,設(shè)計(jì)既能準(zhǔn)確反映學(xué)者學(xué)術(shù)共性又能靈活反映學(xué)者個(gè)性特征的學(xué)者特征屬性框架。國內(nèi)外許多研究與實(shí)證從不同角度、不同方法設(shè)計(jì)和論證學(xué)者模型或描述框架,對于學(xué)者庫元數(shù)據(jù)結(jié)構(gòu)和學(xué)者元素的梳理具有重要參考價(jià)值。通過對文獻(xiàn)[23-25]和Aminer、中國知網(wǎng)、百度學(xué)術(shù)、清華大學(xué)、北京大學(xué)等學(xué)者庫調(diào)研,并以數(shù)據(jù)來源、學(xué)者特征和應(yīng)用場景為考量因素,構(gòu)建“學(xué)者維度-元素”學(xué)者特征屬性框架。
因?yàn)閷W(xué)者各屬性特征出現(xiàn)的頻次不同,構(gòu)建的學(xué)者框架應(yīng)該允許部分學(xué)者特征重復(fù)或缺失。使用正則表達(dá)式表達(dá)各元素出現(xiàn)次數(shù)規(guī)則:“”表示0次或多次;“?”表示0次或1次;“+”表示1次或多次;無符號表示必須出現(xiàn)且僅1次。本文設(shè)計(jì)的學(xué)者庫學(xué)者特征屬性框架包括6個(gè)方面共27個(gè)元素:基本信息反映學(xué)者自然屬性,通訊信息應(yīng)用于學(xué)術(shù)交流、溝通和聯(lián)絡(luò),二者是學(xué)者姓名規(guī)范、實(shí)現(xiàn)學(xué)者識別的基礎(chǔ)數(shù)據(jù);學(xué)術(shù)傾向反映學(xué)者研究方向、學(xué)術(shù)特長等,集成的數(shù)據(jù)可應(yīng)用于數(shù)字圖書館精準(zhǔn)科研服務(wù);學(xué)術(shù)關(guān)系包括正式與非正式學(xué)術(shù)交流中合作的學(xué)者和機(jī)構(gòu),反映學(xué)者學(xué)術(shù)關(guān)系網(wǎng)和活躍度;榮譽(yù)、論文、專利、專著、基金項(xiàng)目等元素反映學(xué)者的學(xué)術(shù)成就,教育經(jīng)歷與工作經(jīng)歷反映學(xué)者學(xué)術(shù)背景與學(xué)術(shù)經(jīng)驗(yàn),是學(xué)者評價(jià)與人才挖掘的基礎(chǔ)。
2.2學(xué)者元數(shù)據(jù)模型
學(xué)者庫的構(gòu)建不僅是學(xué)者與文獻(xiàn)數(shù)據(jù)的匹配和描述,還涉及學(xué)者、成果、機(jī)構(gòu)等科研實(shí)體,不同實(shí)體與屬性之間存在著邏輯關(guān)系,因此數(shù)字圖書館可以借鑒實(shí)體關(guān)系網(wǎng)絡(luò)的方法,通過科研實(shí)體之間的鏈接,實(shí)現(xiàn)實(shí)體關(guān)系與屬性的推理和挖掘。通過實(shí)體-關(guān)系-屬性的表達(dá)方式,數(shù)字圖書館學(xué)者元數(shù)據(jù)模型,實(shí)現(xiàn)學(xué)者數(shù)據(jù)的結(jié)構(gòu)化表達(dá)與動(dòng)態(tài)關(guān)聯(lián)。將論文、榮譽(yù)等學(xué)者成果和學(xué)校、機(jī)構(gòu)等單位轉(zhuǎn)換為實(shí)體,并拓展每個(gè)實(shí)體的屬性;學(xué)術(shù)傾向無法轉(zhuǎn)換為實(shí)體,由學(xué)科和研究方向?qū)傩灾苯优c“學(xué)者”實(shí)體進(jìn)行關(guān)聯(lián);學(xué)術(shù)關(guān)系中的合作學(xué)者和合作機(jī)構(gòu)可以通過論文、專利等實(shí)體中作者與機(jī)構(gòu)的屬性實(shí)現(xiàn),一些學(xué)者屬性是由學(xué)者與科研實(shí)體相結(jié)合產(chǎn)生的,無法歸于學(xué)者或其他科研實(shí)體,應(yīng)屬于實(shí)體的關(guān)系。
如學(xué)位、畢業(yè)時(shí)間、專業(yè)屬于學(xué)者的教育經(jīng)歷,不是學(xué)校固有的屬性;而學(xué)者對應(yīng)特定學(xué)校才有相應(yīng)的學(xué)位、畢業(yè)時(shí)間等屬性,故這些屬性應(yīng)歸于“學(xué)習(xí)”這個(gè)關(guān)系中。為了實(shí)現(xiàn)不同來源數(shù)據(jù)的關(guān)聯(lián)和存儲,需要對學(xué)者元數(shù)據(jù)進(jìn)行邏輯結(jié)構(gòu)設(shè)計(jì),以便構(gòu)建關(guān)系型數(shù)據(jù)庫。按照數(shù)據(jù)庫第三范式(3NF)將學(xué)者元數(shù)據(jù)ER模型轉(zhuǎn)換為關(guān)系模型,且滿足第一范式與第二范式,構(gòu)建相關(guān)數(shù)據(jù)表。學(xué)者ID關(guān)聯(lián)學(xué)者成果信息表,可以集中快速展示學(xué)者所有成果;學(xué)者ID也是關(guān)聯(lián)學(xué)者相關(guān)屬性或特征的基礎(chǔ),這樣在不同字段實(shí)現(xiàn)不同表間的關(guān)聯(lián),當(dāng)學(xué)者數(shù)據(jù)產(chǎn)生更新、變動(dòng)時(shí),相關(guān)的數(shù)據(jù)表和字段進(jìn)行相應(yīng)更新。
3基于數(shù)字圖書館的學(xué)者庫總體框架及構(gòu)建流程
3.1基于數(shù)字圖書館的學(xué)者庫總體框架設(shè)計(jì)
基于數(shù)字圖書館構(gòu)建學(xué)者庫,需要依托數(shù)字圖書館的技術(shù)體系結(jié)構(gòu)和信息體系結(jié)構(gòu),借助數(shù)字圖書館資源加工采集系統(tǒng)、異構(gòu)資源整合系統(tǒng)、數(shù)字資源的管理系統(tǒng)、資源調(diào)度系統(tǒng)、用戶管理系統(tǒng)等系統(tǒng)平臺,設(shè)計(jì)學(xué)者庫構(gòu)建總體框架。同時(shí)匯集不同來源的學(xué)者數(shù)據(jù),采集、加工、整合、存儲學(xué)者相關(guān)學(xué)術(shù)數(shù)據(jù)、學(xué)術(shù)資源等數(shù)字對象,并進(jìn)行學(xué)術(shù)網(wǎng)絡(luò)建模分析,最終實(shí)現(xiàn)學(xué)者數(shù)據(jù)的應(yīng)用。數(shù)字圖書館學(xué)者庫以互聯(lián)網(wǎng)資源和數(shù)字圖書館資源為數(shù)據(jù)來源,通過數(shù)字資源采集加工系統(tǒng),基于OAIPMH協(xié)議收割學(xué)術(shù)資源元數(shù)據(jù),收集數(shù)字化文檔、出版物等數(shù)字化信息。
基于數(shù)字對象系統(tǒng)將數(shù)字資源按照描述數(shù)字對象的條例和規(guī)則加以描述,生成元數(shù)據(jù)與調(diào)度碼,共同構(gòu)成數(shù)字對象。在整合層進(jìn)行資源的去重合并,進(jìn)行數(shù)字資源的標(biāo)準(zhǔn)化加工;借助數(shù)字圖書館異構(gòu)資源整合系統(tǒng),實(shí)現(xiàn)數(shù)字圖書館內(nèi)外部元數(shù)據(jù)、資源的整合。基于數(shù)字資源管理與存儲系統(tǒng),根據(jù)數(shù)字圖書館分布式存儲和學(xué)者學(xué)術(shù)資源多來源、多渠道分布的特點(diǎn),采取元數(shù)據(jù)集中存放、數(shù)字對象分布存放的存儲方式存儲數(shù)據(jù)。在學(xué)者數(shù)據(jù)整合與存儲的基礎(chǔ)上對學(xué)者進(jìn)行建模分析,將依據(jù)學(xué)者元數(shù)據(jù)框架進(jìn)行集成,形成學(xué)者標(biāo)簽體系,為學(xué)者畫像提供基礎(chǔ)。以文獻(xiàn)數(shù)據(jù)和社交網(wǎng)絡(luò)為基礎(chǔ),進(jìn)行挖掘與分析,從不同學(xué)者、不同學(xué)術(shù)資源間的網(wǎng)狀關(guān)聯(lián)中,構(gòu)成學(xué)術(shù)網(wǎng)絡(luò)模型,揭示合作關(guān)系網(wǎng)絡(luò)。根據(jù)學(xué)者特征,對學(xué)者聚類,挖掘相似學(xué)者,揭示學(xué)術(shù)團(tuán)隊(duì)。以數(shù)字圖書館資源發(fā)布與用戶檢索系統(tǒng)為基礎(chǔ)構(gòu)建服務(wù)平臺,將學(xué)者資源最終應(yīng)用于學(xué)者評價(jià)、學(xué)者畫像、知識管理、科研管理、學(xué)者檢索和學(xué)者精準(zhǔn)推薦等。
3.2基于數(shù)字圖書館的學(xué)者庫構(gòu)建流程
基于數(shù)字圖書館的學(xué)者庫的構(gòu)建,需依托數(shù)字圖書館自身資源與平臺,對不同數(shù)據(jù)來源進(jìn)行采集,通過學(xué)者名稱規(guī)范文檔和唯一標(biāo)識符實(shí)現(xiàn)學(xué)者識別,對數(shù)據(jù)源進(jìn)行聚合、消歧、清洗,形成學(xué)者基本資源集;在此基礎(chǔ)上根據(jù)遴選策略選定目標(biāo)學(xué)者,通過學(xué)者認(rèn)領(lǐng)實(shí)現(xiàn)信息與成果的確認(rèn);通過特征挖掘和關(guān)系抽取完成對學(xué)者數(shù)據(jù)和資源的加工,最終實(shí)現(xiàn)學(xué)者庫的服務(wù)與應(yīng)用。其中,學(xué)者庫構(gòu)建的關(guān)鍵性步驟如下:
3.2.1多源數(shù)據(jù)采集
數(shù)字圖書館應(yīng)該發(fā)揮分布式資源管理的特色,與不同國內(nèi)外知名數(shù)據(jù)庫商合作,豐富學(xué)者庫構(gòu)建的基礎(chǔ)學(xué)術(shù)文獻(xiàn)資源;運(yùn)用機(jī)器學(xué)習(xí)原理和自動(dòng)追蹤方式,從數(shù)字圖書館所擁有的學(xué)術(shù)文獻(xiàn)資源中挖掘?qū)W者學(xué)術(shù)成果及利用信息;同時(shí),發(fā)現(xiàn)和收集網(wǎng)絡(luò)資源中學(xué)者主頁、人物百科、學(xué)術(shù)新聞等學(xué)者相關(guān)網(wǎng)頁,豐富和完善學(xué)者相關(guān)信息,獲取其最新的學(xué)術(shù)動(dòng)態(tài)。學(xué)者庫建設(shè)不是一蹴而就的,需要建立信息采集的更新機(jī)制,持續(xù)進(jìn)行資源的采集與更新;依據(jù)互聯(lián)網(wǎng)頁面的布局及對應(yīng)的學(xué)者元數(shù)據(jù)變化,建立信息抓取監(jiān)測機(jī)制,及時(shí)完善數(shù)據(jù)抓取中的問題。
3.2.2學(xué)者數(shù)據(jù)整合
對采集的多來源學(xué)術(shù)信息數(shù)據(jù)進(jìn)行清洗、整合與基于學(xué)者的聚合,是學(xué)者庫資源建設(shè)環(huán)節(jié)的重要工作。數(shù)據(jù)清洗環(huán)節(jié)的主要任務(wù)是實(shí)現(xiàn)采集數(shù)據(jù)的規(guī)范化,剔除低質(zhì)量的數(shù)據(jù),補(bǔ)充缺失字段等。數(shù)據(jù)整合環(huán)節(jié)的主要任務(wù)則是將不同來源的數(shù)據(jù)匯聚,其重復(fù)數(shù)據(jù)對于存在部分字段不一致的數(shù)據(jù)進(jìn)行沖突處理。在此基礎(chǔ)上,借助ORCID、ResearcherID等學(xué)者唯一標(biāo)識符,學(xué)者名稱規(guī)范文檔以及機(jī)器學(xué)習(xí)技術(shù)進(jìn)行學(xué)者姓名消歧、資源與學(xué)者的關(guān)聯(lián),以實(shí)現(xiàn)學(xué)者庫資源的精準(zhǔn)、全面聚合。
3.2.3學(xué)者遴選
以數(shù)字圖書館收錄文獻(xiàn)的作者作為遴選范圍,針對學(xué)者庫建設(shè)的不同應(yīng)用目標(biāo),需要設(shè)置發(fā)文、被引閾值等定量指標(biāo)或?qū)W者身份等定性指標(biāo),制定學(xué)者遴選標(biāo)準(zhǔn)。從學(xué)者身份、學(xué)術(shù)成就、專業(yè)技能等角度設(shè)計(jì)學(xué)者遴選策略,挑選出有收錄價(jià)值學(xué)者,如高產(chǎn)、高被引作者或院士、“千人計(jì)劃”、學(xué)科帶頭人等熱門學(xué)者作為重點(diǎn)收錄目標(biāo)。使用標(biāo)識符關(guān)聯(lián)目標(biāo)學(xué)者,可以根據(jù)需求對在庫學(xué)者進(jìn)行編碼,或者直接與ORCID、ResearcherID等常用唯一標(biāo)識符進(jìn)行鏈接,對遴選學(xué)者進(jìn)行動(dòng)態(tài)更新,更新遴選對象與范圍。對文獻(xiàn)元數(shù)據(jù)和學(xué)者元數(shù)據(jù)的提取與加工,突出了學(xué)者特征,形成可讀取、可儲存、可關(guān)聯(lián)、可展示的學(xué)者元數(shù)據(jù)。
3.2.4特征挖掘與關(guān)系抽取
以遴選學(xué)者為基礎(chǔ),參照建立的學(xué)者數(shù)據(jù)邏輯結(jié)構(gòu)框架,使用命名實(shí)體識別技術(shù)識別學(xué)者的相關(guān)學(xué)術(shù)實(shí)體、屬性及關(guān)系,并進(jìn)行實(shí)體抽取與屬性抽取。根據(jù)學(xué)者元數(shù)據(jù)進(jìn)行統(tǒng)計(jì)與推理,挖掘?qū)W者的學(xué)術(shù)屬性特征。對學(xué)者個(gè)人身份特征進(jìn)行梳理,對學(xué)術(shù)情況進(jìn)行計(jì)量,對學(xué)者間的特征信息進(jìn)行關(guān)系計(jì)算,不僅形成如發(fā)文量、h指數(shù)等學(xué)術(shù)評價(jià)指標(biāo)和工作經(jīng)歷等學(xué)者學(xué)術(shù)線性的發(fā)展軌跡,還可形成合作、引用等網(wǎng)狀的學(xué)術(shù)關(guān)系。繼而進(jìn)行學(xué)者間引文關(guān)系、合作關(guān)系、社交關(guān)系的挖掘與分析,抽取學(xué)者與各科研實(shí)體間的學(xué)術(shù)關(guān)系,建立學(xué)術(shù)關(guān)系網(wǎng)絡(luò)模型。
3.2.5成果認(rèn)領(lǐng)與管理
在學(xué)者相關(guān)數(shù)據(jù)集成后,需要對整合后的學(xué)者信息進(jìn)行確認(rèn)。但圖書館無法強(qiáng)制學(xué)者使用學(xué)者庫,對整合后的成果進(jìn)行確認(rèn)、對個(gè)人信息進(jìn)行維護(hù),故該環(huán)節(jié)只針對使用學(xué)者庫的學(xué)者或聯(lián)合科研管理部門進(jìn)行。需要通過政策激勵(lì)、服務(wù)升級,引導(dǎo)和吸引學(xué)者完成成果認(rèn)領(lǐng)。引導(dǎo)學(xué)者通過學(xué)者庫知識管理平臺,完成學(xué)術(shù)成果的認(rèn)領(lǐng)、個(gè)人信息編輯和修改以及學(xué)術(shù)成果的統(tǒng)計(jì)與導(dǎo)出。采取機(jī)器學(xué)習(xí)與人工審核相結(jié)合的方式對學(xué)者學(xué)術(shù)成果進(jìn)行驗(yàn)證。對于注冊加入學(xué)者庫的學(xué)者,將整合后的學(xué)者信息推送至學(xué)者賬號,學(xué)者對資源進(jìn)行認(rèn)領(lǐng)。若審核通過,則對學(xué)者信息進(jìn)行特征提取;若不通過,則允許學(xué)者對進(jìn)行編輯,并重新整合至學(xué)者信息集合中,實(shí)現(xiàn)循環(huán)的審核與更新機(jī)制。
4基于數(shù)字圖書館的學(xué)者庫構(gòu)建與應(yīng)用推進(jìn)策略研究
學(xué)者庫的建設(shè)與應(yīng)用是相輔相成、循環(huán)漸進(jìn)的動(dòng)態(tài)過程,應(yīng)按照“邊建設(shè)、邊使用、邊完善”原則進(jìn)行學(xué)者庫構(gòu)建與應(yīng)用的同步推進(jìn)。為改善學(xué)者庫效果,需要激勵(lì)學(xué)者積極參與信息的完善與審核;對接科研管理平臺,提高學(xué)者庫構(gòu)建基礎(chǔ)數(shù)據(jù)的質(zhì)量。面向管理機(jī)構(gòu),可以推進(jìn)其學(xué)者庫在科研過程管理、人才管理、資源建設(shè)中的應(yīng)用;面向?qū)W者,可以推進(jìn)學(xué)者庫在其學(xué)者知識管理、學(xué)術(shù)信息資源精準(zhǔn)服務(wù)中的應(yīng)用。
4.1增加展示與宣傳效果,增強(qiáng)學(xué)者參與動(dòng)力
受入庫資源質(zhì)量及技術(shù)限制,全面準(zhǔn)確地采集學(xué)者信息、進(jìn)行高精度的學(xué)者姓名消歧仍是難點(diǎn),因此學(xué)者庫需要提升學(xué)者建設(shè)與使用學(xué)者庫的參與度,才能提升學(xué)者數(shù)據(jù)構(gòu)建的全面性和準(zhǔn)確性。學(xué)者頁面與個(gè)人的學(xué)術(shù)形象息息相關(guān),能夠吸引學(xué)者豐富和維護(hù)個(gè)人的信息,從而提升數(shù)據(jù)準(zhǔn)確性。將學(xué)者及其信息的展示作為增強(qiáng)學(xué)者參與學(xué)者庫構(gòu)建與應(yīng)用的動(dòng)力,在學(xué)者頁面通過計(jì)量分析、可視化展示等手段,幫助學(xué)者提升學(xué)術(shù)影響力;推送熱門學(xué)者主頁,增加對學(xué)者庫個(gè)人展示功能的宣傳,激發(fā)學(xué)者成果認(rèn)領(lǐng)、信息維護(hù)完善個(gè)人主頁的熱情;吸引學(xué)者使用學(xué)者庫資源而產(chǎn)生的訪問、瀏覽、下載等行為數(shù)據(jù)可以作為資源質(zhì)量評價(jià)的參考。通過學(xué)者的認(rèn)領(lǐng)、應(yīng)用和互動(dòng),提升學(xué)者庫信息質(zhì)量。
4.2搭建科研管理平臺,融入科研管理過程
與科研管理結(jié)合,既可以服務(wù)科研管理部門,也有助于豐富和完善學(xué)者庫信息,提升學(xué)者庫質(zhì)量。將學(xué)者庫構(gòu)建融入成果收集、成果考核、科研評價(jià)、項(xiàng)目申報(bào)等科研管理環(huán)節(jié),作為學(xué)術(shù)成果提交和職稱評定和科研考核、項(xiàng)目申請的基礎(chǔ)數(shù)據(jù),方便和優(yōu)化機(jī)構(gòu)內(nèi)部科研績效管理,進(jìn)行學(xué)者學(xué)術(shù)產(chǎn)出統(tǒng)計(jì)與管理。同時(shí)對學(xué)者填報(bào)信息逐一審查,確保學(xué)者信息和學(xué)術(shù)資源的完整性和準(zhǔn)確性,形成科研信息申報(bào)審查機(jī)制,可以強(qiáng)化學(xué)術(shù)規(guī)范,避免科研失信。此外,科研管理平臺中的信息都是學(xué)者確認(rèn)后的、時(shí)效性較強(qiáng)的信息,因此可以將其作為學(xué)者庫構(gòu)建的數(shù)據(jù)來源,提升入庫信息質(zhì)量。
4.3與人才識別相結(jié)合,服務(wù)于團(tuán)隊(duì)和專題資源建設(shè)
學(xué)者庫對學(xué)者進(jìn)行特征挖掘、關(guān)系抽取,按領(lǐng)域、學(xué)科、專業(yè)或單位對學(xué)者進(jìn)行有效類分,可以識別和發(fā)現(xiàn)學(xué)者擅長、精通和潛在學(xué)術(shù)領(lǐng)域,應(yīng)用于不同學(xué)科的人才識別與人才選擇,成為專家遴選、科研評審、項(xiàng)目支持的專家人才儲備庫。針對機(jī)構(gòu)學(xué)者進(jìn)行資源建設(shè),集成某一機(jī)構(gòu)或某一領(lǐng)域的專業(yè)學(xué)者,形成“專、精、深”的學(xué)科專題資源庫,拓展機(jī)構(gòu)知識庫特色資源。
4.4與知識管理相結(jié)合,兼顧學(xué)者存檔功能
對學(xué)者而言,學(xué)者庫囊括了學(xué)者自身的相關(guān)學(xué)術(shù)信息和成果,是學(xué)者知識管理的工具和平臺,也是學(xué)者有效存儲個(gè)人知識的場所,可以作為開放獲取自存儲實(shí)現(xiàn)的綠色倉儲;實(shí)現(xiàn)學(xué)者學(xué)術(shù)成果的添加、編輯、刪除,將學(xué)者庫打造成學(xué)者個(gè)人知識庫;不僅將學(xué)者的學(xué)術(shù)資源進(jìn)行集成,還對學(xué)者信息進(jìn)行結(jié)構(gòu)化梳理,幫助學(xué)者厘清學(xué)術(shù)發(fā)展路線。
4.5構(gòu)建學(xué)者畫像與學(xué)者模型,拓展精準(zhǔn)服務(wù)功能
將學(xué)者庫嵌入知識發(fā)現(xiàn)、科研管理、學(xué)術(shù)社區(qū)等科研創(chuàng)新平臺,能更好地為學(xué)者和科研機(jī)構(gòu)提供信息服務(wù)。學(xué)者庫集成不同來源的學(xué)者資源,進(jìn)行學(xué)者識別,實(shí)現(xiàn)學(xué)術(shù)資源的姓名消歧,能提供學(xué)者及其成果的搜索和發(fā)現(xiàn)服務(wù);以學(xué)者為單位組織資源,從不同角度刻畫學(xué)者學(xué)術(shù)特征,能夠?yàn)榭蒲泄芾砥脚_提供基礎(chǔ)數(shù)據(jù),提供學(xué)者計(jì)量和評價(jià)服務(wù);運(yùn)用學(xué)者庫數(shù)據(jù)挖掘?qū)W者學(xué)科興趣、發(fā)展趨勢等,構(gòu)建學(xué)者畫像和用戶信息模型,逼近學(xué)者客觀實(shí)際,為數(shù)字圖書館學(xué)者精準(zhǔn)資源推送服務(wù)奠定基礎(chǔ),推薦相關(guān)學(xué)者,促進(jìn)學(xué)者交流與合作。
參考文獻(xiàn):
[1]曾建勛.加強(qiáng)學(xué)者庫的建設(shè)與應(yīng)用[J].數(shù)字圖書館論壇,2018,(9):1-1.
[2]CNKI.成果庫幫助[EB/OL].[2019-04-21].
級別:北大核心,CSSCI,AMI擴(kuò)展
ISSN:1002-6487
刊期:進(jìn)入查看
格式:咨詢顧問
級別:北大核心,JST,CSSCI,WJCI,AMI權(quán)威
ISSN:1002-4565
刊期:進(jìn)入查看
格式:咨詢顧問
級別:北大核心,JST,CSCD,CSSCI,WJCI
ISSN:1002-2104
刊期:進(jìn)入查看
格式:咨詢顧問
級別:北大核心,CSSCI,AMI權(quán)威,社科基金資助期刊,
ISSN:1003-1707
刊期:進(jìn)入查看
格式:咨詢顧問
數(shù)據(jù)庫:SCI
ISSN:2045-2322
刊期:進(jìn)入查看
格式:咨詢顧問
數(shù)據(jù)庫:SCI
ISSN:0284-1851
刊期:進(jìn)入查看
格式:咨詢顧問
數(shù)據(jù)庫:SCI
ISSN:2352-4928
刊期:進(jìn)入查看
格式:咨詢顧問
數(shù)據(jù)庫:SCI
ISSN:0169-4332
刊期:進(jìn)入查看
格式:咨詢顧問
數(shù)據(jù)庫:SCI
ISSN:0960-7412
刊期:進(jìn)入查看
格式:咨詢顧問