摘要:地球科學是一門數據密集型學科,而知識圖譜則被認為是充分利用和發揮地球科學領域龐大數據的一種有效方式。相對于通用大模型技術的發展,知識圖譜能提供更為準確的知識,增強生成式大模型結果的智能性和可靠性。本文首先闡釋了知識圖譜的相關概念和構建方法;然后,對在科學領域廣泛應用的頂層本體基本形式化本體模型進行了詳細介紹,簡單總結了地球科學領域已經建成的知識圖譜,并著重論述了地球科學領域的地質學核心本體和地質科學本體,以及兩者的異同;最后,介紹了與地球科學知識圖譜構建相關的深時數字地球計劃等國際地學數據科學計劃,并對未來地學知識圖譜發展和地震科學知識圖譜構建發展所面臨的挑戰和應用前景進行了展望。

">

欧美一级在线毛片免费观看,国产成人精品视频一区二区不卡 ,成年人精品视频,国产精品手机视频

學術咨詢

讓期刊論文更省時、省事、省心

地震學報雜志投稿格式參考范文:大數據時代的地球科學知識圖譜研究現狀與展望

時間:

  引言

  OpenAI 發布了 ChatGPT,徹底改變了人工智能與人機交互的方式,推動了人工智能由深度學習向大模型時代的轉變。但是如果將通用語言大模型應用到專業領域,對于事實準確性、可信度、可追溯等方面問題還有待突破。而基于專業領域知識構建的知識圖譜就是有效解決方式之一,知識圖譜可為人工智能大模型提供更為準確的知識來源,用于提高生成式人工智能其結果的準確性,以勝任專業的關鍵任務場景,ChatGPT 也可以幫助我們開發和管理知識圖譜。

  地球科學是一門研究地球的科學,涵蓋了地理學、地質學、地球化學、地球物理學、大氣科學和海洋科學等多個學科領域,每個學科都有龐大的知識體系。由于地球各個方面的相互作用,地球科學的知識與其它學科的知識有著密切的聯系,需要運用不同學科的理論和方法。此外,地球科學的研究離不開多種數據來源的支撐,隨著觀測技術的不斷發展,地球科學數據的獲取渠道日益豐富。面對這些來自不同來源的數據,研究者需要進行數據處理與整合,考慮數據的準確性和可信度,并針對不同的空間和時間尺度的現象與過程進行研究和分析。由于地球是一個復雜的系統,其內部過程、相互作用和反饋機制多樣,且研究對象常常伴隨不確定性和變動性,使得地球科學知識的組織、檢索和應用較為困難。

  由于現有的技術手段不能充分利用和發揮地球數據的優勢,在數據挖掘、數據集成、知識發現等各個領域存在巨大挑戰,若想要系統地了解和獲取到全面的研究進展和前沿知識,則需要一種新的、更有效的地球科學知識組織和檢索方法來解決這些問題。近年來,機器學習和深度學習在地學領域的應用顯著增長,人工智能在地學領域受到越來越多的關注。知識圖譜作為一種新興的知識表示和組織方式,具有知識關聯、語義化、可擴展性、豐富的推理和靈活的應用等特點,可以彌補現有方法的不足。

  在傳統的圖譜模式基礎上,地球科學知識圖譜擴展了地球科學獨特的時空特征,并結合地圖、文本、數字等地學知識元素,建立了全領域地球科學知識表現模型,地球科學知識圖譜不僅深化了地學大數據分析,還促進了地質時間尺度構建、智能地圖編制、地球科學知識演化與推理分析等領域的發展,具有廣泛的研究價值和應用潛力。此外,地球科學知識圖譜可以整合各種地球科學知識,提高研究效率,促進不同學科之間的交叉研究,也能夠通過分析網絡連接和語義關系,發現潛在的知識關聯和規律,幫助研究者發現新的領域,提出新的研究問題。如果將專業領域知識圖譜接入類似 ChatGPT 的通用大模型,則可以更好地識別對話中的實體及其之間的關系,減少歧義的產生,使得通用人工智能更容易理解專業領域問題從而生成更合適的答案。

  本文總結了知識圖譜在地球科學領域的構建與應用進展,旨在回顧目前已有的研究成果,并展望未來發展方向。首先介紹了知識圖譜的概念及構建方法,然后重點介紹了各子學科領域已建立的知識圖譜,尤其是地質學領域的應用。接著討論了相關項目和組織,重點探討了深時數字地球計劃的工作。最后簡要探討了知識圖譜面臨的挑戰以及對未來的展望。

  1 知識圖譜

  1.1 知識圖譜的定義與概念

  知識圖譜的概念由 Google 公司在 2012 年首次提出,包含超過 5 億個實體和 7 億個事實,所涉及的基本要素可以追溯到古代歷史,其核心思想是以圖解的形式表示知識。盡管概念比較新,但是知識圖譜并非一個全新的研究領域,在 2006 年 Berners-Lee 提出數據鏈接的思想之后,語義網絡研究掀起了一股熱潮,而知識圖譜技術建立在相關研究成果的基礎之上,是對現有語義網絡技術的進一步改進和提升。現如今,知識圖譜的定義仍然是存在爭議的,出現了很多不同的定義,甚至有些定義彼此之間相互沖突。此處,我們將知識圖譜描述為一個數據圖,其目的是積累和傳遞真實世界的知識。圖中的節點表示感興趣的實體,而邊表示這些實體之間的潛在關系。知識圖譜通過將這些實體和關系的信息以結構化的方式進行表示,能夠幫助機器理解和推理關于這些實體和關系的語義信息。

  數據字典僅提供了各種知識點的術語解釋,但不包含它們之間的語義關系,因此無法進行語義翻譯和推理,也無法被機器所理解。知識體系覆蓋了特定領域內的知識點和它們之間的關系,可進行語義翻譯,但描述形式通常為自然語言,難以被機器所理解。知識圖譜以知識體系為基礎,使用本體建模語言編碼,形成機器可理解的模式,支持機器進行語義翻譯和數據融合。

  用于存儲的知識表示模型有多種,包括資源描述框架、資源描述框架模式、JavaScript 對象表示法等。知識圖譜的一種通用表達形式是三元組形式,即頭實體、尾實體和兩個實體之間的關系。知識圖譜已經成為一種重要方法,它能組織和整合結構化知識,以及從多個數據源中提取的信息。基于 1991—2020 年發表的 386 篇科研論文的研究發現,對知識圖譜的研究興趣在此期間明顯上升,并且不斷擴大。

  1.2 知識圖譜的體系架構

  知識圖譜的體系架構主要分為三個部分:源數據的獲取、知識融合、知識計算和知識應用。

  源數據獲取是構建知識圖譜的第一步,其關鍵在于如何從各種類型的數據中提取有用信息。設計的技術包括命名實體識別、關系抽取和實體鏈接。命名實體識別,又稱為實體抽取,指的是自動從文本數據集中識別出命名實體。經過命名實體識別后,得到一系列離散的命名實體;關系抽取需獲取語義信息,從相關語料中提取實體之間的關聯關系,并通過這些關系將實體連接起來,以形成網狀的知識結構;實體鏈接則是將從文本中抽取得到的實體對象,與知識庫中對應的正確實體對象進行關聯的操作。

  通過自然語言處理技術,已經成功地從非結構化、半結構化和結構化數據中提取出實體、關系和屬性,但這些信息仍需進一步清理和整合。而知識融合是解決不同知識圖譜異構問題的關鍵,通過知識融合,我們能夠提高知識圖譜的質量。

  知識計算是知識圖譜的主要輸出能力,其中知識推理是其中最為重要的能力之一。通過知識推理,能夠從現有的知識中發現新的知識。知識圖譜提供了一種更好地組織、管理和利用海量信息的方式,目前,知識圖譜技術主要應用于語義搜索、問答和可視化分析等領域。

  1.3 知識圖譜的構建

  KG 構建技術可以從結構化、非結構化甚至半結構化的數據源中提取信息,并最終將這些信息組織成知識,以圖的形式表示出來。根據知識抽取的層次、知識庫的類型以及集成的構建方法對 KG 的構建進行了分類。

  地球科學知識圖譜的構建目前主要包含兩種方法:自頂向下和自底向上。

  自頂向下的方法是指通過手動輸入地球科學專家的知識來構建知識圖譜,這種方法多用于專業領域的知識圖譜。首先需要手動設計一個數據模式框架,從頂層開始填充概念知識,并且逐漸細化,形成結構化和分層次的骨架,然后按照順序進行知識填充。這是一個將本領域專家大腦中的知識轉化為機器可讀并加以表示的過程。現有的很多地球科學知識圖譜都是通過這種方法構建的,比如 SWEET 本體、GeoCore 本體等。這種方法的模式比較固定,但是具有高精度的數據集。

  自底向上的方法是指通過人工智能技術從地球大數據中構建知識圖譜,例如從地球科學文獻中提取信息,并對其進行重新分類和整理,以構建相應的知識圖譜。這種方法模型多變,能夠處理大量數據集并快速構建大型知識圖譜,但是自動提取知識的可靠性不高,需要專家的介入來驗證構建的知識圖譜是否準確。

  然而,單純只使用上述兩種方法中的其中一個不足以構建完整的地球科學知識體系。一方面,地球科學中有很多專業知識具有高度不確定性或歧義,很難建立統一的標準;另一方面,雖然地球大數據蘊含著豐富的地球科學知識,但自動構建的知識體系并不完整,例如在生成的知識圖譜中,實體和關系的精確邏輯表示和斷言方面,專家經驗至關重要。因此,將地球科學領域專家的經驗知識和計算機系統相結合的方法是相對較好的,既可以充分發揮專家的優勢,也可以利用不斷優化的人工智能方法來促進地球科學知識圖譜的未來發展。地球科學領域專家提供的標注數據越多,知識圖譜的性能就越好。

  總結了知識圖譜建設的工作流程和建議,并提出了在地球科學中構建和應用知識圖譜的建議工作流程,主題思想是自頂向下和自底向上兩種方法相結合,但是每一種方法的先后順序可以改變。

  第一種形式是先使用自頂向下的方法,確定一個領域的主題,根據數據集確定適合的算法,并且尋求相關研究方向的研究人員的幫助。領域專家與知識工程師一起來分析每一個實例,獲得實體、屬性和關系之間的初步結構框架。在建立知識圖譜過程中,可以使用自底向上的方法來擴充列表,并且選取一部分實例來測試知識圖譜。在此過程中,可以重復使用和改編已經存在的本體,比如 SWEET 本體就是基于以上方法建立的。

  第二種形式是先采用自底向上的方法從大量積累的數據中獲取知識,通過大數據分析可能會獲得人類現有的專業知識之外的一些規則,幫助我們發現新的模型和方法。接下來再采用自頂向下的方法,將相關研究方向的研究人員聚集到一起,對所得到的結果進行驗證,中間過程可以利用現有的社區標準和本體模式,減少知識圖譜中的不一致和重復性工作,達到提高知識圖譜的質量和精度的目的。

  在知識圖譜的構建過程中,為了準確描述其中的概念、關系和屬性,需要一個統一的、精確的語義框架。基于這樣的需求,基本形式化本體作為一種被廣泛接受的本體模型被引入和應用。通過使用基本形式化本體,我們能夠建立起一個明確的概念體系,進而更好地理解和組織知識。這種方法使知識圖譜的構建和應用更高效。

  1.4 基本形式化本體(BFO)

  本體是對共享概念的正式、明確的規范。根據本體的概括性程度可以分為頂層本體、領域本體和核心本體。頂層本體是描述空間、時間等共同的一般概念,領域本體是專門描述某一學科領域,核心本體處于頂層本體和領域本體之間,可以作為開發領域本體的基準。目前,除了通用且開放的知識圖譜,如 Google KG,知識圖譜大多是與領域相關的,并且在設計上通常包含特定領域的底層本體。

  基本形式本體是一個由 38 個類組成的頂層本體,旨在支持科學研究中各個領域的信息集成、檢索和分析。目前,BFO 已經成功應用于全球 350 多個本體項目。BFO 是一個真正的頂層本體,不包含特定于物理、醫學、心理學等物質領域的術語。BFO 可以幫助領域專家更好地組織和表示領域知識,促進不同計算機系統間的互操作性和推理能力,并且已經在醫學、生物學、工程等領域得到了廣泛的應用。

  中國的本體學者成立了本體中國社區,它是一個開放交流平臺,旨在促進本體技術的發展與應用,其中就包括對 BFO 的介紹。系統地介紹了 BFO 的來源、特點,將 BFO 翻譯成中文,并且簡要梳理了層次結構。

  2 地球科學領域的本體模型研究

  BabelNet,YAGO,Cyc,NELL,CaLiGraph 和 DBpedia 知識庫是一些穩定演化的開放世界知識圖譜。盡管通用的和開放世界的知識圖譜廣泛應用于處理不同領域不相關任務,但是構建領域特定的知識圖譜以解決領域特定問題至關重要。領域知識圖譜明確地概括了以與語義相關的實體和關系為代表的高層次主題領域及其特定子領域的概念。

  國內外研究者通過文獻挖掘、領域專家采訪、數據挖掘技術等手段,從地球科學相關文獻、數據庫和開放數據中提取地球科學知識,并構建知識圖譜,應用于地質勘探、自然災害預測、環境保護等領域,并且應用于實際項目中,如油氣勘探、水資源管理、氣候變化研究等。

  綜上所述,知識圖譜在地球科學領域已經得到了廣泛關注和應用。然而,在構建這些知識圖譜時,面臨著一些挑戰,其中之一就是地質學作為一個復雜而多樣化的領域,其領域知識的表示和整合具有一定的復雜性。地質學是由多樣化學科組成的,各種專業人員使用的概念的含義往往是根據他們當時的背景和工作習慣所做出的對于某一領域的特定看法,對于沒有完全掌握的人來說,地質領域的定義是模糊的,對于同一個詞,具有不同專業技能的地質學家有時會賦予不同的含義。現如今地質學知識廣泛應用于石油勘探和生產、自然災害評估和環境問題等項目中,很大程度上依賴于軟件應用,專業的地質學家可以根據上下文來進行辨別,但是計算機尚無法實現。

  為解決這些困難,Garcia 等提出了一個專門用于描述科學領域的地質學核心本體,Brodaric 和 Richard 也構建了一個用來系統化表示地學關鍵知識的地質科學本體,兩者的體系結構如圖 6 所示。GeoCore 相當于 GSO 的地質層,同時也作為中間層延伸擴展成為了其它本體,例如 GeoReservoir、O3PO 和 GeoFault 等。

  地質學作為地球科學的核心領域之一,其本體模型涵蓋了地球內部和表層的各個方面,具有廣泛的代表性和普適性。此外,地質學本體模型的構建方法已經相對成熟,可以為地球科學知識圖譜的發展提供重要支持和啟示。接下來將詳細介紹上述兩個地質學本體的構建方法。

  2.1 地質本體模型:GeoCore 本體和 GSO 本體

  GeoCore 本體是在 BFO 頂層本體的基礎上提出的一個專門描述地學領域的核心本體,包含了地學領域內一組通用概念的嚴格定義。在 GeoCore 構建過程中,Garcia 等在地質學方面確定了有限數量的被所有地質學家廣泛采用的概念,在本體論的研究中,參考了 Sure 等的本體工程方法和工具,分析基于 Guarino 和 Welty 的 OntoClean 方法論。

  GeoCore 本體中數量有限的概念包括地質對象、構成地質對象的物質、地質對象的邊界、地質對象的內部組織、地質對象的聯系、地質對象的形成過程以及地質對象形成的地質時間間隔。對于每個概念,提出了一個同時考慮到實體的地質學和本體論性質的定義。按照 Abel 等的方法,通過概念之間的包含關系構建分類法,并將其與 BFO 頂層本體對齊。此外,還添加了額外概念補充這一框架,描述正式定義最初選定的概念所需的性質和關系。

  GeoCore 本體可以整合各種要素,包括從微觀到大陸尺度的任何大小的地質體,并可以整合描述這些要素的現有知識模型。此外,它還可以作為一個指南,用于在地質學領域中創建新的本體論,尤其是尚未形式化的子領域。GeoCore 本體為推導更專業的地質概念提供了基礎,構成了整合不同領域本體的基線,也為消除常用地質解釋概念存在的誤解提供了解決方案,有利于將信息傳達給外部地質用戶以及在領域應用中實現集成。

  地質科學本體是對關鍵地質科學知識進行系統表述的框架,由三個層次組成:適用于任何學科的基礎層,構成地質學任何方面根源的地質層,以及可以根據特定目的進行完善或補充的詳細模塊。

  GSO 的頂層基礎層在現有基礎本體論的基礎上進行了重新調整和整合,主要受到 DOLCE,BFO 和 UFO 的啟發。語言和認知工程的描述性本體論是一個基于形式本體論的描述性本體,它以一種準確和可靠的方式為語言和認知工程提供共享的語義基礎,通過定義和描述事物之間的關系和屬性,使得計算機能夠更好地理解和處理自然語言和認知概念。統一基礎本體是近二十年來在哲學、認知科學、語言學和哲學邏輯等領域基于形式本體論整合發展起來的,包含了多組關于基本概念建模的微觀理論,包括實體類型和關系類型。

  在中間層,GSO 以北美地質圖數據模型和 GeoSciML 為基礎,在概念上進行延伸,形成了地質層,該層旨在全面表示地質學的各個方面,包括地質對象、材料、結構、環境、性質、作用、過程、事件、地質時間和地質關系等實體。

  最后一層是延伸中間層的地學模塊,例如各種地質構造、特定的時間尺度或各類巖石材料,這種模塊化的方法可根據具體要求進行模塊的替換或添加。

  GSO 主要用途是用于三維地質建模的知識管理,可以被部署在沒有互聯網的地區,并與 3D 建模軟件耦合。它是一個獨立的產品,不會導入其它本體。GSO 采用 UML 表示時,使用 Sparx Enterprise Architect 工具,采用 OWL 表示,則使用原始文本編輯和 TopQuadrant TopBraid Composer、Protégé 等工具的組合。

  前兩個 GSO 層被序列化為不同的文件,“GSO-Common.ttl” 為非基礎地質層,“GSOGeology.ttl” 為地質層。構成第三個 GSO 層的模塊也是不同的 ttl 文件,每個地質方面一個。GSO Common 模塊包含最一般的非地質實體。GSO 地質層包含最上層的地質實體,每個地質實體專門化一個共同的實體,或者是持久體、持續體、特征、情境或某個子類型。

  GeoCore 本體相當于 GSO 的中間層。可以對 GeoCore 本體進行進一步的擴展,比如建立巖石、地層學或者構造地質學的領域本體,但是 Garcia 等并未進行實例檢驗,僅提出了想法。而在 GSO 中,已經構建了詳細模塊,每個 GSO 模塊至少需要 GSO-Common,地質模塊額外需要 GSO-Geology 和少量其它模塊,應用程序可只部署必要的模塊。

  2.2 其它本體模型

  地質數據與知識圖譜的融合已被證明是有效的,并且可增強這些數據集之間的相互連接。除了上述提到的兩個地質本體以外,還存在其它模型在地質學領域的應用,例如:Zhang 等提出了 GeoDeepDive 模型,該模型可以幫助地質學家從地質期刊論文的文本、表格和圖形中發現隱藏的信息和知識;PaleoDeepDive 可以從出版物中的異構文本、表格和圖形中自動定位和提取數據,它可以很容易地容納復雜的數據類型,產生了一個概率數據庫,隨著信息的增加而系統改進;Zhu 等在地質數據深度挖掘智能系統展示了知識圖譜的應用,利用Baike.com和當地地質文件構建了知識圖譜。

  在地學文獻挖掘領域,前人作了大量研究。地質學家在參與地質調查和科學研究時,常常使用地質報告來記錄調查結果和成果。盡管有如此豐富的數據來源,仍有大量知識等待挖掘和分析。Wang 等使用自然語言處理方法和知識圖譜從地學文獻中提取和可視化知識圖譜,為重用大量的非結構化文獻提供了一個新的視角。Lv 等提出了 BERT-BiGRU-CRF,這是一種基于深度學習的地質命名實體識別模型,專門針對語言不規則性而設計。Wang 等提出了一種通過三元組抽取從地質報告中自動抽取信息的方法,然后從抽取的實體和關系中自動構建地質知識圖譜。

  知識圖譜也可以用來輔助尋找礦產,比如建立找礦模型和從未充分利用的勘探報告中自動提取與礦化和成礦條件相關的地質信息,并且已經應用于具體的某一類礦產類型。

  對于油氣勘探領域,有些學者將知識圖譜用于油氣層識別和油氣管道風險評估。Guichet 等創建了一個系統,能夠在大型文檔儲庫中準確定位與回答石油勘探相關的具體問題,特別是與烴源巖表征相關的問題,采用機器學習系統 WATSON 來支持地質學家在區域地質研究中的應用,旨在利用機器學習算法,提高從海量非結構化科學文檔中收集相關地球科學家數據的效率。

  在自然災害領域,知識圖譜也得到了廣泛應用,常見的就是應用于地質災害、臺風災害、森林火災和洪澇災害等。除了實例應用之外,也有學者利用知識圖譜對文獻進行分析,獲取現今災害風險感知的主要研究對象,或者與遙感信息、相關地理信息等相結合,建立災害預測模型和應急響應知識概念模型,有效降低災害損失。

  也有學者將知識圖譜應用于遙感領域,Li 等提出一種基于深度對齊網絡的方法,通過跨模態匹配實現了遙感圖像分類中的零樣本學習,取得了比其它方法更好的性能。Hao 等根據測繪遙感大數據的異構、分散和動態更新特征,構建了面向測繪遙感應用的知識圖譜。Aldana-Martín 等提出了一個語義模型,用于部分滿足對地觀測衛星遙感產品的數據和元數據合并、集成、推理和鏈接的需求。Sun 等討論了遙感圖像解譯的主要挑戰,并系統地綜述了基于語義圖的遙感知知識表示和理解的典型方法,包括本體模型、地學信息圖譜和語義知識圖譜。

  在氣候學領域,Rising 等對氣候風險進行了概述,并根據這些風險缺乏穩健評估的原因進行了本體分析,還提出了一種方法,以綜合評估或猜測這些風險時考慮相互依賴、避免重復計算和明確假設。Wu 等提出了一種能夠自動集成遠程氣候知識圖譜數據和本地表格數據的分析流程工作,以提高特定氣候分析任務的數據可用性。此外他們還創建了一個可互操作的氣候數據知識圖譜平臺 LinkClimate,這個圖譜將多個氣候數據和其它數據源集成到一個服務中,并利用 Web 技術進行多源氣候數據分析。

  此外,知識圖譜也可以應用于構建數字高程模型、水環境智能監測、表征水質、海上風電場檢測、高山滑雪風險評估、地鐵車站地震風險綜合評估和地震事件檢測等領域。然而,地理知識圖譜主要描述靜態事實,難以表征變化,從而嚴重限制了其在地理時空過程中的應用,為了解決這個問題,Zheng 等提出了一種稱為地理演化知識圖譜的模型,該模型將地理要素的時空特征和演化規律納入分析,以實現更好的地理知識表征。

  總之,地球科學知識圖譜應用領域廣泛,包括地質學、氣候學、地理學等多個學科領域,為科學研究、決策支持和可持續發展提供了重要的數據和知識基礎。

  3 地學知識圖譜項目

  3.1 深時數字地球計劃(DDE)

  人類很早就開始研究宇宙演化、地球演化和生命演化的科學問題,地球歷史中保存著信息豐富但不完整的地質記錄,研究地球的深時歷史有助于揭示演化機制、氣候變化、自然資源和地球的未來。演繹推理和歸納推理已被廣泛用于研究地球歷史,但對于不容易通過上述兩種方法發現的模式,溯因推理是一種有效方法,它源于對大量可靠數據的積累和分析,與前提或概括無關。隨著海量地球數據的積累,地球科學家計劃通過溯因發現來改進地球科學研究,地球深時數據以不同的格式存儲在不同的文獻和數據庫中。為了整合和協調這些數據,已建立了多個專題數據設施,如 Paleobiology Database、Macrostrat、EarthChem 和 RRUFF 等。當利用深度時間數據庫進行溯因時,會遇到諸多問題,但大數據和人工智能為解決這些問題帶來了機遇。國際地質科學聯合會發起了深時數字地球計劃,并與全球各國的地質調查機構、專業協會、學術機構和科學家開展合作。

  DDE 的目標是鏈接和協調全球深層地球數據,共享全球地學知識,旨在通過深層時間刺激數據驅動的發展來研究地球的演化。地球演化涉及四個主題:地球上的生命、地球物質、地理和氣候。為實現其使命和愿景,計劃包含三個主要組成成分:計劃管理委員會、卓越中心和工作、平臺以及任務組。DDE 將基于現有的地球深時知識體系,進行開放平臺的開發。研究計劃的第一步基于現有的地球深時知識體系建立模型,第二步是構建可互相操作的地球深時數據基礎設施,第三步是開發深時地球開放平臺。程序的執行分為四個階段:第一階段建立一個組織結構;第二階段形成初步團隊,構建深時地球數據庫;第三階段開發算法和技術;第四階段解決綜合性科學問題。

  目前,在地球科學領域,知識圖譜的構建采用了各種語言和工具,但不同知識圖譜之間的關系通常不明確,這給知識圖譜的整合和重復使用帶來了挑戰。考慮到目前地學領域知識圖譜構建的現狀,DDE 項目旨在建立統一的表示模型,以構建地學領域的綜合知識圖譜。為了實現這一目標,DDE 知識圖譜遵循三階段構建方案。第一階段的重點是開發知識系統,第二階段建立術語之間的關系和屬性,從而形成本體。DDE 的本體分為兩類:基礎本體,包括空間本體和地質時間本體等地球科學領域常用的本體;特定領域本體,包括來自地球科學各分支學科的專門內容。目前,在 DDE 框架下已經初步構建了 20 個特定領域的本體,包含 61937 個節點和 62610 個關系。為實現對專家構建的本體的開放訪問,DDE 開發了地學知識圖譜協同編輯器。在四年的時間里(2019—2023),DDE 知識圖譜在該平臺上實現了第一階段的建設目標,現已進入第二階段的本體建設階段。

  DDE 計劃面臨多種挑戰,需要吸引更多的科學家和科學社群參與,整合各種語言和格式的數據,建設全球數據基礎設施,同時要推進國際合作,連接不同數據和網絡基礎設施,并協商可持續發展。

  總之,通過整合地球深部數據、地學知識以及數據科學和人工智能技術,DDE 解決了地球演化研究中的重大挑戰,促進了數據的整合和研究,開創了地球科學中跨學科溯因發現的新時代。DDE 將創造一個開放訪問的數據資源,整合了地球敘述的過去、現在和未來的方方面面,這將帶來全新的視角,改變我們對地球和宇宙的認識。

  3.2 其它項目

  DDE 致力于構建綜合的地學知識圖譜,通過整合各種地學領域的知識和數據資源,以支持地球科學的研究和應用。除了 DDE 項目,國內外還有許多其它組織和計劃也在推動地球科學知識圖譜的發展,各項目的側重點各有不同。

  國際地質科學聯合會地理信息委員會是標準化地球科學詞匯和地質數據圖式的促進者。IUGS-CGI 的一部分成果已被整合到 OneGeology、OneGeology-Europe 和 INSPIRE 計劃中,以協調來自分布式來源的地質數據。

  OneGeology 項目首要目標是提高地質圖數據的可獲取性,使所有國家都能參與交流專門知識和技能并加速地學領域的互操作性和新標準。通過整合來自不同來源的地質數據,提供了高分辨率的地質圖數據,使得地質數據在全球范圍內更易于獲取和使用。

  OneGeology-Europe 項目是 OneGeology 項目的一部分,旨在整合和共享歐洲地質地球科學數據和信息,為科學家、工程師和公眾提供更全面、更便捷的地質地球科學數據資源。OneGeology-Europe 項目展示了知識圖譜在地質圖集成和服務中的智能化應用。GeoSciML 和詞匯表被應用于 OneGeology-Europe 項目中,該項目使用了來自 20 個不同數據供應商的分布式 Web 服務繪制了 1∶100 萬歐洲地質圖。

  從 OneGeology-Europe 項目中得到的經驗教訓促進了 INSPIRE 地質數據規范的發展,INSPIRE 計劃旨在促進歐洲范圍內的空間數據和地理信息的互操作性和共享,建立統一的空間信息基礎設施,支持環境管理、城市規劃等領域的決策和行動。GeoSciML 數據模型是一種標準化的數據模型,用于描述地球科學領域的地質地球科學數據,促進數據的交換、共享和集成,提高地球科學研究和應用的效率和準確性。GeoSciML 可以擴展 INSPIRE 數據模型,為地質圖融合提供基礎。

  EarthCube 項目主要目標是建立學科之間的連接,促進現代地球科學的發展和變革。它是一個由美國國家科學基金會支持的社區驅動項目,超過 2500 名地球、大氣、海洋、計算機、信息和社會科學家,以及教育學家和數據管理者等人員參與了對 EarthCube 項目概念的闡述。該項目在發展過程中也取得了一些進展,比如 Zhou 等提出了一個來自于 GeoLink 項目的真實數據集,作為潛在的復雜本體對齊基準,該數據集包括 GeoLink Base Ontology 和 GeoLink Modular Ontology 兩個本體,以及來自不同機構的領域專家共同開發的手動創建的參考對齊。GeoLink 通過 SPARQL 協議和 RDF 查詢語言終端對外公開,包含超過 4500 萬個 RDF 三元組,以及一組本體和地理可視化工具。GeoLink 旨在通過使用本體來提高 7 個地學數據存儲庫的數據檢索、重用和集成。

  LinkedGeoData 項目是一個基于開放地理數據的開源項目,旨在提供一個集成了地理和語義信息的全球地理數據庫。它創建了一個全球覆蓋的大型知識圖譜,其數據源包括 OpenStreetMap 和其它數據源,并且這些數據源之間相互鏈接。通過 LinkedGeoData,用戶可以訪問和查詢各種地理信息,例如地理實體(如城市、國家、地標等)、地理關系和屬性等。Ding 等報告了使用虛擬知識圖譜技術將 LinkedGeoData 中的關系數據庫作為 SPARQL 端點持續努力的情況。

  此外,NASA 建立了 SWEET 本體,旨在通過軟件理解 Web 資源的語義,提高地球科學數據的發現和使用,涵蓋了地球和環境科學的 200 多個學科領域和 6000 多個概念。

  4 討論和展望

  4.1 面臨的困難和挑戰

  知識圖譜面臨著多個挑戰,包括可擴展性、質量、多樣性、動態性和可用性,這些挑戰不太可能被完全解決,但隨著技術和工具的發展,它們將逐漸得到解決。Roldán-Molina 等提出了一種評估本體質量的方法(定量和圖形化),并解決了本體不一致性的問題,以最大限度地減少設計缺陷。此外,Chen 等也詳細介紹了各種知識圖譜補全技術的特點、優勢和適用領域。

  上述挑戰不僅存在于地球科學領域,也是所有知識圖譜構建中普遍存在的。然而,由于地球科學的復雜性和多樣性,地球科學中的知識圖譜構建面臨著一些獨特的困難。Ma 在論文中討論了地球科學知識圖譜構建和應用中的幾個重要問題,包括 KG 實體消歧和識別、質量度量、語義定義和推理能力、KG 的演化與版本、KG 之間的互聯與擴容,以及安全、隱私和道德問題。這些問題對于 KG 的有效使用和發展至關重要。除此之外,對于特定領域的知識圖譜所面臨的局限和不足,Abu-Salih 也進行了總結和概括,主要包括:①KG 數據質量、隱私性和可信性;②知識資源與語義擴展;③KG 構造算法;④時間感知的 KGs;⑤KG 評價;⑥Big KGs 中的計算性能;⑦特定領域的 KG 推理;⑧領域特定 KGs 的可用性;⑨領域特異性 KGs 的進一步研究空間。

  4.2 地球科學知識圖譜應用展望

  地球科學中的 KG 創建和應用的未來工作具有廣闊的發展空間和靈活性:首先,地球科學知識圖譜可進一步提高數據的可訪問性和可利用性,將大量多源異構數據整合到知識圖譜中,并實現數據的互操作性,使得不同數據之間可以無縫連接和交互;其次,地球科學知識圖譜需要更加精確和豐富的知識表示方式,包括地質、氣候、海洋、生態等多個領域的知識,并具備推理能力,能夠自動地推導和發現新的知識,從而加速科學研究的進展。此外,地球科學知識圖譜的發展需要跨學科的融合和合作,將地球科學與計算機科學、人工智能、數據科學等領域的知識相結合,共同推動知識圖譜的構建和應用,促進不同學科之間的交流與合作;最后,為了更好地展示和利用地球科學知識圖譜,未來需要開發出直觀、易用的可視化和交互界面,使科學家、決策者和公眾能夠方便地瀏覽、查詢和探索知識圖譜中的信息,從而更好地理解地球系統和相關問題。

  在地球科學領域,大型語言模型的引入為知識圖譜構建和應用帶來了新的機遇。Deng 等將 LLMs 引入地球科學領域,首次提出了地球科學領域的第一個 LLM 模型 K2,并開發了一套資源來促進地球科學領域內的 LLMs 研究。大型語言模型可以通過學習大規模文本數據來理解和生成自然語言,但它并不總是具有深度的領域特定知識,知識圖譜提供了結構化的、領域特定的知識,彌補了大型語言模型在特定領域知識方面的不足。將大型語言模型和知識圖譜結合使用可以提高自然語言處理的性能,促進對地球科學領域中復雜問題更深入的理解和分析。

  地震科學作為地球科學的重要分支,涉及到地質學、地球物理學、工程地震學等多個一級學科的交叉。然而,知識圖譜在地震科學領域的應用目前還存在著較大的空白,迫切需要在現有的模型基礎上開展深入研究。地震科學知識圖譜可以從上文提到的 BFO 本體進行延伸,利用其通用性,將地震科學中的基本概念與 BFO 中的一般概念進行對應,然后通過擴展添加地震科學特定的概念。確定地震科學概念之間的關系,比如地震事件與地質結構、地震波的傳播路徑等。整合地震領域的數據,與專業人士合作,確保本體的設計和知識圖譜的建立符合實際研究需求。地震科學知識圖譜的建立有助于整合多領域信息,推動地震科學領域的發展。

  總體而言,地球科學知識圖譜的發展將是一個不斷演進和完善的過程,通過持續的技術創新和學科交叉,將為地球科學研究、決策制定和公眾教育等領域帶來更多的機遇和益處。

  5 總結

  地球科學知識圖譜是整合多源地球科學數據的工具,有助于科學家理解地球系統的復雜性,GeoCore 和 GSO 地質本體的建成證明地質數據與知識圖譜結合良好,此外,它還廣泛應用于地學文獻挖掘、氣候、自然災害和遙感等領域。DDE 計劃、OneGeology-Europe 項目和 INSPIRE 計劃等推動了數據集成和共享,促進了地球科學知識圖譜的發展。然而,雖然有學者已經在質量評價和知識圖譜補全方面進行了研究,但還是面臨可擴展性、質量、多樣性、動態性和可用性等方面的挑戰。在未來的發展中,依舊需要技術完善和國際合作的支持,并且可以與大型語言模型等先進技術相結合,以促進地球科學知識圖譜的發展。此外,在地震科學領域,知識圖譜通過整合和智能分析地震相關數據與知識,為地震研究人員提供更準確的災害預測、風險評估以及快速響應和決策支持的能力。

牛鳳桂;張貝;陳石,中國地震局地球物理研究所;北京白家疃地球科學國家野外科學觀測研究站,202403