摘要:中國已積累大量結構化、半結構化和非結構化土壤數據資源,但這些數據往往具有來源多樣、結構各異、組織無序且存儲分散的特點,迫切需要進行體系化整合及高效管理,以適應大數據人工智能時代對土壤數據的挖掘與應用需求。基于大數據、數據湖和數據倉庫等理念與前沿技術,本文提出了土壤大數據體系框架及其構建流程和方法,重點論述了土壤數據采集預處理、非結構化數據識別、算法模型等關鍵技術,以及湖倉一體存儲架構和數據共享服務方案。文中列舉了該體系在土壤數據共享服務、污染場地智能化管控和土壤生態規律挖掘等方面的應用案例,并探討了其在第三次全國土壤普查土壤數據資源庫建設中的潛力,以及數據驅動的土壤研究的應用前景。
">時間:
1 引言
我國將 “數據” 與土地、勞動力、資本、技術并列為生產的五種要素。2020 年發布的《中共中央國務院關于新時代加快完善社會主義市場經濟體制的意見》提出,要進一步加快培育發展數據要素市場。土壤數據作為數據要素的重要部分,是土壤研究的基礎要素和支撐保障,對土壤及其相關數據的深入分析和挖掘,將有力推動土壤新規律的發現、新認知的形成,進而在耕地地力提升、土壤污染監測和風險防控、耕地資源可持續管理、智慧農業等方面發揮重要作用。
通過全國土壤普查、全國土壤環境背景值調查、全國土壤污染物調查、測土配方施肥、中國土系調查等國家級調查工作,以及眾多科學研究過程中的土壤調查和相關試驗,我國已積累了大量土壤數據。同時,通過中國生態系統研究網絡(CERN),還積累了大量農田、森林、草地、荒漠等典型生態系統土壤長期監測數據。此外,通過傳感器和物聯網,不斷產生土壤溫度、水分、pH、鹽分等動態數據;利用 “3S”、數字土壤制圖等技術,生產了大量土壤空間專題圖以及土壤質量、土壤健康、土壤生態多功能性等評價數據。各方機構不僅建立了 “中國 1∶100 萬土壤數據庫”“中國 1∶400 萬土壤數據庫”“中國土種數據庫”“中國土壤信息系統” 等國家級土壤數據庫和數據平臺,還建立了 “河南省 1∶20 萬土壤數據庫”“浙江省 1∶5 萬大比例尺土壤數據庫” 等省縣級區域土壤數據庫。
然而,土壤數據多源異構、組織無序、存儲分散,很難滿足研究和應用需求,亟待進行體系化高效管理。近年來,大數據相關理念及技術飛速發展,其技術鏈囊括數據采集、處理、存儲、治理、分析挖掘、共享應用等多個環節,為土壤相關數據資源的有效管理及挖掘與應用提供了有效途徑。構建土壤大數據體系,實現土壤數據資源的統一存儲管理和挖掘應用,可以多方位支持土壤污染狀況調查與管控、第三次全國土壤普查等國家大型土壤相關項目,并為農業生產布局優化、生態環境保護、農業可持續發展等提供數據和技術保障。
2 土壤大數據體系框架
2.1 大數據概念
大數據指數量龐大且復雜的數據集,具有容量大(Volume)、速度快(Velocity)、多樣化(Variety)、低價值密度(Value)、真實性(Veracity)等 “5V” 特性。國內許多政府部門、科研機構、行業建立了自己的大數據體系,如廣東省建成了 “開放廣東” 全省政府數據統一開放平臺,中國地質調查局建設了 “地質云” 3.0 版,中國科學院建立了科學數據中心體系,百度、阿里、騰訊、新浪等都建立了不同應用方向的大數據。
傳統觀點認為土壤數據體量小、高度結構化、數據質量高,具有典型的科學數據特征。但近年來,隨著土壤信息獲取技術的迅速發展,與土壤相關的傳感器數據、遙感數據、土壤基因組和代謝組數據等新來源數據不斷涌現,土壤數據越來越呈現出明顯的大數據特征。面對來源多樣、格式繁雜、內容迥異且存儲分散的土壤數據資源,如何更好地管理和高效利用成為一個難題。
近年來,數據湖概念的提出為土壤大數據的組織管理提供了一種新的思路。數據湖能夠存儲結構化和非結構化數據,是一種面向大規模、多來源、高度多樣化數據的組織方法,且具備完善的數據管理能力。然而,數據湖一般不直接面向數據應用,需要通過數據治理、處理、集成等,將數據湖中的數據對接到面向應用的數據倉庫,形成湖倉一體的數據管理應用架構。湖倉一體非常適用于土壤大數據的組織管理,再結合土壤專業分析算法和模型,可以實現多場景數據服務和挖掘應用。
2.2 土壤數據資源組成
土壤數據包括結構化、半結構化和非結構化數據。一般來講,結構化數據是指可以由二維表結構表達的數據,是高度組織和整齊格式化的數據,具有易于檢索、分析、存儲等特點,如土壤理化屬性數據。對于具有預定義字段或結構的矢量和柵格空間數據,也將其納入結構化數據范疇。非結構化和半結構化數據是土壤相關數據中數量最豐富的數據,但是難以直接利用。
1.2.1 結構化數據
二維表結構數據:土壤自身數據多以二維表結構形式存儲,是指在土壤發生、發展、分類、評價及應用中產生的數據,包括土壤采樣調查、理化及生物性狀、土壤分類等相關數據,也包括土壤形成演變、土壤與其他界面物質和能量交換等過程中產生的科學數據,如野外調查及實驗室化驗分析獲得的 pH、土壤養分、土壤元素等數據,水溫鹽傳感器數據,以及溫室氣體排放數據等。但是這些高質量數據僅占土壤相關數據資源的 20% 以下。
空間數據:例如中國土壤類型、土壤理化屬性等空間分布圖,每個圖斑代表不同類型或者屬性范圍,是典型的空間數據格式。此外,大量反映土壤成土環境與過程的點位及面狀數據,如地形地貌、氣象氣候、水文地質、植被、土地利用等數據。遙感數據也在一定程度上反映部分土壤信息,是土壤的一個重要空間數據源。土壤相關空間數據可以分為土壤特性和關聯環境等空間數據,這些數據多以矢量或柵格形式存儲,空間參照系可能不同且數據量龐大。
1.2.2 非結構化數據:在土壤相關數據資源中,非結構化數據類型多、數量大,多以論文、報告、統計年鑒、圖像、音視頻等形式存在,需要首先進行技術處理,抽取關鍵信息,形成結構化數據,才能方便使用。以土壤科學論文為例,它們通常包括文本、表格和圖形等,因此,需要首先進行文本實體數據抽取、表格數據識別,以及柱狀圖、散點圖等圖形數據自動提取等處理,以獲取氣候、母質、地形等環境背景信息,以及試驗方法、統計數據、分析結果、結論等關鍵信息,以形成便于利用的結構化數據。
1.2.3 半結構化數據:土壤相關數據資源中同樣存在大量半結構化數據。例如,土壤測試分析儀器設備產生的大量日志數據,各類土壤數據庫和平臺的系統日志,新聞、微博等網絡輿情數據,多以便于傳輸交換的 JSON、XML、GML 等數據形式表達。以 GML 格式的土壤采樣數據為例,介紹對半結構化數據進行結構化轉換的過程:首先,歸納已有土壤采樣 GML 數據,梳理出所包含的信息類別(如采樣點空間位置、地形信息、天氣信息等),并加入其他關注的信息,建立相關信息子表;然后,設計開發相應工具或中間件,實現 GML 數據到數據庫表的自動加載;最終,實現半結構化數據到數據庫表的轉換,以便于提升數據檢索、統計分析效率。
2.3 土壤大數據框架
土壤大數據體系框架主要由數據采集預處理、存儲集成、非結構化數據處理、算法模型及應用服務等部分組成。首先,針對不同公共源土壤相關數據的特點,利用網絡爬蟲等技術,進行相關數據的采集和預處理。其次,利用數據湖和數據倉庫理念,構建土壤相關結構化、半結構化及非結構化數據存儲架構,結合數據治理、處理、集成等技術,形成面向特定專題的土壤數據倉庫。再次,構建空間分析、統計分析、關聯分析、機器學習等分析挖掘方法,以及土壤侵蝕、酸化、碳氮耦合、空間預測等專業模型,形成土壤算法模型庫。最終,開展土壤數據共享服務、支撐全國土壤普查、生態環境保護、土壤知識挖掘等方面的應用。
3 數據采集處理與分析挖掘
3.1 土壤公共源數據采集
在遵循國家相關法律和行業規范的前提下,采用網絡爬蟲、網頁緩存、API 接口、數據庫同步、批量接入等技術,構建公共源土壤數據采集系列技術。對于采集獲取的土壤相關數據資源,進行數據預處理,如冗余去除、缺失值處理、格式轉換等,并記錄數據來源、獲取時間、特征等描述信息。
3.1.1 遙感數據采集:近年來遙感和計算機技術的飛速發展,為地上植被、土地利用、土壤關鍵屬性等監測提供了快速、便捷、宏觀、無損的方法,遙感數據已經成為土壤研究的重要數據源之一。對于 MODIS、Landsat、Sentinel 等公開遙感數據,利用 Python、R、Linux Shell 等開發語言,可以實現指定時空范圍、云量、影像級別等條件的遙感數據批量采集處理。
3.1.2 部門公開數據采集:在我國管理部門的公開數據中,土壤環境相關數據較豐富,如環境影響評價報告、水質監測信息、排污單位自行監測信息等。針對不同數據的特點,利用 Python 及其 urllib、requests、grab、pycurl 等程序包,通過模擬瀏覽器操作等方法,可以實現多種部門公開數據的采集。
3.1.3 網絡動態數據采集:在互聯網公開數據中,工商企業黃頁信息以及微博、新聞網站、微信公眾號等網絡動態數據均為土壤大數據的重要來源。通過解析不同類型網絡動態數據載體的特征,基于 Python 語言和相關程序庫,可以實現土壤相關網絡動態數據的采集處理。
3.2 非結構化數據處理
土壤相關科研論文、調查報告、評價報告等文檔中包含豐富信息,對其關鍵信息進行結構化識別處理,生成便于直接使用的數據形式,是大數據處理中的重要技術環節。以建設用地土壤污染狀況調查報告為例,介紹非結構文檔識別流程和方法:首先,構建 “圖–表–文” 主題內容解構方法,對其中的 “圖、表、文” 進行抽取,獲取結構 / 半結構化的表格數據,以及非結構化的圖片數據;然后,基于抽取的文本數據,采用自然語言處理方法(Natural Language Processing,NLP)進行文本要素抽取,獲取(半)結構化的文本要素數據。
3.2.1 非結構化文檔解構:在非結構化文檔報告中,圖注通常位于圖的下方,表注大部分位于表的上方,且表格數據可能跨多頁。結合圖和表的不同特點,利用 Python 語言及 pdfplumber、pymupdf 等程序包,可以實現圖片和表格及其說明文字的自動提取;根據文檔報告目錄,將文檔轉化成片段式的文本文件。
3.2.2 文本要素抽取:文本要素抽取是指從自然語言文本中抽取預先定義好的要素標簽對應的信息,如人名、地名、機構名等短語級要素,或事件的經過等句子級甚至段落級要素,從而將文本轉化為計算機可處理的信息。可采用規則匹配、預訓練模型和大語言模型等 NLP 方法,進行文本要素的自動抽取。
基于規則匹配的方法:通過定義相應的匹配規則集合,對特定類型的文本要素進行識別。例如,在污染場地調查報告中,包含 “位于”“占地面積”“建成”“停止運行” 等關鍵詞的句子,與要素標簽 “地塊位置”“地塊面積”“起始時間”“結束時間” 等要素標簽有關。理論上,只要制定足夠量的匹配規則及合適的優先級,便可取得較高的提取準確率,但該方法費時費力且需要豐富的匹配規則構建經驗。
基于預訓練語言模型的方法:預訓練語言模型是 NLP 的重要模型,借助于預訓練階段從海量通用數據中學習到的詞匯、結構、語義等知識,針對土壤污染狀況調查報告的標注數據進行模型微調,可以實現文本要素智能抽取。預訓練語言模型法可以實現較高精度的文本要素抽取,但需要足夠多的訓練樣本進行標注和模型多次微調,同樣需要大量人力和時間投入。
基于大語言模型的方法:近期大語言模型(Large Language Models,LLMs)的出現,大大推動了文本要素抽取技術的進步。國內外推出了 ChatGPT、文心一言、通義千問、盤古、星火等商用 LLMs,以及 ChatGLM-6B、LLama、Alpaca 等開源 LLMs。通過開源 LLMs 的本地化部署,利用 Python 程序設計語言和 Open AI API 接口庫,并根據所提取數據的特征構建抽取提示詞,可以實現文本要素信息的自動抽取。然而,LLMs 法可能會抽取出無關信息、錯誤信息甚至未出現信息,需要通過模型微調、提示詞優化等方法改進。
3.3 數據分析挖掘
土壤大數據的深入挖掘是實現從 “數據到知識” 的關鍵節點,基于統計分析、生態分析、空間分析、機器學習等通用數據分析方法,以及侵蝕模型、酸化模型、碳氮模型等土壤專業模型,可構建土壤分析挖掘算法模型庫。
通用分析方法:統計分析可以對數據進行初步了解,常用分析方法有相關性分析、方差分析、集中趨勢分析、離中趨勢分析、主成分分析等。空間分析是發現土壤空間規律的重要手段,如空間中心計算、空間自相關分析、柵格計算等方法。生態分析是發掘土壤生態規律的重要手段,如土壤生物多樣性計算、降維分析、聚類分析、差異檢驗、驅動因子分析等方法。此外,還有回歸分析、空間插值、地統計,以及支持向量機、隨機森林、神經網絡等方法。
土壤專業模型:土壤專業模型可以對土壤中的物理、化學和生物相互作用,進行多尺度、多層次的定量描述,是土壤科學研究中的重要手段,也是進行土壤大數據知識挖掘的重要途徑,例如土壤侵蝕模型、土壤酸化模型、土壤有機碳過程模型(如 RothC 和 DNDC)、陸面過程模型等。
4 土壤數據資源庫
土壤相關數據經預處理之后需進行統一存儲,便于后續使用和管理。針對表格數據、數據庫數據、文檔數據、空間數據、圖片數據、輿情數據等眾多類型土壤數據資源,采用文件存儲、(非)關系數據庫、空間數據庫等方式存儲其原始數據,設計開發數據抽取、轉換、裝載等中間件,集成整合為面向特定專題的土壤數據倉庫,形成符合湖倉一體化要求的土壤數據存儲方案。
4.1 原始數據存儲
預處理后的土壤數據依然格式多樣,利用文件存儲、關系型數據庫、非關系型數據庫、空間數據庫、分布式文件系統等存儲技術,對土壤相關表格數據(如采樣調查信息、土壤理化屬性、土壤生物多樣性、樣點環境因子等)、數據庫數據(如中國土壤數據庫、中國土種數據庫、農田生態系統土壤養分動態數據庫、工商企業數據庫等)、文檔數據(如科研論文、環境影響評價報告、污染場地調查評估報告等)、空間數據(如土壤屬性圖、地形圖、土地利用圖、遙感數據等),以及圖片、文本抽取數據、輿情數據等,選取合適的技術存儲管理原始數據。
4.2 集成整合中間件
統一存儲的原始數據仍可能存在字段名稱差異、度量單位不統一等現象,需進一步對相關數據進行抽取、轉換、變換等處理,構建面向專題應用的標準統一的數據倉庫。例如,對于來源不同內容相似的結構化數據,通過字段映射、單位轉換、數據抽取等中間件,實現結構化數據的集成整合;對于大量格式、坐標系統存在差異的空間數據,通過格式轉換、坐標變換等中間件,實現時空數據的標準化集成。
4.3 專題數據倉庫
面向土壤數據共享服務、普查調查、知識發現、智慧農業、生態環境保護等應用方向,基于關系數據庫和空間數據庫,利用中間件進行對原始數據的加工處理,建立專題數據倉庫,提高土壤數據利用效率,以便于土壤知識挖掘。
5 數據管理與共享服務
以土壤原始數據資源和專題數據倉庫為基礎,形成土壤大數據資源目錄,對土壤數據資源進行檢索和瀏覽。利用數據庫視圖、Web 服務、地圖服務、FTP 服務等方法,為獲得權限的外部用戶(單位、組織、個人等)提供數據共享服務。
5.1 數據目錄管理
數據目錄是土壤數據集中式元數據存儲庫,目錄管理系統能讓數據資源管理變得簡單高效,一般包括目錄分類創建、目錄編制、目錄審核及目錄更新等功能。
目錄編制:包括目錄資源基本信息、共享屬性、開放條件、描述信息等的自定義設置,支持新增、查詢、導入、導出,及目錄模板化自動導入等操作,目錄編制好后提交審核。
目錄審核:根據數據自身特征、用途、類型,以及相關法律、法規、政策、標準等,對數據目錄進行審核并提出意見,由目錄編制人員對駁回的目錄根據審核意見進行修改。
目錄更新:對于已通過審核的目錄進行上線發布,對于不再使用的目錄進行下線處理,實時更新數據目錄。
5.2 數據共享服務
基于 FTP 的共享:針對以文件形式存儲的土壤原始數據,按照一定的組織方式構建文件 FTP 服務器,依托數據資源目錄管理,將相應數據資源鏈接到其目錄,進行土壤原始數據資源的共享。
基于數據庫視圖的共享:數據庫視圖是一種虛擬表,不在專題土壤數據庫中實際存在,而在使用中動態生成。通過數據庫視圖技術,可對特定用戶開放特定數據集,保障數據的安全性。
基于 Web 地圖服務的共享:地圖服務是通過 Internet 或 Intranet 提供地圖的方式,使地圖、要素和屬性數據可用于多種類型的應用程序。利用 GeoServer、ArcGIS Server 等工具,可實現土壤空間數據的在線服務。
6 土壤大數據應用案例
6.1 基于大數據的土壤信息服務平臺
基于土壤大數據資源建立的國家級土壤信息可視化與分析平臺,支持網頁端(http://www.soilinfo.cn/)和移動端(http://www.soilinfo.cn:8080/WebSoil/APP.jsp)。平臺具有空間數據可視化、空間分析及私有數據管理等功能,顯著提升了土壤數據空間可視化分析水平,增強了對決策模型的支撐能力,同時提高了用戶獲取土壤數據資源的便利性。
6.2 土壤大數據支持的污染場地數據高效管理
近年來,我國對土壤環境保護及污染修復高度重視,污染場地土壤相關數據資源呈爆炸式增長,亟需土壤大數據支持場地數據資源的組織管理。土壤大數據體系為污染場地管理提供了豐富的土壤數據資源,并針對性地優化了適用于污染場地的數據采集、非結構化數據處理、集成整合等技術,有力支撐了污染場地數據資源的高效管理。
6.3 基于土壤大數據的土壤生態研究
基于集成整合的土壤大數據資源,利用生態統計分析、空間分析、預測模型等方法,相關研究探索了干旱–半干旱荒漠區土壤微生物與植被生產力間的復雜關系。研究發現,資源可用性、物種的環境適應性及物種競爭等生態機制聯合引起了土壤微生物多樣性–生產力之間的耦合關系;同時,通過大尺度聯合對比分析,發現集約化農業措施(特別是灌溉、施肥等)削弱了土壤微生物多樣性對氣候因子的響應。
7 小結與展望
7.1 進一步完善土壤大數據體系
土壤大數據研究和應用需求十分迫切,但仍有多個技術環節需進一步完善,尤其在非結構化數據處理、高效存儲管理、集成整合等方面。此外,在文本可視化、網絡圖可視化、時空數據可視化等技術方面需要全面加強,以實現土壤大數據的可視化展示和管理。
7.2 構建全國土壤三普大數據資源庫
目前第三次全國土壤普查已全面展開,很快將形成國家級、省級和縣級等不同規模的結構化土壤三普數據庫,同時還將產生大量調查圖片、調查分析報告、專題圖等非結構化數據。基于土壤大數據體系框架,可全面整合三普相關結構化和非結構化數據,構建全國土壤三普大數據資源庫,為土壤數據的深入挖掘及推動成果產出提供有力支撐。
7.3 強化土壤大數據挖掘及應用
大數據和人工智能技術的快速發展帶來了科研范式的變化。在充分融合環境背景、土壤物理、土壤化學、土壤生物、人為活動等土壤大數據的基礎上,結合土壤專業知識和模型,利用人工智能等前沿技術挖掘土壤領域的新規律和新知識,將為黑土地保護利用、退化耕地智慧監測、土壤污染防控等重大戰略提供更有力的支撐。
劉 杰;郟夢思;王昌昆;郭志英;孫維維;馬海藝;袁自然;潘賢章,土壤與農業可持續發展重點實驗室(中國科學院);中國科學院大學,202406