摘要:生物制造是新質生產力的重要代表,是通過工程細胞或無細胞體系實現物質高效轉化的創(chuàng)新生產方式。其生產過程具有時空異質性、復雜性及動態(tài)性,給過程系統(tǒng)認知、優(yōu)化調控帶來了顯著挑戰(zhàn)。本文總結了生物過程多組學數據獲取及分析的關鍵技術,歸納了基于多組學數據的生物過程建模方法,深入探討了多組學和建模在過程參數調整、發(fā)酵控制、環(huán)境應激機制解析、營養(yǎng)供給優(yōu)化及生產實時監(jiān)測等關鍵環(huán)節(jié)的實際應用,詳細闡釋了多組學數據深度整合及模型構建在提升生物過程操作精度方面的巨大潛力。此外,本文討論了目前生物過程優(yōu)化面臨的若干挑戰(zhàn),并探索了可能的解決策略。未來通過克服這些挑戰(zhàn),可以更好地理解和控制復雜的生物過程,推動生物制造領域的快速發(fā)展。

">

欧美一级在线毛片免费观看,国产成人精品视频一区二区不卡 ,成年人精品视频,国产精品手机视频

學術咨詢

讓期刊論文更省時、省事、省心

生物工程學報雜志投稿格式參考范文:數據驅動的生物制造過程多組學分析與建模

時間:

  引言

  生物制造 (biomanufacturing) 利用生物系統(tǒng)轉化原料生產化學品、醫(yī)藥、食品、飼料、生物材料和生物燃料,是保障供應鏈安全、推動綠色可持續(xù)發(fā)展的新質生產力。研究表明,到 2050 年全球生物經濟規(guī)模預計突破 30 萬億美元,其中生物基化學品與材料在化學工業(yè)中的占比將顯著提升 [1]。合成生物學 “學習 - 設計 - 構建 - 測試”(learn-design-build-test) 方法論廣泛應用于工程細胞開發(fā),但其生產效能最終取決于與之適配的生物過程或稱生物工藝 (bioprocessing) 體系。完整的生物工藝鏈涵蓋原料前處理、規(guī)模化發(fā)酵、產品分離純化等關鍵環(huán)節(jié),其中規(guī)模化發(fā)酵作為核心階段,直接影響產物產量、質量及后續(xù)分離純化效率。

  當前生物過程研究面臨若干關鍵挑戰(zhàn):(1) 細胞生理代謝經歷從生長期到生產期、從成熟至衰老的動態(tài)演變,關鍵調控的分子機制尚未完全闡明 [2]。(2) 在發(fā)酵過程中,工程細胞需應對高溫、溶氧限制、極端 pH、高滲透壓、饑餓、氧化壓力、剪切力、靜水壓力以及毒性化合物等多重環(huán)境脅迫,其應激響應網絡仍有待解析。(3) 生物過程中狀態(tài)變量如光密度 (optical density, OD)、溶解氧、pH、溫度、氧化還原電位、黏度,以及發(fā)酵液中代謝物、分泌蛋白、無機離子組分的動態(tài)變化,共同構成了環(huán)境組。環(huán)境組與細胞基因組、轉錄組、蛋白組、代謝組的相互作用機制尚未被深入揭示。(4) 盡管基于實驗設計 (design of experiments, DOE)、多參數相關分析的優(yōu)化理論已取得突破,且人工智能 (artificial intelligence, AI) 與大數據分析在生物過程中的應用案例顯著增多,但實際工業(yè)場景中仍面臨模型泛化能力受限、精準調控不足、智能控制標準化體系缺失等挑戰(zhàn)。(5) 生物過程逐級放大 (scale-up) 導致細胞的生理代謝狀態(tài)異質性增強,生產性能降低。揭示異質性原因,并實現小型化 (scale-down) 動態(tài)模擬以優(yōu)化規(guī)模放大,仍是亟待解決的科學問題。總之,盡管生命科學領域的基礎研究不斷深入,基因編輯、分子生物學等底層技術取得顯著進展,但其在生物過程優(yōu)化與控制中的應用仍面臨瓶頸。生命科學聚焦分子機制解析,而過程工程強調系統(tǒng)優(yōu)化,二者在研究方法 (微觀相對于宏觀) 與技術標準 (實驗室相對于生產車間) 上存在顯著差異,導致基礎研究成果難以高效轉化為工業(yè)級解決方案。

  系統(tǒng)生物學通過整合基因組、轉錄組、蛋白組、代謝組、互作組學等多維組學技術,定量檢測生物過程中細胞內外組分與互作的動態(tài)變化,解析生物系統(tǒng)與環(huán)境間的動態(tài)互作原理,為彌合生命科學基礎研究與工業(yè)過程工程應用之間的鴻溝提供了重要工具。通過挖掘海量組學數據,構建機理或數據驅動的數學模型,系統(tǒng)生物學能夠預測環(huán)境波動、基因調控或外源干擾對細胞功能的影響,實現生命科學與過程科學的有機融合,優(yōu)化生物過程與控制策略,推動生物制造過程的智能化與自動化,顯著提高工業(yè)生產效能與穩(wěn)定性 [2]。

  1 生物過程多組學數據獲取

  生物過程多組學數據獲取需克服工程細胞生長代謝動態(tài)異質性與反應器環(huán)境梯度的雙重挑戰(zhàn)。采樣需設計時空特異性策略;樣品制備則需解決代謝物、RNA 等生物分子穩(wěn)定性及高通量標準化處理等難點,精準捕獲細胞轉錄、翻譯、代謝等多維動態(tài)過程;數據采集需突破多組學原位同步監(jiān)測分析技術瓶頸,最終構建生物過程中工程細胞內部運作、工程細胞與環(huán)境互作的全息解析體系。

  1.1 組學采樣

  生物過程的組學采樣需兼顧細胞代謝動態(tài)異質性 (如生長、生產不同階段) 與宏觀反應器環(huán)境異質性 (如傳質梯度、熱力學分布及流體剪切場差異) 的多尺度耦合效應。基于發(fā)酵動力學特征,應規(guī)劃時序采樣策略,在代謝表型轉換關鍵節(jié)點如指數生長期或產物合成高峰期密集取樣,捕捉細胞代謝調控網絡的快速變化。另外需要避免在補料、pH 調節(jié)和攪拌速率變化后立即采樣,需等待系統(tǒng)穩(wěn)定后執(zhí)行,避免因混合不完全引發(fā)的空間異質性采樣偏差。

  傳統(tǒng)手動采樣存在顯著局限性,例如操作復雜度高、采樣頻率低、染菌風險高,難以滿足細胞代謝動態(tài)變化的檢測需求。近年來,基于物聯網與微流控技術的在線自動化采樣系統(tǒng)如 Numera®、Seg-Flow® S3、MAST®、bioPROBE 等逐步出現,通過封閉式無菌采樣通道與集成式多參數傳感器 (監(jiān)測溶氧、溫度、底物濃度等),實現了高頻次、高時空分辨率的連續(xù)監(jiān)測,顯著提升了生物過程動態(tài)數據的捕獲能力 [3]。

  1.2 樣品制備

  生物過程多組學樣品制備技術正朝著高通量、自動化與高保真方向迭代升級,以適配復雜生物系統(tǒng)多維度動態(tài)解析需求。基因組學樣品制備的核心環(huán)節(jié)是 DNA 提取與文庫構建,基于磁珠的固相可逆固定技術 (solid phase reversible immobilisation, SPRI) 實現了微生物 DNA 的高通量純化。轉錄組學樣品制備包括 RNA 提取、反轉錄和文庫構建。RNA 標簽測序 (RNAtag sequencing, RNAtag-seq) 通過 3' 端寡核苷酸標簽多重標記實現單次建庫混合測序,大幅簡化了轉錄組文庫制備流程,提高了處理通量 [4-5]。基因組學和轉錄組學樣品制備的多個環(huán)節(jié),如核酸提取 [6]、文庫構建 [7] 等,也已不同程度地實現了自動化。

  蛋白質組學樣品制備主要包括蛋白質提取、變性、酶解與除鹽等多個步驟,面對大批量樣品,目前一些整合磁珠或濾膜處理技術 (如 SP3、S-Trap) 的自動化樣品前處理平臺 (如 AutoSP3) 能實現穩(wěn)定的高通量樣品前處理需求 [8-11]。胞外代謝組學樣品制備相對簡單,已實現從樣品制備到上機檢測的高通量、自動化 [12]。胞內代謝組學樣品制備的關鍵在于快速淬滅代謝活動,以防止代謝物濃度在樣品處理過程中發(fā)生變化 [13]。基于同位素標記的通量組學樣品制備與代謝組學基本一致,但需開展預實驗確定穩(wěn)態(tài)時間。

  相互作用組學樣品制備的核心在于維持分子間相互作用原態(tài),需在采集時確保互作分子存在,可通過交聯固定避免 pH 波動及有機溶劑等變性因素干擾。捕獲的互作組分 (DNA / 蛋白質 / 小分子等) 需適配對應組學分析流程進行特異性制備與檢測 [14-15]。各組學技術路線的自動化進程有著顯著差異,但在高通量與標準化需求驅動下,全流程自動化正加速滲透。結合無人機采樣與自動引導車物流銜接,已形成了從樣本采集到制備的全鏈條自動化解決方案。

  1.3 數據采集

  數據采集是多組學研究的基礎環(huán)節(jié),涵蓋從核酸到代謝物的多維信息獲取,其方法因研究目標和技術平臺呈現高度多樣性。基因組通過測定 DNA 序列解析遺傳信息 [16]。重測序可用于發(fā)現堿基突變和結構變異 [17]。三代測序技術提供了長讀長,適合微生物基因組的高保真組裝、結構變異研究 [18] 以及 DNA 修飾分析 [19]。三代測序技術的進步,如 PacBio HiFi,達到了 99.8% 準確度 [20],打破了傳統(tǒng)技術中長讀長與高精度不可兼得的局限,在高度重復序列解析和結構變異檢測等復雜基因組研究中展現出技術優(yōu)勢。

  轉錄組學用于研究細胞 RNA 的種類、修飾和表達水平,幫助理解基因調控機制 [21]。二代測序技術因能夠提供高質量數據且成本較低,常用于基因差異表達分析。三代測序的長讀長技術更擅長識別轉錄本異構體,為研究復雜轉錄調控提供了新工具 [22]。此外,牛津納米孔測序 (Oxford nanopore sequencing) 技術可完成 RNA 直接測序,實現對 RNA 序列和堿基修飾信息的讀取 [23-24]。

  蛋白質組學數據采集依賴于高分辨質譜 (high-resolution mass spectrometry),經酶解產生的多肽通過液相色譜分離后,依次進入質譜進行離子化和質量分析。一級質譜通過檢測完整肽段的質荷比 (mass charge ratio, m/z) 確定分子量及豐度信息,二級質譜則通過碰撞能量誘導肽段碎裂,生成碎片離子譜以解析氨基酸序列及翻譯后修飾。數據采集模式包括數據依賴性采集 (data-dependent acquisition, DDA) 和數據非依賴性采集 (data-independent acquisition, DIA)。

  DDA 優(yōu)先選擇高峰度肽段碎裂,適用于小規(guī)模樣本的定性分析;DIA 將全掃描范圍劃分為連續(xù)窗口,無差別采集所有肽段的碎裂信息,結合譜圖庫可實現復雜樣本的高精度定量 [25]。隨著技術的不斷進步 [26-28],DIA 模式已成為蛋白質組分析的首選 [29],復雜樣品的快速分析可壓縮至數分鐘內完成 [30]。

  代謝組學數據采集的核心技術選擇遵循非靶向覆蓋、靶向高精度原則。高分辨質譜作為非靶向代謝組學的主流技術,依托 Orbitrap、Q-TOF 等平臺,通過 DDA 或 DIA 模式實現全掃描范圍內代謝物的高靈敏度檢測 [31]。靶向代謝組學則以三重四極桿質譜 (triple quadrupole mass spectrometry, QQQ) 為主,構建多反應監(jiān)測 (multiple reaction monitoring, MRM) 離子對庫,通過優(yōu)化碰撞能參數與保留時間窗口,實現目標代謝物的超靈敏定量 [31]。核磁共振波譜 (nuclear magnetic resonance, NMR) 技術則以非破壞性檢測和結構解析能力見長 [32]。

  代謝物的化學穩(wěn)定性受溫度等環(huán)境因素影響顯著,樣本采集處理后需盡快上機分析。進樣量可通過總蛋白定量或內源參比代謝物校準實現生物學歸一化。數據采集序列設計需遵循間隔插入質控 (quality control, QC) 樣本策略,用于評估儀器穩(wěn)定性并輔助后期數據處理 [33]。同位素標記通量組學的數據采集需權衡方法學特性,靶向采集需優(yōu)化同位素標記后的目標代謝物離子對;非靶向采集無需預設目標,但需通過 QC 樣本校正基質效應與同位素峰簇干擾。

  相互作用組學研究蛋白 - DNA 相互作用 (protein-DNA interaction, PDI)、蛋白 - 蛋白相互作用 (protein-protein interaction, PPI)、蛋白 - 代謝物相互作用 (protein-metabolite interaction, PMI) 等細胞組分相互作用關系。PDI 技術主要包括基于免疫沉淀的染色質免疫沉淀測序技術 (chromatin immunoprecipitation sequencing, ChIP-seq)、核酸酶切割與核酸釋放技術 (cleavage under targets and release using nuclease, CUT-RUN)/ 靶向切割與轉座酶標記技術 (cleavage under targets and tagmentation, CUT-Tag) 及依賴甲基化酶或脫氨酶的結合位點標記技術 [34-36] 等,使用特異性酶或條件切割、標記或釋放目標 DNA 片段并進行文庫構建與測序分析,鑒定蛋白與 DNA 作用關系。

  PPI 分為靶向 (局部) PPI 和非靶向 (全局) PPI:靶向技術如親和純化 - 質譜聯用技術 (affinity purification-mass spectrometry, AP-MS) 和鄰近標記 - 質譜聯用技術 (proximity labelling-mass spectrometry, PL-MS),需通過標簽融合或工具富集互作蛋白;非靶向技術則基于化學交聯質譜,通過交聯多肽酶解后質譜分析全局互作網絡。PMI 檢測方法包括基于蛋白質穩(wěn)定性變化特征檢測的熱蛋白質組分析 [37]、溶劑誘導蛋白沉淀 [38]、蛋白質氧化速率的穩(wěn)定性分析、基于空間構象變化的靶點響應可及性分析 [39]、限制性酶解 - 質譜分析技術 [40]、肽中心局部穩(wěn)定性探測技術 [41] 等,通過檢測蛋白質結合小分子后的穩(wěn)定性或酶解 / 標記干擾效應解析互作信息。

  組學實驗中,生物學重復與技術重復的合理設置是保障數據可靠性的核心要素。生物學重復使用同一菌種,檢測生物過程操作過程中的波動情況。技術重復則針對同一樣本進行多次測量,用于評估實驗操作中移液偏差、儀器波動等系統(tǒng)誤差。重復數目的設置需綜合考慮統(tǒng)計效力及技術穩(wěn)定性需求。

  2 組學數據分析

  生物過程的組學分析首先圍繞單組學數據展開,包括數據質量控制、數據清洗、去噪、標準化歸一化,以及批次效應校正;隨后利用差異分析、類別及通路富集分析、功能注釋、網絡構建、關鍵節(jié)點識別等方法,挖掘重要生物分子及調控機制。在單組學分析基礎上,多組學整合分析則通過因子分析、協同表達分析、機器學習建模等手段,實現跨組學數據的系統(tǒng)性關聯與機制深度解析,精準識別影響性能的關鍵因子,為工程細胞設計改造及過程優(yōu)化提供可靠依據。

  2.1 單組學數據分析方法

  不同組學的數據分析方法因研究對象及數據類型而有所差異,但其分析思路相近,通常包括數據預處理、差異分析、功能富集、網絡構建,以及關鍵代謝途徑或調控機制分析等核心步驟。以基因組數據為例,首先使用 FastQC 等工具 [42] 去除測序接頭和低質量 reads,選用有參組裝、從頭組裝等合適的組裝策略,重構基因組 [43],常用工具包括 Canu [44]、Falcon [45]、flye [46] 和 SOAPdenovo2 [47] 等;隨后使用 Prokka [48]、RAST [49]、MAKER [50]、PGAP [51]、Glimmer [52]、AUGUSTUS [53] 和 GeneMark [54] 等工具對組裝好的基因組序列進行結構和功能注釋;變異分析通過 GATK [55]、Snippy 等工具比對測序數據與參考基因組,檢測單核苷酸多態(tài)性 (single nucleotide polymorphism, SNP) 以及插入或缺失 (insertion or deletion, InDel),幫助明確菌株遺傳變異并指導菌株改造策略。

  此外,比較基因組學方法通過多基因組比對分析,揭示菌株間的進化關系和特定功能基因,進一步支持工業(yè)應用中的菌株篩選與優(yōu)化。例如,基因組學分析揭示了工業(yè)乙醇發(fā)酵中微生物群落動態(tài)與產量的關聯機制。De Oliveira Lino 等 [56] 對巴西 2 家甘蔗乙醇精煉廠進行跨季節(jié)采樣,利用鳥槍法宏基因組測序,通過 Canu 組裝獲得高質量基因組,并利用 Prokka 注釋基因功能,發(fā)現脂多糖合成和磷酸轉移酶系統(tǒng)等通路與發(fā)酵性能顯著相關;變異分析揭示了關鍵菌株 [如發(fā)酵乳桿菌 (Limosilactobacillus fermentum)] 的 SNP/InDel 突變對代謝表型有顯著影響;進一步分離 L. fermentum 菌株并開展靜態(tài)共培養(yǎng)實驗,發(fā)現特定菌株因代謝差異 (如乳酸 / 乙酸分泌比例改變) 導致酵母生長抑制,證實了基因型 - 表型關聯;最終提出基于溫度調控和菌株特異性干預的發(fā)酵優(yōu)化策略,為工業(yè)微生物群落管理提供了基因組驅動的解決方案。

  轉錄組測序技術 (RNA sequencing, RNA-seq) 是當前廣泛使用的轉錄組學技術,能夠通過測定基因表達水平揭示生物過程中菌株的基因表達調控機制,并提供菌株改造的潛在靶點。其基本分析流程包括數據質量控制、去除接頭序列與低質量讀段、數據標準化及歸一化,以確保數據可靠性。針對有參考基因組的數據,通過 BWA [57]、STAR [58]、HISAT2 [59]、Bowtie2 [60] 等工具將 reads 映射到參考基因組,利用 FeatureCounts [61]、HTSeq [62]、Salmon [63]、Kallisto [64] 等工具獲得表達定量信息,單位通常采用 RPKM (reads per kilobase of transcript per million mapped reads)、FPKM (fragments per kilobase of transcript per million mapped reads) 或 TPM (transcripts per million)[65]。

  隨后,利用 DESeq2 [66]、edgeR [67] 和 limma-voom [68] 等工具開展差異表達分析,以識別不同條件下顯著變化的基因。進一步構建共表達網絡 (如 weighted gene co-expression network analysis, WGCNA),系統(tǒng)挖掘協同作用的基因模塊,推斷其功能關聯。此外,利用 KEGG (Kyoto encyclopedia of genes and genomes) 和 GO (gene ontology) 數據庫開展通路富集分析,幫助識別關鍵代謝途徑或調控通路,為菌株的代謝工程改造提供潛在靶點。在近期一項構建大腸桿菌工程細胞以生產游離脂肪酸 (free fatty acids, FFAs) 的研究中,研究者使用轉錄組學和代謝組學分析比較 FFA 高產菌株與對照菌株,發(fā)現 26 個與 FFAs 代謝不直接相關但能提升產量的基因,如 ihfA、aidB、ryfA 和 gadA,通過組合調整這 4 個基因創(chuàng)制的重組菌株在分批發(fā)酵中實現了 30.0 g/L 的 FFAs 產量 [69]。

  蛋白質組學通過解析生物過程中細胞蛋白質動態(tài)調控規(guī)律,為發(fā)酵工藝優(yōu)化提供依據。其分析思路通常包含數據預處理、肽段序列鑒定、蛋白定量以及差異表達蛋白分析與功能解析等核心步驟。在數據預處理階段,需對原始質譜數據進行噪聲濾除、基線校正和碎片離子篩選。針對蛋白質組 DDA 數據,采用 MaxQuant 或 Mascot 精準比對質譜二級譜圖與理論譜圖實現肽段鑒定,進一步篩選轉換完成蛋白質組學結果的定量解析 [70]。對于 DIA 數據,可使用基于預建 DDA 譜圖庫的比對方法或 direct-DIA 數據庫直比法,后者因其高效性和便利性占據主導地位 [71]。差異蛋白質統(tǒng)計分析后,結合 GO 和 KEGG 等數據庫進行功能富集分析,明確差異蛋白的生物學功能;將蛋白質組學數據映射到 STRING、KEGG 等已知的生物通路與網絡中,識別關鍵的調控節(jié)點與功能模塊。最近一項研究通過多組學分析揭示了釀酒酵母蛋白組隨生長速率的線性分配規(guī)律,發(fā)現核糖體蛋白與生長速率呈正相關關系,糖酵解蛋白與分子伴侶蛋白呈現顯著負相關,其活性調控通過磷酸化修飾實現;結合代謝建模發(fā)現酶飽和度驅動氨基酸合成通量提升,為工業(yè)菌種代謝工程提供靶點,并通過優(yōu)化發(fā)酵條件,最終實現異丁醇等產物的高效合成,降低能耗與成本 [72]。

  代謝組學數據分析是揭示發(fā)酵過程中代謝調控機制的重要方法,其分析流程主要包括數據質量控制、峰提取、歸一化、去噪、對齊等數據預處理、代謝物鑒定、統(tǒng)計分析及生物學意義的挖掘。靶向代謝組學數據分析較為簡單,可直接進行目標代謝物的定量分析。非靶向代謝組學較為復雜 [73],通常采用單變量 (t 檢驗、方差分析、相關分析等) 和多變量分析 (主成分分析、偏最小二乘法判別分析、聚類分析、自組織映射、隨機森林和支持向量機等) 篩選差異代謝物。代謝物鑒定通常利用標準品比對與數據庫檢索,如 Metlin、Massbank、Chemspider 以及一些專屬數據庫如 HMDB (Human Metabolome Database)、ECMDB (Escherichia coli Metabolome Database)、MMCD (Madison Metabolomics Consortium Database) 等。

  此外,新興的輔助譜圖解析工具如 MetDNA [74] 和 MS2Query [75] 顯著提高了代謝物鑒定效率。在功能分析方面,利用 MetaboAnalyst、KEGG 等工具或數據庫,進行代謝物功能注釋與通路映射分析,以明確差異代謝物所涉及的具體代謝路徑和潛在調控機制,進一步指導菌株的代謝工程改造。白仲虎團隊 [76] 采用非靶向代謝組學策略探究了谷氨酸棒桿菌在分泌表達外源蛋白時的代謝差異;首先使用高分辨質譜儀分別采集了正負離子模式下的無偏向代謝物信息,然后采用正交偏最小二乘判別分析模型對分泌表達外源蛋白組和對照組樣本進行區(qū)分,篩選出具有顯著差異的 176 個代謝物,鑒定出關鍵代謝物為 D - 甘露糖 - 6 - 磷酸、葉酸、肌苷、L - 色氨酸、L - 苯丙氨酸等;繼而采用 MetaboAnalyst 進行 KEGG 通路分析,發(fā)現分泌表達外源蛋白會導致中心代謝加劇和多種氨基酸特別是芳香族氨基酸代謝的變化,以滿足蛋白合成和分泌對能量的需求,同時保護胞內蛋白以維持菌體正常生長。

  基于 13C 同位素標記的通量組學分析是精確解析生物發(fā)酵過程代謝流分布的關鍵方法。在實驗設計階段,需要明確代謝穩(wěn)態(tài)與同位素穩(wěn)態(tài)條件。數據處理階段涉及質譜原始數據預處理、同位素標記峰的識別與定量,隨后采用 INCA [77] 等工具進行同位素標記模式分析及代謝通量計算。基于獲得的代謝通量數據,進一步整合生物過程與代謝網絡模型,系統(tǒng)解析菌株代謝網絡的關鍵節(jié)點與瓶頸反應,從而為菌株的代謝工程改造和發(fā)酵過程優(yōu)化提供明確的指導。研究人員通過 13C 標記通量分析,分析了解脂耶式酵母 (Yarrowia lipolytica) 在脂質生物燃料生產中的代謝通量;他們使用 13C 標記葡萄糖追蹤碳流,結合氣相色譜 - 質譜聯用儀 (gas chromatography-mass spectrometry, GC-MS),使用 INCA 工具計算了脂肪酸合成途徑和三羧酸循環(huán)的通量分布;結果顯示,乙酰輔酶 A 的供應是限制脂質產量的關鍵瓶頸;基于此,研究人員通過過表達脂肪酸合成酶基因,優(yōu)化菌株,使脂質產量提升了 40%[78]。

  由于相互作用組學數據因策略不同而且多樣,這里以基于質譜檢測的 PPI 互作組學數據為例對分析方法進行概述。AP-MS 數據分析時,由于不同的誘餌蛋白會共純化出大量的獵物蛋白,其中包括相當一部分的非特異性結合蛋白,因此,為了得到真正特異性結合的獵物蛋白,往往需要結合顯著性分析軟件對所有誘餌蛋白的質譜數據進行統(tǒng)計性分析,包括 SAINT、CompPASS 等軟件 [79-80]。不同的軟件算法有所不同,但核心都會考慮獵物蛋白的豐度、在對照中出現的頻率以及在重復實驗中的一致性等。首先需要將不同誘餌蛋白所得樣品的質譜相對定量數據整理為列表,其中行為每個獵物蛋白在不同實驗即不同誘餌蛋白、對照及重復實驗中的相對定量強度,列為不同實驗樣品,然后將該文件輸入到上述顯著性分析軟件進行統(tǒng)計分析和打分,根據分值分布、錯誤發(fā)現率 (false discovery rate, FDR) 及陽性得分等選擇合適的閾值,從而篩選出較高可信度的相互作用蛋白。

  對于最具全局性 PPI 檢測的交聯質譜技術,交聯試劑的選擇與針對交聯多肽復雜譜圖的分析軟件至關重要,交聯劑的選擇考慮因素有交聯反應基團、交聯臂長、能否質譜斷裂、能否穿透細胞膜、是否含富集功能團等,選擇具有富集功能的交聯劑如 PhoX [81]、tBu-PhoX [82]、DSBSO [83] 等可以捕捉到低豐度蛋白的 PPI 信息。交聯質譜分析軟件應用較多的有 pLink [84]、XlinkX [85]、MeroX [86] 等,通過設置交聯試劑類型、斷裂規(guī)則、特征離子、酶解規(guī)則等信息,與蛋白質標準序列數據庫進行比對,識別鑒定出交聯多肽以及交聯位點信息,經 FDR 過濾后得到蛋白 - 蛋白相互作用結果,PPI 的結果圖可以采用 xiView [87]、Cytoscape [88] 等工具來展示。

  2.2 多組學數據整合分析

  多組學數據整合主要包括基于統(tǒng)計的、基于生物學知識的、基于約束模型的和基于 AI 的方法。統(tǒng)計驅動的方法通過算法挖掘跨組學內在聯系:相似性 / 核方法 (similarity/kernel-method) 通過計算樣本間的相似性分數構建多組學相似性網絡,具有處理缺失數據的優(yōu)勢,運行時間主要取決于樣本數量而非組學特征數,且較少依賴特征選擇,適用于高通量數據集;多核學習 (multi-kernel learning) 通過核函數將多組學數據映射到更高維的特征空間并計算相似性矩陣,進而組合各數據視圖的核函數生成整合空間,用于模式分析和聚類,使得此方法適用于高維數據的子群識別;因子分析 (factor analysis) 通過矩陣分解降維多組學數據,提取潛在生物因子以實現樣本聚類與模式識別,MOFA (multi-omics factor analysis) 等工具結合變分推理,在低維空間中保留生物學解釋因子,利用稀疏正則化抑制噪聲與缺失值干擾,顯著提升分子亞型識別效率;基于相關性 / 協方差的聯合降維方法 (correlation/covariance-based joint dimension reduction) 通過最大化轉化空間中的相關性或協方差實現多組學數據整合,并用于模式分析和樣本聚類。

  基于生物學知識的組學整合方法,根據數據庫知識庫,構建多層網絡模型,如基因 - 蛋白質 - 代謝物網絡,再將多組學數據映射到網絡模型上,或基于知識鑒別關鍵元件,或使用基于圖的算法或聚類方法來揭示復雜的多組學數據集中的新模式 [89]。約束優(yōu)化模型引入多組學數據,可計算特定條件下的代謝流分布 (詳見 3.1)。

  人工智能驅動的技術則通過機器學習與深度學習 (deep learning, DL) 挖掘非線性模式:監(jiān)督學習 [如支持向量機 (supportive vector machine)、隨機森林 (random forest)] 用于分類預測,非監(jiān)督學習 [如聚類分析 (K-means, hierarchical clustering)、關聯規(guī)則挖掘] 揭示隱含結構,深度學習 [如卷積神經網絡 (convolutional neural network, CNN)、圖神經網絡 (graph neural network, GNN)] 處理高維稀疏數據并捕捉跨組學交互效應。當前技術演進正朝著智能化、動態(tài)化與可解釋化方向發(fā)展,深度學習與因果推斷結合增強跨組學因果關系解析,而基于約束的生成模型則為虛擬生物系統(tǒng)模擬開辟新路徑,推動從數據整合到知識生成的范式跨越。

  Culley 等 [90] 提出了一種結合代謝模型與多組學機器學習的方法,用于預測酵母細胞生長;研究者首先構建了 1143 種單基因敲除酵母菌株的特異代謝模型,利用基因表達數據調整代謝網絡反應邊界,并通過簡約代謝平衡分析 (parsimony flux balance analysis, pFBA) 計算代謝通量分布;隨后,采用多種機器學習方法比較單組學與多組學數據的預測性能;結果顯示,整合了轉錄組與代謝通量數據的混合模型,如多模態(tài)神經網絡 (multimodal artificial neural network, MMANN) 顯著優(yōu)于單一組學模型,其中位數絕對誤差低至 0.043,Pearson 相關系數高達 0.906;進一步驗證表明,該模型在獨立測試集 (含單基因和雙基因敲除菌株) 中仍保持高泛化能力,揭示了代謝通量數據對非代謝基因 (如 DNA 修復相關基因) 的間接調控作用;并發(fā)現核心預測特征主要涉及蛋白質合成、RNA 加工及脂質代謝通路,為理解細胞生長的分子機制提供了新視角。此研究不僅推動了多模態(tài)機器學習在生物系統(tǒng)中的應用,還為工程酵母優(yōu)化及疾病模型開發(fā)提供了數據驅動的工具框架。

  Roy 等 [91] 針對合成生物學中實驗數據量大但預測能力不足的挑戰(zhàn),提出了一套集成工具鏈與模擬方法的解決方案,開發(fā)了 Omics Mock Generator (OMG) 合成數據生成器模擬多組學時間序列數據,構建了包含基因組規(guī)模代謝模型、自動推薦工具 (automated recommendation tool, ART) 和數據存儲平臺 (inventory of composable elements/experiment data depot, ICE/EDD) 的完整工作流;基于關鍵代謝反應通量預測異戊烯醇產量,最終推薦出工程改造策略,使模擬產量提升 23%;實驗驗證表明,ART 的預測結果與 OMG 模擬數據高度吻合 (誤差 < 5%),證明了該方法在合成生物學中的實用價值;該研究不僅為多模態(tài)數據整合與機器學習應用提供了標準化流程,還為工程酵母優(yōu)化及生物燃料開發(fā)奠定了數據驅動的工具基礎。

  3 生物過程基于多組學數據的建模

  生物過程涉及生物系統(tǒng)與其所在環(huán)境復雜且動態(tài)的相互作用,這些過程涵蓋了從分子、細胞到群體層次的廣泛聯系。為深入理解這些復雜過程并準確預測生物系統(tǒng)的行為,基于組學數據建立精確的數理模型至關重要。這些模型不僅能揭示生物過程內在調控的分子機制,還為生物過程的優(yōu)化控制與放大提供了理論基礎和決策依據。

  3.1 生物過程模型

  生物過程模型的常用架構包括約束計量模型、動力學模型、多尺度模型和 AI 模型。細胞代謝網絡包含代謝物濃度和反應速率這 2 類變量,微分方程組表示為,其中、和分別為代謝物濃度、化學計量系數與代謝反應速率。細胞處于代謝穩(wěn)態(tài)時,胞內每一個代謝物的生成速率等于消耗速率,濃度不變,即。引入反應方向、可逆性、酶量等反應約束,使用基于線性規(guī)劃的 FBA [92] 方法計算代謝流分布,就得到了基因組尺度代謝模型 (genome-scale metabolic model, GSMM or M model)。進一步擴展引入轉錄、翻譯、大分子組裝等其他模塊,并引入更多約束,就得到了基因組尺度代謝與表達模型 [genome-scale model of metabolism and gene expression (or macromolecular expression), ME model][93]。除此以外,還有 ETFL (expression and thermodynamics flux model)、RBA (resource balance analysis) 等多種類似 ME 模型的架構。動態(tài)流平衡分析 (dynamic flux balance analysis, dFBA) 通過向 M 模型和 ME 模型中引入動力學模塊,近似計算生物過程中的胞內外動態(tài)代謝過程94。

  動力學模型種類和規(guī)模更為多樣。簡單的動力學模型如 Monod 模型、logistic 模型、Haldane 模型、Gompertz 模型等主要包括生物量、底物濃度、產物濃度等狀態(tài)變量和比生長速率、底物利用速率等速率變量,描述生長速率、底物消耗及產物生成的時變規(guī)律,變量少、預測能力有限且無法與組學數據結合 [95]。復雜的動力學模型使用上述的微分方程組,根據對反應機理的近似程度可分為規(guī)范模型 (canonical model)、近似模型 (approximate model) 和機制模型 (mechanistic model)。其中規(guī)范模型一般僅在特定范圍 (operating point) 有效,例如基于冪律的 Mass action 模型或 S - 系統(tǒng)模型 [96],基于線性泰勒展開的 Log-lin 模型和 Lin-log 模型等 [97]。Mass action 或 S - 系統(tǒng)使用參照標準化,等式兩邊 log 轉換,即可將代謝流的相對變化寫為酶量變化以及底物 / 效應物相對變化的加和 [96]。Log-lin 模型和 Lin-log 模型的原理也類似,但在參考點泰勒一階展開 [97]。這些模型對參考點的選擇依賴性很高,實際應用相對不多。

  機制模型遵循物質平衡和熱力學原則,對于可逆反應,反應速率,其中為酶量,與分別為底物、產物的濃度,和分別為 ES 復合體形成與分解的正向反應速率常數,與分別為底物、產物的解離常數。酶活性存在別構效應 (allosteric effect),MWC 模型 (Monod-Wyman-Changeux model) 和 KNF 模型 (Koshland-Nemethy-Filmer) 都基于一個假設,即酶存在松弛態(tài)和緊張態(tài)之間的平衡,但狀態(tài)之間的轉換處理方式不同。MWC 模型強調協同對稱,KNF 模型突出順序結合,這 2 種模型都強調了構象變化在變構調節(jié)終態(tài)結構中的作用 [97]。近似模型是在機制模型基礎上進一步簡化。基于擬穩(wěn)態(tài)和快平衡假設,Michaelis-Menten 模型簡化單底物酶動力學,得到。使用 Hill 方程近似描述單底物和多底物反應酶修飾和別構效應 [98]。基因組規(guī)模的動力學建模架構包括 SKM (structured kinetic modelling)[96]、ORACLE (optimisation and risk analysis of complex living entities)[99]、MASS framework [100] 等。

  生物過程從實驗室小試、中試、示范到規(guī)模化生產逐級放大。大規(guī)模生物過程通常在流場不均勻的生物反應器中進行,反應器內存在溫度、底物濃度和溶氧梯度,這些因素對工程細胞的生理代謝產生顯著影響,且反應器體積越大,不均一程度越高,細胞微環(huán)境波動增大,從而加劇代謝異質性。計算流體動力學 (computational fluidic dynamics, CFD) 使用 Euler-Lagrangian 方法計算模擬反應器內流場變化,結合動態(tài)區(qū)室模型 (dynamic compartment model) 預測營養(yǎng)梯度和細胞密度分布。集成單細胞代謝動力學 (如 GSMM 或動力學模型)、生物過程動力學和計算流體動力學就形成多尺度模型研究方法,可深入揭示過程放大時反應器內傳質傳熱導致細胞代謝異質性的分子機制。

  大數據和 AI 技術快速發(fā)展顛覆了生物過程研究范式。深度學習、遷移學習 (transfer learning)、強化學習 (reinforcement learning)、集成學習 (ensemble learning) 和生成對抗網絡 (generative adversarial networks) 等算法正在重塑數據處理和分析方式,特別是在處理和整合生物過程在線測量數據與多組學數據時,AI 技術展現出了巨大的潛力。這些技術不僅幫助構建復雜的系統(tǒng)生物學模型以模擬和理解生物過程,還催生了如過程分析技術 (process analytical technology, PAT)、數字孿生 (digital twins) 等過程優(yōu)化控制技術。機器學習也能夠與 GSMM 機制模型整合提升預測分析能力,例如人工代謝網絡 (artificial metabolic network, AMN) 方法整合 FBA 與機器學習,實現了根據胞外營養(yǎng)物濃度精確預測代謝流,并能夠進行機制解析102。AI 應用于生物過程研究中仍面臨數據異質性、模型解釋性等挑戰(zhàn)。隨著計算能力的提升和海量組學數據的積累以及高級算法的涌現,未來有望進一步解析生物過程的復雜動態(tài)機制,實現對生物過程的精準在線控制,從而大幅提升生物制造的技術水平。

  3.2 多組學數據與模型的整合

  多組學海量數據為生物過程建模提供了豐富的數據支撐。基因組注釋結合 KEGG、BioCyc、BRENDA、Reactome 等生化代謝數據庫,構建 GSMM 約束計量模型。轉錄組、蛋白組及代謝組數據提供了基因表達和代謝動態(tài)的關鍵信息,可用于定性或定量地約束模型,提升其預測精度。在定性整合方面,轉錄組學推斷基因表達的開關狀態(tài),并以此引入模型中。MADE、iMAT、INIT、RIPTiDe 等算法基于表達信息進行定性約束 [103-107]。MADE 方法通過基因表達變化的顯著性來評估基因狀態(tài),預測代謝反應的活化或失活 [104]。iMAT 方法基于基因表達均值和方差,將表達水平分為高、中、低這 3 種狀態(tài),利用混合整數線性優(yōu)化對代謝反應上下限施加約束,使預測結果與基因表達數據及熱力學約束相符 [105]。INIT [106] 和 RIPTiDe [107] 算法通過整合轉錄組數據,篩選符合表達數據的代謝反應網絡,不以細胞生長作為目標函數,而是最大化基因表達和代謝流的擬合度,以獲得與組學數據一致的代謝網絡模型。非靶向代謝組學數據則為代謝物及相關反應的存在性提供證據,輔助模型的進一步修正。

  在定量約束方面,E-Flux [108] 是一種較粗糙的算法,根據特定函數關系將轉錄組數據轉化為代謝反應約束,以求解特定條件下的代謝流分布。PROM [109] 算法則根據轉錄組學數據估算基因表達的概率,并引入模型計算代謝流。定量蛋白質組學提供了酶蛋白豐度數據,GECKO 方法 [110] 通過 v

  動力學模型通常包含較多參數,構建精確模型依賴實驗數據進行參數估計。定量蛋白質組學、定量代謝組學、通量組學分別提供酶濃度、代謝物濃度及反應速率數據,用于參數估計。然而,這些數據往往數量有限,導致參數估計的不確定性較大,如何量化參數的不確定性成為構建大規(guī)模動力學模型的核心挑戰(zhàn)之一。Ensemble 建模通過尋找能重現觀測數據的參數值分布來應對這一挑戰(zhàn)。最近研究采用 Bayesian 推斷計算 Ensemble 建模的參數后驗分布,為整合多組學構建大規(guī)模動力學模型提供了方法 [111]。

  多組學為生物過程 AI 模型提供了海量數據。整合時序轉錄組學、蛋白質組學和代謝組學數據,并耦合過程參數與生長表型監(jiān)測,為 AI 模型提供了多層次跨尺度的動態(tài)觀測信息。數據的異質性和高維度性帶來了整合挑戰(zhàn)。基于圖卷積網絡 (graph convolutional network) 構建包含基因 - 蛋白 - 代謝物網絡的系統(tǒng)圖譜,可在組學數據之間建立關聯。多模態(tài)學習 (multi-modal learning) 技術也廣泛應用于組學數據的融合,通過共享隱層結構,使得不同組學數據在同一模型中高效協同,從而提升生物過程 AI 模型的準確性。此外,遷移學習和自監(jiān)督學習等策略可有效克服組學數據的異質性,使模型在多源數據上具有良好的泛化能力。多組學數據的時序特征通過遞歸神經網絡或長短期記憶網絡 (long short-term memory, LSTM) 納入模型中,允許捕捉生物過程的時序動態(tài)變化,為實時過程控制提供支持。通過這些方法,AI 模型能夠整合多組學數據生成精確的預測和優(yōu)化方案,為生物過程中的智能化調控決策支持。

  4 多組學分析與建模在生物制造過程中的應用

  數據驅動的多組學分析與建模正重塑生物制造過程的優(yōu)化范式。通過整合基因組、轉錄組、蛋白質組、代謝組及表型數據,構建生物系統(tǒng)的多維度數字模型,從而揭示工程細胞代謝調控與生物過程優(yōu)化的底層邏輯。生物制造中,工程細胞需兼具環(huán)境適應性 (如耐受極端 pH、高溫或毒性代謝物) 與代謝魯棒性 (如維持 NADH/ATP 平衡);而生物反應器需協同細胞特性與工程參數實現高效轉化目標產物。多組學技術與計算建模的深度融合為此提供了創(chuàng)新解決方案:一方面,基于動態(tài)轉錄組、代謝組時序數據與代謝通量分析 (如 FBA),可系統(tǒng)解析工程細胞在生長、脅迫及產物合成不同階段的代謝網絡重構機制;另一方面,結合三傳一反 (質量傳遞、熱量傳遞、動量傳遞與化學反應工程) 的工程學原理,揭示生物反應器中混合效率、傳質限制及局部代謝異質性對產物合成的影響規(guī)律。這種多尺度建模方法不僅為定向進化篩選高產菌株、優(yōu)化發(fā)酵工藝參數提供理論指導,更通過建立 “基因 - 代謝 - 表型” 的全局關聯模型,推動生物制造從經驗試錯向理性設計的范式轉變。在生物制造 (尤其是發(fā)酵工程) 中,過程變量、環(huán)境脅迫、營養(yǎng)底物、發(fā)酵階段是影響產物合成與工藝優(yōu)化的 4 個核心要素。通過系統(tǒng)性調控這些因素,可實現高效的過程優(yōu)化與放大,本文將重點闡述多組學分析與建模在這 4 個方面的應用。

  4.1 過程變量

  過程變量又稱過程參數,包括影響生物過程的各種操作變量以及描述過程狀態(tài)的狀態(tài)變量。常見的過程變量包括溫度、壓力、攪拌、通氣、光照、補料速率等物理變量,pH、溶氧、氧化還原電位、氣體分壓、底物濃度、生長因子濃度等化學變量,以及與生物相關的細胞密度、細胞活性、氧氣攝取速率 (oxygen uptake rate, OUR)、CO₂釋放速率 (carbon-dioxide evolution rate, CER)、呼吸熵 (respiratory quotient, RQ) 等生物變量。多組學分析和數理建模過程深入分析過程參數如何影響細胞生理代謝的分子機制,為優(yōu)化生物過程提供理論根據。

  生物過程中溫度顯著影響細胞膜、蛋白表達及活性。通過轉錄組學和代謝組學比較低溫 (16 ℃) 和高溫 (32 ℃) 對產油紅酵母類胡蘿卜素、脂質和胞外多糖合成的影響發(fā)現,低溫顯著增加了胞外多糖的產量,而高溫則通過影響三羧酸循環(huán) (citric acid cycle, TCA) 循環(huán)關鍵酶的活性以及類胡蘿卜素、脂質和胞外多糖合成基因的表達,顯著提高了脂質和類胡蘿卜素的產量,通過控溫可以實現發(fā)酵中不同階段的生產表型 [112]。氧化還原水平對于胞內生化代謝至關重要。生物過程中保持較低的發(fā)酵液氧化還原電位 (oxidoreductive potential, ORP) 有利于還原性產物的合成,Xia 等 [113] 通過控制 ORP 在 - 350 mV,使用酶解汽爆玉米秸稈生產丁醇,發(fā)酵周期縮短了 6 h,總溶劑增加了 27.5%,丁醇產量提高了 34.2% 至 10.2 g/L;使用 GSMM 比較不同條件下的代謝流分布,發(fā)現糖酵解和 TCA 循環(huán)代謝流增強,產生了充足的 NAD (P) H 促進丁醇合成。

  pH 是鏈霉菌聚賴氨酸發(fā)酵生產的關鍵參數,通過轉錄組學分析發(fā)現酸性 pH 沖擊上調了聚賴氨酸合成酶的轉錄水平,上調了脂肪酸去飽和酶,增強了呼吸相關基因表達,最終顯著提升了聚賴氨酸的產量。溶氧水平是生物過程中調控工程細胞代謝的關鍵。整合代謝組學、通量組學和轉錄組學與 GSMM 模型,Lu 等 [114] 研究了黑曲霉生產工業(yè)酶過程中細胞如何響應限氧壓力;發(fā)現在氧氣受限的條件下,黑曲霉的代謝轉向更高的氧化還原狀態(tài),脂肪酸合成相關基因表達下調,能量供給減少,生長速率也因此下降;進一步發(fā)現,乙醛酸循環(huán)的上調減少了 TCA 循環(huán)中 NADH 的生成,從而幫助細胞在缺氧環(huán)境下維持氧化還原平衡;此外,糖酵解途徑的通量增加可能有助于緩解氧氣限制下細胞的能量需求;通過這種多組學整合的方法,研究揭示了黑曲霉如何通過代謝調控適應氧氣限制,為微生物細胞工廠的系統(tǒng)設計與優(yōu)化提供了新的見解。

  分批、補料 - 分批、連續(xù)是經常使用的幾種發(fā)酵方式。Henriques 等 [115] 結合 dFBA 及動力學模擬描述酵母在批式發(fā)酵過程中利用碳源氮源產出一系列代謝產物。通過模擬揭示了耐低溫酵母可能利用 γ 氨基丁酸通路產生還原產物,從而實現還原力平衡,模型為模擬酵母批式發(fā)酵提供了理論架構。

  4.2 環(huán)境脅迫

  工業(yè)生物過程中,工程細胞持續(xù)面臨多重脅迫壓力。溫度的升高或降低可能導致代謝酶活性的改變;pH 偏移削弱質子梯度驅動的物質轉運;高濃度產物引起滲透壓脅迫,影響底物和產物運輸;原料纖維素水解液中的毒性化合物也會顯著影響細胞生長和代謝。此類多因素協同作用導致細胞生長受限、代謝網絡異常重構及產物合成效率衰減,其根本機制涉及從蛋白質變性、代謝通路阻塞到全局調控網絡失活的跨尺度級聯效應。然而,從分子損傷到系統(tǒng)代謝重構跨尺度響應機制仍存在認知盲區(qū),亟需整合多組學動態(tài)監(jiān)測與計算建模,解析脅迫應答的信號傳導網絡與代謝彈性調控節(jié)點,為定向進化或合成回路設計抗逆性強化策略提供理論框架。

  營養(yǎng)限制也是生物過程的常見脅迫之一,研究人員通過逐步降低酵母培養(yǎng)基氮濃度并結合多組學分析與代謝建模,揭示了細胞在碳 / 氮限制下的資源分配策略;通過多組學分析解釋在碳源受限條件下,細胞通過維持 75% 轉錄組活性和 50% 蛋白質組儲備實現彈性調控,其中 74% 的基因翻譯潛能可在環(huán)境變化時被快速激活以應對代謝需求;同時構建的酶約束代謝模型 (ecYeast8.1) 首次在恒定生長速率下量化了核心代謝通路儲備中 80% 的酶容量儲備,并通過 FBA 闡明了代謝儲備的動態(tài)調節(jié)機制;進一步解析發(fā)現核糖體復合體存在不完全形式,氮限制時選擇性上調 17 種核糖體蛋白,通過動態(tài)重組核糖體復合體實現翻譯能力的快速重編程;該研究揭示了代謝和翻譯儲備如何使酵母能夠迅速適應環(huán)境變化,重新分配資源,從而為代謝工程和合成生物學的應用提供了重要的理論支持 [116]。

  使用生物質水解液生產乙醇時,水解液中的香豆酸 (p-hydroxycinnamic acid, pCA) 有一定的細胞毒性,研究人員整合轉錄組學、代謝組學分析工業(yè)酵母 SA-1 在香豆酸脅迫下通過動態(tài)調控線粒體代謝、核糖體重構及氧化還原平衡等關鍵通路實現耐受的分子機制,并鑒定出 20 個調控乙醇生產和生物質積累的核心樞紐基因 [117]。馬克思克魯維酵母 (Kluyveromyces marxianus) 可發(fā)酵糖產乙醇,且能夠在高于 37 ℃的條件下生長,但乙醇耐受性較低。整合轉錄組學以及 GSMM,深入研究乙醇脅迫響應機制;代謝建模預測生長速率增加時會出現呼吸 - 發(fā)酵代謝共存的現象,基因共表達網絡分析揭示蛋白質錯誤折疊修復、蛋白降解、分子伴侶相關基因可能是響應乙醇脅迫的主要機制,HAP3、MET4 和 SNF2 可能是關鍵調控因子,模型計算表明,氨基酸代謝、膜脂代謝和麥角固醇合成在乙醇脅迫條件下代謝通量增加,相關酶的利用率上升;該研究為構建乙醇耐受 K. marxianus 細胞工廠提供了關鍵線索 [118]。

  中國倉鼠卵巢細胞 (Chinese hamster ovary cells, CHO) 是重組蛋白生產常用的細胞工廠。蛋白質組學分析高產 CHO 細胞的蛋白合成、能量代謝、氧化還原途徑都上調,細胞生長減弱,細胞衰亡途徑下調,比較生長和靜止細胞,意外發(fā)現了 ROS 清除相關的蛋白如 perodoxins 和 SOD2 上調表達 [119]。13C 代謝通量分析表明 CHO 細胞生產處于高產率時氧化代謝增強,ROS 產生較多,谷胱甘肽氧化、磷酸戊糖途徑氧化分支都比較活躍,說明使用高產蛋白時 CHO 處于氧化脅迫響應狀態(tài) [120]。

  4.3 營養(yǎng)底物

  起始培養(yǎng)基組成及生物過程中營養(yǎng)成分的添加能夠顯著影響工程細胞的生產性能。多組學分析生物過程,深入理解細胞營養(yǎng)需求,進而指導工程細胞設計構建、培養(yǎng)基與過程優(yōu)化。例如,谷氨酸棒桿菌不能同時利用高濃度葡萄糖 (15 g/L) 和阿拉伯糖 (15 g/L),使用代謝組學分析發(fā)現丙酮酸激酶可能是限制因素;敲除阿拉伯糖利用阻遏轉錄因子 araR 并過表達丙酮酸激酶,成功構建了高效共利用葡萄糖 - 阿拉伯糖的細胞工廠 [121]。

  底物中碳氮比關系到化合物、脂質、菌體蛋白產量。研究人員通過轉錄組學和代謝組學分析,發(fā)現琥珀酸和氨基酸合成受阻可能影響吡哆醇合成瓶頸,發(fā)酵時添加琥珀酸、組氨酸和絲氨酸并優(yōu)化碳氮比顯著提高了吡哆醇的產量 [122]。高碳氮比條件下,解脂酵母脂質產量較高,代謝組學分析顯示甘油相比葡萄糖更能促進脂肪酸的合成 [123]。通過脂質組學分析不同氮源 (如豆粕、酵母提取物、硝酸鉀和酒石酸銨) 對脂質合成的影響,發(fā)現豆粕和酒石酸銨有助于提高甘油三酯、花生四烯酸和 C16-C18 長鏈脂肪酸的比例 [124]。

  營養(yǎng)限制可促進圓紅酵母脂質合成,整合轉錄組、蛋白質組和代謝組學分析,發(fā)現限磷條件下磷酸代謝和甘油三酯合成提高,TCA 循環(huán)下調,碳流流向脂質合成 [125]。此外,金屬離子對發(fā)酵過程的影響亦不容忽視。釀酒酵母以不同培養(yǎng)基生產類胡蘿卜素差異顯著,比較轉錄組分析發(fā)現鋅和銅轉運蛋白的表達水平顯著變化,提示培養(yǎng)基中可能缺乏這 2 種離子,外源單獨添加鋅、銅離子或同時添加兩種離子分別將產量提高了 2.3、9.2 和 9.7 倍 [126]。

  在兩階段補料分批發(fā)酵中,大腸桿菌工程菌能夠合成泛酸,但其生長表現較弱。通過結合轉錄組學和代謝組學分析,發(fā)現乙醛酸循環(huán)和 TCA 循環(huán)基因的表達水平顯著下降,代謝物的濃度降低;在生長階段外源添加 1 g/L 檸檬酸,結果使得生長速率提高了 1.54 倍,泛酸產量增加 33%,達到 45.4 g/L,總時空收率提高了 22%[127]。在大腸桿菌中過表達梭菌丁醇合成途徑并刪減其他發(fā)酵支路實現了正丁醇高效生產。進一步代謝組學分析發(fā)現,由于刪除了磷酸乙酰轉移酶基因 (pta),胞內 CoA 不平衡造成了丙酮酸、丁酸及其他 CoA 衍生物的胞內積累,另外催化丁酰 - CoA 還原為丁醛的醇脫氫酶 AdhE2 活性不高,可能限制了丁醇合成;添加半胱氨酸提升游離 CoA 水平并提高 AdhE2 活性,最終將正丁醇產量提升至 18.3 g/L [128]。

  整合轉錄組學、代謝組學以及 GSMM 分析,系統(tǒng)揭示了產氫梭菌 (Clostridium autoethanogenum) 中聚 - 3 - 羥基丁酸酯 (poly-3-hydroxynbutyrate, PHB) 合成受限于 NADH/NAD + 氧化還原失衡及乙酰輔酶 A 濃度不足這兩個制約因素。通過上調 phbA 啟動子活性和重構細胞膜脂質組成實現碳流高效重定向,PHB 產量增加了 12 倍 [129]。結合 dFBA 和非靶向代謝組學分析,發(fā)現在葡萄糖和氨基酸共培養(yǎng)下,大腸桿菌利用氨基酸,減少葡萄糖攝取并伴隨乙酸生成,關鍵代謝物丙酮酸和草酰乙酸積累,可能通過抑制磷酸轉移酶系統(tǒng)調節(jié)營養(yǎng)攝取與代謝途徑選擇,該研究為大腸桿菌在營養(yǎng)供應變化條件下的動態(tài)代謝調節(jié)機制提供了深入見解 [130]。

  此外,使用蛋白質組和通量組數據校準,構建了釀酒酵母資源依賴的代謝動力學模型,成功預測了不同稀釋率恒化培養(yǎng)下的特定蛋白質組,揭示了 Crabtree 效應并非由總蛋白質組的空間限制引起,而是由線粒體限制導致,蛋白質組的 “過量容量” 可能用于增強動態(tài)營養(yǎng)條件下的細胞魯棒性。模型對動態(tài)條件下蛋白質組的預測與實驗結果一致,該模型可用于工程細胞的代謝適應研究和生物過程的優(yōu)化設計 [131]。

  4.4 發(fā)酵階段

  生物過程的階段化控制策略廣泛用于優(yōu)化生產性能。雙階段發(fā)酵是其中的典型,例如畢赤酵母前期使用甘油、葡萄糖快速生長菌體,后期使用甲醇作為底物和誘導劑生產蛋白 [132];溶劑發(fā)酵中梭菌前期生長菌體快速產酸,pH 快速下降誘導產溶劑 [133]。有機酸、氨基酸生產中前期通過有氧生長促進細胞快速增殖,后期轉入無氧發(fā)酵提高產物合成效率 [134-135]。甾醇化學品生產前期長菌體耗盡碳源,后期添加底物啟動甾醇合成 [136-137]。透明質酸發(fā)酵前期生長菌體,后期添加透明質酸酶降低發(fā)酵液黏度提高通氣量,提高菌體生長和產物合成 [138]。使用黑曲霉分批發(fā)酵葡萄糖酸鈉,前期菌體生長時供氧水平高、OUR 高、底物消耗快,后期菌絲停止生長時,限制供氧使 OUR 水平降低,這種兩階段 OUR 控制策略提高得率至 94%;在這些過程中,底物限制、誘導物添加、溫度、pH 和通氣的調控至關重要;通過 GSMM 計算分析過表達 ATPase-F₁亞基導致糖酵解速率加快,與對照相比,產酸期提前結束,并向產醇代謝轉變,提高了溶劑總產量和丁醇生產速率 [139]。

  生物過程中出現代謝振蕩現象,降低代謝魯棒性,影響生產性能。研究表明代謝物濃度的周期變化可以調控代謝過程,引起代謝振蕩。最近研究發(fā)現自產乙醇梭菌 (Clostridium autoethanogenum) 進行自養(yǎng)連續(xù)氣體發(fā)酵過程中表現出生長代謝振蕩;該過程包括單獨利用 CO 和共利用 CO/H₂的交替過程;整合高精度時序代謝組學和蛋白組學分析發(fā)現,轉氫酶反應熱力學驅動力 (NADH/NAD⁺×NADP⁺/NADPH) 動態(tài)變化與代謝振蕩高度相關,但蛋白組無明顯變化;此外,采用熱力學代謝流分析 (thermodynamic metabolic flux analysis, tMFA) 表明底物利用交替和代謝振蕩確實在熱力學水平上受到調控 [140]。在連續(xù)發(fā)酵甘油生產 1,3 - 丙二醇 (1,3-propanodiol, 1,3-PDO) 的過程中,觀察到丁酸梭菌的自發(fā)振蕩現象,甘油代謝表現出周期性變化,乳酸、甲酸和氫氣等產物滯后于生物質、1,3-PDO 和丁酸的生成;胞外氧化還原電位和胞內 NAD⁺/NADH 比值分析顯示細胞在振蕩過程中經歷顯著的氧化還原狀態(tài)轉換,隨生長速率下降由氧化狀態(tài)轉向還原狀態(tài);轉錄組分析表明脅迫條件下丙酮酸代謝紊亂、乙酰輔酶 A 轉化為乙醛導致乙醛過量積累可能是振蕩產生的原因 [141]。

  4.5 基于模型的過程優(yōu)化放大

  實驗室小試到工業(yè)規(guī)模生產需要經過逐級放大,效率低、周期長,嚴重制約工程細胞的產業(yè)化應用。大體積生物反應器物料混合和傳質效率相對較低,物料完全混合時間顯著延長,通氣補料過程中會導致溶氧、底物、pH 值不均一分布 [142]。例如,大腸桿菌在 900 L 反應器中發(fā)酵,靠近進料點的頂部區(qū)域葡萄糖濃度較高,而在反應器底部的葡萄糖濃度接近零 [143]。相對而言,細胞內代謝平衡時間為秒級。因此反應器不同區(qū)域的細胞代謝呈現出異質性。細胞模型的應用為生物過程的優(yōu)化提供了強有力的支持。整合代謝建模、定量代謝組學和計算流體動力學分析,計算模擬溶氧、營養(yǎng)和壓力的異質性可為過程放大提供理論基礎,并發(fā)展基于脈沖、振蕩、斜坡的動態(tài)補料模式。

  通過計算 Lagrangian 模擬反應器流體動力學發(fā)現,在青霉素發(fā)酵過程中,反應器體積 57% 的底物耗盡,存在營養(yǎng)限制,微生物在底物過剩和底物耗竭的區(qū)域之間交替變化,時間尺度為秒級 [144]。將代謝模型與計算流體動力學模擬結合,評估了底物異質性對生物反應器中青霉素鏈霉菌代謝響應的影響,使用 scale-down 方法模擬 54 m³ 工業(yè)規(guī)模的青霉素發(fā)酵動力學,并基于模擬優(yōu)化設計反應器,改變進料位置減少青霉素生產的下降幅度 [145]。使用 CFD 計算食氣永達爾梭菌 (Clostridium ljungdahlii) 在 125 m³ 反應器進行的 CO 氣體發(fā)酵,分析細胞運動模式、循環(huán)時間和時序響應;生命線分析表明 97% 細胞營養(yǎng)受限,84% 細胞經歷脅迫而發(fā)生轉錄變化 [146]。

  在生物過程的優(yōu)化中,AI 模型在檢測、過程優(yōu)化、放大和過程控制方面展現出巨大的潛力。使用人工神經網絡優(yōu)化了尼泊爾德巴利酵母 (Debaryomyces nepalensis) 木糖醇生產的溫度、發(fā)酵時間、pH、氧氣傳質系數 kLa、生物量 [147]。使用耐高溫的地芽孢桿菌生產脂肪酶,測試了不同的培養(yǎng)基,經過神經網絡和響應面模型優(yōu)化培養(yǎng)參數,獲得了最佳的生長溫度、培養(yǎng)基體積、接種量、攪拌速率、培養(yǎng)時間和初始 pH [148]。將通過代謝流平衡計算得到的中央碳代謝途徑的代謝通量作為輸入,結合集成學習預測解脂酵母的產品產量,對產量 > 1 g/L 的產品的預測準確度達到 R²=0.87 [149]。同樣地,整合大腸桿菌細胞工廠的改造策略、生物過程變量與計算得到的代謝流作為輸入,通過數據增強和集成學習解決數據稀疏、非標準化和不完整的問題,主成分分析幫助識別出影響生產的關鍵因素,從而實現對不同生物過程產量、產率和轉化率的高精度預測 (R²=0.80-0.93)[150]。總之,整合代謝建模、計算流體動力學分析及人工智能模型的應用,成為優(yōu)化生物過程、提高生產效率及可持續(xù)性的關鍵手段。

  5 未來展望

  生物過程使用工程細胞或無細胞體系在生物反應器中利用淀粉糖、木質纖維素生物質、一碳化合物等原料來生產化學品、醫(yī)藥、食品、材料、生物燃料等產品,是連接基礎生物科學與工業(yè)應用之間的橋梁。通過綜合運用多組學與模型解析,可以深入探索生物過程中細胞的動態(tài)響應機制,從而為優(yōu)化和提升生物過程生產效能提供理論基礎并創(chuàng)新研究思路。然而,多組學和模型研究生物過程存在諸多挑戰(zhàn):(1) 不同于實驗室的實驗器材。工業(yè)生物反應器的大容積帶來傳質、傳熱、傳動的不均勻性,導致溫度、pH、溶氧、壓力、水活度、黏度、底物濃度、代謝物濃度、毒性化合物濃度、離子強度等物理化學參數存在顯著的時空異質性。在組學取樣的過程中,這些異質性常常被忽視,從而影響數據的準確性和可靠性,進而阻礙對生物過程的深入理解。(2) 控制參數的設定。包括攪拌、補料、排料、控溫、通氣、酸堿調節(jié)、光照等,直接作用于反應器,顯著影響工程細胞的生長代謝環(huán)境。這些參數的調整會影響細胞的生長分裂、基因表達和生化代謝等各層次生命活動。然而,大多數組學僅針對工程細胞取樣,研究細胞組分的變化和相互作用,而忽略了環(huán)境中的代謝物、離子、蛋白等組分 (即環(huán)境組) 的變化,導致組學分析與實際應用之間存在脫節(jié)。

  (3) 生物過程的動態(tài)變化性給研究帶來了挑戰(zhàn)。工程細胞經歷從延滯期、對數期、穩(wěn)定期到衰亡期等不同的群體生長階段,也經歷了從菌絲萌發(fā)、生長到產孢等不同的生理階段。另外從細胞層次上,代謝、轉錄、翻譯、降解等細胞過程在時間尺度上存在顯著差異。如何選取代表性的時間點,既能捕捉到關鍵的變化拐點,又能符合經濟原則,是研究中的一個重要挑戰(zhàn)。(4) 生物分子之間廣泛的動態(tài)的相互作用是生命活動的基礎,也是生物系統(tǒng)與傳統(tǒng)化工過程的重要區(qū)別,但是目前研究生物分子間全部相互作用的高通量自動化手段還比較缺乏。雖然傳統(tǒng)研究大多關注代謝,但代謝物水平的變化不僅是蛋白組層面酶量變化的結果,也是酶活性變化的結果,而后者與蛋白修飾和蛋白 - 小分子互作相關。轉錄組學和蛋白組學常用于解析細胞對環(huán)境中營養(yǎng)和脅迫的響應機制,但細胞如何感知這些外界信號尚不明確。同時,細胞在轉錄、翻譯等過程間的復雜協同調控機制也未被充分理解。(5) 在開展整合多組學研究時,多數情況下多層次組學數據通常不是同時獲取,關聯性不強,數據的整合過程中,數據的不完整性和質量問題非常突出。另外組學取樣分析往往在線下非原位進行,存在顯著滯后性,缺乏在線質譜和測序設備使得實時分析面臨巨大挑戰(zhàn)。(6) 生物過程組學數據分析涵蓋多種方法,其中多組學整合分析大多依賴于統(tǒng)計模型,約束模型基于代謝穩(wěn)態(tài)假設,代謝動力學模型需要豐富的生化細節(jié),代謝動力學模型結合 CFD 能夠在反應器尺度上進行精確的過程優(yōu)化,但需要大量的計算和實驗資源。AI 模型在應用中也面臨挑戰(zhàn),參數設置不當可能導致模型欠擬合或過擬合,影響泛化能力。因此,針對具體問題選擇合適的模型架構是一大挑戰(zhàn)。

  為了克服上述挑戰(zhàn),首先需要充分考慮生物過程的時空異質性。組學取樣時,應確保樣本能夠代表性地反映工程細胞在不同生理階段的生長和代謝狀態(tài),同時也要精確記錄反應器內如溫度、pH、溶氧等物理化學參數的時空變化。這一步驟是確保樣本具有代表性及數據準確性的基礎,也是深入理解和優(yōu)化生物過程的關鍵起點。其次,多組學數據的整合與標準化亦是關鍵。應建立統(tǒng)一的數據標準和技術手段,加強不同數據源之間的整合與對齊,以增強數據的可比性和一致性,同時實現多組學聯合取樣分析。再次,發(fā)展和應用拉曼光譜、聯合質譜和實時測序等在線組學技術,實現生物過程的實時監(jiān)測,以提高數據的時效性和分析的準確性。

  此外,需要發(fā)展離子組學、多糖組學、環(huán)境組學技術,定量分析生物過程中細胞外環(huán)境代謝物、離子、蛋白組分的動態(tài)變化,并將這些數據與離線細胞多組學數據協同分析,也是提高生物過程理解深度的重要方向。在生物過程組學分析中,AI 的應用至關重要。積極發(fā)展相互作用組的高通量自動化研究方法,針對工業(yè)底盤細胞組織大科學工程,構建面向 AI 的系統(tǒng)化、標準化、規(guī)模化的工業(yè)生物大數據。利用 AI 技術高效處理和挖掘海量數據,通過先進的數據分析方法,顯著提升數據解析的精度和深度。同時,構建數字細胞模型,結合組學數據和生物建模,可以深入探討生物過程的復雜機制,為生物制造過程的優(yōu)化提供精確的理論基礎和數據支持。

  展望未來,隨著高通量測序、高性能質譜、光譜等先進測量技術的快速發(fā)展,大數據科學、人工智能技術與生物科學深度融合,研究人員對生物制造過程中生物學與工程學的理解將不斷深化,數字孿生技術和智能反應器技術加速演進,未來的生物過程檢測與控制將迎來自動化、數據化、智能化的變革,有力支撐生物制造產業(yè)和生物經濟的發(fā)展壯大。

  6 結語

  生物過程是生物制造的核心環(huán)節(jié),具備時空異質性、多尺度復雜性和非線性動態(tài)演變等特征。本文詳細總結了多組學技術探究生物過程中復雜機制的創(chuàng)新途徑,通過整合跨組學動態(tài)監(jiān)測數據,構建機理模型或人工智能模型,實現分子 - 細胞 - 反應器多尺度的全面解析。同時,文章也探討了組學分析和模型仿真在過程參數、控制參數、發(fā)酵階段、環(huán)境壓力、實時在線監(jiān)測和優(yōu)化等關鍵方面的應用。此外,本文還歸納了當前面臨的挑戰(zhàn)和未來可能的解決方案,這些方法工具的革新將推動生物制造從經驗試錯向可預測設計范式轉型,為工業(yè)生物過程的開發(fā)和應用提供支持。

朱巖;張志丹;覃培斌;申杰;孫際賓,中國科學院天津工業(yè)生物技術研究所系統(tǒng)生物學中心;國家合成生物技術創(chuàng)新中心;低碳合成工程生物學全國重點實驗室,202503