清空記錄
歷史記錄
取消
清空記錄
歷史記錄
??RNA測(cè)序(RNA-seq)自誕生起就應(yīng)用于分子生物學(xué),幫助理解各個(gè)層面的基因功能。RNA-seq中most commonly used分析方法就是找出差異基因表達(dá)(Differential gene expression, DGE),進(jìn)而根據(jù)差異基因探索生物學(xué)意義或研究靶點(diǎn)。DGE分析的從未發(fā)生實(shí)質(zhì)性的改變,其標(biāo)準(zhǔn)流程分為三步:
??提取RNA,富集mRNA或消除rRNA,逆轉(zhuǎn)錄成cDNA和構(gòu)建測(cè)序文庫(kù)。
??然后在高通量平臺(tái)(通常是Illumina)上進(jìn)行測(cè)序,每個(gè)樣本測(cè)序reads深度為20-40 Million reads。
??比對(duì)/拼裝測(cè)序reads到轉(zhuǎn)錄本上,對(duì)比對(duì)上的reads定量,樣本標(biāo)準(zhǔn)化,樣本組間基因/轉(zhuǎn)錄本統(tǒng)計(jì)差異分析。
??RNA-seq的應(yīng)用和進(jìn)步是由技術(shù)發(fā)展驅(qū)動(dòng)的,相對(duì)于以前的基因芯片,RNA-seq這種方法產(chǎn)生更豐富并且偏見(jiàn)更小的信息。到目前為止,從標(biāo)準(zhǔn)的RNA-seq方法衍生而來(lái)的各種RNA-seq方法幾乎有100種。Illumina的短讀長(zhǎng)(short-read)測(cè)序平臺(tái)能對(duì)這些由大部分不同方法的RNA-seq構(gòu)建的文庫(kù)進(jìn)行測(cè)序,但是most近長(zhǎng)讀長(zhǎng)(longread)RNA-seq的進(jìn)步已經(jīng)能夠解決以前研究人員使用短序列手段無(wú)法解決的一些問(wèn)題,比如更準(zhǔn)確的基因結(jié)構(gòu)研究。
??由于Illumina的短序列讀長(zhǎng)測(cè)序技術(shù)生成了SRA(Short Read Archive)中95%已表達(dá)的數(shù)據(jù),而且cDNA的短序列讀長(zhǎng)測(cè)序方法是一種常規(guī)的方法,故先來(lái)討論這種測(cè)序方式主要流程與局限。
??1. Illumina技術(shù)原理
??Illumina測(cè)序技術(shù)基于橋式擴(kuò)增和同步測(cè)序原理。首先,cDNA被酶切成小片段,接著每個(gè)DNA片段都會(huì)被復(fù)制形成一個(gè)橋,橋上的DNA被定向固定,然后通過(guò)引入熒光標(biāo)記的核苷酸依次進(jìn)行鏈延伸,每次加入一個(gè)核苷酸都會(huì)釋放熒光信號(hào),通過(guò)檢測(cè)不同熒光信號(hào)的強(qiáng)度來(lái)確定具體的堿基序列。 視頻鏈接:Illumina測(cè)序技術(shù)原理 注意:測(cè)序在建庫(kù)之后
??2. Illumina優(yōu)勢(shì)與局限
??優(yōu)勢(shì):
高通量:Illumina平臺(tái)可以在單次測(cè)序中產(chǎn)生數(shù)十億個(gè)讀長(zhǎng)短的測(cè)序數(shù)據(jù),大程度提高了測(cè)序效率。
高精度:Illumina采用的測(cè)序化學(xué)和光學(xué)檢測(cè)技術(shù),可以實(shí)現(xiàn)較高的堿基測(cè)序準(zhǔn)確率,通常堿基錯(cuò)誤率低于1%。
成本低廉:隨著技術(shù)的進(jìn)步,Illumina測(cè)序的成本已大幅下降,使得大規(guī)模測(cè)序項(xiàng)目更加經(jīng)濟(jì)可行。
廣泛應(yīng)用:Illumina平臺(tái)廣泛應(yīng)用于基因組測(cè)序、轉(zhuǎn)錄組測(cè)序、表觀遺傳學(xué)等多個(gè)領(lǐng)域。
??局限:
讀長(zhǎng)較短:Illumina測(cè)序的讀長(zhǎng)一般在50-300bp之間,相對(duì)較短,在比如可變剪接中可能存在局限性。
超過(guò)90%的人類基因存在可變剪接,它們會(huì)形成兩個(gè)或更多的可表達(dá)異構(gòu)體(轉(zhuǎn)錄本x與y)。
短讀長(zhǎng)cDNA測(cè)序中增加了捕獲信息的復(fù)雜性,短讀長(zhǎng)對(duì)異構(gòu)體的檢測(cè)會(huì)受到其讀長(zhǎng)的限制,從而無(wú)法精確地回貼到轉(zhuǎn)錄組上,而長(zhǎng)讀長(zhǎng)測(cè)序方法則能直接鑒定異構(gòu)體。
在短讀長(zhǎng)cDNA測(cè)序中,有很大比例的讀長(zhǎng)會(huì)不明確地回貼到不同異構(gòu)相同的外顯子上;而那些跨越了外顯子-外顯子連接處的讀長(zhǎng)可以提高對(duì)異構(gòu)體的分析效果,但是當(dāng)不同的異構(gòu)體都含有這個(gè)連接處時(shí),這種操作意義不大。這些問(wèn)題都加劇了數(shù)據(jù)分析的復(fù)雜性,以及無(wú)法對(duì)結(jié)果進(jìn)行明確地解釋。
耗時(shí)較長(zhǎng):從樣品準(zhǔn)備到數(shù)據(jù)分析,Illumina測(cè)序整個(gè)流程需要較長(zhǎng)的時(shí)間,不適合快速檢測(cè)。
??綜上所述:如果研究方向只是對(duì)差異基因感興趣,則Illumina二代測(cè)序成本較低,測(cè)得的數(shù)據(jù)質(zhì)量也高,是較好的選擇;而如果研究方向是RNA結(jié)構(gòu)方向則需要考慮是否采用三代長(zhǎng)讀長(zhǎng)測(cè)序技術(shù)。
??3. 實(shí)驗(yàn)設(shè)計(jì)
??好的RNA-seq實(shí)驗(yàn)設(shè)計(jì)對(duì)獲取高質(zhì)量和有生物意義的數(shù)據(jù)是至關(guān)重要的。特別需要考慮的是生物重復(fù)的數(shù)目、測(cè)序深度、以及批次效應(yīng)。 實(shí)驗(yàn)中必須包含足夠的生物學(xué)重復(fù)以捕獲組內(nèi)樣品自身存在的生物差異。定量分析的可信度更多地取決于生物重復(fù),而非測(cè)序深度或reads長(zhǎng)度。一般來(lái)說(shuō)至少要大于每組至少要大于三個(gè)樣本,更好達(dá)到6個(gè)樣本以上。 此外,批次效應(yīng)會(huì)導(dǎo)致差異分析的結(jié)果導(dǎo)致不可信,也就是無(wú)法區(qū)分差異來(lái)自生物學(xué)差異還是因?yàn)榕尾煌瑢?dǎo)致的差異。 實(shí)驗(yàn)設(shè)計(jì)如 first個(gè)批次:2個(gè)control,2個(gè)experiment 第二個(gè)批次:3個(gè)control,3個(gè)experiment 可以通過(guò)算法去除部分批次效應(yīng)
但是實(shí)驗(yàn)設(shè)計(jì)是: first個(gè)批次:3個(gè)control 第二個(gè)批次:3個(gè)experiment 則無(wú)法通過(guò)算法去除部分批次效應(yīng),此外也無(wú)法區(qū)分差異來(lái)自生物學(xué)差異還是因?yàn)榕尾煌瑢?dǎo)致的差異。
??4. 數(shù)據(jù)分析
??拿到reads的counts數(shù)據(jù),首先需要對(duì)樣本進(jìn)行標(biāo)準(zhǔn)化,其次進(jìn)行數(shù)據(jù)探索性分析,接著對(duì)數(shù)據(jù)進(jìn)行差異分析,進(jìn)而對(duì)差異基因進(jìn)行生物學(xué)意義探索
??4.1 樣本標(biāo)準(zhǔn)化
??由于測(cè)序深度越深,在同一水平上表達(dá)的基因reads就會(huì)越多,導(dǎo)致樣本之間不可比,基因越長(zhǎng),相同水平的reads會(huì)越多,樣本內(nèi)不可比。所以需要對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,現(xiàn)有FPKM和TPM兩種方式皆可,TPM相對(duì)在二代測(cè)序中使用較多。
??4.2 數(shù)據(jù)探索性分析
??樣本層面的質(zhì)控,可以通過(guò)箱型圖、樣本hclust圖、PCA圖等等,來(lái)確定我們不同樣本間確實(shí)是有差異的!
??箱型圖
??為何在做差異分析時(shí),發(fā)現(xiàn)組和組之間存在著明顯的生物學(xué)差異,但箱式圖中卻沒(méi)有表現(xiàn)出來(lái)呢? 這是因?yàn)榛谇疤峒僭O(shè):大多數(shù)情況下發(fā)生差異表達(dá)的基因只占整體基因的一小部分,不足以改變整體所有基因表達(dá)水平的分布; 如果發(fā)現(xiàn)樣本的總體表達(dá)分布差異較大的情況,往往說(shuō)明不是由于生物水平差異導(dǎo)致的,是批次效應(yīng)導(dǎo)致的; 而只有一個(gè)樣本表達(dá)分布差異較大,則可能是離群樣本,可以考慮刪除。
??樣本聚類圖
??PCA圖
??樣本聚類圖、PCA圖等圖都可以看出組間聚集趨勢(shì),如沒(méi)有批次效應(yīng),組內(nèi)樣本聚集在一起為更好。
??4.3 差異分析
??目前差異基因分析主要分為三個(gè)包DESeq2、edgeR、limma,每個(gè)包的前提假設(shè)均不相同, 差異基因也不盡相同,可以自行搜索其區(qū)別,常用的是DESeq2。
??此外,也有學(xué)者認(rèn)為大樣本下(每組8個(gè)樣本及以上)可以直接使用t或者wilcox檢驗(yàn) 鏈接https://doi.org/10.1186/s13059-022-02648-4
??火山圖
??差異基因熱圖
??4.4 富集分析
??基因富集分析(gene set enrichment analysis)是在一組基因或蛋白中找到一類過(guò)表達(dá)的基因或蛋白。一般是高通量實(shí)驗(yàn),如基因芯片,RNA-Seq,蛋白質(zhì)組學(xué)(質(zhì)譜結(jié)果)的后續(xù)步驟。 基因富集分析需要我們提供某一類功能基因的collection用于背景,常用的注釋數(shù)據(jù)庫(kù)如:
??The Gene Ontology Consortium: 描述基因的層級(jí)關(guān)系
??Kyoto Encyclopedia of Genes and Genomes: 提供了pathway的數(shù)據(jù)庫(kù)。
轉(zhuǎn)錄組常見(jiàn)的富集分析有ORA富集分析與GSEA富集分析:
??1. ORA富集分析 通過(guò)對(duì)差異基因進(jìn)行GO分析與KEGG分析
??2. GSEA富集分析 一般的差異分析(GO和KEGG)相對(duì)側(cè)重于比較兩組間的基因表達(dá)差異,集中關(guān)注少數(shù)幾個(gè)明顯上調(diào)或下調(diào)的基因,這容易遺漏部分差異表達(dá)不明顯卻有重要生物學(xué)意義的基因,忽略一些基因的生物特性、基因調(diào)控網(wǎng)絡(luò)之間的關(guān)系及基因功能和意義等有價(jià)值的信息。而GSEA不需要指定明確的差異基因閾值,算法會(huì)根據(jù)實(shí)際數(shù)據(jù)的整體趨勢(shì), 為研究者們提供了一種合理地解決目前芯片分析瓶頸問(wèn)題的方法,即使在沒(méi)有先驗(yàn)經(jīng)驗(yàn)存在的情況下也能在表達(dá)譜整體層次上對(duì)數(shù)條基因進(jìn)行分析,從而從數(shù)理統(tǒng)計(jì)上把表達(dá)譜芯片數(shù)據(jù)與生物學(xué)意義很好地銜接起來(lái),使得研究者們能夠更輕松、更合理地解讀芯片結(jié)果
??5. 研究方向與案例展示
??1. 與其他組學(xué)聯(lián)合 Transcriptomic and metabolomic analysis reveals a protein module involved in preharvest apple peel browning
??簡(jiǎn)介:研究采用整合的轉(zhuǎn)錄組學(xué)和代謝組學(xué)分析,發(fā)現(xiàn)蘋果果皮收獲前褐變主要是由于苯酚類和類黃酮化合物的變化。詳細(xì)分析確定了MdLAC7在蘋果收獲前果皮褐變過(guò)程中的作用
??2. 輔助疾病預(yù)后預(yù)測(cè) Gene signature for the prediction of the trajectories of sepsis-induced acute kidneyinjury
??簡(jiǎn)介:納入2020年11月至2021年12月參與中國(guó)多組學(xué)進(jìn)展在敗血癥(CMAISE)中心收治的敗血癥患者進(jìn)行研究,并在第1天測(cè)量外周血單核細(xì)胞的基因表達(dá)。通過(guò)SOFA評(píng)分的腎功能組分(SOFA腎)在第1天和第3天測(cè)量腎功能軌跡。比較這些腎功能軌跡在第1天的轉(zhuǎn)錄組情況,開(kāi)發(fā)了一個(gè)支持向量機(jī)(SVM)模型,以區(qū)分短暫性AKI和持續(xù)性AKI。
??3. 探索機(jī)制 Targeting adipocytic discoidin domain receptor 2 impedes fat gain while increasing bonemass
??簡(jiǎn)介:肥胖與因骨量輕導(dǎo)致的疾病密切相關(guān)。尋找一個(gè)既能調(diào)節(jié)脂肪代謝又能調(diào)節(jié)骨量的treatment靶點(diǎn)具有重要意義。盤狀結(jié)構(gòu)域受體2(Ddr2)在骨骼代謝和脂肪代謝具有重要作用,但其調(diào)控機(jī)制仍不清晰。本文主要目的是解析Ddr2在肥胖和骨量低之間的調(diào)控機(jī)制,以及靶向Ddr2療法是否可以成為treatment肥胖和骨量輕疾病的潛在策略
??一、 項(xiàng)目介紹
??轉(zhuǎn)錄組測(cè)序研究對(duì)象為特定細(xì)胞在某一功能狀態(tài)下所能轉(zhuǎn)錄出來(lái)的所有RNA的總和,主要包括mRNA和非編碼RNA。轉(zhuǎn)錄組研究是以基因功能及結(jié)構(gòu)為基礎(chǔ)和出發(fā)點(diǎn),通過(guò)高通量測(cè)序,能夠全方面快速地獲得某一物種特定組織或organ在某一狀態(tài)下的幾乎所有轉(zhuǎn)錄本序列信息,已廣泛應(yīng)用于基礎(chǔ)研究、臨床診斷和藥物研發(fā)、植物候選基因發(fā)掘、功能鑒定及遺傳改良等領(lǐng)域。
??二、 項(xiàng)目?jī)?nèi)容
??真核有參轉(zhuǎn)錄組測(cè)序(RNA-seq)是針對(duì)有參考基因組的物種,通過(guò)二代測(cè)序平臺(tái),快速全方面獲得動(dòng)植物特定細(xì)胞或組織的轉(zhuǎn)錄本及基因表達(dá)信息,可進(jìn)行基因表達(dá)水平、基因功能、可變剪切、SNP以及新轉(zhuǎn)錄本發(fā)現(xiàn)等方面的研究。該項(xiàng)目能夠從整體水平研究基因表達(dá)差異及功能通路變化,揭示特定生物學(xué)過(guò)程的分子機(jī)制,為動(dòng)植物生長(zhǎng)發(fā)育、表型性狀、逆境脅迫和抗病機(jī)制等的重要研究手段。
??三、 送樣要求
樣本類型 |
組織 |
細(xì)胞 |
全血 |
植物組織 |
fungus |
RNA |
送樣量 |
100mg/管 |
5×106個(gè)/管 |
2mL/管 |
100mg/管 |
100mg/管 |
Total RNA≥2μg; 濃度>100ng/μL; RIN>7。 |
備份數(shù)量 |
≥3 |
≥3 |
≥3 |
≥3 |
≥3 |
≥3 |
其他類型樣本:詳詢我司技術(shù)。 |
參考文獻(xiàn)
??1. Nature Reviews Genetics: RNA sequencing: the teenage years
??2. Wang, Hui et al. “Transcriptomic and Metabolomic Analysis Reveals a Protein Module Involved in Pre
??harvest Apple Peel Browning.” Plant physiology (2023).
??3. Zhang, Z., Chen, L., Liu, H. et al. Gene signature for the prediction of the trajectories of sepsis-induced
??acute kidney injury. Crit Care 26, 398 (2022).
??4. Yang, X., Li, J., Zhao, L. et al. Targeting adipocytic discoidin domain receptor 2 impedes fat gain while
??increasing bone mass. Cell Death Differ 29, 737–749 (2022).
??RNA測(cè)序(RNA-seq)自誕生起就應(yīng)用于分子生物學(xué),幫助理解各個(gè)層面的基因功能。RNA-seq中most commonly used分析方法就是找出差異基因表達(dá)(Differential gene expression, DGE),進(jìn)而根據(jù)差異基因探索生物學(xué)意義或研究靶點(diǎn)。DGE分析的從未發(fā)生實(shí)質(zhì)性的改變,其標(biāo)準(zhǔn)流程分為三步:
??提取RNA,富集mRNA或消除rRNA,逆轉(zhuǎn)錄成cDNA和構(gòu)建測(cè)序文庫(kù)。
??然后在高通量平臺(tái)(通常是Illumina)上進(jìn)行測(cè)序,每個(gè)樣本測(cè)序reads深度為20-40 Million reads。
??比對(duì)/拼裝測(cè)序reads到轉(zhuǎn)錄本上,對(duì)比對(duì)上的reads定量,樣本標(biāo)準(zhǔn)化,樣本組間基因/轉(zhuǎn)錄本統(tǒng)計(jì)差異分析。
??RNA-seq的應(yīng)用和進(jìn)步是由技術(shù)發(fā)展驅(qū)動(dòng)的,相對(duì)于以前的基因芯片,RNA-seq這種方法產(chǎn)生更豐富并且偏見(jiàn)更小的信息。到目前為止,從標(biāo)準(zhǔn)的RNA-seq方法衍生而來(lái)的各種RNA-seq方法幾乎有100種。Illumina的短讀長(zhǎng)(short-read)測(cè)序平臺(tái)能對(duì)這些由大部分不同方法的RNA-seq構(gòu)建的文庫(kù)進(jìn)行測(cè)序,但是most近長(zhǎng)讀長(zhǎng)(longread)RNA-seq的進(jìn)步已經(jīng)能夠解決以前研究人員使用短序列手段無(wú)法解決的一些問(wèn)題,比如更準(zhǔn)確的基因結(jié)構(gòu)研究。
??由于Illumina的短序列讀長(zhǎng)測(cè)序技術(shù)生成了SRA(Short Read Archive)中95%已表達(dá)的數(shù)據(jù),而且cDNA的短序列讀長(zhǎng)測(cè)序方法是一種常規(guī)的方法,故先來(lái)討論這種測(cè)序方式主要流程與局限。
??1. Illumina技術(shù)原理
??Illumina測(cè)序技術(shù)基于橋式擴(kuò)增和同步測(cè)序原理。首先,cDNA被酶切成小片段,接著每個(gè)DNA片段都會(huì)被復(fù)制形成一個(gè)橋,橋上的DNA被定向固定,然后通過(guò)引入熒光標(biāo)記的核苷酸依次進(jìn)行鏈延伸,每次加入一個(gè)核苷酸都會(huì)釋放熒光信號(hào),通過(guò)檢測(cè)不同熒光信號(hào)的強(qiáng)度來(lái)確定具體的堿基序列。 視頻鏈接:Illumina測(cè)序技術(shù)原理 注意:測(cè)序在建庫(kù)之后
??2. Illumina優(yōu)勢(shì)與局限
??優(yōu)勢(shì):
高通量:Illumina平臺(tái)可以在單次測(cè)序中產(chǎn)生數(shù)十億個(gè)讀長(zhǎng)短的測(cè)序數(shù)據(jù),大程度提高了測(cè)序效率。
高精度:Illumina采用的測(cè)序化學(xué)和光學(xué)檢測(cè)技術(shù),可以實(shí)現(xiàn)較高的堿基測(cè)序準(zhǔn)確率,通常堿基錯(cuò)誤率低于1%。
成本低廉:隨著技術(shù)的進(jìn)步,Illumina測(cè)序的成本已大幅下降,使得大規(guī)模測(cè)序項(xiàng)目更加經(jīng)濟(jì)可行。
廣泛應(yīng)用:Illumina平臺(tái)廣泛應(yīng)用于基因組測(cè)序、轉(zhuǎn)錄組測(cè)序、表觀遺傳學(xué)等多個(gè)領(lǐng)域。
??局限:
讀長(zhǎng)較短:Illumina測(cè)序的讀長(zhǎng)一般在50-300bp之間,相對(duì)較短,在比如可變剪接中可能存在局限性。
超過(guò)90%的人類基因存在可變剪接,它們會(huì)形成兩個(gè)或更多的可表達(dá)異構(gòu)體(轉(zhuǎn)錄本x與y)。
短讀長(zhǎng)cDNA測(cè)序中增加了捕獲信息的復(fù)雜性,短讀長(zhǎng)對(duì)異構(gòu)體的檢測(cè)會(huì)受到其讀長(zhǎng)的限制,從而無(wú)法精確地回貼到轉(zhuǎn)錄組上,而長(zhǎng)讀長(zhǎng)測(cè)序方法則能直接鑒定異構(gòu)體。
在短讀長(zhǎng)cDNA測(cè)序中,有很大比例的讀長(zhǎng)會(huì)不明確地回貼到不同異構(gòu)相同的外顯子上;而那些跨越了外顯子-外顯子連接處的讀長(zhǎng)可以提高對(duì)異構(gòu)體的分析效果,但是當(dāng)不同的異構(gòu)體都含有這個(gè)連接處時(shí),這種操作意義不大。這些問(wèn)題都加劇了數(shù)據(jù)分析的復(fù)雜性,以及無(wú)法對(duì)結(jié)果進(jìn)行明確地解釋。
耗時(shí)較長(zhǎng):從樣品準(zhǔn)備到數(shù)據(jù)分析,Illumina測(cè)序整個(gè)流程需要較長(zhǎng)的時(shí)間,不適合快速檢測(cè)。
??綜上所述:如果研究方向只是對(duì)差異基因感興趣,則Illumina二代測(cè)序成本較低,測(cè)得的數(shù)據(jù)質(zhì)量也高,是較好的選擇;而如果研究方向是RNA結(jié)構(gòu)方向則需要考慮是否采用三代長(zhǎng)讀長(zhǎng)測(cè)序技術(shù)。
??3. 實(shí)驗(yàn)設(shè)計(jì)
??好的RNA-seq實(shí)驗(yàn)設(shè)計(jì)對(duì)獲取高質(zhì)量和有生物意義的數(shù)據(jù)是至關(guān)重要的。特別需要考慮的是生物重復(fù)的數(shù)目、測(cè)序深度、以及批次效應(yīng)。 實(shí)驗(yàn)中必須包含足夠的生物學(xué)重復(fù)以捕獲組內(nèi)樣品自身存在的生物差異。定量分析的可信度更多地取決于生物重復(fù),而非測(cè)序深度或reads長(zhǎng)度。一般來(lái)說(shuō)至少要大于每組至少要大于三個(gè)樣本,更好達(dá)到6個(gè)樣本以上。 此外,批次效應(yīng)會(huì)導(dǎo)致差異分析的結(jié)果導(dǎo)致不可信,也就是無(wú)法區(qū)分差異來(lái)自生物學(xué)差異還是因?yàn)榕尾煌瑢?dǎo)致的差異。 實(shí)驗(yàn)設(shè)計(jì)如 first個(gè)批次:2個(gè)control,2個(gè)experiment 第二個(gè)批次:3個(gè)control,3個(gè)experiment 可以通過(guò)算法去除部分批次效應(yīng)
但是實(shí)驗(yàn)設(shè)計(jì)是: first個(gè)批次:3個(gè)control 第二個(gè)批次:3個(gè)experiment 則無(wú)法通過(guò)算法去除部分批次效應(yīng),此外也無(wú)法區(qū)分差異來(lái)自生物學(xué)差異還是因?yàn)榕尾煌瑢?dǎo)致的差異。
??4. 數(shù)據(jù)分析
??拿到reads的counts數(shù)據(jù),首先需要對(duì)樣本進(jìn)行標(biāo)準(zhǔn)化,其次進(jìn)行數(shù)據(jù)探索性分析,接著對(duì)數(shù)據(jù)進(jìn)行差異分析,進(jìn)而對(duì)差異基因進(jìn)行生物學(xué)意義探索
??4.1 樣本標(biāo)準(zhǔn)化
??由于測(cè)序深度越深,在同一水平上表達(dá)的基因reads就會(huì)越多,導(dǎo)致樣本之間不可比,基因越長(zhǎng),相同水平的reads會(huì)越多,樣本內(nèi)不可比。所以需要對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,現(xiàn)有FPKM和TPM兩種方式皆可,TPM相對(duì)在二代測(cè)序中使用較多。
??4.2 數(shù)據(jù)探索性分析
??樣本層面的質(zhì)控,可以通過(guò)箱型圖、樣本hclust圖、PCA圖等等,來(lái)確定我們不同樣本間確實(shí)是有差異的!
??箱型圖
??為何在做差異分析時(shí),發(fā)現(xiàn)組和組之間存在著明顯的生物學(xué)差異,但箱式圖中卻沒(méi)有表現(xiàn)出來(lái)呢? 這是因?yàn)榛谇疤峒僭O(shè):大多數(shù)情況下發(fā)生差異表達(dá)的基因只占整體基因的一小部分,不足以改變整體所有基因表達(dá)水平的分布; 如果發(fā)現(xiàn)樣本的總體表達(dá)分布差異較大的情況,往往說(shuō)明不是由于生物水平差異導(dǎo)致的,是批次效應(yīng)導(dǎo)致的; 而只有一個(gè)樣本表達(dá)分布差異較大,則可能是離群樣本,可以考慮刪除。
??樣本聚類圖
??PCA圖
??樣本聚類圖、PCA圖等圖都可以看出組間聚集趨勢(shì),如沒(méi)有批次效應(yīng),組內(nèi)樣本聚集在一起為更好。
??4.3 差異分析
??目前差異基因分析主要分為三個(gè)包DESeq2、edgeR、limma,每個(gè)包的前提假設(shè)均不相同, 差異基因也不盡相同,可以自行搜索其區(qū)別,常用的是DESeq2。
??此外,也有學(xué)者認(rèn)為大樣本下(每組8個(gè)樣本及以上)可以直接使用t或者wilcox檢驗(yàn) 鏈接https://doi.org/10.1186/s13059-022-02648-4
??火山圖
??差異基因熱圖
??4.4 富集分析
??基因富集分析(gene set enrichment analysis)是在一組基因或蛋白中找到一類過(guò)表達(dá)的基因或蛋白。一般是高通量實(shí)驗(yàn),如基因芯片,RNA-Seq,蛋白質(zhì)組學(xué)(質(zhì)譜結(jié)果)的后續(xù)步驟。 基因富集分析需要我們提供某一類功能基因的collection用于背景,常用的注釋數(shù)據(jù)庫(kù)如:
??The Gene Ontology Consortium: 描述基因的層級(jí)關(guān)系
??Kyoto Encyclopedia of Genes and Genomes: 提供了pathway的數(shù)據(jù)庫(kù)。
轉(zhuǎn)錄組常見(jiàn)的富集分析有ORA富集分析與GSEA富集分析:
??1. ORA富集分析 通過(guò)對(duì)差異基因進(jìn)行GO分析與KEGG分析
??2. GSEA富集分析 一般的差異分析(GO和KEGG)相對(duì)側(cè)重于比較兩組間的基因表達(dá)差異,集中關(guān)注少數(shù)幾個(gè)明顯上調(diào)或下調(diào)的基因,這容易遺漏部分差異表達(dá)不明顯卻有重要生物學(xué)意義的基因,忽略一些基因的生物特性、基因調(diào)控網(wǎng)絡(luò)之間的關(guān)系及基因功能和意義等有價(jià)值的信息。而GSEA不需要指定明確的差異基因閾值,算法會(huì)根據(jù)實(shí)際數(shù)據(jù)的整體趨勢(shì), 為研究者們提供了一種合理地解決目前芯片分析瓶頸問(wèn)題的方法,即使在沒(méi)有先驗(yàn)經(jīng)驗(yàn)存在的情況下也能在表達(dá)譜整體層次上對(duì)數(shù)條基因進(jìn)行分析,從而從數(shù)理統(tǒng)計(jì)上把表達(dá)譜芯片數(shù)據(jù)與生物學(xué)意義很好地銜接起來(lái),使得研究者們能夠更輕松、更合理地解讀芯片結(jié)果
??5. 研究方向與案例展示
??1. 與其他組學(xué)聯(lián)合 Transcriptomic and metabolomic analysis reveals a protein module involved in preharvest apple peel browning
??簡(jiǎn)介:研究采用整合的轉(zhuǎn)錄組學(xué)和代謝組學(xué)分析,發(fā)現(xiàn)蘋果果皮收獲前褐變主要是由于苯酚類和類黃酮化合物的變化。詳細(xì)分析確定了MdLAC7在蘋果收獲前果皮褐變過(guò)程中的作用
??2. 輔助疾病預(yù)后預(yù)測(cè) Gene signature for the prediction of the trajectories of sepsis-induced acute kidneyinjury
??簡(jiǎn)介:納入2020年11月至2021年12月參與中國(guó)多組學(xué)進(jìn)展在敗血癥(CMAISE)中心收治的敗血癥患者進(jìn)行研究,并在第1天測(cè)量外周血單核細(xì)胞的基因表達(dá)。通過(guò)SOFA評(píng)分的腎功能組分(SOFA腎)在第1天和第3天測(cè)量腎功能軌跡。比較這些腎功能軌跡在第1天的轉(zhuǎn)錄組情況,開(kāi)發(fā)了一個(gè)支持向量機(jī)(SVM)模型,以區(qū)分短暫性AKI和持續(xù)性AKI。
??3. 探索機(jī)制 Targeting adipocytic discoidin domain receptor 2 impedes fat gain while increasing bonemass
??簡(jiǎn)介:肥胖與因骨量輕導(dǎo)致的疾病密切相關(guān)。尋找一個(gè)既能調(diào)節(jié)脂肪代謝又能調(diào)節(jié)骨量的treatment靶點(diǎn)具有重要意義。盤狀結(jié)構(gòu)域受體2(Ddr2)在骨骼代謝和脂肪代謝具有重要作用,但其調(diào)控機(jī)制仍不清晰。本文主要目的是解析Ddr2在肥胖和骨量低之間的調(diào)控機(jī)制,以及靶向Ddr2療法是否可以成為treatment肥胖和骨量輕疾病的潛在策略
??一、 項(xiàng)目介紹
??轉(zhuǎn)錄組測(cè)序研究對(duì)象為特定細(xì)胞在某一功能狀態(tài)下所能轉(zhuǎn)錄出來(lái)的所有RNA的總和,主要包括mRNA和非編碼RNA。轉(zhuǎn)錄組研究是以基因功能及結(jié)構(gòu)為基礎(chǔ)和出發(fā)點(diǎn),通過(guò)高通量測(cè)序,能夠全方面快速地獲得某一物種特定組織或organ在某一狀態(tài)下的幾乎所有轉(zhuǎn)錄本序列信息,已廣泛應(yīng)用于基礎(chǔ)研究、臨床診斷和藥物研發(fā)、植物候選基因發(fā)掘、功能鑒定及遺傳改良等領(lǐng)域。
??二、 項(xiàng)目?jī)?nèi)容
??真核有參轉(zhuǎn)錄組測(cè)序(RNA-seq)是針對(duì)有參考基因組的物種,通過(guò)二代測(cè)序平臺(tái),快速全方面獲得動(dòng)植物特定細(xì)胞或組織的轉(zhuǎn)錄本及基因表達(dá)信息,可進(jìn)行基因表達(dá)水平、基因功能、可變剪切、SNP以及新轉(zhuǎn)錄本發(fā)現(xiàn)等方面的研究。該項(xiàng)目能夠從整體水平研究基因表達(dá)差異及功能通路變化,揭示特定生物學(xué)過(guò)程的分子機(jī)制,為動(dòng)植物生長(zhǎng)發(fā)育、表型性狀、逆境脅迫和抗病機(jī)制等的重要研究手段。
??三、 送樣要求
樣本類型 |
組織 |
細(xì)胞 |
全血 |
植物組織 |
fungus |
RNA |
送樣量 |
100mg/管 |
5×106個(gè)/管 |
2mL/管 |
100mg/管 |
100mg/管 |
Total RNA≥2μg; 濃度>100ng/μL; RIN>7。 |
備份數(shù)量 |
≥3 |
≥3 |
≥3 |
≥3 |
≥3 |
≥3 |
其他類型樣本:詳詢我司技術(shù)。 |
參考文獻(xiàn)
??1. Nature Reviews Genetics: RNA sequencing: the teenage years
??2. Wang, Hui et al. “Transcriptomic and Metabolomic Analysis Reveals a Protein Module Involved in Pre
??harvest Apple Peel Browning.” Plant physiology (2023).
??3. Zhang, Z., Chen, L., Liu, H. et al. Gene signature for the prediction of the trajectories of sepsis-induced
??acute kidney injury. Crit Care 26, 398 (2022).
??4. Yang, X., Li, J., Zhao, L. et al. Targeting adipocytic discoidin domain receptor 2 impedes fat gain while
??increasing bone mass. Cell Death Differ 29, 737–749 (2022).