單細(xì)胞生物學(xué)研究一直是當(dāng)今的熱門(mén)話題,而且-前沿的領(lǐng)域就是單細(xì)胞RNA測(cè)序了(scRNA-seq)。常規(guī)RNA測(cè)序方法一次性能夠?qū)Τ汕先f(wàn)個(gè)細(xì)胞進(jìn)行加工測(cè)序,并給出平均差異,但并沒(méi)有兩個(gè)細(xì)胞是*一樣的,而新型的scRNA-seq方法就能夠揭示出制造每一種特異性的微小改變,甚至這種技術(shù)還能夠闡明完整的新的細(xì)胞類(lèi)型。
比如,當(dāng)來(lái)自博德研究所的研究人員Aviv Regev等人利用scRNA-seq對(duì)2400個(gè)免疫系統(tǒng)細(xì)胞進(jìn)行探查時(shí),他們無(wú)意中發(fā)現(xiàn)了一些具有潛在T細(xì)胞激活活性的樹(shù)突狀細(xì)胞,Regev表示,一種刺激這些細(xì)胞的疫苗或能夠潛在增強(qiáng)機(jī)體免疫系統(tǒng)并且保護(hù)機(jī)體抵御癌癥。當(dāng)然了,這些發(fā)現(xiàn)都是來(lái)之不易的,相比大量細(xì)胞而言,研究人員很難對(duì)單個(gè)細(xì)胞進(jìn)行操作,因?yàn)槊恳环N細(xì)胞僅會(huì)產(chǎn)生少量的RNA,對(duì)于研究者而言沒(méi)有犯錯(cuò)的余地;另外一個(gè)問(wèn)題就是如何對(duì)大量的數(shù)據(jù)進(jìn)行分析,重要的是,研究者使用的工具可能是并不直觀的。
一般而言,RNA測(cè)序數(shù)據(jù)能夠被以指令的形式輸入到Unix操作系統(tǒng)中進(jìn)行分析,數(shù)據(jù)文件會(huì)從一個(gè)軟件包傳輸?shù)搅硗庖粋€(gè),在這個(gè)過(guò)程中,每個(gè)工具都要對(duì)每一個(gè)步驟進(jìn)行處理,比如基因組比對(duì)、質(zhì)量控制、識(shí)別突變體等等。這個(gè)過(guò)程是非常復(fù)雜的,但對(duì)于大量的RNA-seq而言,研究人員可以利用算法對(duì)每一個(gè)步驟進(jìn)行處理,而且他們也非常清楚每個(gè)過(guò)程的運(yùn)行狀況。
如今網(wǎng)上有很多在線資源和工具能夠簡(jiǎn)化scRNA-seq數(shù)據(jù)分析的過(guò)程,其中名為GitHub的平臺(tái)(Awesome Single Cell)就整合了70多種工具和資源,而且相關(guān)的工具和資源能夠覆蓋分析過(guò)程的每一步。
定制技術(shù)
在2016年發(fā)表的一篇研究報(bào)告中,來(lái)自夏威夷大學(xué)的生物信息學(xué)家Lana Garmire就列出了他們進(jìn)行scRNA-seq數(shù)據(jù)分析的基本步驟,盡管每一個(gè)實(shí)驗(yàn)都具有特殊性,但很多分析流程都是按照相同的步驟進(jìn)行過(guò)濾以及對(duì)數(shù)據(jù)進(jìn)行排序的,同時(shí)還能夠找出哪些轉(zhuǎn)錄物會(huì)被表達(dá)并且能夠糾正擴(kuò)增效率的差異性,隨后研究人員就能夠進(jìn)行一個(gè)或多個(gè)二級(jí)分析來(lái)檢測(cè)亞群和其它功能。
研究人員所面臨的另外一項(xiàng)挑戰(zhàn)就是規(guī)模問(wèn)題,經(jīng)典的RNA-seq實(shí)驗(yàn)往往包含了少量樣本,但scRNA-seq研究中則含有成千上萬(wàn)個(gè)樣本,能夠處理少量樣本的工具當(dāng)遭遇十倍甚至百倍的樣本時(shí),其效率通常就會(huì)降低。比如一種-常見(jiàn)的單細(xì)胞分析類(lèi)型就是維數(shù)約減(dimensionality reduction),這一過(guò)程就能夠簡(jiǎn)化數(shù)據(jù)集來(lái)促進(jìn)對(duì)相同細(xì)胞的識(shí)別;桑格學(xué)院研究所的計(jì)算機(jī)生物學(xué)家Martin Hemberg認(rèn)為,scRNA-seq數(shù)據(jù)能夠把每一個(gè)細(xì)胞描繪成為“具有20000個(gè)基因表達(dá)值的一覽表”。而諸如主成分分析法(PCA)和t-分布鄰域嵌入算法(t-SNE algorithm)等維數(shù)約減算法則能夠有效地將這些形狀投射到兩個(gè)或三個(gè)維度,從而就能夠使得相似的細(xì)胞聚集在一起。另外一種流行的應(yīng)用就是偽時(shí)分析,2014年研究人員就開(kāi)發(fā)了一種名為Monocle的工具,該工具能夠利用機(jī)器學(xué)習(xí)的方法來(lái)對(duì)scRNA-seq實(shí)驗(yàn)性的數(shù)據(jù)進(jìn)行推斷。
當(dāng)然,諸如Pagoda等其它工具還能夠解決亞群特征檢測(cè)和空間位置確定等信息,其能夠利用組織中基因表達(dá)的分布數(shù)據(jù)來(lái)確定每一個(gè)組織中的轉(zhuǎn)錄組學(xué)表達(dá)情況;來(lái)自紐約基因組研究中心的研究者Rahul Satija就開(kāi)發(fā)了一種名為Seurat的工具,該工具能夠利用這些數(shù)據(jù)將細(xì)胞定位在三維空間中的點(diǎn)。
如今,研究人員已經(jīng)開(kāi)發(fā)出了一些即用型的檢測(cè)“流水線”,當(dāng)然還有一些端對(duì)端的圖像工具,包括一些商業(yè)性的SeqGeq包以及一些成對(duì)兒的網(wǎng)絡(luò)開(kāi)放性工具,比如Granatum和ASAP(自動(dòng)的單細(xì)胞分析流水線,the Automated Single-cell Analysis Pipeline);Granatum和ASAP能夠利用網(wǎng)-絡(luò)瀏-覽器提供相對(duì)簡(jiǎn)單、交互式的工作站來(lái)幫助科學(xué)家們以圖形化的模式來(lái)深度分析數(shù)據(jù);目前這兩個(gè)工具能夠更好地幫助科學(xué)家們進(jìn)行日常的測(cè)序工作。
使用工具時(shí)需要警惕
這些工具并不是在每一種情況下都是完美的,比如一種能夠善于精-確鑒別細(xì)胞類(lèi)型的“流水線”或許在進(jìn)行偽時(shí)間分析(pseudo-time analysis)上并不擅長(zhǎng);此外,一些適當(dāng)?shù)姆椒ɑ蛟S還具有一定的數(shù)據(jù)依賴(lài)性。
對(duì)于初學(xué)者而言,嚴(yán)謹(jǐn)是非常必要的,生物信息學(xué)工具幾乎總是能夠給出一個(gè)答案,那么問(wèn)題是,這些答案意味著什么呢?來(lái)自加利福尼亞大學(xué)的研究者Sandrine Dudoit的建議就是進(jìn)行一些探索性的分析,同時(shí)對(duì)我們選擇的算法進(jìn)行一些假設(shè)性的研究。有些分析性的任務(wù)仍然極-具挑戰(zhàn)性,包括將來(lái)自實(shí)驗(yàn)條件下或有機(jī)體中的數(shù)據(jù)同來(lái)自不同組學(xué)整合的數(shù)據(jù)進(jìn)行對(duì)比。
目前研究人員能夠使用足夠多的工具來(lái)進(jìn)行研究,而那些對(duì)其感興趣的科學(xué)家也在不斷鉆研;每一種新型工具都能夠揭示生物學(xué)的另一面,因此只要時(shí)刻關(guān)注科學(xué),我們就能夠做出明確的選擇。