基因＠療癒之路｜PChome Online 個人新聞台

2010-11-20 23:03:08| 人氣2,917| 回應0 | 上一篇 | 下一篇

基因

推薦 0 收藏 0 轉貼0 訂閱站台

在這基因體時代，基因這兩個字已不再是學者的專利，不分男女老幼，口中也時常蹦出這兩個字。到底什麼是基因呢？

生物的性狀是經由遺傳單位傳遞給下一代，這個概念在1900年由孟德爾（Gregor Mendel）提出，1909年約翰生（Wilhelm Johanssen）將這個遺傳單位的概念冠上"gene"的名字，漢文將之翻譯成"基因"，日本人則將之翻譯成"遺傳子"，更為直接。

"基因"這兩個字雖然大家耳熟能詳，但基因的真正性質至今連科學家也爭議不休。最早的觀念中，基因是前述的"遺傳單位"（unit of inheritance）。這是一個比較功能性的概念，它是一個自主單位（autonomous unit），能把性狀遺傳給後代。相對地，有人認為基因是一個有形的物體（physical entity），它是染色體上面一段固定的序列。這兩派看法多年來，各執一詞，不相上下。1920年代及1930年代早期Alfred H Sturtevant以Hermann Muller在果蠅研究上，發現基因在染色體上的位置改變時，儘管基因結構本身不變，其功能卻會變化而造成果蠅性狀的突變。實驗中，他們將一個基因挪近所謂異染色質區（heterochromatin）時，果蠅會產生所謂雜色（variegated）的表現型，也就是一個基因在某些細胞會表現，卻在某些細胞不會表現，而造成"雜色"，例如複眼中有些部分呈現白色，有些部分則呈現紅色。由於基因的功能似乎會因應其所在位置而改變，以致有人甚至認為基因根本不是一個固定而具體的單位（particulate gene），然而，在實務上卻又不能完全否定"基因"做為遺傳單位的概念。

在最新版的Thompson & Thompson "Genetics in Medicine"（2001），基因的定義是"A sequence of chromosome DNA that is required for production of a functional product，be it a polypeptide or a functional RNA molecule"。因此當代對基因的定義除了被轉譯的DNA序列本身之外，調控此一轉譯工作的DNA序列也應包含在內。那麼基因的範疇到底何在？

假若基因是一個比較固定而具體的單位（particulate gene）則我們應該可以找出界定基因的"區隔"（barrier or insulator）。然而學者費盡心力卻遍尋不著能夠區別個別基因的結構。因此，從學者無法找到能夠區隔個別基因的barrier or insulator來看，基因可能是一個相當具有伸縮性的結構。另外一個觀察是，一個基因的功能取決於它對某些轉錄因子（transcriptional factor）的反應，而非本身在染色體上的位置，這個現象是Frank Grosveld在人類β-globin locus control region首先觀察到。因此基因應該是包含被轉錄的DNA序列以及轉錄因子的結合區。這些轉錄因子的結合區可以延伸幾百個Kilobase。最近的研究顯示人類的DACH基因，其enhancer甚至在遠達1Mb的基因沙漠（gene desert）中。這個"基因包含轉錄因子結合區"的概念，使基因變成一個功能性而且可以彼此重疊的概念。意即，一段DNA序列，可以因對轉錄因子反應的不同，可以有一種以上的基因功能，而一個基因的轉錄序列，可能是另一個基因的轉錄調控區。

時至今日，基因的定義已經不再是一段具有明顯邊界的固定DNA序列（particulate gene），而是一個具有伸縮性（flexible）的功能性組合，它的範圍是以其（1）空間結構與位置（2）對特定調控因子的反應（3）對最終表現型的效果來決定。

根據以上的論述，基因的基本條件有三：1、必須要有產出（product）2、必須要有功能3、包含轉錄區及調控區。根據這三個條件，實務上我們如何去從漫長的DNA序列中找出基因呢？以下是五種常用的標準。

1、Open reading frames（ORF）

ORF是指位於start codon與stop codon之間的DNA序列。以ORF尋找基因較適用於原核生物或其他intron稀少的生物。當生物的exon被隱藏在大段的intron時，ORF常常不易被找到。

2、Sequence features

找出ORF之後，利用基因通常GC較AT多的特徵，再加以驗證。另外找尋splice site（AG、GT）可能也有助於基因的辨識。不過使用這些辨識原則的電腦軟體只能預測50％的exon和20％的基因。

3、Sequence conservation

比對不同生物的鹼基序列也是辨識基因的利器，理論上，在不同生物均有的序列（conserved sequence）應該有其功能上的重要性，本身是基因的機會較大。利用不同生物來比對基因序列，必須這些生物間有相當的演化距離（evolutionary distance），例如最近人類六號染色體的基因辨識是利用五種其他生物-大鼠、小鼠、河豚、綠色斑點河豚以及斑馬魚來進行比對。當然隨著所用生物的不同，比對出來的基因數目也會有所差異。

4、Evidence of transcription

藉由尋找基因產物-RNA或蛋白質也有助於基因的辨識，其常用方法有microarray hybridization、serial analysis of gene expression（SAGE），cDNA mapping或sequencing of expressed sequence tag。最近利用transposon 來進行大規模的gene tagging，結果從yeast的基因體上找出許多能轉錄蛋白質的新區段，利用帶有標記的cDNA與含有人類染色體序列的microarray雜交，也找出人類染色體上以前未知的許多轉錄區段，但如果迄今尚未找到gene product就無法運用此法來反推基因。

5、Gene inactivation

藉由減消一個gene product的功能也是辨識基因的一個方法。通常可以用Knock out或用RNAi來執行此一工作。不過很多基因的gene product被減消之後往往還是看不到表現型，以致難以確定該基因的功能。這現象的主要原因是生物都有很大的功能重疊性（functional redundancy），此外基因功能檢測的方法也會影響其結果。

除了以五個檢測標準之外，還有以下三種情況必須考慮：

1、基因的重疊（overlapping）

2、多樣切割（alternative splicing）

3、偽基因（pseudogenes）

目前已知有不少基因的轉譯區（包括基因本體及調控區域）是重疊的，一個基因的exon可以在別的基因的intron之間，此一觀念在前面基因的定義以加以闡述。

alternative splicing使基因的辨識工作更形複雜，因為人類基因體中，至少一半的基因有spliced isoform，事實上沒人知道基因到底會產生多少的spliced isoform因此要從mRNA去反推基因，有其潛在的困難。

所謂偽基因的存在也連帶影響基因的定義。偽基因的序列與正常基因相同但卻帶有明顯的frame shift或stop codon，以致缺乏具有功能的gene product當然也看不到對phenotype的影響。偽基因廣見於動物、植物、黴菌以及細菌，通常為數不少，例如人類80個ribosomal protein gene就有2000以上相關的偽基因。更令人迷惑的是同一種生物中一個基因在某一品系是真正的基因，在另外的品系卻是偽基因，例如酵母菌的FLO8就是一個例子，雖說偽基因不能轉錄，但近來有發現有些偽基因有轉錄現象。甚至有些偽基因根本沒有frame shift或stop codon，基本無法轉錄的原因可能是缺少我們未知的調控單位。

且讓我們以酵母菌的基因體序列來嘗試計算基因的數目，若以＞100 codon的所有ORF來推算則有6274可能基因。後來藉由比對基因資料庫以及有無轉錄的現象，增加一些較小的基因，而283個基因也因全無轉錄及功能表現而被剔除，迄今最新的估算是酵母菌有6128基因。

人類的基因體比酵母菌複雜許多，人類的exon不大（平均140 base pair）因此可能存在的ORF數目龐大，再加上mRNA 的alternative splicing使問題更加龐雜。因此學者以為最好的基因辨識方法還是回歸基因的原始定義－a sequence coding a functional product ，也就是從功能上去辨認基因（functional polypeptide or functional RNA），再配合不同生物基因體序列的對比，尋找演化上高度保留的區段，才是辨識人類基因最好的方法。