摘要:本研究运用多种软件对12种作物的 fad2基因进行密码子偏好性分析。结果表明:fad2基因在12种作物中密码子使用偏好性差异很大,禾本科作物玉米、水稻、高粱的fad2基因有效密码子数(effective number of codons, enc)在30左右,为偏好性很强的基因;油料作物油菜和亚麻的fad2基因的enc值分别为45.49和48.58,为一般偏好性基因;另外6种油料作物和模式植物拟南芥的fad2基因enc值都大于50,偏好性较弱。玉米、水稻、高粱、油菜、亚麻、花生和拟南芥的fad2基因偏好以g或c碱基结尾的密码子,其余5种油料作物的fad2基因偏好使用以a或t结尾的密码子。在12种作物中,密码子ctc的rscu值都大于1,属于高频使用的密码子;而cta、ata、gta、agt、ccc属于低频密码子。在聚类分析中,12种作物基于fad2基因密码子用法与基于cds序列的聚类结果大体一致。
关键词:fad2基因;密码子偏好性
中图分类号:q755文献标识号:a文章编号:1001-4942(2013)07-0024-06
脂肪酸脱氢酶(fatty acid desaturase, fad2)是存在于作物细胞内质网表面的一种脱氢酶,可以向油酸(c18∶1)引入第二个双键,提供质膜结构所需的亚油酸(c18∶2)等多元不饱和脂肪酸,是作物产生多聚不饱和脂肪酸的关键酶。不饱和脂肪酸在增加生物膜的流动性中发挥重要作用,其在生物膜中的含量和作物的抗寒性、抗高温性、以及抗病性等有极其重要的作用;在人和动物体内也发挥着重要作用,包括脂类代谢、心血管功能调节、血糖浓度调节、癌细胞调控、免疫调节、对视力和脑的发育调控、骨质形成的调控等各个方面[1]。由于fad2只存在于作物和微生物中,人体细胞中没有fad2基因,自身不能合成α-亚麻酸(ala)、γ-亚麻酸(gla)等多不饱和脂肪酸,必须从食物中摄取[2]。
目前,拟南芥[3]、油菜[4]、大豆[5]等多种植物的fad2基因已被克隆并应用于转基因作物的研究。本研究分析了棉花、花生、油菜、大豆、蓖麻、亚麻及千年桐、油桐等8种油料作物的fad2基因的密码子使用特征,并与模式植物拟南芥和禾本科植物玉米、水稻、高粱进行比较。根据fad2基因密码子的rscu(relative synonymous codon usage)值对12种作物进行了聚类分析,并将其聚类结果与基于fad2基因cds(coding dna sequences)序列的聚类结果做了比较。了解fad2基因的密码子在各个作物中的使用特性,为进一步深入研究fad2基因及其表达调控机制等提供重要理论依据。
1材料与方法
1.1序列来源
本研究使用的fad2基因蛋白编码序列(cds)来源于genbank (http://www.ncbi.nlm.nih.gov/) ,不同作物的fad2基因在数据库中的登录号见表1。
1.2分析方法
1.2.112种作物的fad2基因同义密码子碱基组成及偏好性分析运用codon w1.4.2软件(http://codonw.sourceforge.net/)对12种作物的fad2基因的cds序列进行分析,分别计算每条序列同义密码子的相对使用度、有效密码子数、gc及gc3s含量。并利用mobyle在线工具(http://mobyle.pasteur.fr)中的cusp计算gc1s和gc2s含量。
(1) 同义密码子相对使用度(rscu)是对同义密码子使用偏爱性的评估,定义为某一同义密码子使用次数的观察值与该密码子出现次数的期望值的比值。如果密码子的使用无偏爱性,则 rscu值为1;如果某一密码子使用频繁,则rscu值大于1;如果某一密码子使用频率低,则rscu值小于1。rscu值直观地反映了密码子使用的偏好性[6]。
(2) 有效密码子数(enc)反映基因密码子使用的偏爱程度,取值范围为20(每个氨基酸只使用一个密码子)~61(各个密码子被均衡使用),其值越小,表明该基因的密码子使用偏好性越强[7]。
(3) 密码子的组成度量指标包括gc(鸟嘌呤和胞嘧啶)、gc1s(同义密码子第1位的鸟嘌呤和胞嘧啶)、gc2s(同义密码子第 2 位的鸟嘌呤和胞嘧啶)、gc3s(同义密码子第 3 位的鸟嘌呤和胞嘧啶)含量。
1.2.2基于密码子rscu值及cds序列的聚类分析利用sas 8.1软件(institute inc., cary, north carolina, usa)编程,以每条基因作为研究对象,将59个密码子(去除3个终止密码子和2个只编码trp、met的密码子)的rscu值作为变量,根据其相对使用度之间的欧氏距离,采用系统聚类法中的最大距离法进行聚类,并对12种作物fad2基因密码子偏好性进行比较分析。
利用mega5
.10软件(http://www.megasoftware.net/mega.php)中的clustalw模块对fad2的cds序列进行多序列比对[8],然后采用upgma法对fad2基因cds序列进行聚类分析[16]。
2结果与分析
2.1有效密码子数及碱基组成分析
12种作物fad2基因的enc值、gc碱基含量以及密码子第一、二、三位的gc碱基含量计算结果见表2。结果显示:在12种作物中,fad2基因enc值差异很大,其中玉米、水稻、高粱fad2基因的enc值均在30左右,表明它们具有较强的密码子使用偏好性;油菜和亚麻fad2基因的enc值分别为45.49和48.58,说明它们的密码子偏好性比禾本科作物要弱些,为一般偏好性基因;剩余6种油料作物fad2基因的enc值均大于50,说明它们的密码子使用偏好性很弱。进一步分析12种作物fad2基因gc含量及密码子第一、二、三位的gc含量,发现玉米、水稻、高粱、油菜、亚麻、拟南芥fad2基因gc含量呈现gc3s>gc1s>gc2s这一规律。除拟南芥外,它们的gc含量都大于50%,分别为67.18%、65.81%、62.89%、55.06%、54.53%。陆地棉、花生、大豆、蓖麻、千年桐、油桐fad2基因gc含量呈现gc1s>gc3s>gc2s规律,且它们的gc含量都小于50%,分别为45.45%、48.00%、46.48%、46.35%、45.05%、44.79%。花生、油菜、亚麻、玉米、水稻、高粱以及拟南芥fad2基因的gc3s含量都大于50%,说明这7种作物fad2基因在编码时偏好使用g或c结尾的密码子。陆地棉、大豆、蓖麻、千年桐、油桐fad2基因的gc3s含量小于50%,说明这5种作物fad2基因在编码时偏好使用a或t结尾的密码子。 2.2fad2基因密码子使用特性分析
用codonw1.4.2软件计算12种作物fad2基因密码子的rscu值(表3)。在12种作物中,密码子ctc的rscu值都大于1,属于共同偏好使用的密码子,而密码子cta、ata、gta、agt、ccc的 rscu值小于1,属于使用频率较低的密码子。进一步分析发现,密码子atc、aag的rscu值分别只在大豆、棉花中小于1,在其他11个作物中都是高频使用的密码子;密码子ctg、gcg在玉米、水稻、高粱中高度偏好使用,但在8种油料作物和拟南芥中rscu值都小于1;tcc只在两种木本油料作物中是低频密码子。
综上,fad2基因在12种作物中,每个氨基酸在同义密码子使用上都存在着明显的不同,每种作物都有自己偏好使用的密码子。在基因工程中可以根据每种作物fad2基因的密码子使用特征来设计基因序列,优化基因密码子,尽量避免使用频率低的密码子,使外源基因在受体物种中能够高效稳定地表达。
2.3基于密码子用法和cds序列的聚类分析
基于fad2基因密码子用法的聚类结果见图1。12种作物可以分为两大类,第一大类包括8种油料作物和拟南芥。其中,属于油桐属的油桐、千年桐最先聚在一起,后与同为大戟科的蓖麻聚为一小类;属于蝶形花科的花生、大豆单独聚为一小类;油菜和拟南芥为十字花科作物,油菜先与亚麻聚在一起,后与拟南芥聚为一类。另一大类包括3种禾本科作物玉米、水稻、高粱。这一结果与fad2基因基于cds序列的聚类结果(图2)基本相符。由此可见,fad2基因密码子偏好性差异大小与物种的亲缘关系远近有关,亲缘关系越远,基因密码子偏好性差异越大,亲缘关系越近,密码子偏好性差异越小。基于fad2基因密码子用法的聚类能很好地反映出植物之间的亲缘关系。
3讨论
影响密码子使用偏好性的因素很多,如基因碱基组成、表达水平等[9,10],许多研究都表明禾本科作物gc含量高,双子叶作物gc含量低[11,12] 。禾本科作物少用或避免使用以a或t结尾的密码子,偏好于使用以g或c结尾的密码子,而双子叶作物则相反[13,14]。本研究对8种油料作物(双子叶)、3种禾本科作物(单子叶)和拟南芥(双子叶)共12种作物的fad2基因分析发现,玉米、水稻、高粱3种禾本科作物fad2基因gc含量都超过了60%,比双子叶作物高,和前人研究结果一致 [15,16]。但油料作物油菜、亚麻虽为双子叶作物,gc含量在55%左右,超过了50%,这一结果与前人研究结果不符[15,16],出现这种现象可能是由于与前人分析的基因及作物不同造成的。进一步从enc值和gc3s含量上看,玉米、水稻、高粱的gc3s含量都很高,玉米、水稻都在95%以上,高粱为87.37%,油菜和亚麻gc3s也在70%左右;同时玉米和水稻的enc值都小于30,高粱的为35.48,油菜和亚麻分别为45.49和48.58,由此可知玉米、水稻、高粱、油菜、亚麻密码子偏好性较强或一般
因此推测,gc碱基含量的多少可能会导致fad2基因密码子偏好性的强弱。
密码子作为联系核酸和蛋白质的纽带,可用来推测基因组内部或基因组间的演化关系,即不同作物的同一基因或同一作物的不同基因对密码子的用法特征有所不同,这种密码子使用偏好性差异大小与作物的亲缘关系远近有关,亲缘关系越远,密码子偏好性差异越大,亲缘关系越近,密码子偏好性差异越小[17] 。对8种油料作物、3种禾本科作物和拟南芥fad2基因密码子用法进行了聚类分析,并与基于fad2基因cds序列的聚类分析进行了比较。两种方法的聚类结果对比显示,12种作物亲缘关系大体上是一致的,验证了前人的结论:在基因类型和功能一定的情况下,进化上亲缘关系较近的作物间,同义密码子的用法相似[15]。两种聚类结果有一些作物在位置上存在差异,这种现象在前人的研究中也出现过[16],比如玉米、水稻、高粱三者之间的亲缘关系,从基因组学上来说[18],玉米与高粱的亲缘关系更近一些,但在基于fad2基因密码子用法的作物聚类分析中,玉米先与水稻聚在一起,后又与高粱聚为一类;油菜和拟南芥为十字花科作物,亚麻属于蔷薇亚纲作物,从亲缘关系上来说,油菜与拟南芥应更近一些,但在fad2基因密码子用法上,油菜与亚麻比拟南芥要近些;而蝶形花科的花生与大豆的fad2基因,在密码子使用上很相似,但在fad2基因cds序列上存在较大的差异。出现这些现象可能是由于本研究只选取了一个fad2基因,分析的作物种类也太少,在统计计算上可能出现一些误差。单基因在进化上也可能存在较大的突变,导致其密码子使用偏好性发生较大变化,因而表现出与真实的分类地位不同[15]。如果多选用一些基因,作物基于密码子用法的聚类分析和基于基因cds序列的聚类分析可能更接近于真实的系统分类。目前在基于分子序列的系统发育分析中,基于编码区密码子用法的聚类分析可为系统发育分析提供可靠信息,可作为各种系统发育分析方法的重要补充,用于作物进化关系和分子进化机制研究。
参考文献:
[1]张洪涛, 单雷, 毕玉平.n-6和n-3多不饱和脂肪酸在人和动物体内的功能关系[j]. 山东农业科学,2006, 2:115-120.
[2]liu q, bnibaker c l, green a g, et al. evolution of the fad2-1 fatty acid desaturase 5′utr intron and the molecular system atics of gossypium (malvaceae)[j]. american journal of botanv, 2001, 88(1): 92-102. [3]okuley j, lightner j, feldmann k, et a1. arabidopsis fad2 gene encodes the enzyme that is essential for polyunsaturated lipid synthesis[j]. plant cell, 1994, 6(1): 147-158.
[4]wang m h, liu m x, li d k, et a1.cloning and protoplast transient expression of bnfad2 promoter in brassica napus[j].journal of agricultural science and technology, 2009, 11(5):96-101.
[5]heppard e p, kinney a j, stecca k l, et a1. developmental and growth temperature regulation of two different microsomal ω-6 desaturase genes in soybeans[j]. plant physiol., 1996, 110(1): 311-319.
[6]sharp p m, li w h. an evolutionary perspective on synonymous codon usage in unicellular organisms [j]. journal molecular evolution, 1986, 24(1-2): 28-38.
[7]gupta s k, bhattacharyya t k, ghosh t c. synonymous codon usage in lactococcus lactis: mutational bias versus translational selection[j]. journal of biomolecular structure and dynamics, 2004, 21(4): 1-9.
[8]王凤德, 李利斌, 李化银, 等. 大白菜gif蛋白家族的生物信息学分析[j]. 山东农业科学, 2012, 44(1): 1-5.
[9]carlini d b,chen y,stephan w.the relationship between third-codon position nucleotide content,cocon bias,mrna secondary structure and gene expression in the drosopilid alcohol dehydrogenase genes adh and adhr[j]. genetics,2001,159(2):623-633.
[10]karlin s, campbell a m, mrazek j. comparative dna analysis across diverse genomes [j]. annual reviews of genetics, 1998, 32: 185-225.
r> [11]wang h c, hickey d a. rapid divergence of codon usage patterns within the rice genome [j]. bmc evolutionary biology, 2007, 7(suppl.1): 1-6.
[12]liu h m, he r, zhang h y, et al. analysis of synonymous codon usage in zea mays [j]. molecular biology reports, 2010, 37(2): 677-684.
[13]wang l, roossinck m j. comparative analysis of expressed sequences reveals a conserved pattern of optimal codon usage in plants [j]. plant molecular biology.2006, 61(4-5):699-710.
[14]刘庆坡, 冯英, 董辉. 20个物种同义密码子偏性的比较分析[j]. 西北农林科技大学学报, 2004, 32(7): 67-71.
[15]刘汉梅,赵耀,顾勇,等.几种植物waxy基因的密码子用法特性分析[j]. 核农学报,2010,24(3):476-481.
[16]晁岳恩, 吴政卿, 杨会民, 等. 11种植物psba基因的密码子偏好性及聚类分析[j]. 核农学报, 2011, 25(5): 927-932.
[17]胡桂冰, 张上隆, 徐昌杰, 等. 不同种类柑橘的密码子用法分析[j]. 华南农业大学学报, 2006, 27(1): 13-16.
[18]hulbert s h, richter t e, axtell j d, et al. genetic mapping and characterization of sorghum and related crops by means of maize dna probes[j]. proceedings of the national academy of sciences of the united states of america, 1990, 87(11): 4251- 4255.