【摘要】 目的:探讨mir29b微rna定位序列的编码机制。方法:按照碱基堆积力和微rna非编码性质,对碱基进行四进制数字编码:augc/0123;并且运用公式:n mod 4^n = r对微rna序列进行模数运算和结构分析。结果:发现mir29b微rna的定位序列aguguu 具有素数组合规律。结论:微rna细胞内分子邮编可能按照素数组合规律编码。
【关键词】 微rna;定位序列;细胞邮编;素数组合
[abstract] objective: to investigate code mechanism in localization sequence of mir29b micro rna. methods: in accordance with the power of base stacking and the noncode nature of microrna, the quaternary digital coding of nucleotide bases, augc/0123, was chosen. the microrna sequence was analyzed by the modular formula:n mod 4^n = r. results: it showed the hexanucleotide localizational sequence of mir29b was a combinatorial structure of prime numbers. conclusion: the coding mechanism of cellular zip code of micrornas may obey the combinatorial principle of prime number.
[key words] microrna; localization sequence; cellular zip code; prime combination
寻找生物分子计算(biomolecular computing)机制[1,2],预测生物分子亚细胞定位分布,是数学生物学研究新领域。引导生物分子细胞内分布的定位组(localizome),如信号肽,又称为细胞内分子邮编(cellular zip code)。微rna(一般21~23个核苷酸)参与基因的时序调控作用和程序性信号转导,通常与靶基因序列密切相关。但是mir29b微rna末端的六核苷酸序列aguguu亦是分子邮编,指导mir29b在细胞核中定位,与靶基因序列无关,将这六核苷酸序列的分子邮编aguguu粘合在其他微rna,同样的现象再次出现[3],微rna这种分子邮编隐藏何种编码机制? 为了解决这一问题,开展将数论知识应用于微rna结构分析。
1 资料与方法
(1)微rna碱基数字编码:4种碱基可以编成四进制数字{0,1,2,3} ,编码格式有24种排列,那么选择哪一种排列呢?这需要结合微rna二级结构,碱基理化性质及碱基编码能力大小。碱基堆积力对维持rna二级结构起主要作用。其大小可以通过原子力显微镜精确测量[4],4种碱基堆积力大小是:a = uu>g>c[5];按照碱基堆积力和微rna非编码性质,选择碱基数字编码:augc/0123。
(2)碱基数字化转换软件和模数运算软件。
(3)非编码rna序列数字化解码公式: n mod 4n = r。
(4)素数判定算法:rabinmiller素数测试。
2 结果
mir29b微rna序列进行四进制数字编码后进一步利用模数运算软件做数学运算,模数公式采用: n mod 4n = r,其中n对应于微rna数字编码后的数值。mir29b微rna(uagcaccauuugaaaucaguguu) 运算程序和结果如下: 以上计算结果显示:mir29b微rna末端序列aguguu具有素数组合规律。
3 讨论
3.1 微rna素数结构码对应于生物学功能位点
虽然mir29b、mir29b(tm1)、mir29b(tm2) 序列非常同源:
mir29b: 5uagcaccauuugaaaucaguguu3
mir29b(tm1): 5uagcaccauuugaaauaguguuc3
mir29b(tm2): 5uagcaccauuugaaaaguguuuc3
而且均有aguguu,但是通过n mod 4n = r计算分析(计算方法同上),只有mir29baguguu结构具有“素数结构码”特征,而mir29b(tm1)和mir29b(tm2) 序列中aguguu不具有“素数结构码”特征,生物学功能实验表明[3],只有mir29b微rnaaguguu 这种“素数结构码”,才能发挥微rna细胞内分子邮编作用,而不是单纯的生物学同源序列aguguu。
钱建新等.mir29b微rna定位序列的素数组合规律 3.2 与蛋白质的亚细胞定位是否存在共性算法
将蛋白质的亚细胞定位算法应用于微rna,检验是否能够揭示微rna上述现象。目前应用于蛋白质的亚细胞定位算法可以分为4类[68]:
(1) 基于氨基酸序列的算法:神经网络、隐markov模型、离散小波变换等。
(2)基于伪氨基酸组合算法:支持向量机、自相关函数、神经网络等。
(3)基于信号肽序列算法:氨基酸指数、数字信号、fourier变换等。
(4)基于蛋白质同源序列算法:矩阵、swissprot、贝叶斯网络等。
然而mir29b微rna实验表明[3],蛋白质亚细胞定位的概率算法包括最近构建蛋白质亚细胞定位预测平台[6],不能应用于微rna分子邮编的精确序列分析。
目前,在动物、植物、微生物细胞内均发现大量微rna,进一步应用mir29b微rna “素数结构码”的分析方法,大规模筛选微rna数据库,寻找其隐藏的素数规律和对应的生物学功能,值得今后深入研究,并且为揭示生物大分子(蛋白质和核酸)细胞内分子邮编的编码机制的统一性奠定基础。
【参考文献】
1 shapiro e, gil b. rna computing in a living cell[j]. science, 2008,322(5900):387388.
2 win mn, smolke cd. higherorder cellular information processing with synthetic rna devices[j]. science, 2008,322(5900):456460.
3 hwang hw, wentzel ea, mendell jt. a hexanucleotide element directs microrna nuclear import[j]. science, 2007,315(5808):97100.
4 ke ch,humeniuk m,sgracz h, et al. direct measurements of base stacking interactions in dna by singlemolecule atomicforce spectroscopy[j]. phys rev lett, 2007,99:302.
5 许晓风, 汪四水,蛰金,等. 遗传密码的信息内涵及其与氨基酸的对应联系[j].南京师大学报, 2001,24(2):6366.
6 kuochen chou, hongbin shen . cellploc: a package of webservers for predicting subcellular localization of proteins in various organisms[j]. nature protocols, 2008,3:153162.
7 张松,夏学峰,沈金城,等.基于序列保守性和蛋白质相互作用的真核蛋白质亚细胞定位预测[j]. 生物化学与生物物理进展,2008,35(5):531535.
8 王正华,张振慧,王勇献.蛋白质亚细胞定位预测中的序列编码技术[j].生物信息学,2007,5(2):8289.