两条序列联配
一、 序列联配的概念
序列联配又叫序列比对,根据特定的计分规则,通过算法对多条蛋白质序列或DNA序列进行比对,找出最优匹配和最大相似度匹配。通过联配可以得到一个相似度比对值(根据计分规则算),这个值反映了他们的相似度、同源性、进化上的亲缘关系。
序列联配分为局部联配和全局联配两种。全局联配就是对整个序列进行比对,而局部联配是得到得分最高的比对结果。
- 同源性:存在进化方面的关系,可能是一个祖先进化来的。
- 相似性:有相似程度。
序列联配需要:两条以上序列、计分规则(生物信息学称计分矩阵)、确定最优联配的算法、统计方法。
二、计分矩阵
又叫替换矩阵,给出碱基或氨基酸的匹配值或错配值。
1.计分矩阵的原理
计分矩阵即规定,某两个元素(碱基或氨基酸)匹配的得分值和不匹配的扣分值。
DNA序列联配的计分矩阵通常比较直观,碱基相同的一律加a分,不同的一律扣b分。而对于蛋白质,显然不能简单的定义匹配加一分,不匹配扣一分。同样是匹配,如果两个常见元素匹配加1分,两个罕见元素匹配至少得加2分吧。不匹配的情况下,两个不同的元素可能起到的作用是相同的,这样应该给他们加分。所以这种负责的情况,没有一种特定的矩阵能适用于所有情况,要根据不同的蛋白家族和预期构建不同的计分矩阵。