尽管包含这些序列的蛋白质有许多不同的功能,但麻省理工学院的生物学家们现在已经想出了一种方法,将它们作为一个统一的群体进行识别和分析。他们的技术使他们能够检查来自不同物种的LCRs之间的相似性和差异,并帮助他们解决这些序列的功能和它们所处的蛋白质。
(资料图)
利用他们的技术,科学家们分析了在八个不同物种中发现的所有蛋白质,从细菌到人类。他们发现,虽然LCRs在不同的蛋白质和物种之间可能有所不同,但它们往往有一个类似的作用--帮助发现它们的蛋白质加入一个更大规模的组件,如核仁,一个在几乎所有人类细胞中发现的细胞器。
麻省理工学院的一名研究生Byron Lee说:"我们没有研究特定的LCR和它们的功能,因为它们参与了不同的过程,所以看起来是分开的,而我们更广泛的方法使我们能够看到它们的特性之间的相似性,这表明也许LCR的功能毕竟不是那么悬殊的。"
研究小组还发现了不同物种的LCRs之间的差异。他们表明,这些特定物种的LCR序列对应于特定物种的功能,如形成植物细胞壁。
Lee和研究生Nima Jaberi-Lashkari是这项研究的主要作者,该研究最近发表在《eLife》杂志上。麻省理工学院生物学助理教授Eliezer Calo是该论文的资深作者。
通过计算分析,研究人员发现许多重复序列在整个蛋白质中是共享的,并且在从细菌到人类的物种中是相似的。资料来源:研究人员提供
大规模的研究
先前的研究显示,LCRs参与了多种细胞过程,包括细胞粘附和DNA结合。这些LCRs通常富含一个氨基酸,如丙氨酸、赖氨酸或谷氨酸。
找到这些序列,然后单独研究它们的功能是一个耗时的过程,因此科学家们决定使用生物信息学--一种使用计算方法来分析大量生物数据集的方法--将它们作为一个更大的群体来评估。
生物信息学是一门相对较新的科学分支学科,它将生物学和计算机科学的元素结合在一起,目的是开发高效和强大的方法来分析和解释大量的生物数据,如DNA、RNA和氨基酸序列或关于这些序列的注释。
Jaberi-Lashkari说:"我们想做的是退一步,不看单个的LCR,而是试着看一下所有的LCR,看看我们是否能在更大的范围内观察到一些模式,这可能有助于我们弄清楚那些被分配了功能的LCR在做什么,也有助于我们了解那些没有被分配功能的LCR在做什么。"
为了做到这一点,麻省理工学院的团队使用了一种叫做点阵图的技术(见页面顶部的图片),这是一种直观地表示氨基酸序列的方法,以生成研究中的每个蛋白质的图像。接下来,他们使用计算图像处理方法来同时比较数以千计的这些矩阵。
利用这种技术,研究人员能够根据哪些氨基酸在LCR中最频繁地重复而对LCR进行分类。他们还根据蛋白质中发现的每种LCR类型的拷贝数对含有LCR的蛋白质进行分组。分析这些特征有助于研究人员更多地了解这些LCRs的功能。
作为一个示范,研究小组挑出了一个人类蛋白质,称为RPA43,它有三个富含赖氨酸的LCR。这种蛋白质是构成一种叫做RNA聚合酶1的酶的许多亚单位之一,该酶合成核糖体RNA。科学家们发现,富含赖氨酸的LCR的拷贝数对于帮助该蛋白整合到核小体(负责合成核糖体的细胞器)非常重要。
生物学集合体
在对八个不同物种中发现的蛋白质进行比较时,研究人员发现一些LCR类型在物种之间高度保守,这意味着这些序列在进化的时间尺度上变化很小。这些序列往往在蛋白质和细胞结构中发现,这些结构也是高度保守的,如核仁。
Lee说:"这些序列似乎对核仁的某些部分的组装很重要。一些已知的对高阶组装很重要的原则似乎在起作用,因为拷贝数,可能控制一个蛋白质可以进行多少次相互作用,对蛋白质整合到该区间很重要。"
麻省理工学院的团队还发现了在两种不同类型的参与核小体组装的蛋白质中看到的LCR之间的差异。他们发现,一种被称为TCOF的核仁蛋白含有许多富含谷氨酸的LCR,可以帮助形成组装的支架,而只有少数这种富含谷氨酸的LCR的核仁蛋白可以被招募为客户(与支架互动的蛋白质)。
另一个似乎有许多保守的LCR的结构是核斑点,它在细胞核内发现。研究人员还发现参与形成更大规模集合体的LCR之间有许多相似之处,如细胞外基质,一个为植物和动物的细胞提供结构支持的分子网络。
研究小组还发现了具有LCR的结构的例子,这些结构似乎在物种之间发生了分歧。例如,植物有独特的LCR序列,它们用这些蛋白质来支撑它们的细胞壁,而这些LCR在其他类型的生物体中是看不到的。
现在研究人员计划将他们的LCR分析扩展到其他物种。
Lee说:"有很多东西需要探索,因为我们可以把这个地图扩展到基本上任何物种。这使我们有机会和框架来确定新的生物组合。"