На рисунке стрелками показаны 27 и 40 потенциальных открытых рамок считывания внутри генов соответственно 16S и 23S рРНК Escherichia coli. Стрелки, обведённые сплошной (а не пунктирной) линией, обозначают рамки считывания, кодирующие гипотетические белки для которых в базе данных аминокислотных последовательностей были обнаружены «гомологи». С помощью столбчатых диаграмм показано число «гомологов» для каждого из гипотетических белков. Одна из таких групп белков признана в базе данных белковых доменов
Анализ полногеномных последовательностей показал, что 367 геномов прокариот (из примерно 2000) содержат аннотации белок-кодирующих генов внутри участков, кодирующих гены рРНК. При этом до сих пор не известно ни одного экспериментально подтверждённого случая наложения белок-кодирующих и рРНК генов у прокариот (в случае эукариот такие примеры известны).
Сложившаяся практика аннотации рРНК в качестве белок-кодирующих генов особенно опасна при метагеномных и метатранскриптомных исследованиях с использованием пиросеквенирования. Компьютерное моделирование показало, что почти 90% сгенерированных фрагментов рРНК не только проявляют статистически достоверное сходство с ранее известными «белок-кодирующими генами», но и могут быть приписаны к конкретным таксономическим группам живых организмов на основе уровня сходства нуклеотидных последовательностей. При этом приписываемый вид часто таксономически очень далёк от источника исходной рРНК.
Следует подчеркнуть, что обнаруженное в базах данных огромное число реально не существующих белков, многие из которых имеют функциональную аннотацию, объясняется сложившейся досадной традицией аннотации генов на основании «ближайшего» ранее известного гомолога.
По материалам статьи: Tripp HJ, Hewson I, Boyarsky S, Stuart JM, Zehr JP. Misannotations of rRNA can now generate 90% false positive protein matches in metatranscriptomic studies. Nucleic Acids Res. 2011, 39(20): 8792-8802.
категория - 2