Zbio - междисциплинарный био-журнал Zbio > Анализ белков-гомологов Rambler's Top100
ТЕКУЩИЙ ВЫПУСК · О ЖУРНАЛЕ · АВТОРАМ · · MOLBIOL.RU

Филогенетический анализ семейства белков-гомологов


Наумов Д.Г.

Лаборатория биоинформатики,
Государственный научно-исследовательский институт генетики и селекции промышленных микроорганизмов,
Москва 117545, Россия

получена — 27 января 2006;
принята — 22 февраля 2006;
опубликована — 4 апреля 2006
    В статье описывается методология проведения филогенетического анализа семейства белков. Предполагается, что "на входе" имеется аминокислотная последовательность белка, а "на выходе" требуется:
    1. получить филогенетическое древо соответствующего семейства белков;
    2. выделить в пределах этого семейства подсемейства;
    3. проследить эволюционные связи изучаемого семейства с другими семействами.

    Предлагаемые методические приёмы применимы к любым белкам, но оптимально работают на растворимых глобулярных белках. Можно исследовать фермент с известной аминокислотной последовательностью, который лично вами был биохимически охарактеризован. Практически такому же анализу подвергнется и полученный из базы данных гипотетический белок, кодируемый открытой рамкой считывания из какого-то недавно секвенированного генома. Повествование иллюстрируется примерами, полученными при исследовании ряда семейств гликозил-гидролаз. Упомянутые в статье компьютерные программы бесплатны и доступны через интернет.



    1. Объект исследования

    Белки-гомологи — группа белков из одного и/или разных организмов, гены которых с большой степенью вероятности имеют общее эволюционное происхождение. Причины появления белков-гомологов могут быть различными: дивергенция организмов (вертикальный перенос), дупликация генов и геномов, горизонтальный перенос.

    Семейством белков-гомологов 15-20 лет назад могла быть названа вся совокупность гомологичных между собой белков. Однако повышение чувствительности методов сравнения аминокислотных последовательностей и быстрое накопление данных о более консервативных трёхмерных структурах белков, выявило эволюционное родство между многими ранее известными семействами. Термин "семейство" стал более размытым, и разные авторы могут его неодинаково трактовать. Часто принадлежность белка к конкретному семейству подразумевает известное или предполагаемое наличие у него определённой энзиматической активности (или другой биологической функции), по которой и даётся название семейству. Однако данная неоднозначность обычно приводит лишь к тому, что два отдельных семейства, выделенных одним автором, другими исследователями могут рассматриваться как одно семейство. С точки зрения проведения филогенетического анализа это существенного значения не имеет. Принципиально важным является то, чтобы белки одного семейства образовывали монофилетическую группу, а уровень сходства их аминокислотных последовательностей был достаточно велик для построения глобального множественного выравнивания. Общее число известных к настоящему времени семейств белков составляет около 10 тысяч, например, в базе данных Pfam приведён список из 8183 семейств.

    Ещё одной проблемой при выделении семейств оказывается сложная доменная структура у многих белков. Структурные домены белков лучше всего выявляются при анализе их пространственной организации. Наличие экспериментальных данных о трёхмерных структурах позволяет определить число доменов и границы между ними в первичной структуре белка. Разные структурные домены, как правило, выполняют различные биологические функции, являясь тем самым и функциональными доменами. Отсутствие информации о пространственной структуре белка существенно затрудняет определение его доменной структуры. Часто разные домены одного белка имеют независимую эволюционную историю. В таких случаях они являются одновременно и эволюционными доменами. Однако во многих случаях два структурных домена почти всегда присутствуют в белках одновременно, образуя один эволюционный домен. Например, такими парными структурными доменами обладают гликозил-гидролазы семейств GH27 (Рис. 1) и GH32.

    Крупные семейства белков-гомологов принято подразделять на подсемейства на основе сравнения уровня сходства их аминокислотных последовательностей, однако специальных общих правил тут не существует. Эволюционно родственные семейства часто объединяют в суперсемейства (или кланы). Например, в базе данных Pfam в 206 кланов сгруппированы 1396 семейств.



    2. Выяснение доменной структуры белка и выбор исследуемого домена

    Для работы необходимо выбрать белок с известной аминокислотной последовательностью. Как правило, молекула белка состоит из нескольких сот аминокислотных остатков. Возможно, что исследуемый белок (или какие-то из его гомологов) образованы несколькими структурными доменами. Вероятность этого резко возрастает с увеличением длины аминокислотной последовательности (один домен обычно не бывает больше 300 аминокислот).

    В зависимости от решаемой задачи, может потребоваться:

    1. проанализировать филогению какого-то одного из доменов исследуемого белка, например каталитического;
    2. проанализировать все его домены;
    3. проанализировать всё разнообразие доменов, встречающихся у представителей соответствующего семейства белков-гомологов.

    Филогенетический анализ каждого из доменов нужно проводить независимо, используя соответствующее множественное выравнивание. Если какие-то два структурных домена образуют общий эволюционный домен, то их филогенетические деревья должны иметь сходную топологию. В такой ситуации имеет смысл построить и общее древо всего эволюционного домена. В других случаях эволюционная история разных доменов, скорее всего, будет существенно различаться, и сопоставление их филогенетических деревьев поможет это проиллюстрировать. Следует отметить, что построение филогенетических деревьев возможно лишь при наличии не менее четырёх представителей анализируемого семейства белков (доменов).



    Рисунок 1

    Рисунок 1. Доменная структура белков семейства GH27 гликозил-гидролаз [1]. Большинство белков этого семейства состоят из двух доменов: GH27N и GH27C. Лишь несколько белков содержат только каталитический домен GH27N. Ряд белков также имеют дополнительные домены нескольких типов.

    В том случае, когда доменная структура исследуемого белка исходно неизвестна, её можно ориентировочно определить с помощью простого скрининга базы данных аминокислотных последовательностей программой blastp. Если при попарном сравнении аминокислотных последовательностей белка и его гомологов выяснится, что разные фрагменты исследуемого белка проявляют сходство с различными белками и границы между этими фрагментами могут быть достаточно чётко определены, то каждый из этих фрагментов может рассматриваться как отдельный эволюционный домен.



    Рисунок 2

    Рисунок 2. Схема, показывающая результат поиска гомологов с помощью программы PSI-BLAST. В качестве запроса был выбран белок, состоящий из трёх гомологичных между собой доменов.


    3. Составление списка белков исследуемого семейства

    На этом этапе предстоит найти максимально большое количество белков, содержащих домены, гомологичные анализируемому домену. То есть, составить полный список представителей исследуемого семейства. Возможно, что исследуемый белок принадлежит хорошо известному семейству. В этом случае есть хорошие шансы найти в интернете хорошо аннотированный список его представителей. Например, в случае гликозил-гидролаз на сайте CAZy существует подробная классификация этих ферментов, построенная на основе гомологии и содержащая регулярно обновляемые списки представителей каждого из сотни семейств гликозил-гидролаз. В такой ситуации надо только обновить представленный в интернете список белков соответствующего семейства, добавив в него недостающих представителей. Главным образом это будут недавно появившиеся в базах данных белки, которые ещё не успели отнести к конкретным семействам. Если же исследуемый белок относится к малоизвестному семейству, то список его гомологов можно попытаться найти в одной из нескольких глобальных белковых классификаций, примерами которых могут служить базы данных:

    Возможно, что исследуемый белок принадлежит к ещё не охарактеризованному семейству, в этом случае список его гомологов, придётся составлять самостоятельно "с нуля".

    В любом случае, удастся ли найти относительно полный список белков исследуемого семейства или не удастся и придётся начинать с единственного представителя, предстоит провести скрининг одной или нескольких баз данных с помощью программ семейства blast (Basic Local Alignment Search Tool). В простейшем случае можно обойтись программой PSI-BLAST (Position-Specific Iterated BLAST), которая позволит в результате первой своей итерации найти в базе данных аминокислотных последовательностей GenPept достаточно полный список белков данного семейства. Практически исчерпывающий список семейства может быть получен после её второй итерации (дополнительно будут обнаружены наиболее дивергентные представители семейства). Существенную проблему при этом может представлять разграничение представителей исследуемого семейства от белков-гомологов из других семейств. Практика показывает, что в первом приближении представителями одного семейства можно считать белки, выявляемые в результате первой итерации. Для составления более полного списка имеет смысл в качестве запроса (query) для скрининга базы данных использовать несколько разных (желательно максимально дивергировавших) белков анализируемого семейства. Именно поэтому очень полезно исходно иметь хотя бы неполный список представителей данного семейства. Может быть использован список белков, найденных во время первой итерации. Важно не включить ошибочно в исследуемое семейство белки со слишком низким уровнем сходства с исходным белком, использованным в качестве "query". Поэтому в данном случае следует использовать относительно жёсткий статистический порог для разграничения "свои-чужие" (например, E-value < 10-5).

    При необходимости найти дополнительное число представителей исследуемого семейства, имеет смысл провести скрининг базы данных нуклеотидных последовательностей GenBank с помощью программ tblastn и Genomic BLAST. Возможно, что некоторые из генов, кодирующих белки исследуемого семейства пока не были обнаружены и аннотированы в уже известных нуклеотидных последовательностях (это в первую очередь касается незавершённых геномных проектов). Однако к полученным таким образом последовательностям надо относится с осторожностью, так как они могут содержать относительно большой процент ошибок, а часть из них может соответствовать псевдогенам.



    4. Уточнение списка белков исследуемого семейства

    Среди обнаруженных белков исследуемого семейства могут оказаться и посторонние белки. Одной из причин этого является завышенная статистическая оценка сходства последовательностей с вырожденным аминокислотным составом — эта проблема может быть частично решена путём использования специального фильтра "Low complexity" при скрининге с помощью программ семейства blast. Особого внимания при этом заслуживают белки, имеющие наименьший уровень сходства с остальными членами семейства, а также белки, у которых удаётся выравнить участок, соответствующий лишь части анализируемого домена. Хорошим тестом на принадлежность какого-то конкретного белка (домена) к данному семейству является использование его в качестве запроса при скрининге базы данных аминокислотных последовательностей с помощью программы blastp. Все статистически лучшие результаты скрининга должны соответствовать белкам этого семейства. В противном случае анализируемый белок имеет смысл исключить из дальнейшего рассмотрения.

    Среди обнаруженных белков исследуемого семейства почти наверняка имеются очень схожие белки. Например, копии одного и того же белка из разных штаммов одного вида бактерий или аллельные варианты. Для филогенетического анализа семейства такие представители ценности не представляют и подобные дубли желательно удалить на данном этапе. Однако следует помнить, что в одном геноме могут быть закодированы несколько паралогов, аминокислотные последовательности которых существенно отличаются. Поэтому недопустимо формальное удаление белков, относящихся к уже представленному в списке семейства организму. В качестве критерия для удаления очень близких по аминокислотной последовательности белков может служить уровень идентичности от 95% и выше.



    5. Множественное выравнивание белков

    Множественное выравнивание белков (доменов) одного семейства может быть проведено автоматически, например, с помощью программы ClustalW. Однако такое выравнивание будет близким к оптимальному лишь при высоком уровне идентичности всех анализируемых последовательностей (свыше 50%) и отсутствии в них существенного количества инсерций/делеций. В следующих случаях:

    • при уровне идентичности ниже 30%,
    • при наличии протяжённых инсерций,
    • при наличии факультативных N-концевых участков

    получаемые машинные выравнивания не пригодны для корректного филогенетического анализа и выравнивания следует делать (или редактировать) вручную. В качестве подходящей для этого программы-редактора можно рекомендовать BioEdit. При этом в качестве основы имеет смысл использовать полученные автоматически попарные и/или множественные выравнивания белков.


    Рисунок 3

    Рисунок 3. Фрагмент множественного выравнивания аминокислотных последовательностей в программе BioEdit.

    После получения множественного выравнивания имеет смысл его внимательно просмотреть. При этом особое внимание следует обратить на белки, имеющие аномальные участки в своей последовательности:

    • уникальные только для данного белка делеции,
    • локально низкий уровень сходства с остальными белками на высоко консервативном у них участке,
    • наличие у двух очень схожих белков существенных локальных различий.

    Следует выяснить причины появления таких аномальных участков. Это могут быть ошибки секвенирования (например, локальные сдвиги рамки считывания), ошибочное предсказание экзон-интронной структуры и т.д. Выявленные ошибки следует устранить или соответствующие последовательности вовсе исключить из дальнейшего анализа. Это же касается и белков, не имеющих полноразмерного анализируемого домена (фрагмент белковой последовательности).

    На последней стадии из готового множественного выравнивания следует удалить те позиции (столбики аминокислот), которые в большинстве белков соответствуют делециям, а так же наиболее вариабельные позиции, правильность (однозначность) выравнивания в которых вызывает сомнение.



    6. Построение филогенетических деревьев анализируемого семейства белков

    Полученное множественное выравнивание может быть использовано для построения филогенетических деревьев. Для этого мы рекомендуем воспользоваться, например, программами PROTPARS (Protein Sequence Parsimony method) и NEIGHBOR (Neighbor-Joining method) из пакета PHYLIP, позволяющими проводить бутстреп-анализ. Целесообразно использовать как минимум два разных алгоритма для постройки деревьев одного и того же семейства белков. При этом общие топологические свойства обоих деревьев будут являться более надёжными критериями для выводов о филогенетических взаимоотношениях между соответствующими белками. Бутстреп-анализ позволит оценить статистическую надёжность каждого из узлов построенного древа. Для предварительных выводов вполне достаточно получить по сто псевдореплик для каждого древа, в то время как научные публикации следует иллюстрировать деревьями с 1000 псевдорепликами. Небольшие изменения набора последовательностей и/или числа позиций множественного выравнивания позволят дополнительно проверить устойчивость деревьев. Программа TreeView позволит получить графические изображения построенных деревьев.



    7. Выделение подсемейств

    Многие семейства белков являются достаточно многочисленными и среди них часто обнаруживаются белки, выполняющие различные биологические функции, например, ферменты с различными биохимическими активностями. Это не позволяет однозначно предсказывать роль экспериментально не исследованных белков на основе уже известных данных для других членов данного семейства. Эта проблема отчасти может быть решена путём разбиения семейств белков-гомологов на подсемейства, объединяющих эволюционно наиболее близкие белки.

    Предварительное разбиение семейств белков на подсемейства может быть сделано на основании попарного сравнения последовательностей. При этом выбирается минимальный уровень идентичности аминокислотных последовательностей (в процентах), который будет соответствовать белкам одного подсемейства в пределах анализируемого семейства. Адекватность выбранного уровня оценивается с помощью скрининга базы данных аминокислотных последовательностей с помощью разных представителей одного подсемейства в качестве запросов (query). Во всех случаях наилучшие значения статистической поддержки сходства (E-value) должны иметь только белки данного подсемейства. То есть все они должны идти в списке результатов программы blastp до белков других подсемейств данного семейства. Если такой картины не наблюдается, то целесообразно пересмотреть пороговый уровень отнесения белков данного семейства к одному подсемейству. Результаты, полученные при анализе целого ряда семейств гликозидаз, показали, что для них таким адекватным уровнем является 30% идентичности аминокислотных последовательностей. Однако для других семейств белков этот уровень вполне может быть и иным.

    Окончательный вывод о правильности предложенного разделения данного семейства белков на подсемейства должен быть сделан на основе данных филогенетического анализа. В идеальном варианте все подсемейства должны образовывать на древе отдельные кластеры ветвей, то есть являться монофилетическими группами (при выборе в качестве внешней группы любого из подсемейств). Результаты филогенетического анализа могут уточнить предварительно сделанное на основе попарного сравнения аминокислотных последовательностей разделение семейства на подсемейства, пересмотрев положение отдельных "атипичных" представителей. Отдельные подсемейства имеет смысл выделять при наличии не менее двух известных представителей. Одиночные белки, имеющие уровень идентичности со всеми остальными представителями данного семейства ниже пороговой, следует рассматривать как "пока" не принадлежащие ни к одному из известных подсемейств, так в их сиквенсах могут содержаться ошибки (например, локальные сдвиги рамок считывания), приведшие к заниженному уровню идентичности с остальными последовательностями.



    Рисунок 4

    Рисунок 4. Филогенетическое древо семейства GH97 гликозидаз, подтверждающее правомерность предложенного разбиения на пять подсемейств. Рисунок иллюстрирует результаты, опубликованные в работе [2].


    8. Поиск родственных семейств

    Часто оказывается, что в составе какого-то семейства нет ни одно детально исследованного белка. В такой ситуации определённые выводы о структуре и функциях белков этого семейства можно сделать исходя из информации о белках из эволюционно родственных семейств. Например, наличие экспериментальных данных о третичной структуре какого-то белка позволяет предсказать пространственное строение не только других белков того же семейства, но и для представителей родственных семейств.

    Для поиска эволюционно родственных семейств белков целесообразно использовать программу PSI-BLAST. В результате своей первой итерации она обычно находит почти исключительно белки данного семейства, а дальнейшие итерации выявляют представителей родственных семейств. В качестве порогового значения E-value для включения последовательности в следующую итерацию имеет смысл использовать 0.01 или 0.001. Итерации стоит проводить до прекращения появления новых белков с заданным уровнем сходства. Белки, найденные в каждой из итераций, надо исследовать на принадлежность к известным или новым семействам. При этом следует учитывать тот факт, что белки могут содержать более одного домена, а также возможность появления среди результатов скрининга базы данных аминокислотных последовательностей и негомологичных белков. Следует ожидать того, что родство двух семейств белков должно быть взаимным, то есть если использование последовательностей белков одного семейства позволяет найти среди гомологов членов второго семейства, то и использование представителей второго семейства должно обнаруживать белки первого.




    Рисунок 5. Schematic representations of the evolutionary relationships established using PSI-BLAST. An arrow from family A to family B means that PSI-BLAST analysis of family A produced family B members among significant hits. The numbers x/y associated with each arrow are the number of iterations required to demonstrate each relationship using E-value cut-offs of 0.001 (x) or 0.01 (y). A dash in place of x signifies that the relationship was not apparent at the stricter E-value cut-off and these weaker relationships are shown as dotted lines. Note that not all relationships were demonstrable bidirectionally.
    Рисунок и подпись к нему воспроизведены из работы [3].


    В качестве примера исследования, где были предложены конкретные статистические критерии для объединения группы родственных семейств в один клан можно привести работу [4]. Однако общепринятой точки зрения по этому вопросу не существует.



    9. Другие методы анализа семейств белков-гомологов

    В процессе анализа семейства белков-гомологов в качестве составной части исследования можно выявить характерные для семейства в целом или для отдельных образующих его подсемейств консервативные паттерны аминокислотных остатков. Наличие такого паттерна (консенсуса) в аминокислотной последовательности белка может быть основанием для выяснения его возможного отнесения к соответствующему семейству (или подсемейству). Также могут представлять интерес характерные позиции в аминокислотных последовательностях, которые позволяют различать представителей разных подсемейств. Поиск консервативных позиций во множественном выравнивании у выбранной группы последовательностей может быть автоматически проведён с помощью программы BioEdit. Использование таких критериев для отнесения белка к ранее известному подсемейству может быть обосновано, если имеется лишь сравнительно короткий фрагмент аминокислотной последовательности, не позволяющий проведения филогенетического анализа.

    Исследование белкового семейства также может включать предсказание и дальнейшее сравнение вторичных и третичных структур его членов, как между собой, так и с представителями родственных семейств.



    Заключение

    Результаты филогенетического анализа могут быть опубликованы в виде отдельной статьи, посвящённой эволюции определённого белкового семейства. Примером таких работ могут служить статьи [1] и [2]. В других случаях филогенетический анализ является лишь составной частью более масштабного исследования. Он может проводиться на начальном этапе работы, предшествуя постановке экспериментальной задачи. Это позволит более адекватно выбрать конкретного представителя интересующего белкового семейства для более подробного изучения:

    • предсказать его трёхмерную структуру и доменную организацию,
    • предсказать строение активного центра и наметить мишени для сайт-направленного мутагенеза,
    • предсказать возможные энзиматические активности.

    Филогенетический анализ может быть проведён и на заключительном этапе исследования, позволяя определить место обнаруженного и исследованного белка в иерархической системе ранее известных белков. В такой ситуации филогенетическое древо, показывающее положение исследованного белка может стать хорошей иллюстрацией для статьи или диссертации. Филогенетическое древо каждого домена имеет смысл сравнить с эволюционном древом организмов-хозяев, что позволит сделать вывод о характере эволюции доменов: какую роль в ней играли дупликация, потеря и слияние генов, а также их горизонтальные переносы.




    Представленная работа финансировалась грантом президента РФ для молодых российских учёных (MK-1461.2005.4) и грантом РФФИ (06-04-49079-а).


    Список литературы

    1.    Наумов Д. Г. 2004. Филогенетический анализ α-галактозидаз семейства GH27. Молекулярная биология. Т.38. N.3. С.463-476. Abstract; PDF

    2.    Naumoff DG. 2005. GH97 is a new family of glycoside hydrolases, which is related to the α-galactosidase superfamily. BMC Genomics. V.6. Art.112. Abstract; PDF

    3.    Rigden DJ. 2002. Iterative database searches demonstrate that glycoside hydrolase families 27, 31, 36 and 66 share a common evolutionary origin with family 13. FEBS Lett. V.523. N.1-3. P.17-22. Abstract; PDF

    4.    Finn RD, Mistry J, Schuster-Bockler B, Griffiths-Jones S, Hollich V, Lassmann T, Moxon S, Marshall M, Khanna A, Durbin R, Eddy SR, Sonnhammer ELL and Bateman A. 2006. Pfam: clans, web tools and services. Nucleic Acids Research. V.34. Database issue. D247-D251. Abstract; PDF


    Статья цитировалась

    1. Naumoff D.G. 2006. Development of a hierarchical classification of the TIM-barrel type glycoside hydrolases. Proceedings of the Fifth International Conference on Bioinformatics of Genome Regulation and Structure. July 16-22, 2006. Novosibirsk. Russia. V.1. P.294-298; PDF
    2. Kuznetsova A.Y. and Naumoff D.G. 2006. Phylogenetic analysis of COG1649, a new family of predicted glycosyl hydrolases. Proceedings of the Fifth International Conference on Bioinformatics of Genome Regulation andStructure. July 16-22, 2006. Novosibirsk. Russia. V.3. P.179-182; PDF


Zbio: molbiol.ru/bio
e-mail: info@zbio.net
просмотров: 38905


Смотри также:
/ссылки на сетевые ресурсы/

Журнал Zbio



    Дополнения, комментарии, вопросы

    daniil naumoff /06.04.2006 14:03/
    Как дополнение к этой статье очень полезно ознакомиться с http://zbio.net/forums/index.php?showtopic=79080 ( http://zbio.net/forums/index.php?showtopic=79080 ) По данным этой работы реальное количество семейств, объединяющих уже известные белки, может превышать 50 тысяч, но большинство из них пока никак не аннотированы.

    Пожалуйста, подписывайте свои вопросы, если задаёте их не регистрируясь. Мне важно понимать, их задаёт один и тот же человек или разные.



    Гocть /06.04.2006 14:04/
    "На последней стадии из готового множественного выравнивания следует удалить те позиции (столбики аминокислот), которые в большинстве белков соответствуют делециям, а так же наиболее вариабельные позиции, правильность (однозначность) выравнивания в которых вызывает сомнение."

    Поясните данный пункт, пожалуйста. Ведь это приведет к менее "биологическому" выравниванию?



    Гocть /06.04.2006 14:05/
    Еще один вопрос - что такое "псеводреплики"?



    daniil naumoff /06.04.2006 14:07/
    (Гocть @ 06.04.2006 12:04)
    Ссылка на исходное сообщение  "На последней стадии из готового множественного выравнивания следует удалить те позиции (столбики аминокислот), которые в большинстве белков соответствуют делециям, а так же наиболее вариабельные позиции, правильность (однозначность) выравнивания в которых вызывает сомнение."

    Поясните данный пункт, пожалуйста. Ведь это приведет к менее "биологическому" выравниванию?


    1. Позиции, которые в большинстве белков соответствуют делециям. Посмотрите на Рисунок 3. Я специально выбрал такой фрагмент множественного выравнивания, который иллюстрирует этот случай: позиции от 955 до 992. Явно, что все последовательности, содержащие этот участок произошли от общего предка, у которого (относительно недавно) произошла вставка соответствующего фрагмента ДНК. То есть одно эволюционное событие привело к изменениям по нескольким десяткам позиций. Если мы станем учитывать этот участок при построении древа, то это искусственно сблизит все последовательности, содержащие этот участок (также как сблизит между собой и все последовательности не содержащие его).

    2. Наиболее вариабельные позиции, правильность выравнивания в которых вызывает сомнение. Речь идёт, например, о таких случаях, когда мы легко выравниваем два высоко консервативных участка, а фрагмент последовательности между ними выровнять сложно. Он есть во всех белках (это отличие от предыдущего случая), но имеет у них неодинаковую длину. В такой ситуации лучше вообще исключить из расмотрения данный фрагмент, чем необоснованно отдать предпочтение одному из нескольких альтернативных вариантов выравнивания, "биологичность" которых будет вызывать большие сомнения.


    (Гocть @ 06.04.2006 12:05)
    Ссылка на исходное сообщение  Еще один вопрос - что такое "псеводреплики"?


    Речь идёт о бутстреп-анализе. Происходит независимое построение большого числа деревьев (это и есть "псевдореплики") и их последующее "усреднение". При этом каждому узлу на древе приписывается его достоверность (число деревьев, где он существует). В качестве примера, на Рисунке 4 указана бутстреп-поддержка каждого из узлов (всего получено 1000 псевдореплик).



    Гocть /06.04.2006 14:07/
    Спасибо за ответы. Последний вопрос про псеводреплики (просто я не знаком с этими алгоритмами). Я правильно понял, что каждая из них строится для одного множества инпутных сиквенсов и на выходе получается каждый раз новая, но похожая на предыдущие, псевдореплика? Если это так, то почему это поисходит?



    daniil naumoff /06.04.2006 14:08/
    (Гocть @ 06.04.2006 12:07)
    Ссылка на исходное сообщение  Спасибо за ответы. Последний вопрос про псеводреплики (просто я не знаком с этими алгоритмами). Я правильно понял, что каждая из них строится для одного множества инпутных сиквенсов и на выходе получается каждый раз новая, но похожая на предыдущие, псевдореплика? Если это так, то почему это поисходит?


    Каждый раз используемое на входе множественное выравнивание немного модифицируется "случайным" образом.



    protein /12.04.2006 18:43/
    Извините за банальный вопрос, но я споткнулся на программе Clustalw: подскажите, как правильно вводить последовательности (я пробовал в формате SwissProt, через запятую), но программа говорит, что видит одну поседовательность confused.gif



    daniil naumoff /12.04.2006 20:29/
    FASTA-формат (никаких запятых)



    Chromocenter /19.04.2006 17:09/
    Даниил, а почему минимум - это именно четыре разные последовательности. Что мешает выравнивать три?



    daniil naumoff /19.04.2006 17:59/
    (daniil_naumoff @ 19.04.2006 18:31)
    Ссылка на исходное сообщение8. Выравнивать можно любое число последовательностей, в т.ч. (в простейшем случае) - две. Однако филогенетический анализ осмысленен только при наличии не менее 4 объектов, так как для трёх возможен лишь один вариант топологии "Y".




    Guest /19.06.2006 08:09/
    Даниил, какие программы Вы могли бы посоветывать для поиска консервативных участков белков-гомологов, желательно с применением статистических оценок достоверности найденных участков? Извиняюсь за то, что вопрос не совсем по теме.



    daniil naumoff /19.06.2006 12:34/
    MACAW (Multiple Alignment Construction and Analysis Workbench)
    http://www.ncbi.nlm.nih.gov/entrez/query.f...st_uids=2006136 ( http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=pubmed&dopt=Abstract&list_uids=2006136 )



    daniil naumoff /21.11.2006 16:13/
    Marco Carreras перевёл текст статьи на итальянский язык: статья ( http://geneproject.altervista.org/Download.php?Lang=EN&id=14&rd=2064255464 ) (pdf-формат, около 500kb)



    SH-Anastasia /01.08.2007 11:26/
    Здравствуйте, Даниил!

    Работаю с группой белков, делаю выравнивания, строю деревья, работаю с BioEdit, PHYLIP и clustalw. все работает замечательно, кроме одного - где бы и как бы я не делала бутстреп анализ, на деревьях не прописываются данные бутстреп анализа! Открывала деревья программами TreeView, TreeViewX, PhyloDraw 0.8.... и ничего... может есть какой-нибудь другой софт? или есть какие-то особенность у PHYLIP и clustalw, которые я не заметила?....

    Помогите, пожалуйста, разобраться...

    Анастасия.



    daniil naumoff /14.08.2007 18:28/
    В TreeView есть опция - Show internal edge labels.



    guest: Петр /07.12.2007 13:22/
    Извините за банальный вопрос.. я начал заниматься белками и нигде не могу найти информацию о том, каким образом семейства объединяют в кланы?? по свойствам? структуре? заранее благодарен.



    daniil naumoff /07.12.2007 14:21/
    По структуре. Но вообще-то желательно говорить о какой-то конкретной классификации, а не в общем виде. За все классификации я не могу отвечать...



    guest: Петр /07.12.2007 15:44/
    Даниил, Вы не могли бы подсказать где найти информацию по филогенетическим деревьям генов? можно ли использовать программу для построения деревьев белков для построения дерева генов? спасибо..



    daniil naumoff /10.12.2007 12:54/
    (guest: Петр @ 07.12.2007 15:44)
    Ссылка на исходное сообщение  Даниил, Вы не могли бы подсказать где найти информацию по филогенетическим деревьям генов? можно ли использовать программу для построения деревьев белков для построения дерева генов? спасибо..


    В упомянутом в статье пакете программ PHYLIP есть и программы для анализа нуклеотидных последовательностей. Принципы примерно такие же. Но я не вижу смысла анализировать белок-кодирующие гены на уровне ДНК (если речь не идёт о близкородственных организмах, где гомология выявляется и в интронах).



    guest: Петр /11.12.2007 17:36/
    спaсибо, про Phylip все понял, но остались вопросы по кланам. я посмотрел Ваши статьи, Вы рассматриваете клан GH-D с семейством белков 27 и не понял по какому принципу объеденены 27, 31, 36 : 3D структура такая же как у GH-A , GH-H и GH-K и одинаковый механизм Retaining и т.д.
    Пожалуйста, объясните принцип объединения белков в клан.



    daniil naumoff /12.12.2007 12:24/
    Теперь становится ясно, что Вы спрашиваете про кланы гликозил-гидролаз из CAZy ( http://www.cazy.org/ ) (это не единственная классификация, которая выделяет иерархический уровень кланов). Вот таблица кланов (немного устаревшая, так как GH31 ( http://www.cazy.org/fam/GH31.html ) теперь включили в состав GH-D):

    452.67к -

    Действительно, каталитические домены четырёх кланов имеют пространственную структуру TIM-бочонка и при этом сохраняют оптическую конфигурацию субстрата в процессе реакции гидролиза. Ещё целый ряд семейств, невошедших в состав кланов, тоже имеют структуру TIM-бочонка (механизм может быть разный). Кланы GH-D и GH-H отличаются от GH-A и GH-K по пространственной ориентации расщепляемой гликозильной связи. Семейства объединялись в кланы исторически (т.е. в один клан исходно помещались те семейства, в родстве которых у авторов классификации не было сомнения). В дальнейшем существующие кланы пополнялись дополнительными семействами и выделялись новые кланы, но ранее существующие кланы никогда не объединялись в один. Хотя я и вижу в этом определённый смысл, но всё же это скорее отражает личные предпочтения авторов классификации (Henrissat, Coutinho, etc.).

    P.S. Рисунок воспроизведён отсюда ( http://www.jinr.ru/drrr/Timofeeff/Kor-Shev/present/Daniil_Naumoff.pdf ), тамже можно найти дополнительную информацию по теме.








       
Дата последней модификации: 30/07/13

ТЕКУЩИЙ ВЫПУСК · О ЖУРНАЛЕ · АВТОРАМ · · MOLBIOL.RU

 ·  Викимарт - все интернет-магазины в одном месте  ·  Доска объявлений Board.com.ua  · 
--- сервер арендован в компании Hetzner Online, Германия ---
--- администрирование сервера: Intervipnet ---

http://molbiol.ru/bio/  ·  info@zbio.net

molbiol.ru - методы, информация и программы для молекулярных биологов   Rambler