Вступление
Проект по расшифровке генома человека
(англ. The Human Genome Project, HGP) — международный
научно-исследовательский проект, главной
целью которого было определить последовательность
нуклеотидов, которые составляют ДНК и
идентифицировать 20,000-25,000 генов в человеческом
геноме.
Проект начался в 1990 году, под руководством
Джеймса Уотсона под эгидой Национальной
организации здравоохранения США. В 2000
году был выпущен рабочий черновик структуры
генома, полный геном — в 2003 году, однако
и сегодня дополнительный анализ некоторых
участков ещё не закончен. Частной компанией
«Celera Genomics (англ.)» был запущен аналогичный
параллельный проект, завершённый несколько
ранее международного. Основной объём
секвенирования был выполнен в университетах
и исследовательских центрах США, Канады
и Великобритании. Кроме очевидной фундаментальной
значимости, определение структуры человеческих
генов является важным шагом для разработки
новых медикаментов и развития других
аспектов здравоохранения.
Хотя целью проекта по расшифровке генома
человека является понимание строения
генома человеческого вида, проект также
фокусировался и на нескольких других
организмах, среди которых бактерии, в
частности, Escherichia coli, насекомые, такие
как мушка дрозофила, и млекопитающие,
например, мышь.
Изначально планировалось определение
последовательности более трёх миллиардов
нуклеотидов, содержащихся в гаплоидном
человеческом геноме. Затем несколько
групп объявили о попытке расширить задачу
до секвенирования диплоидного генома
человека, среди них международный проект
HapMap (англ.), «Applied Biosystems», «Perlegen», «Illumina»,
«JCVI», «Personal Genome Project» и «Roche-454».
Геном любого отдельно взятого организма
(исключая однояйцевых близнецов и клонированных
животных) уникален, поэтому определение
последовательности человеческого генома
в принципе должно включать в себя и секвенирование
многочисленных вариаций каждого гена.
Однако, в задачи проекта «Геном человека»
не входило определение последовательности
всей ДНК, находящейся в человеческих
клетках; а некоторые гетерохроматиновые
области (в общей сложности около 8 %) остаются
несеквенированными до сих пор.
Глава 1
1.1 История проекта
и его проблемы
Проект стал кульминацией нескольких
лет работы поддержаной министерством
энергетики США, в частности семинаров
проводившихся в 1984-м и 1986-м годах, и последовавшими
действиями министерства энергетики.
Отчёт 1987 года чётко указывает: «Окончательной
целью данного начинания является понимание
человеческого генома» и «знание человеческого
генома так же необходимо для прогресса
медицины и других наук о здоровье, как
знание анатомии было необходимо для достижения
её нынешнего состояния». Поиски технологий,
подходящих для решения предложенной
задачи, начинались ещё во второй половине
80-х годов.
Уже в 1988 г. крупные средства на изучение
генома в США были выделены Министерством
энергетики. В 1990 активным инициатором
и пропагандистом программы Геном человека
стал знаменитый Джеймс Уотсон, а главным
распорядителем финансов — Национальный
Институт Здравоохранения США, в составе
которого в 1995 году появился Национальный
Институт Генома Человека, который возглавил
Фрэнсис Коллинз. В этом же году он стал
и руководителем Международной программы
Геном Человека, к которой присоединились
ведущие молекулярные лаборатории Великобритании,
Франции, Германии, Японии и России. Решающая
роль в становлении и развитии одноименной
отечественной подпрограммы принадлежит
выдающемуся ученому академику А. А. Баеву.
Трёхмиллиардный проект был формально
запущен в 1990 году министерством энергетики
США и национальным институтом здравоохранения,
и ожидалось что он продлится 15 лет. Помимо
США, в международный консорциум вошли
генетики Китая, Франции, Германии, Японии
и Великобритании.
Существуют многочисленные
определения «полной последовательности
человеческого генома». Согласно некоторым
из них, геном уже полностью секвенирован,
а согласно другим, этого ещё предстоит
добиться. В популярной прессе было множество
статей, сообщающих о «завершении» генома.
Согласно определению, которое использует
Международный проект по расшифровке
генома человека, геном расшифрован полностью.
График истории расшифровки проекта показывает,
что большая часть человеческого генома
была закончена в конце 2003 года. Однако
ещё остаётся несколько регионов, которые
считаются незаконченными:
Прежде всего, центральные регионы
каждой хромосомы, известные как центромеры,
которые содержат большое количество
повторяющихся последовательностей ДНК;
их сложно секвенировать при помощи современных
технологий. Центромеры имеют длину миллионы
(возможно десятки миллионов) пар нуклеотидов,
и, по большому счёту, остаются несеквенированными.
Во-вторых, концы хромосом, называемые
теломерами, также состоящие из повторяющихся
последовательностей, и по этой причине
в большинстве из 46 хромосом их расшифровка
не завершена. Точно не известно, какая
часть последовательности остаётся не
расшифрованной до теломер, но как и с
центромерами, существующие технологические
ограничения препятствуют их секвенированию.
В-третьих, в геноме каждого
индивидуума есть несколько локусов, которые
содержат членов мультигенных семейств,
которые также сложно расшифровать с помощью
основного на сегодняшний день метода
фрагментирования ДНК (англ.). В частности,
эти семейства кодируют белки, важные
для иммунной системы.
Смысловыми участками ДНК принято
считать области, которые копируются так
называемыми молекулами мРНК. Часть ДНК,
которая не копируется молекулами РНК,
считается информационно бессмысленной.
Визуальное представление этих данных
поражает воображение. Ведь получается,
что 98,5% протяженности хромосом - это безжизненная
территория вещества без информационной
"начинки", информационная пустота.
Много миллионов лет назад хромосомы
многоклеточных организмов выросли в
длину и толщину на несколько порядков
путем увеличения каркаса ядра задолго
до появления самого человека на Земле.
Это не сопровождалось ростом численности
генов на хромосомах. Потоки генетической
информации редко и случайно касались
этой территории: подобно микрометеоритам,
например, сюда залетали и "застывали"
уже неживыми памятниками фрагменты ДНК
вирусов. Специальные приемы позволяют
определять даты этих далеких событий
в эволюции ДНК.
Возможно, что преобладание
бессмысленных отрезков ДНК служит пассивной
защитой от опасных вирусов, поскольку
вероятность попадания разрушающей вирусной
информации в смысловую область резко
уменьшается. Огромные участки ДНК остаются
"нераспаханной целиной" в течение
всей жизни клеток. Хотя пустые концевые
участки хромосом, как и область центромеров
(первичные места спаривания родительских
парных хромосом), важны для сохранения
вида: они определяют строгое распознавание
макрорельефа хромосомы как органеллы
клетки (а не микрорельефа молекулы ДНК)
одного вида по принципу "ключ-замок".
Другими словами, спермии человека не
оплодотворяют яйцеклетку обезьяны и
наоборот, потому что хромосомы клеток
двух видов не распознают друг друга. Поэтому
"бессмысленные участки" ДНК осмысленно
работают в хромосоме, защищая вид от вторжения
чужеродной ДНК.
Поскольку макроустройство
хромосомы существенно зависит от "пустой"
ДНК без генов, многие события при делении
клеток, копировании ДНК в дочерние клетки
и окончательное растаскивание хромосом
между новыми клетками адресованы участкам,
незаселенным информацией для кодирования
белков.
В "пустыне" этой есть прежде
всего транспозоны, то есть участки, которые
меняют свою позицию в геноме. Меняют не
беспорядочно, а в определенные участки.
Один из таких участков был обнаружен
довольно случайно в прошлом году, что
позволяет надеяться на его использование
для внедрения нужных "терапевтических"
генов. Сообщается также об открытии нового
транспозона, содержащего ген, который
включается на непродолжительное время
в мозгу развивающегося плода.
В то же время функциональные
гены сами объединяются в области повышенной
генной активности, которая в 200 раз может
превышать средний уровень. Эта активность
способна пробуждать к жизни покоящиеся
ретровирусы, сожительство которых с геномом
протекает бессимптомно. Эти вирусы в
качестве наследственного материала несут
не ДНК, а рибонуклеиновую кислоту (РНК).
К ним прежде всего относятся ВИЧ и раковые
вирусы.
Существует теория, что ВИЧ
является своеобразным подавителем иммунного
отторжения плода, который наполовину
чужероден матери по определению (вторая
половина генома, развивающегося в утробе
матери ребенка, досталась ему от отца).
Если экспериментально подавить в плаценте,
образующейся из тканей плода, ретровирусы,
то не происходит "приживления" зародыша
к стенке матки. А ведь подобных ретровирусов
очень много в нашем геноме, и их ДНК "внедряется"
в геном чаще всего именно в "пустыне".
Кроме перечисленных регионов,
остаётся ещё несколько брешей, разбросанных
по всему геному, некоторые из которых
довольно крупные, но есть надежда, что
все они будут закрыты в ближайшие годы.
Бо́льшая часть остающейся
ДНК сильно повторяющаяся, и маловероятно,
что она содержит гены, однако это останется
неизвестным, пока они не будут полностью
секвенированы. Понимание функций всех
генов и их регуляции далека от завершения.
Роль мусорной ДНК, эволюция генома, различия
между индивидуумами, и многие другие
вопросы по-прежнему
являются предметом
интенсивных исследований в лабораториях
всего мира.
1.2. Цели и предпосылки
развития проекта
Последовательность человеческой
ДНК сохраняется в базах данных, доступных
любому пользователю через Интернет. Национальный
центр биотехнологической информации
США (и его партнёрские организации в Европе
и Японии) хранят геномные последовательности
в базе данных известной как GenBank, вместе
с последовательностями известных и гипотетических
генов и белков. Другие организации, к
примеру Калифорнийский Университет в
Санта-Круз (англ.) и Ensembl (англ.) поддерживают
дополнительные данные и аннотации а также
мощные инструменты для визуализации
и поиска в этих базах. Были разработаны
компьютерные программы для анализа данных,
потому что сами данные без таких программ
интерпретировать практически невозможно.
Процесс идентификации границ
генов и других мотивов в необработанных
последовательностях ДНК называется аннотацией
генома (англ.) и относится к области биоинформатики.
Эту работу при помощи компьютеров выполняют
люди, но они делают её медленно и, чтобы
удовлетворять требованиями высокой пропускной
способности проектов секвенирования
геномов, здесь также всё шире используют
специальные компьютерные программы.
Лучшие на сегодняшний день технологии
аннотации используют статистические
модели основанные на параллелях между
последовательностями ДНК и человеческим
языком, пользуясь такими концепциями
информатики как формальные грамматики.
Другая, часто упускаемая из
виду цель проекта «Геном человека» —
исследование этических, правовых и социальных
последствий расшифровки генома. Важно
исследовать эти вопросы и найти наиболее
подходящие решения до того, как они станут
почвой для разногласий и политических
проблем.
Все люди имеют в той или иной
степени уникальные геномные последовательности.
Поэтому данные, опубликованные проектом
«Геном человека», не содержат точной
последовательности геномов каждого отдельного
человека. Это комбинированный геном небольшого
количества анонимных доноров. Полученная
геномная последовательность является
основой для будущей работы по идентификации
разницы между индивидуумами. Основные
усилия здесь сосредоточены на выявлении
однонуклеотидного полиморфизма.
Молекулярную основу генома
человека составляет молекула ДНК — знаменитая
«нить жизни», двуспиральная модель структуры,
которой была гениально предсказана и
обоснована в работе нобелевских лауреатов
Джеймса Уотсона и Фрэнсиса Крика еще
в 1953 году. Спираль состоит из 4-х пар оснований
(нуклеотидов); двух пуринов (аденин, гуанин)
и двух пиримидинов (тимин и цитозин), соединенных
между собой через дезоксирибозу и остатки
фосфорной кислоты в длинную нить. Две
нити соединяются между собой посредством
водородных связей своих нуклеотидов,
причем так, что аденин всегда соединен
с тимином, а гуанин — с цитозином. В дальнейшем
оказалось, что именно в чередовании пар
оснований в ДНК и заложен генетический
код для каждой из 20 аминокислот, причем
этот код оказался трехбуквенным, то есть
каждой аминокислоте соответствует свои
три нуклеотида, свой триплет. Было так
же установлено, что в каждой клетке человека
длина молекулы ДНК около 1,5–2 м, а число
нуклеотидов, составляющих эту уникальную
«нить жизни» достигает 3.3 миллиарда. Фрагменты
этой нити и составляют то, что называется
генами, то есть кодирующими участками
генома, определяющими структуру всех
белков организма. Естественно, поэтому
точное данные о структуре генома человеке,
т.е. о первичной последовательности его
нуклеотидов, равно как и данные обо всех
генах человека давно привлекали и привлекают
самое пристальное внимание ученых-биологов.
В любой соматической клетке
человека 23 пары хромосом. В каждой из
них по одной молекуле ДНК. Длина всех
46 молекул почти 2 м.
У взрослого человека примерно 5х1013 клеток, так что общая длина молекул
ДНК в организме 1011 км (почти в тысячу раз больше расстояния
от Земли до Солнца). В молекулах ДНК одной
клетки человека 3,2 млрд.пар нуклеотидов.
Каждый нуклеотид состоит из углевода,
фосфата и азотистого основания. Углеводы
и фосфаты одинаковы во всех нуклеотидах,
а азотистых оснований - четыре. Таким
образом, язык генетических записей четырехбуквенный,
и если основание - его "буква", то
"слова" - это порядок аминокислот
в кодируемых генами белках. Кроме состава
белков в геноме (совокупности генов в
одинарном наборе хромосом) записаны и
другие любопытные сведения. Можно сказать,
что Природа (в результате эволюции или
Божьего промысла) закодировала в ДНК
инструкции о том, как клеткам выживать,
реагировать на внешние воздействия, предотвращать
"поломки", иными словами, - как развиваться
и стареть организму.