Ученые совершенствуют методы хранения данных в ДНК

24/01/2013 23:48

В последнее время ДНК привлекает к себе всё больше внимания как альтернатива традиционным накопителям. Её преимущества в её емкости: например, Европейская организация по ядерным исследованиям (CERN), оперирующая небезызвестным Большим адронным коллайдером, ежегодно производит 15 петабайт информации. Для хранения этой информации на жестких дисках, компакт-дисках или магнитной плёнки требуеются большие площади. Тогда как, для хранения этого объема данных в ДНК понадобится всего около 7 граммов — если, конечно, воспользоваться методом кодирования, предложенным группой исследователей из Европейской молекулярно-биологической лаборатории в Гейдельберге (EMBL, Германия). Ранее специалисты Гарварда (США) уже предлагали метод записи информации в ДНК без участия живой клетки. В своих экспериментах учёные из EMBL оперировали тем же количеством информации, что и гарвардцы, — примерно 5,2 млн бит. Отлияием этих двух методов является, технология кодирования. Учёные из Гарварда использовали простой код, в котором разные основания ДНК соответствовали нулю (аденин и цитозин) или единице (гуанин и тимин). Такой способ часто приводил к появлению длинных фрагментов, состоящих из одной буквы, а секвенирующая машиной на таких монотонных кусках склонна ошибаться, то есть появляется ощутимый риск искажения информации. Исследователи из EMBL усложнили код, сделав так, чтобы каждому байту (который, как известно, равен восьми битам) соответствовало некое «слово» из 5 букв-оснований (например, ААСТТ). Кроме того, они разбили весь массив информации на перекрывающиеся ДНК-фрагменты по 117 нуклеотидов (в которых, согласно исходной работе, содержался также адрес этого конкретного информационного куска). Взаимное перекрывание позволяло проверить ошибку, определив положение информационного фрагмента относительно трёх других. Иными словами, создан информационный контекст, который позволяет правильно прочесть слово, даже если в него ввиду ошибки закрадывалась некая двусмысленность. Например, слово «лук» может существовать на равных правах со словом «луг», но контекст ошибиться не даст: из «луга» не выстрелишь. С помощью этого метода исследователи превратили в ДНК 154 шекспировских сонета, аудиозапись речи Мартина Лютера Кинга «У меня есть мечта», классическую статью Уотсона и Крика, посвящённую структуре ДНК, фото сотрудников института и описание использованного метода конвертации информации в ДНК. Как сообщают авторы работы в журнале Nature, им удалось восстановить исходную информацию из ДНК со 100-процентной точностью. Носители информации на основе ДНК могут стать не только более вместительными, но и более надёжными, чем привычные винчестеры и компакт-диски. В конце концов, ДНК мамонта пролежала в холодной земле 60 тысяч лет почти без информационных потерь. Но пока что главной проблемой таких ДНК-информационных манипуляций остаётся их высокая стоимость. Кодирование в ДНК одного мегабайта обошлось в 12 400 долларов. Ещё 220 долларов понадобятся для изъятия и возвращения этого мегабайта из и в ДНК. Впрочем, сами исследователи убеждены, что метод со временем подешевеет и уже через полвека с его помощью можно будет, например, обрабатывать большие массивы важной, но редко используемой информации (вроде тех же данных с БАКа).
Источник