Даже тех крайне скромных знаний, которые вы могли получить, сделав первые 3 задания по С++, практически достаточно для выполнения первого биоинформатического задания. Но тут уже хорошо бы по молекулярной биологии, цитологии и генетике что-нибудь знать :) Когда я "устраивался" в институт, мне было нужно было сделать следующее: Здравствуйте, Станислав. Посмотрите, и попробуйте проанализировать выборку FoxA (HNF3) сайта. Это формат базы Samples (HNF3_from_SAMPLES_Gorshkova.smp) из TRRD. Кроме того, в качестве примера приведен файл в формате FASTA (HNF3_sh.fst). А также пример внутреннего формата SEQ (pos.seq). В нем: IN 1 -номер класса в файле PS Added n -комментарий FN HNF3 binding site -название выборки NA 53 -количество последовательностей в выборке LA 92 -длина выборки Для начала, в качестве тренировки, проделайте вот такую последовательность: 1. Переведите выборку в FASTA или SEQ формат (оба конвертора Вам понадобятся) 2. Разделите выборку на контроль и обучение 50/50 (пока можно вручную, потом лучше использовать автоматическую процедуру). 3. Обучите весовую матрицу на обучающей выборке, оцените информационное содержание позиций и посмотрите logo-представление (в графическом виде с любого из веб-сайтов) 4. Скачайте с EMBL-сайта геномные последовательности хромосом человека (в EMBL-формате) и постройте зависимость ошибок распознавания первого и второго рода при распознавании на контроле (пока грубо можно рассматривать всю геномную последовательность как негатив). Это стандартный цикл несложного и законченного первичного биоинформатического анализа, который даст Вам вводное представление о материале. Будут вопросы - пишите или звоните. Олег. Конечно, я понимаю, что никому из вас разбираться в этом даже в голову не придет, поэтому подробно расскажу что, зачем и как здесь делать. Расскажу и о том, что можно получить, используя знания и умения, которые я (и вы, если захотите) сейчас получаю.
|