molecular Bioinformatics


Kurs: Selbstorganisation und Evolution

Molekulare Bioinformatik: Komposition, Kodonstruktur und Informationsgehalt in DNA-Sequenzen: Übungen 1-6

2002    GZipped PS (200 Kb)



0.- Übung

Sequence Analysis Software GeneParser, GeneQuiz, GENSCAN, GeneMark, GeneHound, GeneScope, PROCRUSTES, GLIMMER, MZEF, FEXA/FGENEA, GRAIL, NetPlantGene, tRNAScan-SE, WebGene, EMBnet
Staden Package Web site of Roger Staden's DNA sequence analysis computer program package
NIH BIMAS, GenBank Feature table, BLAST, NCBI, HUGO maps
MAGPIE Overview to currently (being) sequenced genomes
Wentian Li List of completely sequenced genomes
Genome databases GDB (EBI), TransFac, DDBJ (Japan), FlyBase (Drosophila), Yeast (Stanford), MIPS, Candidate regulatory sequence elements for cell cycle-dependent transcription in Yeast, GOLD-1.0 (Genomes On Line Database)
Genetic world Human Genome Project information
Jackson Lab Mouse genome informatics
The Gene Analysis Engine and Viewer for UNIX GeneMine
MIT Biology Hypertextbook
Lewin's GENES online GENES provided by www.ergito.com (simply register)

1.- Übung

Gibt es in der Sequenz

TTAAAGCCTGATTAG

ein offenes Leseraster? Wenn ja, welche Aminosäuren könnten dort kodiert sein? Gibt es diese Sequenz in der Genbank http://www.ncbi.nlm.nih.gov/BLAST/ (nutzen Sie BLASTn)? Wenn ja, wie oft? Wie oft sollte diese Sequenz in einer Bernoulli-Sequenz der Länge 1 000 000 000  bp auftreten?

2.- Übung

Bei einer Sequenzierungsarbeit wird die Basenfolge

CCTTTGGTGCGGACCTCCAAAGTAAAAAATGAAGTTGCTAGTTTCAAGCAGGCGTTGAGCAA

ermittelt. Woher könnte die Sequenz stammen?

Erreichen Sie das National Center for Biotechnology Information NCBI/NIH http://www.ncbi.nlm.nih.gov/! Starten Sie dort eine Basic-BLAST-Sequenzsuche http://www.ncbi.nlm.nih.gov/BLAST/. (Kopieren Sie dazu die oben stehende DNA-Sequenz (z.B. mittels der Maustaste) in das eröffnete Fenster.) Versuchen Sie eine Interpretation der angegeben Werte.

3.- Übung

Für die folgenden zwei Sequenzen bestimme man die Häufigkeiten der Nukleotide A, C, G und T in den drei Positionen eines möglichen Leserasters!

a) atgaatctgctaggctcagcctaagctcacccttgctctagaccatctggtcttgacctctctctctctcccctccctccctct gtttttctcctctttaagtctctgtctgtaggtgtctctgtcttcaggtctacatatctgtctctctctgagacttcctctgca tctttctccatttctgtctctgcatggctaggtgtctttctctgggatttctctctgagactatttctctccttctgggtctct gtttccatctctctgtgtgatctctttgtgtctgtccaactagtctctctggctcttcccttccctctgccttttgcttgctac atttatcattaattttccttgtgcccaaaccctaacttttctttctctccttcttctcccca
b) gcacgcatcgaggagctggaggaggagctggagtccgagcgcaccgccagggctaaggtggagaagctgcgctcagacct gtctcgggagctggaggagatcagcgagcggctggaagaggccggcggggccacgtccgtgcagatcgagatgaacaaga agcgcgaggccgagttccagaagatgcggcgggacctggaggaggccacgctgcagcacgaggccactgccgcggccctg cgcaagaagcacgccgacagcgtggccgagctgggcgagcagatcgacaacctgcagcgggtgaagcagaagctggagaa ggagaagagcgagttcaagctggagctggatgacgtcacctccaacatggagcagatcatcaaggccaag

Welche Sequenz ist vermutlich proteinkodierend? Welche der Abweichungen von einer Gleichverteilung sind signifikant? Man bestimme die relativen Nukleotidhäufigkeiten

p(i), i=1,2,3,4.

der Sequenz (b) in Prozent! Man normiere die 3x4 Tabelle für Sequenz (b) auf 100% pro Position! Welches sind die drei stärksten Abweichungen von den entsprechenden p(i)? Zusatzaufgabe: Man bestimme die "position asymmetry" für die Sequenzen (a) und (b)! Verwenden Sie zur Lösung den  Frame Dependence Matrix Calculator (CGI-Script von J. Schuchhardt).

4.- Übung

Berechnen Sie für obige Sequenzen (a) und (b) die Transformation I(k). Welche der Sequenzen zeigt eine starke Periode 3? Verwenden Sie zur Lösung den Mutual Information Calculator.

5.- Übung

Bestimmen Sie die 3x4 Tabelle und I(k) für ausgewählte Abschnitte des Gens H. sapiens myosin heavy chain 7 (HUMBMYH7, accession number M57965). Suchen Sie zuerst die entsprechende Sequenz in der GenBank http://www.ncbi.nlm.nih.gov/ heraus. Untersuchen Sie sowohl kurze als auch lange Exons und Introns. Wie lang müssen die Exonsequenzen sein, damit die Periode 3 deutlich erkennbar wird?

6.- Übung

Angenommen die relative Häufigkeit von G in der ersten Position sei 40%, in der zweiten Position 20%. Wieviel Kodons muß eine Sequenz etwa enthalten, damit der Unterschied der Häufigkeit signifikant wird (d.h. etwa zwei Standardabweichungen beträgt)?



Valid HTML 4.0! backhome




Last modified: Mon Jul 9 19:33:47 CEST 2001

It's not the figures themselves,
she said finally,
it's what you do with them
that matters.   -K.A.C. Manderville