5. Übung Bioinformatik

5.1)
Kann die Sequenz TTAAAGCCTGATTAG innerhalb eines offenen Leserasters liegen? Wenn ja, welche Aminosäuren könnten dort kodiert sein? Gibt es diese Sequenz in der Genbank? Wie oft? Wie oft sollte diese Sequenz in einer Bernoulli-Sequenz (P(A)=P(C)=P(G)=P(T)=1/4) der Länge 1 000 000 000  bp auftreten?

Genbank: http://www.ncbi.nlm.nih.gov/BLAST
 

5.2) Für die folgenden zwei Sequenzen bestimme man die Häufigkeiten der Nukleotide A,C,G und T in den drei Positionen eines möglichen Leserasters!
(a)
atgaatctgctaggctcagcctaagctcacccttgctctagaccatctggtcttgacctctctctctctcccctccctccctct
gtttttctcctctttaagtctctgtctgtaggtgtctctgtcttcaggtctacatatctgtctctctctgagacttcctctgcatct
ttctccatttctgtctctgcatggctaggtgtctttctctgggatttctctctgagactatttctctccttctgggtctctgtttcc
atctctctgtgtgatctctttgtgtctgtccaactagtctctctggctcttcccttccctctgccttttgcttgctacatttatcat
taattttccttgtgcccaaaccctaacttttctttctctccttcttctcccca

(b)
gcacgcatcgaggagctggaggaggagctggagtccgagcgcaccgccagggctaaggtggagaagctgcgctcagacct
gtctcgggagctggaggagatcagcgagcggctggaagaggccggcggggccacgtccgtgcagatcgagatgaacaaga
agcgcgaggccgagttccagaagatgcggcgggacctggaggaggccacgctgcagcacgaggccactgccgcggccct
gcgcaagaagcacgccgacagcgtggccgagctgggcgagcagatcgacaacctgcagcgggtgaagcagaagctggag
aaggagaagagcgagttcaagctggagctggatgacgtcacctccaacatggagcagatcatcaaggccaag

Man bestimme die relativen Nukleotidhäufigkeiten p_i (i=1,2,3,4) der Sequenz (b) in Prozent!
Man normiere die 3x4 Tabelle für Sequenz (b) auf 100% pro Position!
Welches sind die drei stärksten Abweichungen von den entsprechenden p_i?
Welche der Abweichungen von einer Gleichverteilung sind signifikant?
Welche Sequenz ist vermutlich proteinkodierend?
Zusatzaufgabe: Man bestimme die "position asymmetry" für die Sequenzen (a) und (b)!

Verwenden Sie zur Lösung den  Frame Dependence Matrix Calculator .
 

5.3) Berechnen Sie für obige Sequenzen (a) und (b) die Transformation I(k) sowie die Korrelationsfunktionen C_aa(k) und C_ww(k) bis k=20! Welche der Sequenzen zeigt eine starke Periode 3?

Verwenden Sie zur Lösung den Mutual Information Calculator und den Correlation Calculator .

5.4) Bestimmen Sie die 3x4 Tabelle I(k) und Korrelationsfunktionen für ausgewählte Abschnitte des Gens HUMBMYHC  (HUMBMYH7 )! (für kurze und lange Exons, Introns) Wie lang müssen die Exonsequenzen sein, damit die Periode 3 deutlich sichtbar wird?

5.5) Angenommen die relative Häufigkeit von G in der ersten Position sei 40%, in der zweiten Position 20%. Wieviel Kodons muß eine Sequenz etwa enthalten, damit der Unterschied der Häufigkeit signifikant wird (d.h. etwa zwei Standardabweichungen beträgt)?
 

Lösungen:

Zu 5.1) Ja, auf dem Gegenstrang; CT/AAT/CAG/GCT/TTA/A (Aminosäuren Asn Gln Ala Leu)
Das Fragment taucht 9 mal auf (Database: Non-redundant GenBank+EMBL+DDBJ+PDB sequences 1,091,283 sequences; 4,832,829,543 total letters).
ungefähr einmal (0.93).

Zu 5.2) (b) ist aus einem Exon der Aufgabe 4, (a) aus einem Intron. Die Standardabweichungen sind etwa die Wurzeln aus den Häufigkeiten. Damit sind zum Beispiel die Häufigkeiten von G an den Positionen 2 und 3 und A an der Stelle 3 signifikant verschieden von ihrem Mittelwert:
P(a)= 25%, P(c)= 26%, P(G)= 38%, P(T)= 11%

Sequenz (a): PA = 0.01
Sequenz (b): PA = 0.16

Zu 5.3) Sequenz (b) zeigt eine Periode 3.

Zu 5.4) Bei Sequenzlängen von etwa hundert Basenpaaren tritt die Periode 3 deutlich hervor.

Zu 5.5) N sei die Zahl der Kodons. Dann ist P3(1) ~ 0,4N und P3(2) ~ 0,2 N. Die Standardabweichungen sind etwa sqrt(0.4 N) und sqrt(0,2 N). Damit 0,4N - 0,2 N > 2 sqrt(0.4 N) gilt, muß N>40 sein.