Die von Sedlazeck am Human Genome Sequencing Center des Baylor College of Medicine in Houston (USA) mit Kollegen entwickelte Methode richtet die Genom-(Erbgut-)Rohdaten an den Sequenzen bekannter Gruppen aus einer Datenbank aus, die sein Kollege Christophe Dessimoz an der Universität Lausanne (Schweiz) erstellt hat. Dann werden die Sequenzen sogleich zu einem verästelten Baum zusammengeleimt. „Read2Tree“ vermeidet somit die vielen Einzelschritte, aus denen die gängigen hochmodernen Pipelines für stammesgeschichtliche Analysen bestehen, die Analysen sowohl zeitaufwendig als auch fehleranfällig machen.
Die Forscher testeten „Read2Tree“ querbeet bei verschiedenen Organismen wie vierhundert Hefepilzarten, verschiedensten Tieren und Coronaviren. „In der Arbeit wurden zum Beispiel Bäume genau rekonstruiert, wo es Pilze gab, deren Ast sich vom nächstgelegenen Verwandten in der Referenzgenom-Datenbanken vor mehr als einer Milliarde Jahren abzweigte“, so Sedlazeck: „Man könnte dementsprechend den Menschen korrekt auf dem Stammbaum platzieren, wenn man sein Erbgut mit dem von Seesternen vergleicht.“
„Read2Tree“ kommt mit weniger Daten aus
Bei einem Stammbaum mit über zehntausend unterschiedlichen Coronaviren habe man wiederum gesehen, dass die Methode sowohl die groben Abzweigungen als auch die feinen Verästelungen erkennt. „Es ist selten, dass dies in einem Aufwasch gut funktioniert“, erklärte der Forscher. Die in den Analysen enthaltenen besorgniserregenden Varianten erscheinen zum Beispiel deutlich als unterschiedliche Gruppen am Baum.
„Read2Tree“ muss zudem mit gar nicht so viel Daten gefüttert werden, damit es akkurat arbeitet. Selbst wenn quasi nur ein Fünftel der Sequenz vorhanden ist, schafft es das System, Stammbäume genau zu rekonstruieren, berichtet Sedlazeck. Sowohl kleine Labore als auch große Konsortien sind daran interessiert, die Methode auf ihre eigenen Projekte anzuwenden, so Dessimoz: „Wir hoffen, dass sich 'Read2Tree' für andere als genauso nützlich erweist wie für uns.“
Es wartet viel Arbeit auf „Read2Tree“ und seine Anwender: In der kommenden Dekade sollen alle eineinhalb Millionen bekannten Tiere, Pflanzen, höheren Einzeller (Protozoen) und Pilze sequenziert werden. Ihre Erbgutdaten sind zunächst jedoch bloß gigantisch große Buchstabenabfolgen in den Datenbanken, wenn sie nicht probat analysiert und eingeordnet werden.
Studie