Genetik-Forschung mit Geni-Daten • Verein für Computergenealogie e.V. (CompGen)

Yaniv Erlich ist leitender Wissenschaftler (Chief Science Officer) bei MyHeritage und Assistant Professor für Informatik und computergestützte Biologie an der renommierten Columbia University in New York. Diese Kombination war die ideale Voraussetzung um Forschungs-Neuland zu betreten: Fragen der Vererbung und Genetik anhand von Daten aus Genealogie-Datenbanken zu untersuchen. Sein Experiment mit der neuen Methode veöffentlichte er kürzlich in „Science“, einem der renommiertesten Magazine für wissenschaftliche Publikationen.

Aus 86 Millionen Profilen auf Geni, eine 2012 von MyHeritage aufgekauften Genealogie-Datenbank, konstruierten Erlich und seine Mitarbeiter „Stambäume in Bevölkerungsdimension“ (population-scale family trees), deren größter 13 Millionen Personen und bis zu 11 Generationen enthält. Geni eignete sich für diese Methode, weil es den Nutzern anbietet, „Stammbäume“ zu verknüpfen, wenn der Algorithmus übereinstimmende Personen entdeckt. Von dieser Grundlage ausgehend waren aber noch viele mathematische Berechnungen nötig, um einzelne Bäume zu verknüpfen und Fehler auszumerzen.

Die Daten-Qualität wurde – soweit vorhanden – anhand der DNA-Daten überprüft; dabei fanden sich Fehler bei 0,3 Prozent der Mutter-Kind und 1,3 Prozent der Vater-Kind-Beziehungen. Dies entspricht den Daten aus früheren Untersuchungen, die z.B. durch Adoptionen und außereheliche Beziehungen erklärt werden können. Ob die Daten repräsentativ sind für die Bevölkerung wurde durch einen Vergleich der Geni-Daten aus dem US-Staat Vermont mit Sterberegistern des Staates überprüft – das Ergebnis war positiv. Auch die Graphentheorie und andere mathematische Methoden sowie quantitativ-genetische Modelle kamen zum Einsatz. Dass man diese riesige Datenmenge anders nicht auf Fehler durchsuchen kann, ist offensichtlich – wie viele Fehler dennoch unentdeckt blieben, und ob sie auf die späteren Ergebnisse Einfluss hatten oder sie einfach „in der Masse untergingen“, lässt sich kaum feststellen.

Ob und wie man mit solchen genealogischen „Crowdsourcing“-Daten Fragen der Vererbung oder familiär-kultureller Entwicklungen untersuchen kann, testeten Erlich und sein Team anhand von zwei Fragestellungen.

Frage Nummer eins: Wie stark wird Langlebigkeit vererbt? Bisher waren sich Genetiker nicht einig, die Schätzungen schwankten von 15 bis 30 Prozent. Klar war, dass nicht ein einzelnes Gen verantwortlich ist, was die Forschung erschwert. Es gab die Theorie, dass die so genannte Epistasis eine Rolle spielt, die gegenseitige Beeinflussung von Genen. Das Forscherteam um Yaniv Erlich kam durch die Analyse natürlicher Todesfälle in den Geni-Daten zu dem Schluss: Langlebigkeit wird nur zu 16 Prozent vererbt, „gute Gene“ können das Leben damit nur um durchschnittlich fünf Jahre verlängern. Zum Vergleich: Rauchen kann es um zehn Jahre verkürzen.

Die zweite Frage: Welchen Einfluss haben moderne Transportmittel wie die Bahn auf die räumliche Nähe der Geburtsorte von Ehepartnern, also auf den „Heirats-Radius („marital radius“)? Bei einem geringen Radius ist die Wahrscheinlichkeit der Heirat von entfernten Cousins und Cousinen höher. Die Daten zeigten: Zischen 1800 und 1850 vergrößerte sich der Heirats-Radius von acht auf 19 Kilometer. Gleichzeitig stieg aber auch das Maß der Verwandtschaft zwischen Ehepartnern – anders als es die Theorie der „Isolation durch Distanz“ erwarten ließe. Dies wird erst durch Heiraten nach 1850 bestätigt. Daraus ziehen die Forscher den Schluss, dass kulturelle Einflüsse für die Wahl des Ehepartners wichtiger waren als moderne Transportmittel, die Reisen über große Distanzen leichter machen.

Mit Blick auf Ihre Methode kommen die Forscher zu dem Schluss: „Unsere Arbeit zeigt die synergistische Kraft einer Zusammenarbeit zwischen Gundlagenforschung und Genealogie-Datenbanken. Wir glauben, dass mit der ständig steigenden Digitalisierung und der weiteren Verbreitung von Gentests eine solche Zusammenarbeit eine wertvolle Methode sein können um die immensen Datenmengen bereitzustellen, die benötigt werden, um fundamentale Fragen der biomedizinischen Forschung zu untersuchen.“ RE

Quellen:
Joanna Kaplanis et al.: „Quantitative analysis of population-scale family trees with millions of relatives“, Science, 1. März 2018, DOI: 10.1126/science.aam9309
„Crowdsourced Family Tree Yields New Insights about Humanity”, Pressemitteilung der Columbia University