Genotypisierung durch Amplikon Sequenzierung als Anwendung für standardisiertes genetisches Monitoring von forstlichen Ressourcen am Beispiel Eiche und Fichte

Überblick

Zur Charakterisierung von forstlichen Ressourcen sind Methoden zur Genotypisierung weit verbreitet. Diese finden Einsatz bei der Herkunftsforschung, Verfahren zur Identifikation und Kontrolle, Abschätzung bzw. Messung von genetischer Variation sowie genetischem Monitoring. Vorallem für genetisches Monitoring ist eine Methode wünschenswert, die einfach zu handhaben und zu reproduzieren ist. Bestehende Methoden basieren derzeit jedoch meist noch auf einer indirekten Bestimmung von Allel-Charakteristika von co-dominaten Markern und die neuen Möglichkeiten der Hochdurchsatz Methoden zur Sequenzbestimmung (HTS) werden nicht ausgeschöpft.

Dieses Projekt etabliert die Methode SSR-GBAS. Diese besteht zum einen aus Protokollen für Markerentwicklung, Amplifikation und Indizierung von Proben, zum anderen aus der bioinformatischen Bestimmung der Allele („Allel Call“) unter Einbeziehung der gesamten Sequenzinformation. Dabei werden die Daten automatisiert in eine Matrize transformiert und gegebenenfalls in Matrizen von bestehenden Datensätzen integriert.

Durch Verbesserung des Durchsatzes bei gleichzeitiger Vereinfachung der Analysemethoden sowie die Weiterentwicklung zu einer Software mit bedienungsfreundlicher Benutzeroberfläche wird eine weite Anwendung für routinemäßiges genetisches Monitoring ermöglicht. Die Methode wir am Beispiel Eiche und Fichte für die Anwendung vorgeschlagen und veranschaulicht.

Methode - SSR-GBAS

Die Arbeitsgruppe hat die Methode SSR-GBAS etabliert und für verschiedene Systeme zur wissenschaftlichen Untersuchung eingeführt. Die Methode besteht aus Protokollen für Markerentwicklung, Amplifikation und Indizierung von Proben und der bioinformatischen Bestimmung der Allele (Allel Call) unter Einbeziehung der gesamten Sequenz Information sowie der automatischen Transformation in eine Datenmatrize mit der Möglichkeit bestehende Matrizen zu vervollständigen.

SSR-GBAS beruht auf der standardisierten Amplikon Sequenzierung der Illumina Technologie gepaart mit einer bioinformatischen Pipeline, welche die unterschiedlichen Sequenzen der Amplikons eines Locus auftrennt und die den Allelen entsprechenden genomischen Sequenzen rekonstruiert. Die Neuerung unseres Ansatzes gegenüber ähnlichen Arbeiten ist eine durch Längenfraktionierung verringerte Fehlerquote innerhalb der Gruppe der Reads, die zur Bestimmung der Ursprungssequenz herangezogen wird. Dadurch wird eine Definition der Einzelsequenz über die Frequenz erleichtert und auch in heterozygoten Individuen möglich. Unsere Pipeline vereinfacht auch Demultiplexing und enthält Möglichkeiten zur visuellen Fehlerkontrolle.

Die Marker werden aus genomischen Ressourcen identifiziert und als Pool (derzeit getesteten bis zu 12 Loci) in der PCR mit um richtungsspezifischen Adaptoren verlängerten Primern amplifiziert. Alle PCR-Produkte werden gepoolt und in einer zweiten PCR mit Illumina Erkennungssequenz sowie einer Indexsequenz zur Proben Identifikation versehen. Bis zu 1000 Proben werden bei 50 Markern gepoolt und auf einem Miseq-Lauf als paired-end Read gelesen und anschließend standardisiert pro Index innerhalb des Verfahrens „demultiplexed“. Mithilfe von Python-Skripten werden die Sequenzen pro Probe zusammengesetzt und nach ihren Primern aufgeteilt. Nach Aufteilung der Sequenzen nach Länge können die Allele eines Locus innerhalb einer Probe bestimmt werden. Die Skripten fassen die so erstellten Allele als Matrix zusammen und kreieren eine Allelliste, die als Input für zukünftig Analysen verwendet werden kann. Dadurch ergibt sich eine Automatisierung nach dem Prinzip der traditionellen Methoden der Fragmentanalyse, allerdings gegenüber dieser verbessert und mit höherem Durchsatz. Im nächsten Schritt werden die Allelliste und die Sequenzen in eine Datenbank eingespielt. Die Erstellung der Datenbank-Anwendung als frei zugängliche Online-Ressource ist ebenfalls Teil dieses Projekts.

Datenbank-Anwendung

Das Projekt verbindet die Automatisierung des Allel Calls aus Hochdurchsatzanwendungen, mit der Erstellung einer Datenbank zur Demonstration der Möglichkeiten für zukünftige Anwendungen. Markersets und Datenmatrize können direkt angewendet werden und werden der forstwissenschaftlichen Community als Online-Ressource zur Verfügung gestellt. Die Software und hinterlegte Datenbank sind in eine Webpage integriert und Tutorials und allgemeine Erklärungen der Anwendung werden zur Verfügung gestellt.

Durch die Implementierung der zentralisierten Datenbank ist ein Vergleich von Ergebnissen zwischen Arbeitsgruppen möglich.. Es erleichtert außerdem die Überprüfung von Einzelproben sowie deren Integration in bestehende Untersuchungen. Als wesentliche Neuerung erlaubt die Datenbanklösung eine Integration von neuen Allelen, die für die Marker festgestellt werden, sowie auch die Einbeziehung neuer Marker. Durch die Automatisierung des Allel Calls und Integration in eine Datenmatrize kann so ein System erreicht werden, welches eine kontinuierliche Begleitung der Genotypisierungen in der Zukunft erlaubt.