Assessment of robustness in computational analysis of highthroughput sequencing experiments using bootstrap samples from FASTQ-files
In der Datenanalyse werden diverse Methoden wie z.B. statistisches Testen und Konfidenzintervalle regelmäßig benutzt, um Unsicherheiten in den Ergebnissen darszustellen. Angetrieben durch moderne Technologien in der biomedizinischen Forschung, sind Datensätze heutzutage komplexer geworden. Resamplingtechniken bieten hier flexible Alternativen, um Unsicherheiten in den Analyseergebnissen darzustellen. Zu den genannten Technologien der Forschung gehören Hochdurchsatzsequenzierverfahren, die viele Bereiche in den Lebenswissenschaften geformt haben und oft als Startpunkt für diverse Forschungsthemen dienen (Kchouk et al., 2017). Jahre an Innovation verschiedener Labortechniken haben signifikant den Durchsatz dieser Verfahren erhöht und gleichzeitig Kosten reduziert. Längere sequenzierte DNA- oder RNA-Fragmente (eng: „reads“) und Parallelisierungsverfahren haben für eine enorme Menge an generierten Daten gesorgt. Jedoch bringen all diese Fortschritte auch neue Herausforderungen mit sich. Sequenzierte Genome können oft Fehler in den reads enthalten, die unter anderem auf die Probenvorbereitung oder eine falsche Basenerkennung zurückzuführen sind. Außerdem können die folgenden Computeranalysen weitere Variabilität in die Ergebnisse bringen, wodurch potentiell falsch positive bzw. falsch negative Resultate entstehen können. In den vergangenen Jahren wurde die Reproduzierbarkeit von wissenschaftlichen Ergebnissen unter Wissenschaftlern unterschiedlicher Fachgebiete breit diskutiert. Die aus dieser Diskussion bekannt gewordenen Probleme in der Reproduzierbarkeit wurden von manchen auch als Krise wahrgenommen (Goodman et al., 2016; Dinel et al., 2005). Eine anerkannte Möglichkeit Robustheit und Reproduzierbarkeit von Analysen und Ergebnissen zu erhöhen, ist die mehrfache Wiederholung eines Experiments mit anschließendem Vergleich der Ergebnisse. Obwohl die Kosten für Hochdurchsatzsequenzierung in vergangenen Jahren immer weiter gesunken sind, bleiben solche Experimente jedoch ein kostspieliges Vorhaben. In dieser Dissertation wird eine neue Methode vorgestellt, durch die ein Sequenzierexperiment computerge
computergestützt wiederholt werden kann. Hierfür wurden die Grundprinzipien des Bootstrapping Verfahrens angewandt, um Sequenzreads aus FASTQ-Dateien zu ziehen und auf diesem Weg neue Wiederholungen zu generieren. Das Bootstrapping aus FASTQ-Dateien wurde anhand zwei populärer Anwendungsgebiete der Hochdurchsatzsequenzierung (Metagenomik und Transkriptomik) evaluiert und in zwei Manuskripten beschrieben. In dem ersten Manuskript wurde das Bootstrappingverfahren am Beispiel der Viren-Metagenomik untersucht. Hierfür wurde mit einem künstlichen Datensatz gearbeitet, in dem die viralen Sequenzen im Vorfeld bekannt waren und mittels bioinformatischer Standartanalysen nachgewiesen wurden. Danach wurde mit dem gleichen Datensatz das Bootstrapppingverfahren auf die originalen FASTQ-Dateien angewandt. Die daraus resultierenden Ergebnisse wurde mit den Resultaten der Standartanalysen verglichen. Es konnte gezeigt werden, dass das Bootstrapping aus FASTQ-Dateien nutzbar ist, um zu verdeutlichen welche Befunde robust und welche weniger robust sind (siehe. Manuskript 1; Saremi et al., 2019). Im zweiten Manuskript wurde anschließend das Bootstrappingverfahren auf RNA-Seq-Dateien angewandt. Zusätzlich zur computergestützten Auswertung wurde hierfür ein eigenes Experiment angesetzt. In diesem Experiment wurden Maus Zelllinien mit dem Batai orthobuna Virus infiziert und anschließend zweimal sequenziert, wodurch zwei unabhängigen Datensätzen entstanden sind. Anschließend wurde eine differentielle Genexpressionsanalyse zwischen infizierten und nichtinfizierten Proben durchgeführt. Der Vergleich beider Ergebnisse zeigte eine hohe Überschneidung von differenziell exprimierten Genen. Jedoch zeigten die Ergebnisse auch, dass manche Gene, die in einer Probe als differenziell exprimiert erkannt wurden in der anderen Probe nicht gefunden wurden und umgekehrt. Da eine echte Wiederholung eines solchen Experiments kostspielig ist, wurde das Bootstrapping Verfahren als eine Alternative evaluiert, um neue künstliche FASTQ-Daten zu generieren. Die Ergebnisse des zweiten Manuskripts zeigen, dass die durch Bootstrapping generierte FASTQ-Dateien im Hinblick auf die technische und biologische Variabilität sehr ähnlich den im Labor produzierten Replikaten sind. Außerdem haben durch Bootstrapping generierte FASTQ-Dateien weitere Gene als differentiell exprimiert erkannt, die in den beiden im Labor produzierten Replikaten nicht gefunden wurden. Auf diese Weise konnte das Spektrum an Ergebnissen erweitert werden. Der Vergleich der p-Werte und log2-Fold Changes der differenziell exprimierten Gene zeigte, dass die Ergebnisse der realen Replikate und der künstlich generierten Replikate sehr nach zueinander clustern. In beiden Manuskripten konnte gezeigt werden, dass das Bootstrapping aus FASTQ-Dateien eine hilfreiche Methode sein kann, um das Spektrum an Ergebnissen zu erweitern und somit auch Unsicherheiten, die sich in den Ergebnissen verbergen, aufzuzeigen. Jedoch sind die minimalen Anforderungen an die Hardware durch die Dateigröße von FASTQ-Daten sehr hoch, weshalb eine effiziente Implementierung des Bootstrappingverfahrens von großer Bedeutung ist und auch wichtige Voraussetzung für diese Arbeit war. Zusätzlich zu einer effizienten Implementierung beeinflusst auch die Implementierungsart und die Auswahl der Parameter die Hardwareleistung, sodass bei entsprechender Auswahl der Rechenaufwand und die Hardwareanforderungen verringert werden kann. Insgesamt hat die Evaluierung dieser neuen Methode gezeigt, dass das Bootstrappingverfahren genutzt werden kann, um Robustheit und Reproduzierbarkeit spezifischer Hochdurchsatzsequenzierungsexperimente besser bewerten zu können.
In data analysis, diverse methods such as statistical testing and confidence intervals are commonly used to exhibit the uncertainty in the results. Nowadays, due to modern technologies in biomedical research, data has become more complex, and resampling techniques provide a flexible means to also describe uncertainty in the analytical results of such data. Among the mentioned research technologies, modern high-throughput sequencing technologies have shaped many areas of life science and are regularly an important part of biomedical research (Kchouk et al., 2017). The years of innovations of different lab techniques significantly increased the throughput and reduced the costs of sequencing. Longer read sizes and massive parallelization approaches led to the generation of massive amounts of data. However, all the advancements in these new technologies and the generation of sequencing data also came along with new challenges. Sequenced genomes often can contain errors in the reads that can originate from many sources e.g. probe preparation or false base calling. Furthermore, downstream computational analysis can bring further variability into the results leading to potentially false positive or negative findings. In recent years, scientists discussed reproducibility of scientific results and it was even perceived as a crisis (Goodman et al., 2016; Dinel et al., 2005). One way to increase reproducibility and robustness of analysis is to repeat an experiment several times and compare the outcomes. Although the costs of sequencing technologies was reduced over the years, repeating a sequencing experiment remains a costly endeavour. In this thesis, a new approach to re-sequence a sample computationally is proposed and evaluated, by applying the principles of bootstrap and resampling reads from FASTQ-files. Bootstrapping from FASTQ-files and evaluation of this approach was done on the example of two popular applications of high-throughput sequencing: metagenomics and transcriptomics. Both applications also are regularly used approaches in infection research. In the first manuscript, the new method was used in viral metagenomics where viral sequences have to be identified within a host sample. For this purpose, bootstrap was conducted on an artificial dataset with known viral content. The results showed that bootstrapping from FASTQ-files could be used to illustrate which findings are robust and which are not (cf. manuscript 1; Saremi et al., 2019). In the second manuscript, the bootstrapping approach was then applied to RNA-seq data. In addition to the computational evaluation, an own RNA-seq experiment with technical replicates was conducted. In this experiment, mice cell lines were infected with the Batai orthobuna virus and afterwards sequenced twice, yielding two independent sequencing datasets. Afterwards, transcriptomic analysis regarding differentially expressed genes between infected and mock-infected samples was done separately on both data sets. Comparison of the results showed a high overlap of identified differentially expressed genes. However, results also showed that differentially expressed genes could be detected in one data set that were not detected in the other one. Since a true replication of an experiment is usually too costly, bootstrapping from FASTQ-files was used to evaluate if resampled FASTQ-files could serve as a method to generate artificial datasets. Results of the second manuscript show, that bootstrap-generated FASTQ-files are close to the true replicates produced in the wet lab, in terms of biological and technical variability. Furthermore, bootstrapping from FASTQ-files yielded additional differentially expressed genes that were missed in the true replicates and thus expanded the list of possible results. Comparisons of the p-values and log2 fold changes of differentially expressed genes between true replicates and computationally generated replicates showed a close clustering as well.
Preview
Cite
Access Statistic

Rights
Use and reproduction:
All rights reserved