Judging robustness and uncertainty in classifying sequencing reads in viral metagenomics
Classification of viral sequence reads by applying next generation sequencing (NGS) to the biological sample of an infected host can for example be done by mapping or machine learning approaches. The overall aim of this thesis is to improve methods
for quantifying the robustness and uncertainty of such classifications. In the context of mapping based classification, resampling approaches are presented that extend the original analysis result by better depicting the range of viral content in the sample. In addition, a supervised learning approach is presented to classify sequencing reads to biological orders and to correct class frequencies by incorporating prior information
about misclassification rates.
Most bioinformatics pipelines that rely on mapping result in a list of potential viruses present in the host sample. Such pipelines map sequencing reads or contigs, which are build from reads, to a set of known reference virus genomes and, if available, to the reference genome of the host. Several technical or biological processes can lead
to false positive or negative classifications. That means, viruses truly present in the sample can be omitted or, vice versa, viruses not in the sample can falsely be identified. Most existing computational methods for metagenomics data do not rate robustness of results. In this work however, two resampling algorithms to assess the robustness of mapping results in terms of false positive and negative findings are presented. To judge robustness, several indicators are derived from the resampling procedure such as the correlation between original and resampling read counts, or the statistical detection of outliers in the differences of read counts. Additionally, graphical illustrations of read count shifts via Sankey diagrams are provided. The resampling strategies include the generation of artificial FASTQ files whose read sequences and quality values are sampled based on statistical distributions of the
original mapping results. It is shown that, in contrast to an existing decoy strategy, this approach produces more realistic sequencing reads that share more statistical similarities with the original reads.
In contrast to the mapping approaches presented here, the learning approach makes inferences not on the level of the individual viruses but on the level of taxonomies. The viral taxa distribution is estimated by developing artificial neural networks as a special type of machine learning models and including different parameters derived from the read sequences as possible predictors. Afterwards, the statistical estimation is corrected by using estimated misclassification rates and applying probability calculus.
Die Klassifikation viraler Reads durch Anwendung von Next Generation Sequencing (NGS) auf die biologische Probe eines infizierten Wirts kann beispielsweise durch Mapping oder Methoden des Maschinellen Lernens erfolgen. Das übergeordnete Ziel dieser Arbeit ist es, Methoden zur Quantifizierung der Robustheit und Unsicherheit solcher Klassifikationen zu verbessern. Im Rahmen der Mapping-basierten Klassifikation werden Resampling-Ansätze vorgestellt, die das ursprüngliche Analyseergebnis
erweitern, indem sie die Bandbreite viralen Materials in der Probe besser darstellen. Darüber hinaus wird ein überwachter Lernansatz vorgestellt, um Reads in biologische Ordnungen zu klassifizieren und Klassenhäufigkeiten zu korrigieren, indem vorherige Informationen über Fehlklassifizierungsraten einbezogen werden.
Die meisten Bioinformatik-Pipelines, die auf Mapping beruhen, führen zu einer Liste potenzieller Viren, die in der Wirtsprobe vorhanden sind. Solche Pipelines mappen Reads oder Contigs, die aus Reads aufgebaut werden, zu einen Satz bekannter Referenzvirusgenome und, falls verfügbar, zum Referenzgenom des Wirts. Mehrere technische oder biologische Prozesse können zu falsch positiven oder negativen Entschei-
dungen führen. Das bedeutet, dass tatsächlich in der Probe vorhandene Viren weggelassen oder umgekehrt Viren, die nicht in der Probe enthalten sind, fälschlicherweise identifiziert werden können. Die meisten existierenden Berechnungsmethoden für Metagenomikdaten bewerten die Robustheit der Ergebnisse nicht. In dieser Arbeit werden jedoch zwei Resampling-Algorithmen vorgestellt, um die Robustheit von Mapping-Ergebnissen hinsichtlich falsch positiver und negativer Befunde zu beurteilen. Diese Resampling-Strategien umfassen die Generierung künstlicher FASTQ-Dateien, deren Reads und Qualitätswerte basierend auf statistischen Verteilungen der ursprünglichen Mapping-Ergebnisse gezogen werden. Es wird gezeigt, dass dieser Ansatz
im Gegensatz zu einer bestehenden Decoy-Strategie realistischere Reads erzeugt, die mehr statistische Ähnlichkeiten mit den ursprünglichen Reads aufweisen.
Im Gegensatz zu den hier vorgestellten Mapping-Ansätzen zieht der Lernansatz Rückschlüsse nicht auf der Ebene der einzelnen Viren, sondern auf der Ebene der Taxonomien. Die virale Taxaverteilung wird geschätzt, indem künstliche neuronale Netze als spezielle Machine-Learning-Modelle entwickelt werden und verschiedene aus den Reads abgeleitete Parameter als mögliche Prädiktoren verwendet werden. Danach wird die statistische Schätzung korrigiert, indem geschätzte Fehlklassifizierungsraten verwendet werden und ein Theorem aus der Wahrscheinlichkeitsrechnung angewendet wird.
Preview
Cite
Access Statistic
