Stiftung Tierärztliche Hochschule Hannover (TiHo)

Bioinformatical Meta-Analysis of High-Throughput Expression Data from Neuroinfection Research

Kosch, Robin

The measurement of gene expression levels by microarrays or next-generation sequencing techniques (RNA-Seq) allows researchers to examine a range of biological questions. Hence, the amount of such transcriptome data has increased dramatically within the last 20 years, by far not solely in the field of neuroinfection research. Their number, as well as their availability leads to a more frequent usage of meta-analyses. These enable to aggregate the findings of individual studies, which can result in an enhanced overall statistical power and a higher degree of scientific evidence. Classical meta-analyses are usually conducted by pooling the results of individual studies. As an alternative approach, it is possible to merge the studies directly on the data level. Hence, two data integration pipelines for meta-analyses were tested in this thesis: the ‘early merging’ approach with combination of raw transcriptome data from multiple studies and the ‘late merging’ by combining their individual results. While current bioinformatical methods for meta-analyses mainly focus on standard differential expression analyses, other concepts typically performed in individual data sets were rarely considered in meta-analysis. Among these concepts are for example gene set enrichment and global test approaches to analyze not individual genes, but sets of genes. Analyzing gene sets is an important step for better understanding the biological impact of a treatment or disease. Therefore, the usage of several statistical tests for gene sets in meta-analysis were investigated. In the first publication of this thesis, an applied example of a meta-analysis with real biological expression data was conducted. Thereby, the different integration methods were investigated by applying the two analysis pipelines (‘early’ and ‘late merging’). Initially, public repositories for studies from neuroinfection research were screened and suitable gene expression datasets were found for West Nile virus infected mice. Five of these datasets could be related to neurological tissues (including 44 samples in total), whereas two datasets were related to immunological tissues (including 18 samples in total). The meta-analysis of each group allowed identifying differentially expressed genes that were not identified by the individual studies alone. Further, lists of enriched gene sets, defined by gene ontology terms were revealed. From the overall top20 DE genes of the neurological tissues, eight genes commonly appeared in both analysis pipelines. These genes were discussed in a biological context and their antiviral activity and their participation in interferon cell signaling pathways could be confirmed, all correlated with the WNV-infection. Besides these biological investigations, publication I provides a practical example of an early stage data integration method for a meta-analysis, including the step of gene set analysis. In the second publication of this thesis, these methodical findings were extended, by meta-analyses of simulated transcriptome data. For that purpose, data matrices were created by drawing expression values from multivariate normal distributions. To simulate heterogeneous conditions, batch effects were added to the artificial datasets in multiple ways. A more realistic, but less controllable approach to simulate data was conducted by utilizing a real existing dataset and dividing it into several subgroups that were considered to represent independent studies. For both approaches, the gene sets for the pathway analysis were simulated as well. Thereby, a predefined outcome could be generated, on which the methods were tested. The flexibility of the simulated data allowed varying the study size and the level of heterogeneity. Thus, an overall higher sensitivity of the ‘early merging’ strategy to detect enriched gene sets could be exposed compared to the ‘late merging’. Only for simulation scenarios with fewer studies, but larger sample sizes and large batch effects, the ‘late merging’ strategy has been shown to be superior. Conclusively, the choice of the strategy is still highly based on the study and sample sizes. The heterogeneity between the datasets has been also shown as an essential factor. Competitive approaches were exposed as a practical method, a lot more than the self-contained methods. ROMER showed the highest sensitivity, but might lack in accuracy. Therefore, GSEA by Subramanian et al. appeared to be a good choice. Further, the credibility and performance, but also limitations of simulation scenarios for meta-analyses of transcriptome data were unveiled.

Die Messung von Genexpressions-Leveln mit Hilfe von Microarrays oder Next-Generation Sequencing Techniken (RNA-Seq) ermöglicht es Forschern eine Vielzahl an biologischen Fragestellungen zu untersuchen. Dadurch hat die Menge an Transkriptomdaten innerhalb der letzten 20 Jahre, nicht nur im Bereich der Neuroinfektionsforschung, enorm zugenommen. Sowohl die Anzahl an Datensätzen, als auch ihre Verfügbarkeit führt zur vermehrten Verwendung von Metaanalysen. Diese ermöglichen die Synthese von Ergebnissen aus individuellen Studien, was in einer erhöhten statistischen Power, sowie in einem höheren Level an wissenschaftlicher Evidenz resultieren kann. Klassische Metaanalysen werden üblicherweise durchgeführt, indem die Ergebnisse von Einzelstudien vereinigt werden. Als Alternative ist es möglich, die Studien bereits auf Datenebene zusammenzufügen. Daher wurden zwei Integrations-Pipelines für Metaanalysen untersucht: die „early merging“-Strategie zur Aggregation der Transkriptom-Rohdaten aus mehreren Studien, sowie die „late merging“-Strategie zur Synthese der Ergebnisse aus Einzelstudien. Während aktuelle bioinformatische Methoden für Metaanalysen standardmäßige differentielle Expressionsanalysen thematisieren, werden andere Konzepte, die typischerweise auf individuellen Datensätzen angewendet werden in Metaanalysen nur wenig berücksichtigt. Als Beispiele lassen sich hier die „Gene Set Enrichment Analysen“ oder Globaltests nennen, welche nicht auf die Analyse von Einzelgenen, sondern Gen-Gruppen abzielen. Die Analyse solcher Gen-Gruppen ist ein elementarer Bestandteil um den biologischen Einfluss einer Behandlung oder Krankheit zu verstehen. Daher wurden mehrere statistische Herangehensweisen für Gen-Gruppen in Metaanalysen getestet. Die erste Publikation dieser Arbeit zeigt ein angewandtes Beispiel einer Metaanalyse mit realen biologischen Expressionsdaten. Dabei wurden die unterschiedlichen Integrationsmethoden innerhalb der Analyse-Pipelines (‘early und ‘late merging’) getestet. Zunächst wurden öffentliche Datenbanken nach Studien aus der Neuroinfektionsforschung durchsucht. Expressionsdatensätze zu West Nil Virus-infizierten Mäusen stellten sich als geeignet heraus. Fünf von diesen Datensätzen konnten neurologischen Geweben zugeordnet werden (insgesamt 44 Samples), wohingegen zwei Datensätze immunologischen Geweben (insgesamt 18 Samples) zugeordnet werden konnten. Durch eine Metaanalyse der jeweiligen Gruppen wurden signifikant differentiell exprimierte Gene identifiziert, welche in den Ergebnissen der Einzelstudien nicht detektiert worden sind. Außerdem konnten Listen von differentiell überrepräsentierten Gen-Gruppen nach Klassifizierung der Gene Ontology-Terminierung erstellt werden. Aus den Top20-Genen der neurologischen Gewebe beider Pipelines wurden acht Gene gemeinsam detektiert. Diese Gene wurden in ihrem biologischen Kontext diskutiert, wodurch ihre antiviralen Eigenschaften und ihre Teilnahme an Interferon-Zell-Signalwegen bestätigt werden konnten, korreliert mit der WNV-Infektion. Neben diesen biologischen Erkenntnissen, konnte ein praktisches Beispiel der initialen Datenintegration für eine Metaanalyse inklusive einer Gene Set Analyse erfolgreich dargestellt werden. In der zweiten Publikation dieser Arbeit wurde die Herangehensweise um eine Metaanalyse mit simulierten Transkriptomdaten erweitert. Dazu wurden Datensätze erstellt mit Expressionswerten, gezogen aus multivariaten Normalverteilungen. Um heterogene Bedingungen zu generieren, wurden zusätzlich Batch-Effekte in verschiedenen Ausführungen auf die künstlichen Datensätze hinzugerechnet. Ein realistischerer, jedoch weniger kontrollierbarer Ansatz einer Simulationsstudie wurde durchgeführt, indem ein realer Datensatz in mehrere Subdatensätze aufgeteilt wurde, welche unabhängige Einzelstudien repräsentieren sollen. Für beide Ansätze wurden die Gen-Gruppen für die Pathway-Analyse ebenfalls simuliert. Somit konnte ein bereits bekanntes Ergebnis generiert werden, um so die Methoden zu überprüfen. Die Flexibilität der simulierten Daten ermöglichte es, die Größe und Heterogenität der Studien zu variieren. So konnte für die „early merging“-Strategie eine insgesamt höhere Sensitivität bei der Detektion von differentiell exprimierten Gen-Gruppen festgestellt werden im Vergleich zur „late merging“-Strategie. Nur für Simulationsszenarien mit wenig Studien, vielen Samples und größeren Batch Effekten stellte sich das „late merging“ als vorteilhafter heraus. Abschließend ist die Wahl der Integrationsmethode stark abhängig von Studien- und Samplegröße. Auch die Heterogenität zwischen den Datensätzen ist ein essentieller Faktor. Kompetitive statistische Herangehensweisen erwiesen sich als deutlich praktikabler als in sich abgeschlossene (engl. self-contained) Tests. ROMER zeigte die höchste Sensitivität, ist jedoch möglicherweise weniger präzise. Daher erscheint GSEA von Subramanian et al. eine gute Wahl der Methode. Weiterhin konnten die Durchführbarkeit und Performance, aber auch die Grenzen von Simulationsstudien für Metaanalysen von Transkriptomdaten aufgezeigt werden.

Quote

Citation style:

Kosch,, Robin: Bioinformatical Meta-Analysis of High-Throughput Expression Data from Neuroinfection Research. Hannover 2019. Tierärztliche Hochschule Hannover.

Rights

Use and reproduction:
All rights reserved

Export