bootGSEA : A Resampling Pipeline for Multi-Omics and Multi-Study Gene-Set Enrichment Analysis and Applications to Spinal Muscular Atrophy
Die Gene-Set-Enrichment-Analyse (GSEA), eine computergestützte Methode zum Verständnis der biologischen Bedeutung einer Gruppe von Genen, ist zu einem integralen Bestandteil der Downstream-Analyse von Omics-Daten wie Transkriptomik und Proteomik geworden. In den letzten Jahren wurden zahlreiche Tools und Methoden für diese Analyse entwickelt, doch die Datenbanken mit den Informationen über die Annotationen werden ständig aktualisiert. So wurden neue Komponenten hinzugefügt, zusammengeführt oder entfernt (veraltet), was die Reproduzierbarkeit der Ergebnisse im Laufe der Zeit erschwert, so dass sich die biologische Interpretation bei einer solchen Entwicklung ändern kann. In dieser Arbeit wurde ein neue bioinformatisches Verfahren entwickelt, um die Robustheit der GSEA zu beurteilen und zu bewerten. Diese Pipeline wurde in einem R-Paket "bootGSEA" zusammengefasst und ist unter "https://github.com/klausjung-hannover/bootGSEA" öffentlich zugänglich. Der bootGSEA-Ansatz führt GSEA auf Bootstrap-Proben auf Gene-Set-Ebene durch, und die Einzel-Ergebnisse werden mittels Rangaggregation kombiniert. Diese Ränge von Pfaden oder GO-Termen werden mit der ursprünglichen Analyse verglichen und so auf ihre Robustheit anhand von Ranggewinnen und -verlusten oder beibehaltenen Rängen zu bewerten. Dies stellt das erste veröffentlichte Manuskript dar, mit zwei Beispielen für jeweils Einzel- und Multi-Omics-Analysen. Das Beispiel für Multi-Omics-Analysen konzentriert sich auf parallele Transkriptomik- und ProteomikDaten von Spinaler Muskelatrophie (SMA). Die Bewertung der Robustheit von Pfaden und GO-Begriffen erfolgte auf der Grundlage des integrierten Rank-Scores von angereicherten Pathways und GO-Termen. Die biologisch relevanten Terme wie zytoplasmatischer Ubiquitin-Ligase-Komplex und ER-Ubiquitin-Ligase-Komplex (integrierte Ränge: 2 und 19) wurden aufgrund ihrer Robustheit hervorgehoben, basierend auf ihrem Verlust und Gewinn von Rängen auf Multi-omics-Ebene. Darüber hinaus wiesen die Bootstrap-Ränge der GO-Terme zwischen beiden Omics-Ebenen unter Verwendung des Kendall’schen Rangkorrelationskoeffizienten eine höhere Korrelation auf als die Ränge der ursprünglichen Analysen. Das andere Beispiel konzentrierte sich auf sechs Transkriptom-Datensätze aus Nierenzellkarzinom-Studien, die aus Gene Expression Omnibus (GEO) abgerufen wurden. Die Variabilität der Ränge zwischen Bootstrap- und Originalanalysen wurde verwendet, um die Robustheit von Pathways und GO-Termen zu bewerten. Darüber hinaus wurde die Robustheit von Gene-Sets weiter analysiert, indem die gemeinsamen GO-Terme und Pathways in den Datensätzen zwischen Original- und Bootstrap-Analyse ermittelt wurden. Die Bootstrap-Analyse für GO-Terme wies insbesondere eine höhere Anzahl gemeinsamer Gene-Sets zwischen den Datensätzen auf (Hemandhar Kumar et al., 2024). Das zweite Manuskript stellt eine vergleichenden Meta-Analyse für öffentlich verfügbare SMA-TranskriptomDaten von GEO und Array Express (AE) vor. Das Hauptziel bestand darin, die Analyse auf harmonisierte Weise durchzuführen und sie dadurch reproduzierbar zu machen, indem für alle ausgewählten Studien, die aus unterschiedlichen Versuchsanordnungen und Zeitpunkten stammen, dieselbe Pipeline verwendet wurde. Gene wie Mt1, Mt2, Hspb1, St14, Sult1a1 und Snrpa1 wurden als Schlüsselgene identifiziert, die bei SMA durchgängig dysreguliert sind und daher als potenzielle therapeutische Ziele genutzt werden könnten. Insgesamt haben die Ergebnisse in dieser kumulativen Arbeit gezeigt, dass die Robustheit der GSEA durch die Verwendung von Bootstrap-Wiederholungen verbessert werden kann und somit nicht nur biologisch relevante Terme oder Pathways, sondern diese auch mit höherer Robustheit liefern kann, die die Unsicherheiten in der Zusammensetzung der Gene-Sets berücksichtigen, da diese in den Datenbanken ständig aktualisiert werden. Somit sind die Ergebnisse robust und reproduzierbar.
Gene-Set Enrichment Analysis (GSEA), a computational method to understand the biological significance of a set of genes has become an integral part of downstream analysis in omics data such as transcriptomics and proteomics. Many tools and methods have been available in the past years for this analysis, however the databases with such information about set annotations are constantly being updated. Thus, new features have been added or merged or removed (obsoleted) which makes it difficult to reproduce the results over time and thereby biological interpretation are subjected to change with such an evolution. In this thesis, a novel computational pipeline has been developed to assess and evaluate the robustness of GSEA. This pipeline is compiled into an R-package ‘bootGSEA’ and is publicly available in “https://github.com/klausjung-hannover/bootGSEA”. bootGSEA performs GSEA on bootstrap samples at the gene-set level and the results are ranked using rank aggregation. These ranks of pathways or GO terms are compared with the original analysis and thus evaluating them for their robustness based on gains or loss of ranks or retained ranks. This comprises the first published manuscript with two examples for single and multi-omics analyses. The example on multi-omics analyses focuses on parallel transcriptomics and proteomics data from Spinal muscular atrophy (SMA). Evaluation of robustness on pathways and GO terms was performed based on the integrated rank score of enriched pathways and GO terms. The biologically relevant terms such as cytoplasmic ubiquitin ligase complex and ER ubiquitin ligase complex (integrated ranks: 2 and 19) have been highlighted for their robustness based on their loss and gain of ranks on multi-omics level. Additionally, by using Kendall rank correlation coefficient, bootstrap ranks of GO terms between both omics levels had higher correlation than the ranks from original analyses. The other example focused on six transcriptomics renal cell carcinoma data retrieved from Gene Expression Omnibus (GEO). The variability of ranks between bootstrap and original analyses was used to evaluate the robustness of pathways and GO terms. Furthermore, the robustness of gene sets were further analysed by identifying the common GO terms and pathways across datasets between original and bootstrap analysis. The bootstrap analysis for GO terms in particular had higher number of common gene sets across the datasets (Hemandhar Kumar et al., 2024). The second manuscript presents a comparative meta-analysis approach in publicly available SMA transcriptomics data from GEO and Array Express (AE). The main aim was to perform the analysis in a harmonised way in contrast to the different approaches of analysis in the individual studies and thus making it reproducible by following the same pipeline across all the selected studies which are from different experimental settings and time points. Genes such as Mt1, Mt2, Hspb1, St14, Sult1a1 and Snrpa1 were identified as key genes that are consistently dysregulated in SMA and could therefore be used as potential therapeutic targets. Overall, the results in this cumulative thesis have shown that robustness of GSEA can be improved by using bootstrap replicates and can thus give not just biologically relevant terms or pathways but more robust terms taken into account the uncertainties in the composition of gene sets for being updated constantly in the databases. Thus, the results are robust and reproducible.
Preview
Cite
Access Statistic

Rights
Use and reproduction:
All rights reserved
