Data augmentation and outlier detection for fitting machine learning models to transcriptomics data from infection research
Infektionskrankheiten werden häufig auf der Ebene des Transkriptoms untersucht. In diesem Zusammenhang zielt die Untersuchung von Transkriptomdaten darauf ab, die zugrundeliegenden molekularen Mechanismen bei Infektionskrankheiten besser zu verstehen und Gene zu identifizieren, die mit der Infektion in Verbindung stehen oder an der Immunantwort beteiligt sind. Mit der Untersuchung solcher Daten ist auch die Hoffnung verbunden, auf der Grundlage transkriptomischer Signaturen Klassifikatoren zu entwickeln, die bei der medizinischen Diagnose und Prognose helfen. Mit zunehmenden Rechenkapazitäten und sich weiterentwickelnden Sequenzierungstechnologien ist es möglich, Tausende von Transkripten gleichzeitig zu messen und aufzuzeichnen und so große Datensätze bei sinkenden Kosten zu erzeugen. Bei der Verwendung hochdimensionaler, aber spärlicher Daten für die Klassifizierung und Vorhersage wird jedoch häufig eine Überanpassung beobachtet, d. h. die Leistung des Klassifikators in der Trainingsstudie ist bei Anwendung in einer unabhängigen Studie nicht reproduzierbar. Darüber hinaus beeinträchtigen potenzielle Ausreißer, d. h. extreme Beobachtungen, sowohl die Auswahl potenzieller Prädiktorgene als auch die Leistung des Klassifizierungsmodells und seine Verallgemeinerbarkeit. Die Dissertation basiert auf zwei veröffentlichten Arbeiten, die die Rolle des Stichprobenumfangs und der Ausreißer beim Training von Klassifikatoren des maschinellen Lernens und bei der Erkennung von differenziell exprimierten Genen, die als Prädiktorvariablen ausgewählt werden sollen, untersuchen. Die Ergebnisse dieser kumulativen Dissertation haben gezeigt, dass Datenaugmentation und reproduzierbare Identifizierung möglicher Ausreißer genutzt werden können, um Robustheit und Unsicherheiten bei der Analyse und Interpretation von Hochdurchsatz-Sequenzierungsdaten besser zu bewerten.
Infectious diseases are often studied at the level of the transcriptome. In this context, the investigation of transcriptomics data aims to better understand the underlying molecular mechanisms in infectious diseases and to identify genes associated with infection or involved in the immune response. The study of such data is also linked to the hope of being able to develop classifiers based on transcriptomic signatures to aid in medical diagnosis and prognosis. With increasing computational capabilities and evolving sequencing technologies, it is possible to measure and record thousands of transcripts simultaneously, thus generating large datasets at decreasing costs. However, when using high-dimensional but sparse data for classification and prediction, overfitting is often observed, i.e. the classifier performance in the training trial is not reproducible when applied in an independent study. Furthermore, potential outliers, i.e. extreme observations, affect both the selection of potential predictor genes and the performance of the classification model as well as its generalisability. The thesis is based on two published papers that investigate the role of sample size and outliers in training machine learning classifiers and in detecting differentially expressed genes to be selected as predictor variables. The results in this cumulative thesis have shown that data augmentation and reproducible identification of possible outliers can be used to better assess robustness and uncertainties in the analysis and interpretation of high-throughput sequencing data.
Preview
Cite
Access Statistic
