Training of Classifier Models from Multiple Independent Transcriptome Expression Studies
Hochdimensionale Genexpressionsdaten werden regelmäßig verwendet, um verschiedene Gruppen von Samples mithilfe von Machine learning Methoden zu unterscheiden. Mittlerweile gibt es viele dieser Daten frei verfügbar in öffentlichen Internet-Datenbanken. Werden bei Training und Test des Klassifikationsmodells Daten von mehreren, unabhängigen Studien verwendet, kann sich die Verallgemeinerbarkeit des Klassifikationsmodells erhöhen, das heißt, dieses kann für eine höhere Anzahl Studien anwendbar sein, und die Reproduzierbarkeit der Ergebnisse, zum Beispiel die berechnete Genauigkeit (engl. Accuracy) des Modells lässt sich bei der Anwendung auf neue Studien ggfs. besser reproduzieren. Gleichzeitig erhöht sich die Fallzahl, wodurch die Klassifikationsmodelle eine bessere Trainingsgrundlage haben. Zur Kombination mehrerer, unabhängiger Genexpressionsstudien existiert bereits Literatur, welche sich allerdings nicht auf den Kontext der Klassifikation bezieht, sondern vor allem auf die differentielle Expressionsanalyse. Diese Arbeit befasst sich mit verschiedenen Problemen beim Verbinden unabhängiger Genexpressions-Datensätze zum Zwecke des Trainings und der Evaluation von Klassifikationsmodellen. Im ersten Teil dieser Arbeit wurden zwei unterschiedliche Strategien der Klassifikation auf Grundlage mehrerer, unabhängiger Genexpressionsstudien verglichen, die sich darin unterscheiden, in welchem Schritt die Information der verschiedenen Studien in der Analyse verbunden werden. Dabei handelt es sich um die Strategie „Data merging“, in der die Datensätze direkt verbunden werden, und um die Strategie „Results merging“, in der die Klassifikationsergebnisse verbunden werden. Die beiden Strategien wurden zum einen in einer Simulationsstudie mit künstlich generierten Daten miteinander verglichen. Die Simulationsstudie beinhaltete mehrere Szenarios, in denen die Anzahl Studien, die Stärke des Batcheffekts zwischen den Datensätzen, und die Differenzierbarkeit der Klassen variierten. Zum anderen wurden die Strategien in der Anwendung auf drei reale Datensätze aus der Internet-Datenbank „Gene Expression Omnibus“ verglichen. Als Klassifikationsmodelle wurden fünf gebräuchliche Standardtechniken verwendet, und zwar Support Vector Machines, Lineare Diskriminanzanalyse, Künstliche neuronale Netze, Random Forest, und LASSO. Als Validierungstechnik wurde die Cross-Study Validierung verwendet. Die Ergebnisse zeigen, dass die „Data merging“-Strategie in den Szenarios mit mindestens drei Trainingsstudien vor allem bei einer hohen Differenzierbarkeit zwischen den Klassen die höhere Genauigkeit erreichte, während die „Results merging“-Strategie in den Szenarios mit zwei Trainingsstudien besser abschnitt. In der Anwendung auf die realen Datensätze konnte kein Unterschied zwischen beiden Strategien festgestellt werden. Neben der Frage des Zeitpunkts der Verbindung der Studien in der Analyse, ist ein weiterer Aspekt der Verbindung der Studien die Übersetzung von Gen- und Proben-Identifiern. Die Datensätze können nur mit einheitlichen Identifiern verbunden werden, des Weiteren benötigen die Klassifikationsmodelle dieselben Merkmale in Trainings- und Testdaten, sodass die Identifier vor der Analyse übersetzt werden müssen. Jedes Microarray-Modell besitzen einen eigenen Typ von Proben-Identifiern, während RNA-Seq-Daten häufig mit einem von mehreren Typen von Gen-Identifiern annotiert sind. Es gibt in verschiedenen R-Paketen und in den Internet-Datenbanken Übersetzungstabellen, in denen sich die Identifier jedoch nicht eindeutig einander zuordnen lassen, sondern es häufig mehrere Übersetzungsmöglichkeiten pro Identifier gibt. Dadurch gibt es mehrere Strategien zur Übersetzung zwischen den Identifier-Typen. Im zweiten Teil dieser Arbeit wurde die Expansions-Komprimierungs-Strategie mit der 1:1-Strategie bezüglich der Leistung der auf den verbundenen Daten trainierten Klassifikationsmodelle verglichen. In der Expansion-Komprimierung-Strategie werden die Daten expandiert, wenn sich ein Identifier des ursprünglichen Typs in mehrere Identifier des anderen Typs übersetzen lässt, und die Daten werden komprimiert, wenn sich mehrere Identifier des ursprünglichen Typs in denselben Identifier des anderen Typs übersetzen lassen. In der 1:1-Strategie werden nur die Daten von den Identifiern des ursprünglichen Typs verwendet, die sich nur in einen Identifier des anderen Typs übersetzen lassen, welcher sich wiederum auch aus keinem anderen Identifier des ursprünglichen Typs übersetzen lässt. Die beiden Strategien wurden anhand von zwei Beispielen verglichen, mit jeweils drei Datensätzen aus der Internet-Datenbank „Gene-Expression-Omnibus“. Im ersten Beispiel sollten Samples von Individuen mit Lungenfibrose von Samples von gesunden Individuen unterschieden werden, während im zweiten Beispiel zwischen den Klassen Dengue Fieber und Kontrollgruppe differenziert werden sollte. Der gemeinsame Identifier-Typ, in den die Identifier-Typen der Datensätze mithilfe der Strategien übersetzt wurden war im ersten Beispiel der Transkript-Identifier-Typ Refseq-accession-number, kurz Refseq-ID, im zweiten Beispiel der Gen-Identifier-Typ Gensymbol. Im ersten Beispiel zeigte die Klassifikation nach Anwendung der Expansions-Komprimierungs-Strategie eine höhere Genauigkeit und Spezifität, während im zweiten Beispiel kein Unterschied erkennbar war. Der größere Unterschied zwischen den beiden Strategien im ersten Beispiel lässt sich darauf zurückführen, dass es bei der Übersetzung in einen Transkript-Identifier-Typen häufiger multiple Übersetzungsmöglichkeiten gibt, dadurch, dass nicht nur einzelne Gene, sondern auch einzelne Transkripte benannt sind. Dadurch unterscheiden sich die aus den beiden Strategien resultierenden übersetzten Daten deutlicher voneinander.
Highdimensional gene expression data is regularly used to distinguish between different groups of samples by means of machine learning methods. Meanwhile, there are many data sets available in internet data bases. If data of several independent studies is used to train and test the classifier model, the generalizability of the classifier model can be increased, that means, this may be applicable to a higher number of studies, and the reproducibility of the results, for example the calculated accuracy of the model can be reproduced better when applied to new studies. Simultaneously the sample size increases, leading to a better training basis for the classifier models. Already, there exists literature which combines several, independent gene expression studies, however, not in the context of classification but primarily for differential expression analysis. This work deals with different problems when merging independent gene expression data sets with the purpose of the training and evaluation of classifier models. In the first part of the work, two different strategies of classification on the basis of several independent gene expression studies are compared, which distinguish in that, in which step of the analysis the information of the studies is merged. This is the strategy ‘data merging’, where the data sets are merged directly, and the strategy ‘results merging’, in which the classification results are merged. On the one hand, both strategies where compared in a simulation study with artificially generated data. The simulation study contained several scenarios, in which the number of studies, the strength of the batch effect between the data sets, and the differentiability varied. On the other hand, the strategies where compared by application on real-world data sets from the internet data base ‘Gene expression omnibus’. As classifier models, five common standard techniques were used, namely Support Vector Machines, Linear Discriminant Analysis, Artificial Neural Networks, Random Forest, and LASSO. For validation, cross-study validation was used. The results show that the `data merging' strategy reaches a higher accuracy in the scenarios with at least three training studies, especially when the differentiability between the classes is high, while the ‘results merging’ strategy performed better in the scenarios with two training studies. In the application on the real-world data, no difference between the two strategies could be detected. Besides the question of the time to merge the studies in the analysis, another aspect of merging the studies is the translation of gene- and probe-identifiers. The data sets can only be merged with coherent identifiers, furthermore the classifier models need identical features in training and test data, so that the identifiers have to be translated before the analysis. Every microarray model possesses an own type of probe-identifier, while RNA-Seq data frequently are annotated with one of several types of gene-identifiers. There are translation tables available in different R-packages and in the internet data bases, with which, however, the identifiers cannot be assigned to each other unambiguously, so that there are several translation options per identifier. Thus, there are several strategies for translation between the identifier types. In the second part of this work, the expansion-compression-strategy was compared with the unique-translations-strategy regarding the performance of the classifier models trained on the merged data. In the expansion-compression-strategy the data are expanded, if one identifier of the original type translates to several identifier of the other type, and the data are compressed, if several identifiers of the original type translate the same identifier of the other type. In the unique-translations-strategy, only the data of identifiers of the original type are used, which translate to only one identifier of the other type, which in turn cannot be translated from any other identifier of the original type. Both strategies were compared by means of two examples with each three data sets from the internet data base ‘Gene expression omnibus’. In the first example, samples of individuals with lung fibrosis should be differentiated from samples from healthy individuals while in the second example the classes Dengue virus and control group should be differentiated. The common identifier type to which the identifiers of the data sets were translated by means of the strategies, was the transcript-identifier type Refseq-accession-number, shortly Refseq-ID, in the first example, and the gene-identifier type ‚gene symbol‘ in the second example. In the first example, the classification showed a higher accuracy and specificity after application of the expansion-compression-strategy while in the second example there was no clear difference observable. The greater difference between the two strategies in the first example can be explained by the fact that there are more multiple translation options when translating to a transcript-identifier type due to the identification of not only the genes but also the individual transcripts. Thereby, the from both strategies resulting translated data differ more distinctly from each other.