Direkt zum Inhalt | Direkt zur Navigation

Eingang zum Volltext

Lizenz

Bitte beziehen Sie sich beim Zitieren dieses Dokumentes immer auf folgende
URN: urn:nbn:de:bsz:25-opus-84196
URL: http://www.freidok.uni-freiburg.de/volltexte/8419/


Porzelius, Christine

Model complexity selection in high-dimensional time-to-event data analysis

Modelkomplexitätswahl in der Ereigniszeitanalyse hochdimensionaler Daten

Dokument1.pdf (2.034 KB) (md5sum: 442fa00606a7e21818601c11395634c8)

Kurzfassung in Englisch

Huge amounts of molecular data, such as gene expression data, can be collected simultaneously for each patient, nowadays. In the last decades, several statistical methods have been introduced to handle this so called high-dimensional data. In this thesis, prediction models are considered with time to event as a possibly censored endpoint, e.g. survival data. The focus is on model complexity selection, i.e. the determination of complexity parameter(s) for the models, and related issues.

The thesis consists of three main parts. The first part addresses the question whether regression techniques, which were introduced for or frequently used in high-dimensional data settings, work properly in low-dimensional settings as well. Thus, the stability of model selection, the number of covariates in the selected models, bias of parameter estimates and the prediction performance of some shrinkage and boosting methods are investigated using a well known breast cancer data set and variations thereof. In general, all methods are found to provide reasonable results, however, with slightly different properties.

In the second part, the integrated prediction error curve (IPEC), which is a summary measure of the estimated prediction error over time, is introduced as a model selection criterion. A recent boosting approach, CoxBoost, is used with simulated and real data to compare the IPEC to the standard criterion, the partial log-likelihood (PLL). It is seen that similar results in terms of prediction performance are obtained, indicating that the IPEC is a reasonable criterion. Secondly, different resampling schemes for estimating the PLL and the IPEC are considered. The results do not differ too much but it can be observed that the more intensive approaches do not seem to pay off. The IPEC criterion has the advantage that it is also applicable in semi- or non-parametric settings. Thus, random forests, which are a tree-based prediction approach, are used to examine the possible benefit of this model selection strategy in comparison to rules of thumb using simulated and real data sets. Although the obtained benefit is not very strong in these examples, the IPEC is preferable as a general criterion.

The third part deals with the challenge of estimating the false discovery rate (FDR) in CoxBoost. The FDR allows to quantify the uncertainty of a list of covariates, here, for the covariates in the selected model. A simulation study is carried out to illustrate the behavior of the proposed approach. Despite some difficulties, this multivariable approach should be preferred to univariate approaches.


Kurzfassung in Deutsch

Große Mengen molekularer Daten, wie z.B. Genexpressionsdaten, können heutzutage gleichzeitig für einzelne Patienten erhoben werden. In den letzten Jahrzehnten wurden einige statistische Methoden eingeführt, die mit diesen sogenannten hochdimensionalen Daten umgehen können. Die vorliegende Arbeit beschäftigt sich mit Vorhersagemodellen für Ereignisszeitdaten, die zensiert sein können, wie z.B. Überlebenszeitdaten. Der Fokus der Arbeit liegt auf der Modellkomplexitätswahl, d.h. der Bestimmung von einem oder mehreren Komplexitätsparametern für die Modelle, und damit verbundenen Themen.

Die Arbeit besteht aus drei Teilen. Der erste Teil beschäftigt sich mit der Frage, ob Methoden, die für den Bereich hochdimensionale Daten eingeführt wurden oder häufig in diesem benutzt werden, auch im Niedrigdimensionalen angemessen arbeiten. Dazu werden die Stabilität der Modelwahl, die Anzahl der Parameter im Modell, der Bias von Koeffizientenschätzern und die Vorhersagleistung von einigen Shrinkage- und Boostingmethoden untersucht. Dazu wird ein bekannter Brustkrebsdatensatzes und Variationen davon verwendet. Grundsätzlich zeigen alle Methoden sinnvolle Resultate, mit leicht unterschiedlichen Eigenschaften.

Im zweiten Teil wird die integrierte Vorhersagefehlerkurve (integrated prediction error curve, IPEC) als Modellwahlkriterium eingeführt. Der Boostingansatz CoxBoost wird zusammen mit simulierten und echten Daten verwendet, um die IPEC mit dem Standardkriterium, der partiellen Log-Likelihood (PLL) zu vergleichen. In Hinblick auf die Vorhersageleistung werden ähnliche Ergebnisse erzielt, was darauf hinweist, dass die IPEC ein angemessenes Kriterium ist. Zusätzlich werden verschiedene Resamplingstrategien, um die PLL und die IPEC zu schätzen, betrachtet. Die Ergebnisse sind relativ ähnlich, allerdings scheinen sich die aufwendigeren Ansätze nicht zu lohnen. Das IPEC-Kriterium hat den Vorteil, dass es auch bei semi- oder nichtparametrischen Ansätzen verwendbar ist. Um den möglichen Nutzen dieses Modellwahlkriteriums im Vergleich zu Faustregeln zu untersuchen, werden Random Forests auf simulierten und echten Datensätzen angewendet. Auch wenn der tatsächlich erreichte Nutzen in diesen Beispielen nicht allzu groß ist, ist die IPEC als ein generelles Kriterum zu bevorzugen.

Der dritte Teil beschäftigt sich mit der Aufgabe, die False Discovery Rate (FDR) für CoxBoost zu schätzen. Die FDR erlaubt, die Unsicherheit einer Liste von Kovariablen zu schätzen, hier, für die Kovariablen im angepassten Modell. Eine Simulationsstudie wird durchgeführt, um das Verhalten des vorgeschlagenen Ansatzes zu illustrieren. Trotz einiger Schwierigkeiten sollte dieser multivariable Ansatz univariaten Ansätzen vorgezogen werden.


SWD-Schlagwörter: Medizinische Statistik , Biometrie , Modellwahl , Ereignisdatenanalyse , Boosting
Freie Schlagwörter (deutsch): hoch-dimensionale Daten , Modellkomplexität , Shrinkage , Vorhersagefehler
Freie Schlagwörter (englisch): model complexity , model selection , high-dimensional data , time-to-event
Institut: Inst. für Medizin. Biometrie und Medizin. Informatik (IMBI)
Fakultät: Fakultät für Mathematik und Physik
DDC-Sachgruppe: Mathematik
Dokumentart: Dissertation
Erstgutachter: Schumacher, Martin (Prof. Dr.)
Sprache: Englisch
Tag der mündlichen Prüfung: 09.12.2011
Erstellungsjahr: 2011
Publikationsdatum: 12.01.2012
Indexliste