Direkt zum Inhalt | Direkt zur Navigation

Eingang zum Volltext

Lizenz

Bitte beziehen Sie sich beim Zitieren dieses Dokumentes immer auf folgende
URN: urn:nbn:de:bsz:25-opus-84047
URL: http://www.freidok.uni-freiburg.de/volltexte/8404/


Kreutz, Clemens

Statistical approaches for molecular and systems biology

Statistische Methoden zur Anwendung in der Molekular- und Systembiologie

Dokument1.pdf (27.174 KB) (md5sum: 387baf404040c7cd60fc28c2205bb972)

Kurzfassung in Deutsch

In dieser Dissertation wurden statistische Verfahren auf experimentelle Daten aus der Molekular- und Systembiologie angewendet. Zudem wurden neue statistische Methoden entwickelt.

Das erste Kapitel behandelt drei Anwendungen, die auf der Messungen der Genexpression mittels DNA Microarrays basieren und zwar die Identifizierung von regulierten Genen während der Regeneration der Leber nach partieller Hepatektomie, das Finden von Housekeeping-Genen, sowie die Evaluation der Anwendbarkeit von Microarrays für Formalin-fixiertes und Paraffin-eingebettetes Gewebe. Untersuche werden zudem methodische Aspekte wie die Problematik des Multiples Testen, die Identifizierung von Zielgenen mittels linearer statistischer Modelle, der Bias-Varianz Tradeoff bei der Ermittlung von Biomarkern, und die Abhängigkeit solcher Resultate von der Datenaufbereitung und Messmethode.

Im zweiten Kapitel wird ein Fehlermodell für Immunoblot Daten datenbasiert hergeleitet. Statistische Modelle werden benützt um systematische Fehlerquellen sowie die Verteilung der entsprechenden Messfehler zu bestimmen. Die Adjustierung bezüglich solcher systematischer Fehler sowie die Schätzung der Zeit- und Stimulationsabhängigkeit wird in einem Schritt durchgeführt und nicht wie gewöhnlich nacheinander. Eine logarithmische Transformation der Daten wird vorgeschlagen, was zu additiven und normalverteilten Messfehler führt. Durch das vorgeschlagene Fehlermodell wird das Signal zu Rausch Verhältnis um bis zu einem Faktor 10 verbessert. Das beschrittene Vorgehen ist so allgemein, dass es leicht auf andere Anwendungen übertragbar ist.

Im dritten Kapitel werden Einzelzell-Messungen der Insulinbindung von Leberzellen mittels Durchflusszytometrie analysiert. Eine umfassende Datenverarbeitungsstrategie wird eingeführt um die Dynamik der Insulinbindung zu schätzen. Zwei Arten von Leberzellen wurden entdeckt, die Insulin in sehr verschiedenem Maße binden. Für beide Zelltypen wurde die charakteristische Insulinbindung mittels Gaußscher Mixture Modelle aus den Einzelzell-Beobachtungen geschätzt. Dabei wurden statistische Modelle benützt, um den Einfluss der Wahl der Analyseparameter, sowie den der systematischen Fehler aus dem Experiment zu bestimmen. Mittels schrittweiser Backward-Elimination wurden die relevanten Einflüsse identifiziert. Da es kein Kriterium für die Festlegung auf bestimmte Prozessierungsparameter gibt, wurde in Analogie zu statistischen Metaanalysen ein Mixed Effects Modell benützt, um über alternative Vorgehensweisen zu mitteln. Differentialgleichungsmodelle für die Bindungskinetik wurden etabliert. Die Raten wurden geschätzt und deren Konfidenzintervalle mittels der Profile Likelihood ermittelt.

In Kapitel 4 wird die Optimierung des Experimentellen Designs für Anwendungen in der Systembiologie diskutiert. Klassische Prinzipien aus der Biostatistik wie Randomisierung, Messwiederholung, Confounding usw. wurden inhaltlich an etablierte Versuchsplanungsmethoden aus dem Feld der dynamischen Systeme verknüpft. Monte-Carlo Methoden wurden eingeführt, die die Designoptimierung zum Zwecke der Modellselektion und Parameterschätzung erlauben.

Im letzten Kapitel wurde gezeigt, dass sich mit der sogenannte Prediction Profile Likelihood Vertrauensintervalle für Modellvorhersagen basierend auf Differentialgleichungsmodellen berechnen lassen trotz der Nichtlinearität und Hochdimensionalität in den Parametern. Die Prediction Profile Likelihood wurde numerisch mittels beschränkter Optimierung berechnet. Dieses Vorgehen macht aus dem hochdimensionalen Suchproblem bestehender Methoden ein eindimensionales Samplingproblem im Raum der Vorhersagen. Die Methode wird nicht durch die Existenz von nichtidentifizierbaren Parametern beeinflusst, welche manchmal sogar zu Nicht-Observierbarkeit von dynamischen Zuständen führen können. Die Methode erlaubt vielmehr eine Observierbarkeitsanalyse. Außerdem wurde eine Validation Profile Likelihood eingeführt, um Vertrauensintervalle für Validierungsmessungen zu bestimmen. Diese Konfidenzintervalle sind größer als für die Vorhersage einer exakten Größe, da Validierungsexperimente aufgrund des Beobachtungsrauschens nur mit endlicher Genauigkeit möglich sind.


Kurzfassung in Englisch

In this dissertation, statistical approaches are applied to experiments performed in the field of Molecular and Systems Biology. In addition new methods are developed for such applications.

The first chapter concerns gene expression measurements using the DNA microarray technique. Methodological aspects like multiple testing and the identification of target genes on the basis of linear statistical models are discussed. Three applications are presented, namely the identification of the regulated genes during liver regeneration, the identification of housekeeping genes for the investigation of signal transduction induced gene regulation, and the evaluation of the applicability of microarrays formalin-fixed paraffin-embedded tissues. In addition, the bias-variance trade-off in the identification of target-genes as well as the sensitivity of the outcomes on the preprocessing have been studied.

In molecular biology, immunoblotting is a widely applied technique for protein quantification. In the second chapter, statistical models are applied to immunoblotting data in order to identify sources of systematic errors as well as their distribution. In contrast to a sequential data processing approach, the entire data processing is done in a single, comprehensive step to estimate the time and treatment dependency of the protein abundances. A log-transformation of immunoblot data is suggested to obtain additive normally distributed noise because main sources of variability were identified as multiplicative and log-normally distributed. The error model accounting for technical as well as biological variability allows for a more precise estimation of the underlying dynamics of protein concentrations. In comparison to a standard data processing approach, the signal-to-noise ratio can be improved up to a factor of ten. The superior error model has been validated out of sample. The performed procedure is very general and can also be applied to derive error models for other experimental techniques.

In the third chapter, single cell measurements of insulin binding of primary hepatocytes obtained by flow cytometry are examined. A comprehensive data processing strategy is introduced and applied to estimate the insulin binding dynamics. Two subpopulations of primary hepatocytes have been discovered, showing a distinct magnitude of insulin binding. For both subpopulations, the average characteristics of Insulin binding have been estimated using Gaussian mixture models. Statistical models accounting for the variability between the experimental runs as well as for the effects of data processing parameters are applied. In contrast to the identification of an error model for Immunoblotting presented in Chapter 2, a comprehensive evaluation of all possible models was not feasible due to combinatorial complexity. Therefore, a stepwise backward elimination procedure has been performed to identify the relevant effects. Because there is no objective criterion for specifying ambiguous data processing parameters with such an effect on the results, the estimates of the time and dose effects obtained for alternative data processing strategies have been merged by a mixed effects model. This approach can be interpreted as a statistical meta-analysis. An ODE model for the binding dynamics of insulin in both subpopulations has been established. The kinetic parameters have been estimated and confidence intervals were determined using the profile likelihood.

In Chapter 4, experimental design optimization is discussed for applications in systems biology. Classical design principles established in Biostatistics like randomization, replication, confounding, etc. are linked with established design approaches for dynamical systems. Monte-Carlo approaches are introduced which allow for design optimization for model discrimination and parameter estimation.

In the last Chapter, it is shown that a so-called ’prediction profile likelihood’ yields reliable confidence intervals for predictions based on ordinary differential equation models, despite arbitrarily complex and high-dimensional shapes of the confidence regions for the estimated parameters. The prediction profile likelihood is calculated numerically using constraint optimization. This approach renders the issue of sampling a high-dimensional parameter space into evaluating one-dimensional prediction spaces. The resulting prediction confidence intervals of the dynamic states allow a data-based observability analysis. The method is also applicable if there are non-identifiable parameters yielding to some insufficiently specified model predictions that can be interpreted as non-observability. Moreover, a ’validation profile likelihood’ is introduced that should be applied when noisy validation experiments are to be interpreted.


SWD-Schlagwörter: Statistik , System Biologie , DNA-Chips , Durchflusszytometrie , Modellvorhersagen
Freie Schlagwörter (englisch): Statistics , Systems Biology , Microarray , FACS , Prediction
Institut: Physikalisches Institut
Fakultät: Fakultät für Mathematik und Physik
DDC-Sachgruppe: Physik
Dokumentart: Dissertation
Erstgutachter: Timmer, Jens (Prof. Dr.)
Sprache: Englisch
Tag der mündlichen Prüfung: 12.12.2011
Erstellungsjahr: 2011
Publikationsdatum: 12.01.2012
Indexliste