Workshop “Regularisierte Schätzung zur Modellierung molekularer Daten”

Termin

06.09.2010, 14:00 – 17:30 Uhr Gebäude 6, EG, Raum 13 Workshop

Programm

14:00 – 14:10 Uhr Begrüßung und Einführung
14:10 – 14:50 Uhr Lars Kaderali (Viroquant, Universität Heidelberg):
Rekonstruktion molekularer Netzwerke mit regularisierten Schätzverfahren
14:50 – 15:30 Uhr Nicole Krämer (Weierstrass Institute for Applied Analysis and Stochastics, Berlin):
Regularisierte Schätzung großer Gen-Assoziations-Netzwerke mit Gaußschen graphischen Modellen
15:30 – 16:00 Uhr Kaffeepause
16:00 – 16:40 Uhr Marc Johannes (DKFZ Heidelberg):
Integration von biologischem Netzwerkwissen in die Support Vektor Maschine mittels Reweighted Recursive Feature Elimination
16:40 – 17:20 Uhr Gunnar Rätsch (Friedrich Miescher Laboratory of the Max Planck Society, Tübingen):
Regularization Methods for Sequence Analysis
17:20 Uhr Abschlussdiskussion

Organisation

  • Harald Binder (AG Statistical Computing und Ansprechpartner)
  • Tim Beißbarth, Göttingen (AG Statistische Methoden in der Bioinformatik)
  • Matthias Schmid, Erlangen (AG Statistical Computing)

Vorträge

  • Lars Kaderali (Viroquant, Universität Heidelberg):
    Rekonstruktion molekularer Netzwerke mit regularisierten Schätzverfahren

Entwicklungen im Bereich der experimentellen Hochdurchsatzverfahren ermöglichen die Messung tausender Datenpunkte pro Probe, bei allerdings im Verhältnis dazu oft nur kleiner Probenanzahl. So erlauben beispielsweise DNA Chips die Messung der Konzentration von mehreren zehntausend Genprodukten gleichzeitig, Zeitreihenmessungen enthalten oft aber nur einige wenige Zeitpunkte, und nur wenige unterschiedliche Bedingungen. Die datengetriebene Rekonstruktion der zugrundeliegenden genregulatorischen Netzwerke ist ein hochaktuelles, aber auch sehr schwieriges Forschungsgebiet.

In meinem Vortrag werde ich zwei unterschiedliche Methoden für diesen Zweck vorstellen, die jeweils Bayes’sche Netzwerke mit stark regularisierendem Prior anwenden. Im ersten Verfahren wird ein nichtlineares Differenzialgleichungsmodell basierend auf chemischer Reaktionskinetik zur Netzwerkrekonstruktion verwendet, das in ein Bayes’sches Netzwerk integriert wird. Über einen Prior werden dabei präferenziell dünne Netzwerke gelernt, mit nur wenigen Kanten. Mittels einer Markov-Kette sampeln wir von der a-posteriori Verteilung, und erhalten so Wahrscheinlichkeitsverteilungen über alternative Netzwerkmodelle, mit denen weitere Experimente geplant werden können um die Netzwerktopologie iterativ zu verfeinern.

Mit diesem Verfahren können kleine Netzwerke detailliert rekonstruiert werden, das Verfahren gerät aber für größere Netzwerke schnell an seine Grenzen. In einem zweiten Ansatz werden durch Diskretisierung von Gen-Zuständen größere Netzwerke qualitativ approximiert. Durch geeignete Regularisierung ist diese Methode insbesondere geeignet, um Hub-Gene in Netzwerken zu identifizieren.

Zum Abschluss meines Vortrages zeige ich Anwendungen auf unterschiedlichen experimentellen Datensätzen, und diskutiere laufende Arbeiten und offene Probleme.

  • Nicole Krämer (Weierstrass Institute for Applied Analysis and Stochastics, Berlin):
    Regularisierte Schätzung großer Gen-Assoziations-Netzwerke mit Gaußschen graphischen Modellen (mit Juliane Schäfer und Anne-Laure Boulesteix)

Gaußsche graphische Modelle sind wichtige Werkzeuge zur Rekonstruktion von Gen-Assoziations-Netzwerken. Typischerweise ist wenig über die unterliegende Struktur des Problems bekannt außer der Annahme, dass das Netzwerk dünn besetzt ist. In hochdimensionalen Anwendungen mit vielen Genen und wenigen Beobachtungen ist die zuverlässige Schätzung dieser Netzwerkstrukturen daher eine schwierige Aufgabe.

Ich werde in diesem Vortrag eine Kombination von regularisierten Regressionsmethoden und Gaußschen graphischen Modellen präsentieren. Die untersuchten regularisierten Methoden zur Schätzung der Netzwerke umfassen sowohl existierende Methoden (aufbauend auf Lasso und Partial Least Squares) als auch zwei neue Ansätze (basierend auf Ridge Regression und adaptiven Lasso). Die Güte dieser Methoden wird in einer umfassenden Simulationsstudie und in einer Anwendung auf sechs verschiedenartigen Datensätzen aus der Systembiologie untersucht.

  • Marc Johannes (DKFZ Heidelberg):
    Integration von biologischem Netzwerkwissen in die Support Vektor Maschine mittels Reweighted Recursive Feature Elimination

Motivation: Um den Verlauf von Krebserkrankungen besser voraussagen zu können, werden in der molekularen Krebsforschung über Hochdurchsatzanalysen tausende von Genen gleichzeitig analysiert. Einige der vielversprechenden Gensignaturen werden in der klinischen Routine bereits als Biomarker eingesetzt. In der Bioinformatik werden Klassifikationsmethoden unter anderem dazu verwendet vielversprechende Gensignaturen für unterschiedliche klinischen Fragestellungen zu identi´Čüzieren. Standardklassifikationsmethoden betrachten die Gene aus Hochdurchsatzanalysen allerdings als unabhängig. Kürzlich konnte jedoch gezeigt werden, dass sich das Klassifikationergebnis durch die Einführung von zusätzlichen Informationen wie z.B. Netzwerkdaten verbessern lässt. So hat die Einführung von Netzwerkinformationen u.a. die Interpretierbarkeit und Reproduzierbarkeit der Gensignaturen verbessert.

Ergebnisse: Wir haben kürzlich Reweighted Recursive Feature Elimination (RRFE) entwickelt. RRFE ist eine neue Klassifikationsmethode die auf der Hypothese basiert, dass ein Gen mit einer geringen Expressionsänderung einen grösseren Einfluss auf den Klassifikator hat, wenn es mit Genen interagiert, die eine di´ČÇerentielle Expression aufweisen. RFFE ermöglicht es Informationen über Signalwege und Geninteraktionsnetzwerke bereits im Optimierungsprozess der Support Vektor Maschine (SVM) zu benutzen. Um diese Zusatzinformationen in der SVM zu berücksichtigen wurde der Sortieralgorithmus von SVM-RFE durch eine Variante von Googles PageRank Algorithmus verändert. RRFE wurde auf einem Brustkrebsdatensatz mit 788 Patienten getestet und hat gegenüber SVM-RFE sowie einigen netzwerkbasierten Klassi´Čükatoren eine signi´Čükante Verbesserung der Fläche unter der ROC-Kurve gezeigt. Zusätzlich stellte sich die Genselektion als stabiler heraus und Analysen der jeweiligen Genlisten verdeutlichten eine bessere biologische Interpretation.

  • Gunnar Rätsch (Friedrich Miescher Laboratory of the Max Planck Society, Tübingen):
    Regularization Methods for Sequence Analysis

The focus of the talk will be on regularized methods for the classification and segmentation of biological sequences. I will report on classification methods able to deal with several million examples for which regularization plays an important role. Moreover, I will present methods for computational genome annotation based on heterogeneous data. Here, prior knowledge helps to define appropriate regularization terms that prefer biologically plausible solutions. Finally, I will discuss regularization strategies that help for solving several related tasks, for instance, when considering sequence classification problems in several related organisms.

Durch neue Techniken zur Erhebung molekularer Daten ergeben sich umfangreiche Datenmengen. Beispielsweise liefern Microarray-Techniken zur Genexpressionsbestimmung mehrere zehntausend Messwerte pro Probe, mittlerweile etablierte Plattformen zur Genom-weiten Bestimmung von Polymorphismen resultieren in über einer Millionen Messungen und Techniken aus dem Bereich des “next generation sequencing” versprechen noch genauere und umfangreichere Daten. Bedingt durch die typischerweise nur relative kleine Anzahl von Proben, für die diese Messungen zur Verfügung stehen, sind klassische biostatistische Modellierungstechniken nur begrenzt einsetzbar. Andererseits wurden im Bereich der Bioinformatik viele erfolgreiche Ansätze zum Umgang mit derartigen Daten entwickelt. Einige dieser Ansätze lassen sich auf biostatistische Techniken übertragen. Durch Einführung von Regularisierung, z.B. über penalisierte Likelihood-Techniken oder Bayesianische Ansätze, kann die Modellierung hochdimensionaler molekularer Daten auch aus dem Blickwinkel klassischer biostatistischer Modellierungstechniken betrieben werden. Die Arbeitsgruppen “Statistical Computing” (GMDS und IBS-DR) und “Statistische Methoden in der Bioinformatik” (GMDS und IBS-DR) organisieren deshalb diesen Workshop, um Techniken aus der Bioinformatik und der Biostatistik unter diesem Blickwinkel der regularisierten Schätzung zusammenzuführen. Dadurch erschließt sich für Teilnehmerinnen und Teilnehmer sowohl aus der Informatik als auch aus der Biostatistik, in welchen Anwendungsfällen welche Techniken am erfolgversprechendsten sind und wie diese in die jeweiligen Disziplinen eingeordnet werden können.

Kontaktdaten

Harald Binder
Institut für Medizinische Biometrie und Medizinische Informatik
Stefan-Meier-Str. 26
79104 Freiburg i. Br.
(0761) 203-5003
(0761) 203-7700
binderh@imbi.uni-freiburg.de