Welcome!

This is the HTML version of the PhD thesis titled “Intelligent Assistance for Expert-Driven Subpopulation Discovery in High-Dimensional Timestamped Medical Data”, submitted to the Otto von Guericke University Magdeburg by Uli Niemann on March 23, 2021.

The submitted PDF document can be downloaded from the accompanying GitHub repository.

Abstract

Subpopulation discovery is an essential objective of data analysis in medical research and contributes to the prevention and treatment of adverse medical conditions. Characteristic subpopulations are detected, for example, by identifying long-term determinants of diseases or by revealing patient subgroups with differential responses to treatment.

Traditional medical data analysis has been mostly hypothesis-driven. With the increasing volume and heterogeneity of medical data, these workflows are becoming impractical, as important relationships between variables may go undetected. Besides, medical studies often involve measurements that are collected repeatedly over time. Investigating hidden temporal information can potentially lead to new insights. While machine learning has the potential of automatically detecting previously unknown subpopulations, the results of complex black-box models must be made understandable. Therefore, the medical expert must be equipped with tools to understand, explore, and visualize the models, breaking down individual patterns to extract actionable insights.

This thesis proposes machine learning-based solutions for expert-driven subpopulation discovery in high-dimensional timestamped medical data.

The first part presents workflows to detect comprehensible and distinct subpopulations described by classification rules and clusters. We present novel visualizations and interactive tools to inspect and juxtapose the high-dimensional subpopulations and compare their change over time.

The second part covers workflows to exploit temporal information. We present a framework to extract evolution features that characterize the subpopulations’ change over time. Furthermore, we provide a method to build representations from short temporal sequences.

The third part addresses the topic of post-hoc interpretation of complex black-box models. We propose an end-to-end data analysis workflow that includes steps for data augmentation, modeling, nesting model training with feature elimination, and post-hoc analysis of the trained models. This workflow returns statistics and visualizations representing global feature importance, instance-individual feature importance, and subpopulation-specific feature importance for a machine learning model of any type. Besides, we provide a solution for visualizing differences between two a priori defined subpopulations.

The proposed methods are evaluated with datasets from four medical studies:

a longitudinal population study,
an observational therapy study with data on self-report questionnaire responses from tinnitus patients,
a clinical experiment with timestamped plantar pressure and temperature recordings from diabetes patients and healthy volunteers, and
a retrospective clinical study with image data on intracranial aneurysms.

Zusammenfassung

Die Entdeckung von Subpopulationen stellt ein wesentliches Ziel der Datenanalyse in der medizinischen Forschung dar und trägt zur Vorbeugung und Behandlung von Erkrankungen bei. Charakteristische Subpopulationen werden beispielsweise durch die Identifizierung von Langzeitdeterminanten von Krankheiten oder durch die Bestimmung von Patientensubgruppen mit differenziellem Ansprechen auf eine Behandlung entdeckt.

Die traditionelle medizinische Datenanalyse war bisher überwiegend hypothesengetrieben. Mit der zunehmenden Menge und Heterogenität medizinischer Daten werden diese Workflows zunehmend ungeeignet, da wichtige Beziehungen zwischen Variablen unentdeckt bleiben können. Außerdem beinhalten medizinische Studien oft Messungen, die im Laufe der Zeit wiederholt erhoben werden. Das Extrahieren verborgener zeitlicher Informationen kann potenziell zu neuen Erkenntnissen führen. Während maschinelles Lernen das Potenzial hat, bisher unbekannte Subpopulationen automatisch zu erkennen, müssen die Ergebnisse komplexer Black-Box-Modelle verständlich gemacht werden. Dies erfordert, medizinische Expertinnen und Experten mit Werkzeugen auszustatten, die es ihnen ermöglichen, die Modelle zu interpretieren, zu explorieren und zu visualisieren, um individuelle Muster aufzuschlüsseln und daraus handlungsrelevante Erkenntnisse zu gewinnen.

In dieser Arbeit werden auf maschinellem Lernen basierende Lösungen für die expertengesteuerte Entdeckung von Subpopulationen in hochdimensionalen, zeitgestempelten medizinischen Daten vorgeschlagen.

Der erste Teil stellt Workflows vor, um verständliche und unterscheidbare Subpopulationen zu erkennen, die durch Klassifikationsregeln und Cluster beschrieben werden. Wir stellen neuartige Visualisierungen und interaktive Werkzeuge vor, um die hochdimensionalen Subpopulationen zu inspizieren und gegenüberzustellen sowie ihre Veränderung über die Zeit zu vergleichen.

Der zweite Teil befasst sich mit Workflows zur Modellierung zeitlicher Informationen. Wir stellen ein Framework zur Extrahierung von Evolutionsvariablen vor, die die zeitliche Veränderung der Subpopulationen beschreiben. Außerdem wird ein Verfahren zur Erstellung von Repräsentationen aus kurzen zeitlichen Sequenzen vorgestellt.

Der dritte Teil befasst sich mit dem Thema der Post-hoc-Interpretation von komplexen Black-Box-Modellen. Wir stellen einen Ende-zu-Ende-Datenanalyse-Workflow vor, der Schritte zur Datenanreicherung, Modellierung, Verzahnung von Modelltraining mit Variablen-Eliminierung und Post-hoc-Analyse der trainierten Modelle umfasst. Dieser Workflow liefert Kenngrößen und Visualisierungen, die die globale, instanz-individuelle und subpopulationsspezifische Variablenbedeutsamkeit für ein maschinelles Lernmodell jedweden Typs darstellen. Außerdem wird eine Visualisierung von Unterschieden zwischen zwei apriorisch definierten Subpopulationen präsentiert.

Die vorgeschlagenen Methoden werden anhand von Datensätzen aus vier medizinischen Studien evaluiert:

eine longitudinale Bevölkerungsstudie,
eine beobachtende Therapiestudie mit Daten zu Selbstbeurteilungsfragebögen von Tinnitus-Patienten,
ein klinisches Experiment mit zeitgestempelten Plantardruck- und Temperaturaufzeichnungen von Diabetes-Patienten und gesunden Probanden, und
eine retrospektive klinische Studie mit Bilddaten zu intrakraniellen Aneurysmen.

Chapter Progress

1 🏁🏁 Introduction
2 🏁🏁 Medical Background and Datasets

PART I SUBPOPULATION DISCOVERY IN HIGH-DIMENSIONAL DATA

3 🏁🏁 Interactive Discovery and Inspection of Subpopulations
4 🏁🏁 Identification of Distinct Subpopulations
5 🏁🏁 Visual Identification of Informative Features

PART II EXPLOITING DYNAMICS

6 🏁🏁 Extraction of Evolution Features to Capture Change over Time
7 🏁🏁 Extraction of Features From Short Temporal Sequences

PART III POST-MINING FOR INTERPRETATION

8 🏁🏁 Post-Hoc Interpretation of Classification Models
9 🏁🏁 Subpopulation-Specific Learning and Post-Hoc Model Interpretation

PART IV CONCLUSION

10 🏁🏁 Summary and Future Work

Legend:
🏁🏁 = submission-ready
🏁 = feedback from reviewers incorporated
🟢 = (preliminary) draft is ready
🔵 = maturing
🔴 = unwritten

1 Introduction