Zum Inhalt wechseln

Wie Computer Vision die Wirkstoffforschung revolutionieren kann

Technology

25 Juli 2022 - 7 Minuten lesen

1818 #3 German UK BP Healthcare Campaign 1000X563 (1)
Marcel Falkiewicz Leader of Data Science

Marcel ist Psychologe und hat einen Ph.D.-Abschluss in Biologie. Während seiner akademischen Laufbahn spezialisierte er sich auf Magnetresonanztomographie. Mittlerweile entwickelt er seit über 3 Jahren kommerzielle Machine-Learning-Projekte.

Alle Beiträge von Marcel anzeigen

1394 DE Resources Thumbs

Teilen

Inhaltsverzeichnis

  1. Deep-Learning-Revolution
  2. Wirkstoffforschung im Frühstadium
  3. Der klassische Computer-Vision-Ansatz
  4. Mensch-Maschine-Kooperation

Deep-Learning-Revolution

Die Wirkstoffforschung ist ein mehrstufiger, komplexer und extrem kostspieliger Prozess. Es dauert ungefähr 12-15 Jahre, um ein einzelnes neues Medikament von der Entdeckung bis zur Markteinführung zu entwickeln und kann 1 bis 2 Milliarden Dollar kosten. Pharmaunternehmen sind bestrebt, den Wirkstoffforschungsprozess zu verkürzen und seine Kosten zu senken. Ein sehr vielversprechendes Tool in diesem Bereich ist das maschinelle Lernen (ML).

Computer waren schon immer sehr gut in der Verarbeitung strukturierter, tabellarischer Daten. Die Verarbeitung von unstrukturierten Daten wie Bilder, Ton und freiem Text war jedoch immer eine Herausforderung. Künstliche neuronale Netzwerke haben die Fähigkeit von Computern revolutioniert, um unstrukturierte Daten zu verstehen – z. B. Sprachen, Aussprache und Bilder. Spezifische Architekturen neuronaler Netze haben herkömmliche Ansätze in diesen Bereichen, die auf von Menschen erfundenen Algorithmen basieren, übertroffen. Die Genauigkeit der Objekterkennung durch neuronale Faltungsnetzwerke (Convolutional Neural Networks) hat den Menschen bereits übertroffen. Abgesehen von der Fähigkeit solcher Netzwerke, große Mengen an Bildern zu indizieren und sie so per Text durchsuchbar zu machen, bieten sie ein mächtiges Werkzeug, um Wissenschaftlern zu helfen Medikamente schneller zu entdecken.

Wirkstoffforschung im Frühstadium

In diesem Artikel werde ich mich auf einen spezifischen Prozess der Wirkstoffforschung im Frühstadium konzentrieren, bei dem die Wissenschaftler Wirkstoffkandidaten an künstlichen Zellkulturen testen. Die Zellen werden auf Mikroplatten gezüchtet, die aus Dutzenden oder Hunderten von Wells (viele voneinander isolierte Näpfchen) bestehen. Jedes mit Zellen besetzte Näpfchen wird mit einer spezifischen Dosis des Wirkstoffkandidaten behandelt. Die Wissenschaftler interessieren sich für die Reaktion und Wirkungsweise von Verbindungen. Sie könnten beispielsweise daran interessiert sein, ob die Verbindung vom Zellkern internalisiert wird. Um das zu überprüfen, markieren sie auch bestimmte Zellkompartimente mit Fluorochrome. Dadurch können die Zellen unter einem speziellen Mikroskop sichtbar gemacht werden. Mit den neuesten High-Content-Screening-(HCS)-Mikroskopen kann ein einziges Experiment Bilder von Millionen von Zellen liefern. Ein einzelnes Experiment kann Dutzende oder sogar Hunderte von Platten umfassen und es ist unmöglich von einem Menschen manuell bearbeitet zu werden.

Der klassische Computer-Vision-Ansatz

Computer-Vision-Tools, die noch vor der Deep-Learning-Revolution entwickelt wurden, boten eine Lösung für das Datenvolumen-Problem. Der Wissenschaftler war mit einer Reihe von Algorithmen ausgestattet, mit denen er die Daten verarbeiten konnte. Man kann sich diese Algorithmen als eine Reihe von Werkzeugen vorstellen, mit denen das Rohmaterial (Mikroskopbilder) verarbeitet werden kann. Wenn es dem Wissenschaftler gelang, die richtigen Werkzeuge zu finden und sie in der richtigen Reihenfolge anzuwenden, könnte er oder sie ein bestimmtes Merkmal isolieren, das die vom Medikament betroffenen Zellen von den nicht betroffenen unterscheidet. Wenn alles funktionierte, war der Rest nur noch eine Frage des Zählens der betroffenen und nicht betroffenen Zellen. Es gibt jedoch mehrere Probleme, die mit dem klassischen Computer-Vision-Ansatz verbunden sind.

Zuerst benötigt jedes Experiment eine spezifische Pipeline, ausgelegt dafür, dieses Experiment (oder auf Englisch auch „Assay“ genannt) zu handhaben. Das Erstellen von Pipelines ist ein zeitaufwendiger Prozess und erfordert umfangreiches Fachwissen. Zweitens ist der Wissenschaftler nach dem Design der Pipeline in der Regel nur in der Lage, an einer kleinen Teilmenge von Daten, ihre Wirksamkeit visuell zu überprüfen. Dadurch muss davon ausgegangen werden, dass es sich mit den nicht sichtbaren Daten gleichermaßen verhält. Manchmal führt dies dazu, dass kontaminierte Näpfchen aus der ungesehenen Datenteilmenge und falsche Ergebnisse von anderen aufgenommen werden, was die Korrektheit der aus dem Experiment gesammelten Informationen beeinträchtigt. Drittens werden die Daten automatisch dort gespeichert wo die Pipeline ausgeführt wurde - normalerweise ist das der PC des Wissenschaftlers oder ein Remote-Server. Daten werden in einem Ordner gespeichert und stehen anderen Wissenschaftlern nicht zur Verfügung, es sei denn, es wurden spezielle Data Governance-Verfahren entwickelt. Dies erschwert das Teilen der Ergebnisse. Viertens sind solche Tools in der Regel nicht für eine parallele Verarbeitung einer großen Anzahl von Daten geeignet. Dies führt zu einer sehr langen Verarbeitungszeit, die aufgrund fehlender Ressourcen, z. B. Arbeits- oder Festplattenspeicher, unerwartet ausfallen kann.

Computer-Vision-Tools, die auf künstlichen neuronalen Netzwerken basieren, können fast alle oben genannten Probleme lösen. Diese Aussage kann überraschen, insbesondere wenn wir die Expertise bedenken, die für den Aufbau und das Training neuronaler Netze erforderlich ist. Neuronale Netzwerke sind bereits ein fester Bestandteil unseres Alltags – sie versuchen Ihnen relevante Anzeigen auf Ihren bevorzugten sozialen Medien anzuzeigen und in jedem Online-Shop filtern sie Inhalte, die Ihnen auf Ihrem bevorzugten Video-Streaming-Dienst gezeigt werden, identifizieren Ihre Freunde auf den Bildern, die Sie machen und vieles mehr. Dies ist Ihnen jedoch möglicherweise gar nicht bewusst, da alles hinter den Kulissen verborgen und nahtlos in die von Ihnen verwendete Software integriert ist. Ich werde argumentieren, dass diese Tools genauso in die wissenschaftliche Datenanalyse integriert werden können - versteckt hinter den Kulissen und nur die für Wissenschaftler relevante Ergebnisse liefern - so sollte die Revolution in der Gesundheitsbranche aussehen.

Mensch-Maschine-Kooperation

Der Wechsel hin zur Datenverarbeitung mit Hilfe von Deep Learning führt auch zu einer sehr tiefgreifenden philosophischen Veränderung der Beziehung zwischen dem Wissenschaftler und der Software, welche zur Analyse der Daten verwendet wird. Beim traditionellen Ansatz war der Wissenschaftler mit einer Reihe von Tools ausgestattet und war für deren Anwendung verantwortlich. Mit dem Deep Learning-basierten Ansatz verfügt der Wissenschaftler über einen Assistenten, der in der Lage ist, das relevante Wissen aufzunehmen und damit riesige Datenmengen zu verarbeiten. Eine richtig gestaltete Benutzeroberfläche kann dem Wissenschaftler die Ergebnisse dann auf eine Weise präsentieren, wodurch Produktivität maximiert und gleichzeitig die Fehlerwahrscheinlichkeit minimiert wird. Aber wie kann dies erreicht werden?

Einfach ausgedrückt können wir uns ein neuronales Netzwerk für Computer Vision als einen zweistufigen Prozess vorstellen. Als erstes verwandelt es Bilder in einen Satz von Zahlen, der kleiner ist als die Anzahl der Pixel im Bild (andernfalls könnten wir einfach alle Pixel nehmen). Jede dieser Zahlen sollte ein einzelnes Merkmal des Bildes kodieren – zum Beispiel die Form der Zelle oder die Helligkeit der Zellmembran. Zweitens werden diese Zahlen kombiniert, um eine Vorhersage über die Zellklasse oder den Phänotyp zu treffen. Das Hauptmerkmal des neuronalen Netzes besteht darin, dass es aus den Daten der beiden oben genannten Aufgaben lernt. Unter den richtigen Umständen kann das Netzwerk auf neue, nicht sichtbare Daten verallgemeinern und diese entsprechend verarbeiten.

Dies ist ganz anders als die traditionellen Datenverarbeitungs-Pipelines, welche die Wissenschaftler früher aufbauten. Im Gegensatz zu den traditionellen Pipelines, die den Aufbau einer Verarbeitungspipeline für jeden Datensatz erfordern, bietet ein neuronales Netzwerk Flexibilität und kann sich an eine Vielzahl von Datensätzen anpassen. Der Wissenschaftler muss nichts über die Architektur des Netzwerks wissen – er muss nur relevante Beispiele von Zellen liefern, die eine biologisch wertvolle Gruppe darstellen und das Netzwerk kümmert sich um den Rest. Das Problem könnte jedoch in der Kennzeichnung der Daten liegen. Normalerweise werden riesige Datenmengen benötigt, um neuronale Netze richtig zu trainieren. Glücklicherweise bietet maschinelles Lernen Tools, um dieses Problem anzugehen.

Es gibt Verfahren, um Bilder in einen kleinen Satz relevanter Zahlen umzuwandeln (d. h. die erste Stufe der Verarbeitung auf der Grundlage eines neuronalen Netzwerks), ohne sie in Schubladen zu stecken. Sie fallen in die Kategorie der unüberwachten oder selbstüberwachten Methoden und sind in der Machine-Learning-Community ein Hot Topic in der Forschung. Die Anwendung dieser Techniken kann den ersten Schritt im Convolutional Neural Network angehen – die Umwandlung von Bildern in Zahlen. Es bietet eine Form des Vortrainings, das den Lernprozess beschleunigt. Außerdem stellt sich heraus, dass einige Beispiele wichtiger sind als andere, obwohl große Datenmengen erforderlich sind, um ein Netzwerk von Grund auf neu zu trainieren. Wenn die richtigen ausgewählt werden, kann die Anzahl der zum Trainieren des Netzwerks erforderlichen Beispiele erheblich reduziert werden. Spezielle Algorithmen werden entwickelt, um geeignete Beispiele auszuwählen. Der Wissenschaftler befindet sich in einem iterativen Prozess, bei dem er oder sie Beispiele mit vorgeschlagenen Labels abfragt.

Am Anfang sind die Kennzeichnungen (Labels) zufällig, also muss der Wissenschaftler sie korrigieren. Bei der nächsten Abfrage versucht der Algorithmus die Klassifizierung anderer Bilder vorherzusagen, die zuvor nicht gekennzeichnet wurden, und wählt die Bilder aus, über die er am meisten verwirrt ist. Es folgt eine weitere Kennzeichnungsrunde. Der Wissenschaftler kann den Prozess beenden, wenn er sieht, dass die Abfrage eine ausreichende Anzahl korrekter Zuordnungen enthält. Der Wissenschaftler hatte immer noch nur eine kleine Teilmenge der Daten gesehen. Wie kann er also sicher sein, dass alle Daten korrekt verarbeitet wurden - ob der Algorithmus verallgemeinert wurde?

Eine Möglichkeit dies zu überprüfen, besteht darin, ALLE verarbeiteten Daten zu visualisieren. Wir können spezielle Techniken verwenden, um jede einzelne Zelle als Punkt auf einem zweidimensionalen Diagramm darzustellen. Ähnliche Zellen sollten nahe beieinander gruppiert werden. Falsch markierte Zellen bilden separate Cluster, die leicht erkannt und mit wenigen Mausklicks eliminiert werden können.

Das obige Verfahren erfordert nicht, dass der Wissenschaftler die Feinheiten der tiefen neuronalen Netze lernt, die eine solche Lösung antreiben. Tatsächlich besteht die Aufgabe des Wissenschaftlers darin, einen Teil seines Wissens auf den Algorithmus zu übertragen. Der Wissenschaftler erhält eine intuitive Ausgabe, die es ermöglicht, Ausreißer und unerwartete Muster in den Daten leicht zu erkennen. Somit dient das neuronale Netz bei einem solchen Ansatz als unermüdlicher Assistent des Wissenschaftlers, der in der Lage ist, von dem Wissenschaftler zu lernen und dabei nur relevante Fragen zu stellen.

Wir glauben, dass die Zukunft in der Mensch-Maschine-Kooperation liegt. Software im Gesundheitswesen, oder wie hier Algorithmen des maschinellen Lernens werden nicht die jahrelange Ausbildung ersetzen, die für die Entwicklung von Medikamenten erforderlich ist, sondern können den Wissenschaftlern erheblich helfen, riesige Datenmengen zu verarbeiten. Gleichzeitig erfordern sie, wenn sie mit der richtigen Benutzeroberfläche kombiniert werden, keine Monate oder Jahre damit, sich über den Aufbau, das Training und die Optimierung von künstlichen neuronalen Netzwerken zu informieren. Es ist nur eine Frage der Zeit, wann maschinelle Lernalgorithmen in allen Phasen der Arzneimittelforschung präsent sein werden, von der frühen Laborforschung bis hin zu klinischen Studien im Spätstadium.

1394 DE Resources Thumbs
Marcel Falkiewicz Leader of Data Science

Marcel ist Psychologe und hat einen Ph.D.-Abschluss in Biologie. Während seiner akademischen Laufbahn spezialisierte er sich auf Magnetresonanztomographie. Mittlerweile entwickelt er seit über 3 Jahren kommerzielle Machine-Learning-Projekte.

Alle Beiträge von Marcel anzeigen

Was Sie noch interesieren könnte

Kontakt

Starten Sie Ihr Projekt mit Objectivity

CTA Pattern - Contact - Middle