Glossar – CNTR Monitor

a
Application Programming Interface (API)
eine Reihe von Funktionen und Protokollen, die es Software-Anwendungen ermöglichen, miteinander zu kommunizieren, um Daten, Eigenschaften und Funktionen auszutauschen.
b
Biologische Design-Tools (BDT)
Anstatt auf natürlicher Sprache wird ein biospezifisches großes Sprachmodell mit Aminosäuresequenzen oder anderen biologischen Sequenzen trainiert, so dass es selbst biologische Sequenzen erzeugen kann. Diese Werkzeuge können die vorteilhaften Eigenschaften von Biomolekülen erlernen und vielversprechende Kandidaten für Labortests vorschlagen, wodurch sich die Anzahl der Tests verringert, die zur Ermittlung der gewünschten Eigenschaften erforderlich sind. UniRep beispielsweise unterstützt Forschende bei der Entwicklung von Proteinen auf der Grundlage ihrer Funktion, während ESMFold sich auf die Struktur konzentriert, was sowohl zur effizienteren Entwicklung besserer Therapien als auch zur Verbesserung der Proteinentwicklung für eine effizientere Bioproduktion beiträgt. Diese Instrumente werden mit biologischen Daten trainiert und unterstützen die Entwicklung neuer Proteine oder anderer biologischer Wirkstoffe. Beispiele hierfür sind RFDiffusion sowie Proteinsprachmodelle wie ProGen2. Sie haben das Potential, die Entwicklung und das Design von Proteinen voranzutreiben, um wichtige Probleme für die menschliche Gesundheit und die Umwelt zu lösen.

Bystander-Tumorzellen
Benachbarte Tumorzellen.
c
Chimäre (Zellen)
Zellen mit anderen Genen als der Rest eines Organs oder Gewebes.

CRISPR (Clustered regularly interspaced palindromic repeats)
Technologie, mit der Teile des Genoms durch Entfernen, Hinzufügen oder Verändern von Abschnitten der DNA-Sequenz bearbeitet werden können. Die Technologie umfasst zwei Kernkomponenten: eine Leit-RNA, die mit dem Zielgen übereinstimmt, und eine Endonuklease, in der Regel das CRISPR-assoziierte Protein 9 (Cas9) – ein Enzym, das das DNA-Rückgrat spaltet, was einen Doppelstrangbruch in der DNA verursacht und so Änderungen am Genom ermöglicht.
d
Daten und Training (KI)
Eine current-generation KI wird mit Hilfe von Daten trainiert, die auf die zu erzielende Problemlösungsfähigkeit zugeschnitten sein müssen. Diese Daten können in Form von Texten, Bildern, Videos oder anderen Informationen vorliegen. Ein Teil dieser Daten wird dabei im sogenannten Trainingsprozess verwendet, bei dem die Daten sukzessive durch die KI verarbeitet werden, was zu einer Anpassung der Datenspeicher-Struktur der KI führt. Der restliche Teil der Daten wird abschließend verwendet, um die Ergebnisse des Trainingsprozess zu prüfen. Aufgrund der Bedeutung der Daten für die späteren Ergebnisse der KI kommt der Qualität und der Verfügbarkeit von Trainingsdaten eine erhebliche Rolle zu, die oft durch spezialisierte Unternehmen zusammengestellt, von Hand kuratiert und entsprechend am Markt als wirtschaftliches Gut angeboten werden.

DNA-Polymerase
Enzym, das längere Ketten von DNA-Molekülen synthetisiert.

DNA-Primer (für PCR)
Kurze DNA-Abschnitte, die so konstruiert sind, dass sie komplementär zum Anfang und Ende der Zielsequenz in der Probe sind.
e
Einzelnukleotid-Polymorphismus (Single nucleotide polymorphism, SNP)
Eine Variation auf einer einzelnen Nukleotidposition in einer DNA-Sequenz, die zwischen verschiedenen Organismen auftritt.

Entscheidungsbäume
Entscheidungsbäume sind eine Variante von Datenstrukturen zum Speichern von Wissen, bei der eine Baum-Struktur als Modell verwendet wird, um Schlussfolgerungen aus den Beobachtungen zu ziehen, die im Trainingsdatensatz enthalten sind. Gelernte Regeln werden durch Knoten und Zweige des Baums repräsentiert und Schlussfolgerungen durch seine Blätter. Nach dem Training kann man das Modell auch dazu verwenden, explizit und graphisch die Regeln darzustellen, die zu einer Entscheidung führen.

Evolutionärer Algorithmus
Evolutionäre Algorithmen sind eine Variante der sogenannten genetischen Algorithmen, also Optimierungsverfahren, die auf den Prinzipien der natürlichen Evolution basieren. Mit ihrer Hilfe lassen sich Lösungen auf Basis stochastischer Verfahren optimieren, indem Mechanismen der natürlichen Evolution wie Selektion, Mutation, Kreuzung und „Survival of the fittest“ nachgebildet werden. Auch bei evolutionären Algorithmen wird eine Lösung für ein Problem aus dem System heraus gebildet und nicht deterministisch vorgegeben.
g
Ganzgenomsequenzierung (Whole Genome Sequencing, WGS)
Verfahren zur Bestimmung (fast) der gesamten DNA-Sequenz des Genoms eines Organismus.

Genomik
Untersuchung der Gesamtheit aller Gene im Erbgut einer Zelle. Während sich die Genetik mit einzelnen Genen befasst, untersucht die Genomik das gesamte Genom (alle Gene eines Organismus) und wie es durch die Umwelt beeinflusst wird.

GPU und KI-Chips
Die GPU (Graphic Processing Unit – Grafikverarbeitungseinheit) ist ein spezialisierter Rechenchip, der ursprünglich zur Beschleunigung von Computergrafiken und Bildverarbeitung in PCs, Smartphones und Spielkonsolen entwickelt wurde. Aufgrund ihrer Fähigkeit zur massiv parallelen Berechnung von Algorithmen eignen sich GPUs auch für nichtgrafische Anwendungen wie das Training neuronaler Netze und das Mining von Kryptowährungen. Im Gegensatz zur sogenannten CPU (Central Processing Unit), die als Schaltzentrale eines Computers verstanden werden kann, sind GPUs in aller Regel auf den dauerhaften Betrieb unter Volllast optimiert und erzeugen dabei entsprechende elektrische Leistung im Umfang von mehreren hundert Watt, mit dem entsprechenden Strom- und Kühlungsbedarf. Aufgrund des massiven Booms werden GPUs zunehmend auch spezifisch auf die Anwendungen für KI optimiert und als vollständige Geräteeinheiten produziert, die zu Hunderten oder Tausenden in spezialisierten Rechenzentren zusammengeschaltet werden können. Solche Geräteeinheiten können dauerhafte Leistungsaufnahmen von mehr als 1000 Watt erreichen, was die benötige Stromversorgung und Kühlung der Rechenzentren erheblich beeinflusst.
k
KI-Agent
Softwareprogramm, das in der Lage ist, mit seiner Umgebung zu interagieren, Daten zu sammeln und diese zu nutzen, um Aufgaben zu erfüllen, die auf bestimmte Ziele ausgerichtet sind. Während der Mensch die Ziele festlegt, entscheidet die KI autonom über die zur Erreichung dieser Ziele erforderlichen Maßnahmen.

KI-Modell
Das fertige Ergebnis der Lernphase einer KI wird als Modell bezeichnet und enthält die aus den im Lernprozess verwendeten Informationen erlernten Zusammenhänge. Dieses Wissen liegt jedoch nicht in Form explizit deterministischer Wenn-Dann-Regeln vor, sondern ist implizit in der Datenstruktur der KI und deren inneren Verknüpfungen enthalten. Eine solche KI wird daher als Black-Box betrachtet, deren innere Datenverarbeitung nicht ohne erhebliche technische Zusatzaufwände nachvollziehbar ist (die sogenannte Explainability). Modelle sind entweder vollständig angelernt und für den produktiven Einsatz bereit oder in Form sogenannter „Foundation Modells“ zwar für bestimmte Fähigkeiten geübt, die aber noch durch weitere Lernphasen auf einen bestimmten Anwendungskontext hin optimiert werden müssen.

KI-Modellgewicht
das gespeicherte Wissen, das ein Modell erworben hat. Technisch gesehen sind diese Gewichte numerische Werte, die das Modell während der Berechnungen verwendet, um auf Anfragen zu antworten. Wichtiger ist jedoch, dass diese Gewichte alles, was das Modell gelernt hat, und alle Informationen, die es besitzt, zusammenfassen.

Kulturenbasierte mikrobielle Techniken
Kultivierung mikrobieller Organismen durch Vermehrung in einem vordefinierten Nährmedium unter kontrollierten Laborbedingungen. Nicht alle Mikroorganismen wachsen unter diesen Bedingungen.

Künstliche Intelligenz (KI) und Maschinelles Lernen (ML)
Als künstliche Intelligenz werden Verfahren aus einem Teilbereich der Informatik bezeichnet, bei denen der Ansatz verfolgt wird, die menschliche Repräsentation von Wissen oder das menschliche Schlussfolgern auf Grundlage von bekannten Fakten in Computeralgorithmen und Berechnungen nachzubilden. Die bekannteste Form von Künstlicher Intelligenz ist das sogenannte Maschinelle Lernen (ML), bei der die Regeln einer Datenverarbeitung – also des Erzeugens einer Ausgabe eines Programms auf Grundlage einer Eingabe – nicht von Anfang an fest durch den Programm-Code vorgegeben sind, sondern durch einen schrittweise Prozess des Trainings durch den Computer selbst erlernt werden. Andere KI-Ansätze wie symbolische KI, Entscheidungsbäume und evolutionäre Algorithmen spielen vor allem in spezifischen Anwendungen eine Rolle. Eine KI besteht in aller Regel aus einem definierten Algorithmus, der als Lernverfahren vorgibt, wie Informationen zum Lernen verarbeitet werden, und einer Datenstruktur, in welcher das erlernte Wissen und die identifizierten Wissenszusammenhänge gespeichert werden.

Künstliche neuronale Netze (KNN) und Deep Learning (DL)
Bei künstlichen neuronalen Netzen werden die Funktionsweisen menschlicher neuronaler Zellen und deren Interaktionen nachgestellt. Das technische Grundprinzip von KNN basiert, unabhängig vom eigentlichen Einsatzzweck, auf einer Datenstruktur zur Speicherung und Verarbeitung von Informationen, vergleichbar mit den Systemen, wie sie für das Cloud-Computing verwendet werden. Diese Datenstruktur wird mithilfe umfangreicher, auf die zu erzielende Problemlösungsfähigkeit zugeschnittener Daten in einem sogenannten Trainingsprozess angelernt. Das bekannteste und wichtigste Lernverfahren ist Deep Learning (DL). Dabei wird die Struktur sukzessiv verändert, bis hin zum sogenannten Modell, also der fertigen Struktur, die zu einer Eingabe jeweils die gewünschte Ausgabe erzeugt. Deren komplexe Verknüpfung ist in der Lage, umfangreiche Daten zu verarbeiten und komplexe Datenmuster und Wissenszusammenhänge zu erlernen. KNN und DL gehören aktuell zu den wichtigsten Formen von KI.
l
Lipidomik
Untersuchung der Lipidzusammensetzung biologischer Proben. Mikroben enthalten eine Reihe charakteristischer Lipide und Lipoproteine, was den schnellen Nachweis von Krankheitserregern mit massenspektrometrischen Systemen unterstützt.

LLM, LMM und AGI
Je nach Art der verwendeten Trainingsdaten und Form der möglichen Nutzerinteraktion einer KI unterscheidet man verschiedene Typen. Bei „Large Language Modells“ (LLM) werden Textdaten zum Training und für die Ausgaben verwendet; Nutzer*innen chatten also mit der KI. Bei „Large Multimodal Modells“ (LMM) werden auch Bild-, Video-, und Audiodaten im Training sowie für die Interaktion zwischen KI und Nutzer*in verwendet; die KI ist also in der Lage, unterschiedliche Medien zu verarbeiten und ihrerseits herzustellen. Angesichts der Geschwindigkeit des technologischen Fortschritts sind diese Grenzen jedoch fließend, je nach Anforderung des Anwendungsgebietes. Der nächste große Schritt, an dem Tech-Unternehmen arbeiten, besteht in der Vision einer sogenannten „Artificial General Intelligence“ (AGI), die nicht mehr auf eine bestimmte Problemlösung optimiert ist, sondern ein hochgradig flexibles künstliches System sein soll, das in allen Bereichen menschlichen kognitiven Fähigkeiten gleichwertig oder überlegen ist. Eine AGI soll dabei in der Lage sein, sich auf Problemstellung einzustellen und Lösungen zu entwickeln, ohne für diese spezifisch trainiert worden zu sein.
m
Massenspektrometrie (MS)
Ein analytisches Instrument zur Messung des Masse-Ladungs-Verhältnisses (das Verhältnis der Masse eines Ions zu seiner Ladung) eines oder mehrerer Moleküle in einer Probe. Dazu wird das Material in der Ionisierungsquelle ionisiert und das Masse-Ladungs-Verhältnis genutzt, um die entstandenen Ionen zu trennen. Sowohl für die Ionisierung als auch für die Ionenanalyse stehen unterschiedliche Technologien zur Verfügung, sodass es viele verschiedene Arten von Massenspektrometern mit unterschiedlichen Kombinationen dieser beiden Verfahren gibt.

Metagenomik
Metagenomische Sequenzierung beinhaltet die Sequenzierung aller mikrobiellen und Wirtsnukleinsäuren in einer Probe ohne vorherige Selektion.
n
Next Generation Sequencing (NGS)
Methode zur Analyse von genetischem Material, die eine schnelle Sequenzierung großer Mengen von DNA oder RNA ermöglicht. Im Vergleich zu herkömmlichen Sequenzierungstechniken (z. B. Sanger-Sequenzierung) kann NGS Millionen kleiner DNA-Fragmente gleichzeitig sequenzieren.

NGS-Bibliothek
Methode zur Analyse von genetischem Material, die eine schnelle Sequenzierung großer Mengen von DNA oder RNA ermöglicht. Im Vergleich zu herkömmlichen Sequenzierungstechniken (z. B. Sanger-Sequenzierung) kann NGS Millionen kleiner DNA-Fragmente gleichzeitig sequenzieren.

Nukleinsäure-Panel
Diagnostischer Test, bei dem mehrere Nukleinsäuresequenzen (DNA oder RNA) gleichzeitig untersucht werden, um verschiedene Organismen oder genetische Marker in einer einzigen Probe nachzuweisen und zu identifizieren. Diese Art von Test wird häufig in der medizinischen Diagnostik eingesetzt, um schnell das Vorhandensein mehrerer Krankheitserreger wie Viren, Bakterien oder Pilze nachzuweisen oder um genetische Variationen im Zusammenhang mit bestimmten Krankheiten oder Zuständen zu bewerten. Nukleinsäure-Panels liefern umfassende Informationen, die bei der genauen Diagnose, der Behandlungsplanung und der Überwachung von Krankheiten helfen können. Im Gegensatz zur Metagenomanalyse sind Vorkenntnisse über den (mikrobiellen) Erreger erforderlich.

Nukleinsäuren
RNA oder DNA, ein längeres Molekül, das aus Nukleotiden besteht.

Nukleotid
Grundbaustein der Nukleinsäuren (ein Monomer).
p
Pathogen-Agnostizismus
eine Diagnose-, Sequenzierungs- oder Nachweismethode, mit der alle Krankheitserreger nachgewiesen werden können.

Peptid-Massen-Fingerprinting (PMF)/Protein-Fingerprinting
ein analytisches Verfahren zur Bestimmung von Proteinen. Das Protein wird zunächst in kleinere Peptide gespalten, deren absolute Massen dann mit einem Massenspektrometer wie MALDI-TOF gemessen werden.

Polymerase-Kettenreaktion (PCR)
eine Labortechnik zur Herstellung (oder Vervielfältigung) von Millionen bis Milliarden von Kopien eines bestimmten DNA-Abschnitts, der dann genauer untersucht werden kann. Dazu werden PCR-Primer benötigt. Es handelt sich dabei um kurze, einzelsträngige DNA-Abschnitte, die so konstruiert sind, dass sie zum Anfang und zum Ende der zu vervielfältigenden Zielsequenz komplementär sind.

Proteomik
Untersuchung aller von der Zelle produzierten Proteine und ihrer Lage. Auf diese Weise kann eine 3D-Proteinkarte der Zelle erstellt werden, die Aufschluss über die Proteinregulation liefert.
r
Red Teaming (im KI-Kontext)
ein interaktives Verfahren zum Testen von KI-Modellen, das schädliches Verhalten wie die Preisgabe sensibler Daten und die Erzeugung toxischer, voreingenommener oder sachlich falscher Inhalte verhindern soll.
s
Shotgun-Sequenzierung
Methode, bei der DNA-Sequenzen nach dem Zufallsprinzip in viele kleine Teile zerlegt werden, die dann einzeln sequenziert und anschließend wieder zusammengesetzt werden, indem nach Überlappungsbereichen gesucht wird.

Stroma
Teil eines Gewebes oder Organs mit einer strukturellen und/oder bindegewebigen Funktion, der aus Bindegewebe, Blutgefäßen, Lymphgefäßen und Nerven besteht.

Symbolische KI
Bei der Symbolischen KI spricht man von einem Ansatz aus der Top-down-Perspektive. Er kann verwendet werden, wenn ein festes und vollständig bekanntes Regelwerk vorhanden ist. Mittels mathematischer Logik kann so aus den Vorgaben neues Wissen generiert werden. Deshalb wird sie auch als „Wissensbasierte KI“ bezeichnet. Die Symbolische KI stößt allerdings dort an ihre Grenzen, wo Menschen sie nicht mit korrektem und konsistentem Wissen füttern können. Außerdem können Symbolische KIs sehr große Zustandsräume, wie etwa beim Beispiel des Brettspiels Go, bei dem es etwa 10^170 mögliche Konstellationen gibt, nicht verarbeiten und daher in solchen Fällen nicht verwendet werden.

Synthetische Biologie
Wissenschaftszweig, in dem Organismen oder die Biomoleküle von Organismen auf genetischer Ebene umgebaut werden, um ihnen neue Eigenschaften zu verleihen.
t
Transgenprodukt
Zelle oder Organismus, dessen Genom durch Einführung fremder DNA-Sequenz(en) verändert worden ist.
v
Virale Assemblierung
Während der Replikation des Virus lagern sich Proteine um die virale Nukleinsäure und bilden schließlich ein Kapsid.

Virale Kapsid-Bibliothek
Genomische Bibliothek, die zur Herstellung von Viruskapsiden (den Proteinzellen der Viren) verwendet wird.

Viraler Vektor
Modifiziertes Virus, das dazu bestimmt ist, genetisches Material in die Zellen einzuschleusen.

Virustiter
Virenkonzentration; Anzahl der Viruspartikel, die in eine Wirtszelle eindringen können.
w
Wire Arc Additive Manufacturing
Wire Arc Additive Manufacturing kombiniert die Technologie des Gas-Metall-Lichtbogenschweißens mit dem Verfahren der additiven Fertigung. Vereinfacht ausgedrückt werden Metallschichten von einem Roboter übereinander geschweißt, um das gewünschte Design zu realisieren.
x
XAI – Explainable Artificial Intelligence
Ansätze der Erklärbaren Künstlichen Intelligenz sollen der „Black Box“-Tendenz des maschinellen Lernens entgegenwirken, also dem Umstand, dass bei einer KI nicht ersichtlich ist, warum sie zu einer bestimmten Entscheidung gelangt ist. Obgleich man bei einer KI das Modell und dessen Verarbeitung von Anfragen einsehen kann, lassen sich daraus im Kontrast zu deterministischen Verfahren, bei denen ein Algorithmus eine feste Wenn-Dann-Verarbeitungsabfolge vorgibt, keine Rückschlüsse auf den eigentlichen Schlussfolgerungsprozess schließen. Eine Erklärbarkeit von Entscheidungen, die eine „Zur Eingabe (a) wurde das Ergebnis (b) erzeugt auf Grundlage der erlernten Fakten (X) und (Y)“, wie sie bei menschlicher Kommunikation üblich ist, kann damit nicht erreicht werden. XAI-Ansätze sollen als Erweiterung eines KI-Modells diese Schlussfolgerungsketten sichtbar machen.

a

b

c

d

e

g

k

l

m

n

p

r

s

t

v

w

x