Vorhandene Algorithmen erzeugen eine Lösung für ein Biomarker-Erkennung-Dataset. Dieses Protokoll zeigt die Existenz von mehreren ähnlich effektive Lösungen und stellt eine benutzerfreundliche Software zur biomedizinische Forscher untersuchen ihre Datensätze für die vorgeschlagene Herausforderung helfen. Informatiker können auch dieses Feature in ihren Biomarker Erkennungsalgorithmen vorsehen.
Biomarker-Erkennung ist eines der wichtigeren biomedizinische Fragen für High-Throughput “Omics” Forscher, und fast alle bestehenden Biomarker Erkennungsalgorithmen erzeugen ein Biomarker Teilmenge mit optimierter Performance-Messung für einen bestimmten Datensatz . Eine kürzlich durchgeführte Studie zeigte jedoch, die Existenz von mehreren Biomarker Teilmengen mit ähnlich wirksam oder sogar identische Klassifizierung Aufführungen. Dieses Protokoll stellt eine einfache und unkomplizierte Methode zur Erkennung von Biomarker-Teilmengen mit binären Klassifikation Aufführungen, besser als eine Benutzer-definierten Grenzwert. Das Protokoll besteht aus Datenaufbereitung und laden, Baseline Informationen Verdichtung, tuning-Parameter, Biomarker Screening, Ergebnis-Visualisierung und Interpretation, Biomarker gen Anmerkungen und Ergebnis und Visualisierung Ausfuhr an Publikationsqualität. Die vorgeschlagenen Biomarker screening-Strategie ist intuitiv und zeigt eine allgemeine Regel für Biomarker Erkennungsalgorithmen zu entwickeln. Eine benutzerfreundliche grafische Benutzeroberfläche (GUI) wurde entwickelt, mit Hilfe der Programmiersprache Python, Biomediziner direkten Zugriff auf ihre Ergebnisse zu ermöglichen. Den Quellcode und Handbuch des kSolutionVis können von http://www.healthinformaticslab.org/supp/resources.php heruntergeladen werden.
Binäre Klassifikation, einer der am häufigsten untersuchte und anspruchsvolle Data-mining-Probleme im biomedizinischen Bereich wird verwendet, um ein Klassifizierungsmodell ausgebildet auf zwei Gruppen von Proben mit der genauesten Diskriminierung Power1, bauen 2 , 3 , 4 , 5 , 6 , 7. big Data im biomedizinischen Bereich generiert hat jedoch die inhärente “große kleine PN” Paradigma, mit der Anzahl der Funktionen in der Regel viel größer als die Anzahl der Proben6,8,9. Biomediziner müssen daher die Funktion Dimension vor Nutzung der Klassifizierungsalgorithmen zur Vermeidung von overfitting Problem8,9zu reduzieren. Diagnose-Biomarker sind definiert als eine Teilmenge der erkannten Merkmale von gesunden Proben10,11Patienten einer bestimmten Krankheit zu trennen. Patienten sind in der Regel definiert als die positive Proben und die gesunden Kontrollpersonen sind definiert als der negative Proben12.
Jüngste Studien haben vorgeschlagen, daß es mehr als eine Lösung mit identisch oder ähnlich effektiv Einstufung Leistungen für eine biomedizinische Dataset-5. Fast alle Feature-Auswahl-Algorithmen sind deterministische Algorithmen, produzieren nur eine Lösung für das gleiche Dataset. Genetische Algorithmen können gleichzeitig mehrere Lösungen mit ähnlichen Leistungen erzeugen, aber sie noch versuchen, eine Lösung mit der besten Fitness-Funktion als die Ausgabe für einen bestimmten Datensatz13,14auswählen.
Feature-Auswahl-Algorithmen können etwa als Filter oder Wrapper12gruppiert werden. Ein Filter-Algorithmus wählt Top –k Funktionen geordnet nach ihrer einzelnen signifikante Assoziation mit der binären Klassenbezeichner basiert auf der Annahme, die Funktionen sind unabhängig von einander15,16,17 . Obwohl diese Annahme nicht für fast alle realen Datasets wahr hält, führt die heuristische Filterregel in vielen Fällen zum Beispiel die mRMR (minimale Redundanz und maximale Relevanz) Algorithmus, der Wilcoxon Test basierte Funktion Filtern (WRank) Algorithmus und die ROC (Empfänger Regelkennlinie) Handlung basiert (ROCRank)-Filterung Algorithmus. mRMR, ist eine effiziente Filter-Algorithmus, weil es nähert sich der kombinatorischen Schätzung-Problem mit einer Reihe von viel kleineren Problemen, im Vergleich zu der maximal-Abhängigkeit Feature Auswahlalgorithmus, von denen jede nur zwei Variablen beinhaltet, und Daher nutzt paarweise Joint Wahrscheinlichkeiten sind robuster18,19. Jedoch kann mRMR die Nützlichkeit der einige Funktionen unterschätzen, da es nicht die Interaktionen zwischen Objekten misst die Relevanz steigern können, und so vermisst einige Merkmalskombinationen, die einzeln nutzlos, aber eignen sich nur in Kombination. Der WRank Algorithmus berechnet eine nicht-parametrische Punktzahl wie diskriminierende eine Funktion zwischen zwei Klassen von Proben und ist bekannt für seine Robustheit für Ausreißer20,21. Darüber hinaus wertet der ROCRank-Algorithmus, wie bedeutend die Fläche unter der ROC-Kurve (AUC) eines bestimmten Merkmals für die untersuchten binäre Klassifikation Leistung22,23ist.
Auf der anderen Seite ein Wrapper wertet der vordefinierten Sichter Leistung einer gegebenen Funktion Teilmenge, iterativ durch heuristische Regel erzeugt und schafft die Funktion Teilmenge mit der besten Performance Messung24. Ein Wrapper in der Regel einen Filter in die Klassifizierung Leistung übertrifft aber läuft langsamer25. Beispielsweise verwendet die regularisiert Random Forest (RRF)26,27 Algorithmus gierige in der Regel durch die Auswertung der Features auf eine Teilmenge der Trainingsdaten an jedem zufälligen Wald Knoten, deren Funktion Bedeutung Partituren von der Gini-Index beurteilt werden . Die Wahl eines neuen Features werden benachteiligt, wenn die Informationsgewinnung, die der ausgewählten Features nicht bessert. Darüber hinaus die Vorhersage-Analyse für Microarrays (PAM)28,29 -Algorithmus auch eine Wrapper-Algorithmus berechnet einen Schwerpunkt für jeden der die Klassenbezeichner und wählt dann Eigenschaften gen Zentroide gegenüber der gesamten schrumpfen Klasse-Schwerpunkt. PAM ist robust für vorgelagerten Funktionen.
Mehrere Lösungen mit die höchste Klassifizierung Leistung können für alle angegebenen Dataset erforderlich sein. Erstens das Optimierungsziel eines deterministischen Algorithmus zeichnet sich durch eine mathematische Formel, z.B., minimalen Fehler Rate30, das ist nicht unbedingt ideal für biologische Proben. Zweitens kann ein Dataset mehrere, deutlich verschiedene Lösungen mit ähnlichen wirksam oder sogar identische Leistungen haben. Fast alle vorhandenen Feature Auswahl Algorithmen werden eine der folgenden Lösungen als die Ausgabe31zufällig auswählen.
Diese Studie wird ein Informatik analytische Protokoll für die Erzeugung von mehreren Feature Auswahl Lösungen mit ähnlichen Vorstellungen für jede gegebene binäre Klassifikation Dataset einführen. Wenn man bedenkt, dass die meisten Biomediziner mit informatischen Techniken oder Computer-Codierung nicht auskennen, wurde eine benutzerfreundliche grafische Benutzeroberfläche (GUI) entwickelt, um die schnelle Analyse von biomedizinischen binäre Klassifikation Datasets zu erleichtern. Das analytische Protokoll besteht aus Daten laden und zusammenfassen, tuning-Parameter Pipeline Ausführung und Ergebnis-Interpretationen. Mit einem einfachen Klick kann der Forscher die Biomarker Teilmengen und Publikationsqualität Visualisierung Grundstücke zu generieren. Das Protokoll wurde mit der Transkriptom zwei binäre Klassifikation Datensätze der akute lymphoblastische Leukämie (ALL), d. h., ALL1 und ALL212getestet. Die Datensätze der ALL1 und ALL2 wurden vom Broad Institute Genom Analyse Rechenzentrum, erhältlich bei http://www.broadinstitute.org/cgi-bin/cancer/datasets.cgi heruntergeladen. ALL1 enthält 128 Samples mit 12.625 Features. Von diesen Proben sind 95 B-Zelle alle und 33 sind T-Zell ALL. ALL2 umfasst 100 Proben mit 12.625 Funktionen sowie. Von diesen Proben gibt es 65 Patienten, die Rückfall erlitten und 35 Patienten, die nicht der Fall war. ALL1 war eine einfache binäre Klassifikation Dataset mit einer minimalen Genauigkeit von vier Filter und vier Wrapper, 96,7 % und 6 der 8 Feature Auswahl Algorithmen erreichen 100 %12. Während ALL2 ein schwieriger Dataset mit den oben genannten 8 Feature Auswahl Algorithmen nicht besser als 83,7 % Genauigkeit12zu erreichen war. Diese beste Genauigkeit wurde mit 56 Funktionen erkannt durch den Wrapper-Algorithmus, Korrelation basierende Funktion Auswahl (CFS) erreicht.
Diese Studie bietet eine einfach zu befolgende Multi-Lösung Biomarker Erkennung und Charakterisierung Protokoll für eine benutzerspezifische binäre Klassifikation Dataset. Die Software setzt Schwerpunkt auf Benutzerfreundlichkeit und flexible Import-/Export-Schnittstellen für verschiedene Datei-Formate, so dass biomedizinische Forscher, ihre Dataset einfach über die Benutzeroberfläche der Software zu untersuchen. Dieser Studie betont auch, dass mehr als eine Lösung mit ähnlich effektiv Modellierung Aufführungen,…
The authors have nothing to disclose.
Diese Arbeit wurde durch die strategische Priorität Forschungsprogramm von der chinesischen Akademie der Wissenschaften (XDB13040400) und die Start-Zuschuss von Jilin-Universität unterstützt. Anonymen Gutachtern und biomedizinische Tests Benutzer wurden für ihre konstruktive Kritik zur Verbesserung der Benutzerfreundlichkeit und Funktionalität des kSolutionVis geschätzt.
Hardware | |||
laptop | Lenovo | X1 carbon | Any computer works. Recommended minimum configuration: 1GB extra hard disk space, 1 GB memory, 2.0MHz CPU |
Name | Company | Catalog Number | Comments |
Software | |||
Python 3.0 | WingWare | Wing Personal | Any python programming and running environments support Python version 3.0 or above |