Ergebnisse

Simple-ML-Übersichtsdiagramm

Minimum Viable Product 1.0

Das MVP 1.0 (Minimum Viable Product) von Simple-ML umfasst diverse Funktionalitäten und Konzepte in den Bereichen Datenvorbereitung, DSL und IDE, die im Folgenden näher erläutert werden:

Datenvorbereitung: Sämtliche ML-Workflows beginnen mit der Bereitstellung und Verarbeitung gegebener Datensätze. Der zugehörige Simple-ML-Datananalyse-Workflow umfasst dabei die folgenden Schritte, die in einem interaktiven und iterativen Prozess in beliebiger Reihenfolge ausgeführt werden können: Auswahl eines oder mehrere Datensätze, Daten-Integration zur Verknüpfung ausgewählter Datensätze beispielsweise anhand eines gemeinsamen Attributs, Feature-Auswahl zur Selektion bestimmter Attribute wie beispielsweise „Fahrzeugtyp“, sowie Feature-Extraktion, bei der anwendungsspezifische Daten extrahiert werden, z.B. der Wochentag eines Datums.

Dieser iterative Prozess wird durch Datenprofile ermöglicht: Datensätze in Simple-ML werden semantisch anhand von Datenprofilen beschrieben, die in der Gesamtheit einen domänenspezifischen Datenkatalog bilden (siehe unten: „Semantischer Datenkatalog”). Auf diese Weise werden in der Folge unter anderem domänenspezifische Anfragen, Validitätsprüfungen und Visualisierungen ermöglicht.

Zuletzt erfolgt die Daten-Materialisierung: Um durch den beschriebenen Prozess erstellte Datensätze permanent zu speichern und wiederverwendbar zu machen, werden sie als neuer Datensatz mit eigenem Datenprofil materialisiert.

DSL (Domain-Specific Language): Die DSL ermöglicht es den Nutzern der Simple-ML-IDE, ML-Modelle für neue Anwendungsszenarien anzuwenden und einzurichten. Die Einrichtung eines entsprechenden ML-Workflows kann innerhalb der Simple-ML-IDE sowohl mit Hilfe der DSL selbst als auch auf graphischer Ebene erfolgen. Ein Workflow beinhaltet Daten-Funktionalitäten (Data Source Specification z. B. zur Beschreibung der Speicherortes der Datensätze innerhalb des oben aufgeführten Daten-Analyse-Workflows), ML-Modelle und deren Klassifizierungsziele.

Die eingerichteten Workflows können gespeichert (Save-Funktionalität) und später für ähnliche oder den gleichen Zweck benutzt werden (Load-Funktionalität). Da die Simple-IDE für verschiedene Nutzer gedacht ist, bietet Simple-ML die Verwendung verschiedener Serialization Formats an, um die Workflows zu speichern oder später zu öffnen, z. B. XML und JSON.

Das MVP 1.0 ermöglicht den Nutzern, ML-Modelle, die in der Scikitlearn-Platform implementiert sind, mit Hilfe der DSL und der IDE in den ML-Workflows zu verwenden.

IDE (Integrated Development Environment): Anhand der DSL können sämtliche Operation der Nutzer in der IDE beschrieben werden. Die definierten Sprachelemente der DSL werden visualisiert, um Nutzern die Beschreibung komplexer ML-Workflows zu ermöglichen und diese anschließend zu kompilieren. Dabei unterscheidet die Visualisierung zwischen DSL-spezifischen und reservierten Sprachelementen.

Damit die Simple-ML-IDE von Nutzern mit unterschiedlicher Expertise genutzt werden kann, wird eine Parametrisierung der Simple-ML-IDE angeboten, mit deren Hilfe bestimmte Funktionalitäten gezielt nur für Teile der Nutzer freigegeben werden können.

Semantischer Datenkatalog

Simple-ML bietet einen Datenkatalog an, der semantische Beschreibungen verschiedener Datensätze im Rahmen eines bestimmten Anwendungsszenarios enthält (z. B. Datensätze aus dem Bereich der Mobilität, siehe Abbildung). Derartige Datenprofile werden in W3C-Standard RDF modelliert. Hierzu stehen zum einen domänenspezfische Datenmodelle zur Verfügung, die relevante Konzepte in der entsprechenden Domäne modellieren (z. B. ein Domänenmodell der Mobilität, das unter anderem Fahrzeugpositionen und Wetterdaten modelliert), zum anderen ein Datenkatalog-Modell, das Zugriff auf die tatsächlichen Datensätze und ihre Attribute ermöglicht (z. B. über Spaltennummern oder die Namen von Datenbanktabellen). Ein Mapping zwischen diesen beiden Modellen ermöglicht es, Attribute im gesamten Simple-ML-Workflow semantische Bedeutung zuzuweisen. So kann beispielsweise sichergestellt werden, dass Positionsdaten tatsächlich als solche erkannt werden und auf einer Karte visualisiert werden können.

By continuing to use the site, you agree to the use of cookies. more information

The cookie settings on this website are set to "allow cookies" to give you the best browsing experience possible. If you continue to use this website without changing your cookie settings or you click "Accept" below then you are consenting to this.

Close