Project:Treffen-T3-20220120: Difference between revisions
Created page with "Anwesend: Moritz Schubotz (T5), Alvaro Ortiz (T5), Tim Conrad (T5), Johannes Stegmüller (T5), Christiane Görgen(T6), Tabea Bacher (T6), Bernd Bischl (T3) Vorstellungsrunde..." |
Initial commit |
||
Line 1: | Line 1: | ||
Anwesend: | Anwesend: Moritz Schubotz (T5), Alvaro Ortiz (T5), Tim Conrad (T5), Johannes Stegmüller (T5), Christiane Görgen(T6), Tabea Bacher (T6), Bernd Bischl (T3) | ||
Moritz Schubotz (T5), Alvaro Ortiz (T5), Tim Conrad (T5), Johannes Stegmüller (T5), Christiane Görgen(T6), Tabea Bacher (T6), Bernd Bischl (T3) | |||
Vorstellungsrunde | ==== Vorstellungsrunde ==== | ||
BB: Mathias Drton unbedingt einladen | BB: Mathias Drton unbedingt einladen. Lehrstuhl überwachtes ML hat 2 Personen eingestellt. Lange Zusammenarbeit mit OpenML (reproducibilty, shareability of ML, library benchmark datasets). Viel Software in R. | ||
Vorstellung MaRDI Portal | ==== Vorstellung MaRDI Portal ==== | ||
https://portal.mardi4nfdi.de/ | https://portal.mardi4nfdi.de/ | ||
Anwendungsfall Vorstellung | * Import Forschungsdaten angefangen. Quellen: DLMF (https://dlmf.nist.gov/), mathematische Software (nur Software aus zbMath). | ||
* Anfragen in SPARQL sind jetzt schon möglich: https://query.portal.mardi4nfdi.de/ | |||
* Wichtig, dass Datensätze "Provenance Information" haben. | |||
* Mediawiki-System und Knowledge Graph waren bis jetzt im Fokus, sind jetzt installiert. | |||
==== Anwendungsfall Vorstellung ==== | |||
BB: T3 baut selber Infrastruktur. Keine konkreten Datensätze, sondern Infrastruktur um Datensätze zu analysieren. Ziel T3 innerhalb MaRDI: Infrastruktur erweitern. | BB: T3 baut selber Infrastruktur. Keine konkreten Datensätze, sondern Infrastruktur um Datensätze zu analysieren. Ziel T3 innerhalb MaRDI: Infrastruktur erweitern. | ||
https://www.openml.org | https://www.openml.org | ||
OpenML (aus der Präsentation beim FAIR Symposium): | OpenML (aus der Präsentation beim FAIR Symposium): | ||
* Inhalte: Datasets, Tasks (Metadaten), Flows, Runs (Modell-Metadata) | * Inhalte: Datasets, Tasks (Metadaten), Flows, Runs (Modell-Metadata) | ||
Line 24: | Line 24: | ||
JS: Silo oder Verknüpfter Ansatz? BB: Beides: Daten werden Verlinkt. Problem: Formatanforderungen sind relativ hart. Umformatierung nötig um zu Linken. | JS: Silo oder Verknüpfter Ansatz? BB: Beides: Daten werden Verlinkt. Problem: Formatanforderungen sind relativ hart. Umformatierung nötig um zu Linken. | ||
Übersicht an ML-Paketen: https://github.com/mlr-org. Sieh | Übersicht an ML-Paketen: https://github.com/mlr-org. Sieh besonders: mlr3-oml Packet. | ||
Vorstellung Requirements | ==== Vorstellung Requirements ==== | ||
TC: Wir sind 1 Projekt. Portal ist ein Katalog der Daten, Publikationen, Resultate, Metadaten etc. Gibt es "spontan" Daten aus T3, die wir im Knowledge Graph übernehmen könnten? | |||
MS: Offene Standards wären wichtig für unser Portal: Suchfunktion, SPARQL Endpoint, APIs, Metadaten sollen auffindbar sein. Langfristig soll das Portal als Einstiegspunkt zur Verfügung stehen. | MS: Offene Standards wären wichtig für unser Portal: Suchfunktion, SPARQL Endpoint, APIs, Metadaten sollen auffindbar sein. Langfristig soll das Portal als Einstiegspunkt zur Verfügung stehen. | ||
BB: | BB: Es gibt Uberschneidungen mit OpenML, warum ein neues Portal? (Riesiger Aufwand, Arbeit ist spezialistisch) | ||
MS: Beispielsfrage "Welcher Datensätze wird verwendet für welchen Task"? "Verknüpfung zwischen Publikationen und Datensätze"? | MS: Beispielsfrage "Welcher Datensätze wird verwendet für welchen Task"? "Verknüpfung zwischen Publikationen und Datensätze"? | ||
BB: Angedacht, Domain-Spezifisch Suchen zu können, aber noch nicht da. Datensätze sind "Tag"-bar. | BB: Angedacht, Domain-Spezifisch Suchen zu können, aber noch nicht da. Datensätze sind "Tag"-bar. | ||
Portal sollte etwas schaffen wovon T3 auch profitiert. | Portal sollte etwas schaffen wovon T3 auch profitiert. | ||
* Publikationen usw. wäre ein guter Anfang. | * Publikationen usw. wäre ein guter Anfang. | ||
Line 45: | Line 43: | ||
* Textmining auf Publikationen nicht unbedingt zielführend. MS: zbMath arbeitet auch so, dauert Jahre. | * Textmining auf Publikationen nicht unbedingt zielführend. MS: zbMath arbeitet auch so, dauert Jahre. | ||
Nächste Termine und Nächste Schritte | ==== Nächste Termine und Nächste Schritte ==== |
Revision as of 14:22, 20 January 2022
Anwesend: Moritz Schubotz (T5), Alvaro Ortiz (T5), Tim Conrad (T5), Johannes Stegmüller (T5), Christiane Görgen(T6), Tabea Bacher (T6), Bernd Bischl (T3)
Vorstellungsrunde
BB: Mathias Drton unbedingt einladen. Lehrstuhl überwachtes ML hat 2 Personen eingestellt. Lange Zusammenarbeit mit OpenML (reproducibilty, shareability of ML, library benchmark datasets). Viel Software in R.
Vorstellung MaRDI Portal
- Import Forschungsdaten angefangen. Quellen: DLMF (https://dlmf.nist.gov/), mathematische Software (nur Software aus zbMath).
- Anfragen in SPARQL sind jetzt schon möglich: https://query.portal.mardi4nfdi.de/
- Wichtig, dass Datensätze "Provenance Information" haben.
- Mediawiki-System und Knowledge Graph waren bis jetzt im Fokus, sind jetzt installiert.
Anwendungsfall Vorstellung
BB: T3 baut selber Infrastruktur. Keine konkreten Datensätze, sondern Infrastruktur um Datensätze zu analysieren. Ziel T3 innerhalb MaRDI: Infrastruktur erweitern.
OpenML (aus der Präsentation beim FAIR Symposium):
- Inhalte: Datasets, Tasks (Metadaten), Flows, Runs (Modell-Metadata)
- Automatische Annotation von Daten (Dimensionen etc.)
- Programmier-Sprache agnostisch. Verschiedene API's (Python, R)
JS: Silo oder Verknüpfter Ansatz? BB: Beides: Daten werden Verlinkt. Problem: Formatanforderungen sind relativ hart. Umformatierung nötig um zu Linken.
Übersicht an ML-Paketen: https://github.com/mlr-org. Sieh besonders: mlr3-oml Packet.
Vorstellung Requirements
TC: Wir sind 1 Projekt. Portal ist ein Katalog der Daten, Publikationen, Resultate, Metadaten etc. Gibt es "spontan" Daten aus T3, die wir im Knowledge Graph übernehmen könnten?
MS: Offene Standards wären wichtig für unser Portal: Suchfunktion, SPARQL Endpoint, APIs, Metadaten sollen auffindbar sein. Langfristig soll das Portal als Einstiegspunkt zur Verfügung stehen.
BB: Es gibt Uberschneidungen mit OpenML, warum ein neues Portal? (Riesiger Aufwand, Arbeit ist spezialistisch)
MS: Beispielsfrage "Welcher Datensätze wird verwendet für welchen Task"? "Verknüpfung zwischen Publikationen und Datensätze"?
BB: Angedacht, Domain-Spezifisch Suchen zu können, aber noch nicht da. Datensätze sind "Tag"-bar.
Portal sollte etwas schaffen wovon T3 auch profitiert.
- Publikationen usw. wäre ein guter Anfang.
- Ontologie für ML-Algorithmen (schwer).
- Reproduzierbarkeit ist sehr schwer in der ML Community. Id's von Datensätzen werden fast nie zitiert.
- Textmining auf Publikationen nicht unbedingt zielführend. MS: zbMath arbeitet auch so, dauert Jahre.