Project:Treffen-T3-20220120

From MaRDI portal
Revision as of 14:17, 20 January 2022 by Admin (talk | contribs) (Created page with "Anwesend: Moritz Schubotz (T5), Alvaro Ortiz (T5), Tim Conrad (T5), Johannes Stegmüller (T5), Christiane Görgen(T6), Tabea Bacher (T6), Bernd Bischl (T3) Vorstellungsrunde...")
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)

Anwesend: Moritz Schubotz (T5), Alvaro Ortiz (T5), Tim Conrad (T5), Johannes Stegmüller (T5), Christiane Görgen(T6), Tabea Bacher (T6), Bernd Bischl (T3)

Vorstellungsrunde BB: Mathias Drton unbedingt einladen BB: Lehrstuhl überwachtes ML. 2 Personen eingestellt. Lange Zusammenarbeit mit OpenML (reproducibilty, shareability of ML, library benchmark datasets). Viel Software in R.

Vorstellung MaRDI Portal https://portal.mardi4nfdi.de/ Import Forschungsdaten angefangen. Quellen: DLMF (https://dlmf.nist.gov/), mathematische Software (nur Software aus zbMath). Anfragen in SPARQL sind jetzt schon möglich: https://query.portal.mardi4nfdi.de/ Wichtig, dass Datensätze "Provenance Information" haben. Mediawiki-System und Knowledge Graph waren bis jetzt im Fokus, sind jetzt installiert.

Anwendungsfall Vorstellung BB: T3 baut selber Infrastruktur. Keine konkreten Datensätze, sondern Infrastruktur um Datensätze zu analysieren. Ziel T3 innerhalb MaRDI: Infrastruktur erweitern.

https://www.openml.org OpenML (aus der Präsentation beim FAIR Symposium):

  • Inhalte: Datasets, Tasks (Metadaten), Flows, Runs (Modell-Metadata)
  • Automatische Annotation von Daten (Dimensionen etc.)
  • Programmier-Sprache agnostisch. Verschiedene API's (Python, R)

JS: Silo oder Verknüpfter Ansatz? BB: Beides: Daten werden Verlinkt. Problem: Formatanforderungen sind relativ hart. Umformatierung nötig um zu Linken.

Übersicht an ML-Paketen: https://github.com/mlr-org. Sieh besionders: mlr3-oml Packet.

Vorstellung Requirements JS: Überschneidungspunkte mit MaRDI-Projekt?

TC: Wir sind 1 Projekt. Portal ist ein Katalog der Daten, Publikationen, Resultate, Metadaten etc. Gibt es "spontan" Daten aus T3, die wir im Knowledge Graph übernehmen könnten? MS: Offene Standards wären wichtig für unser Portal: Suchfunktion, SPARQL Endpoint, APIs, Metadaten sollen auffindbar sein. Langfristig soll das Portal als Einstiegspunkt zur Verfügung stehen. BB: Es gibt Uberschneidungen mit OpenML, warum ein neues Portal?

  • Riesiges Aufwand, Arbeit ist spezialistisch

BB: Schickt Links zu offene APIs. Beispiel ListDatasets gibt statistische Charakteristiken der Datensätze. Es gibt aber 10.000 Datensätze. Qualität ist unterschiedlich. Es gibt kuratierte Sammlungen von sinnvolle Sachen.

MS: Beispielsfrage "Welcher Datensätze wird verwendet für welchen Task"? "Verknüpfung zwischen Publikationen und Datensätze"?

BB: Angedacht, Domain-Spezifisch Suchen zu können, aber noch nicht da. Datensätze sind "Tag"-bar. Portal sollte etwas schaffen wovon T3 auch profitiert.

  • Publikationen usw. wäre ein guter Anfang.
  • Ontologie für ML-Algorithmen (schwer).
  • Reproduzierbarkeit ist sehr schwer in der ML Community. Id's von Datensätzen werden fast nie zitiert.
  • Textmining auf Publikationen nicht unbedingt zielführend. MS: zbMath arbeitet auch so, dauert Jahre.

Nächste Termine und Nächste Schritte