Project:Treffen-T3-20220120: Difference between revisions

From MaRDI portal
Created page with "Anwesend: Moritz Schubotz (T5), Alvaro Ortiz (T5), Tim Conrad (T5), Johannes Stegmüller (T5), Christiane Görgen(T6), Tabea Bacher (T6), Bernd Bischl (T3) Vorstellungsrunde..."
 
Initial commit
Line 1: Line 1:
Anwesend:
Anwesend: Moritz Schubotz (T5), Alvaro Ortiz (T5), Tim Conrad (T5), Johannes Stegmüller (T5), Christiane Görgen(T6), Tabea Bacher (T6), Bernd Bischl (T3)
Moritz Schubotz (T5), Alvaro Ortiz (T5), Tim Conrad (T5), Johannes Stegmüller (T5), Christiane Görgen(T6), Tabea Bacher (T6), Bernd Bischl (T3)


Vorstellungsrunde
==== Vorstellungsrunde ====
BB: Mathias Drton unbedingt einladen
BB: Mathias Drton unbedingt einladen. Lehrstuhl überwachtes ML hat 2 Personen eingestellt. Lange Zusammenarbeit mit OpenML (reproducibilty, shareability of ML, library benchmark datasets). Viel Software in R.  
BB: Lehrstuhl überwachtes ML. 2 Personen eingestellt. Lange Zusammenarbeit mit OpenML (reproducibilty, shareability of ML, library benchmark datasets). Viel Software in R.  


Vorstellung MaRDI Portal
==== Vorstellung MaRDI Portal ====
https://portal.mardi4nfdi.de/
https://portal.mardi4nfdi.de/
Import Forschungsdaten angefangen. Quellen: DLMF (https://dlmf.nist.gov/), mathematische Software (nur Software aus zbMath).
Anfragen in SPARQL sind jetzt schon möglich: https://query.portal.mardi4nfdi.de/
Wichtig, dass Datensätze "Provenance Information" haben.
Mediawiki-System und Knowledge Graph waren bis jetzt im Fokus, sind jetzt installiert.


Anwendungsfall Vorstellung
* Import Forschungsdaten angefangen. Quellen: DLMF (https://dlmf.nist.gov/), mathematische Software (nur Software aus zbMath).
* Anfragen in SPARQL sind jetzt schon möglich: https://query.portal.mardi4nfdi.de/
* Wichtig, dass Datensätze "Provenance Information" haben.
* Mediawiki-System und Knowledge Graph waren bis jetzt im Fokus, sind jetzt installiert.
 
==== Anwendungsfall Vorstellung ====
BB: T3 baut selber Infrastruktur. Keine konkreten Datensätze, sondern Infrastruktur um Datensätze zu analysieren. Ziel T3 innerhalb MaRDI: Infrastruktur erweitern.
BB: T3 baut selber Infrastruktur. Keine konkreten Datensätze, sondern Infrastruktur um Datensätze zu analysieren. Ziel T3 innerhalb MaRDI: Infrastruktur erweitern.


https://www.openml.org
https://www.openml.org
OpenML (aus der Präsentation beim FAIR Symposium):
OpenML (aus der Präsentation beim FAIR Symposium):
* Inhalte: Datasets, Tasks (Metadaten), Flows, Runs (Modell-Metadata)
* Inhalte: Datasets, Tasks (Metadaten), Flows, Runs (Modell-Metadata)
Line 24: Line 24:
JS: Silo oder Verknüpfter Ansatz? BB: Beides: Daten werden Verlinkt. Problem: Formatanforderungen sind relativ hart. Umformatierung nötig um zu Linken.
JS: Silo oder Verknüpfter Ansatz? BB: Beides: Daten werden Verlinkt. Problem: Formatanforderungen sind relativ hart. Umformatierung nötig um zu Linken.


Übersicht an ML-Paketen: https://github.com/mlr-org. Sieh besionders: mlr3-oml Packet.
Übersicht an ML-Paketen: https://github.com/mlr-org. Sieh besonders: mlr3-oml Packet.


Vorstellung Requirements
==== Vorstellung Requirements ====
JS: Überschneidungspunkte mit MaRDI-Projekt?
TC: Wir sind 1 Projekt. Portal ist ein Katalog der Daten, Publikationen, Resultate, Metadaten etc. Gibt es "spontan" Daten aus T3, die wir im Knowledge Graph übernehmen könnten?  


TC: Wir sind 1 Projekt. Portal ist ein Katalog der Daten, Publikationen, Resultate, Metadaten etc. Gibt es "spontan" Daten aus T3, die wir im Knowledge Graph übernehmen könnten?
MS: Offene Standards wären wichtig für unser Portal: Suchfunktion, SPARQL Endpoint, APIs, Metadaten sollen auffindbar sein. Langfristig soll das Portal als Einstiegspunkt zur Verfügung stehen.
MS: Offene Standards wären wichtig für unser Portal: Suchfunktion, SPARQL Endpoint, APIs, Metadaten sollen auffindbar sein. Langfristig soll das Portal als Einstiegspunkt zur Verfügung stehen.
BB: Es gibt Uberschneidungen mit OpenML, warum ein neues Portal?
* Riesiges Aufwand, Arbeit ist spezialistisch


BB: Schickt Links zu offene APIs.  Beispiel ListDatasets gibt statistische Charakteristiken der Datensätze. Es gibt aber 10.000 Datensätze. Qualität ist unterschiedlich. Es gibt kuratierte Sammlungen von sinnvolle Sachen.
BB: Es gibt Uberschneidungen mit OpenML, warum ein neues Portal? (Riesiger Aufwand, Arbeit ist spezialistisch)


MS: Beispielsfrage "Welcher Datensätze wird verwendet für welchen Task"? "Verknüpfung zwischen Publikationen und Datensätze"?
MS: Beispielsfrage "Welcher Datensätze wird verwendet für welchen Task"? "Verknüpfung zwischen Publikationen und Datensätze"?


BB: Angedacht, Domain-Spezifisch Suchen zu können, aber noch nicht da. Datensätze sind "Tag"-bar.  
BB: Angedacht, Domain-Spezifisch Suchen zu können, aber noch nicht da. Datensätze sind "Tag"-bar.
 
Portal sollte etwas schaffen wovon T3  auch profitiert.  
Portal sollte etwas schaffen wovon T3  auch profitiert.  
* Publikationen usw. wäre ein guter Anfang.  
* Publikationen usw. wäre ein guter Anfang.  
Line 45: Line 43:
* Textmining auf Publikationen nicht unbedingt zielführend. MS: zbMath arbeitet auch so, dauert Jahre.
* Textmining auf Publikationen nicht unbedingt zielführend. MS: zbMath arbeitet auch so, dauert Jahre.


Nächste Termine und Nächste Schritte
==== Nächste Termine und Nächste Schritte ====

Revision as of 14:22, 20 January 2022

Anwesend: Moritz Schubotz (T5), Alvaro Ortiz (T5), Tim Conrad (T5), Johannes Stegmüller (T5), Christiane Görgen(T6), Tabea Bacher (T6), Bernd Bischl (T3)

Vorstellungsrunde

BB: Mathias Drton unbedingt einladen. Lehrstuhl überwachtes ML hat 2 Personen eingestellt. Lange Zusammenarbeit mit OpenML (reproducibilty, shareability of ML, library benchmark datasets). Viel Software in R.

Vorstellung MaRDI Portal

https://portal.mardi4nfdi.de/

  • Import Forschungsdaten angefangen. Quellen: DLMF (https://dlmf.nist.gov/), mathematische Software (nur Software aus zbMath).
  • Anfragen in SPARQL sind jetzt schon möglich: https://query.portal.mardi4nfdi.de/
  • Wichtig, dass Datensätze "Provenance Information" haben.
  • Mediawiki-System und Knowledge Graph waren bis jetzt im Fokus, sind jetzt installiert.

Anwendungsfall Vorstellung

BB: T3 baut selber Infrastruktur. Keine konkreten Datensätze, sondern Infrastruktur um Datensätze zu analysieren. Ziel T3 innerhalb MaRDI: Infrastruktur erweitern.

https://www.openml.org

OpenML (aus der Präsentation beim FAIR Symposium):

  • Inhalte: Datasets, Tasks (Metadaten), Flows, Runs (Modell-Metadata)
  • Automatische Annotation von Daten (Dimensionen etc.)
  • Programmier-Sprache agnostisch. Verschiedene API's (Python, R)

JS: Silo oder Verknüpfter Ansatz? BB: Beides: Daten werden Verlinkt. Problem: Formatanforderungen sind relativ hart. Umformatierung nötig um zu Linken.

Übersicht an ML-Paketen: https://github.com/mlr-org. Sieh besonders: mlr3-oml Packet.

Vorstellung Requirements

TC: Wir sind 1 Projekt. Portal ist ein Katalog der Daten, Publikationen, Resultate, Metadaten etc. Gibt es "spontan" Daten aus T3, die wir im Knowledge Graph übernehmen könnten?

MS: Offene Standards wären wichtig für unser Portal: Suchfunktion, SPARQL Endpoint, APIs, Metadaten sollen auffindbar sein. Langfristig soll das Portal als Einstiegspunkt zur Verfügung stehen.

BB: Es gibt Uberschneidungen mit OpenML, warum ein neues Portal? (Riesiger Aufwand, Arbeit ist spezialistisch)

MS: Beispielsfrage "Welcher Datensätze wird verwendet für welchen Task"? "Verknüpfung zwischen Publikationen und Datensätze"?

BB: Angedacht, Domain-Spezifisch Suchen zu können, aber noch nicht da. Datensätze sind "Tag"-bar.

Portal sollte etwas schaffen wovon T3 auch profitiert.

  • Publikationen usw. wäre ein guter Anfang.
  • Ontologie für ML-Algorithmen (schwer).
  • Reproduzierbarkeit ist sehr schwer in der ML Community. Id's von Datensätzen werden fast nie zitiert.
  • Textmining auf Publikationen nicht unbedingt zielführend. MS: zbMath arbeitet auch so, dauert Jahre.

Nächste Termine und Nächste Schritte