Project:Treffen-T3-20220120: Difference between revisions

From MaRDI portal
Created page with "Anwesend: Moritz Schubotz (T5), Alvaro Ortiz (T5), Tim Conrad (T5), Johannes Stegmüller (T5), Christiane Görgen(T6), Tabea Bacher (T6), Bernd Bischl (T3) Vorstellungsrunde..."
 
Alvaro (talk | contribs)
Added category
 
(9 intermediate revisions by 3 users not shown)
Line 1: Line 1:
Anwesend:
Anwesend: Moritz Schubotz (T5), Alvaro Ortiz (T5), Tim Conrad (T5), Johannes Stegmüller (T5), Christiane Görgen(T6), Tabea Bacher (T6), Bernd Bischl (T3)
Moritz Schubotz (T5), Alvaro Ortiz (T5), Tim Conrad (T5), Johannes Stegmüller (T5), Christiane Görgen(T6), Tabea Bacher (T6), Bernd Bischl (T3)


Vorstellungsrunde
==== Vorstellungsrunde ====
BB: Mathias Drton unbedingt einladen
BB: Mathias Drton unbedingt einladen. Lehrstuhl überwachtes ML hat 2 Personen eingestellt. Lange Zusammenarbeit mit OpenML (reproducibilty, shareability of ML, library benchmark datasets). Viel Software in R.  
BB: Lehrstuhl überwachtes ML. 2 Personen eingestellt. Lange Zusammenarbeit mit OpenML (reproducibilty, shareability of ML, library benchmark datasets). Viel Software in R.  


Vorstellung MaRDI Portal
==== Vorstellung MaRDI Portal ====
https://portal.mardi4nfdi.de/
https://portal.mardi4nfdi.de/
Import Forschungsdaten angefangen. Quellen: DLMF (https://dlmf.nist.gov/), mathematische Software (nur Software aus zbMath).
Anfragen in SPARQL sind jetzt schon möglich: https://query.portal.mardi4nfdi.de/
Wichtig, dass Datensätze "Provenance Information" haben.
Mediawiki-System und Knowledge Graph waren bis jetzt im Fokus, sind jetzt installiert.


Anwendungsfall Vorstellung
* Import Forschungsdaten angefangen. Quellen: DLMF (https://dlmf.nist.gov/), mathematische Software (nur Software aus zbMath).
* Anfragen in SPARQL sind jetzt schon möglich: https://query.portal.mardi4nfdi.de/
* Wichtig, dass Datensätze "Provenance Information" haben.
* Mediawiki-System und Knowledge Graph waren bis jetzt im Fokus, sind jetzt installiert.
 
==== Anwendungsfall Vorstellung ====
BB: T3 baut selber Infrastruktur. Keine konkreten Datensätze, sondern Infrastruktur um Datensätze zu analysieren. Ziel T3 innerhalb MaRDI: Infrastruktur erweitern.
BB: T3 baut selber Infrastruktur. Keine konkreten Datensätze, sondern Infrastruktur um Datensätze zu analysieren. Ziel T3 innerhalb MaRDI: Infrastruktur erweitern.


https://www.openml.org
https://www.openml.org
OpenML (aus der Präsentation beim FAIR Symposium):
OpenML (aus der Präsentation beim FAIR Symposium):
* Inhalte: Datasets, Tasks (Metadaten), Flows, Runs (Modell-Metadata)
* Inhalte: Datasets, Tasks (Metadaten), Flows, Runs (Modell-Metadata)
Line 22: Line 22:
* Programmier-Sprache agnostisch. Verschiedene API's (Python, R)
* Programmier-Sprache agnostisch. Verschiedene API's (Python, R)


JS: Silo oder Verknüpfter Ansatz? BB: Beides: Daten werden Verlinkt. Problem: Formatanforderungen sind relativ hart. Umformatierung nötig um zu Linken.
JS: Silo oder verknüpfter Ansatz? BB: Beides: Daten werden verlinkt. Problem: Formatanforderungen sind relativ hart. Umformatierung nötig um zu Linken.


Übersicht an ML-Paketen: https://github.com/mlr-org. Sieh besionders: mlr3-oml Packet.
Übersicht an ML-Paketen: https://github.com/mlr-org. Sieh besonders: mlr3-oml Packet.


Vorstellung Requirements
==== Vorstellung Requirements ====
JS: Überschneidungspunkte mit MaRDI-Projekt?
TC: Wir sind 1 Projekt. Portal ist ein Katalog der Daten, Publikationen, Resultate, Metadaten etc. Gibt es "spontan" Daten aus T3, die wir im Knowledge Graph übernehmen könnten?  


TC: Wir sind 1 Projekt. Portal ist ein Katalog der Daten, Publikationen, Resultate, Metadaten etc. Gibt es "spontan" Daten aus T3, die wir im Knowledge Graph übernehmen könnten?
MS: Offene Standards wären wichtig für unser Portal: Suchfunktion, SPARQL Endpoint, APIs, Metadaten sollen auffindbar sein. Langfristig soll das Portal als Einstiegspunkt zur Verfügung stehen.
MS: Offene Standards wären wichtig für unser Portal: Suchfunktion, SPARQL Endpoint, APIs, Metadaten sollen auffindbar sein. Langfristig soll das Portal als Einstiegspunkt zur Verfügung stehen.
BB: Es gibt Uberschneidungen mit OpenML, warum ein neues Portal?
* Riesiges Aufwand, Arbeit ist spezialistisch


BB: Schickt Links zu offene APIs.  Beispiel ListDatasets gibt statistische Charakteristiken der Datensätze. Es gibt aber 10.000 Datensätze. Qualität ist unterschiedlich. Es gibt kuratierte Sammlungen von sinnvolle Sachen.
BB: Es gibt Uberschneidungen mit OpenML, warum ein neues Portal? (Riesiger Aufwand, Arbeit ist spezialistisch)
 
MS: Beispielfrage "Welcher Datensätze wird verwendet für welchen Task"? "Verknüpfung zwischen Publikationen und Datensätze"?


MS: Beispielsfrage "Welcher Datensätze wird verwendet für welchen Task"? "Verknüpfung zwischen Publikationen und Datensätze"?
BB: Angedacht, Domain-Spezifisch suchen zu können, aber noch nicht da. Datensätze sind "Tag"-bar. 


BB: Angedacht, Domain-Spezifisch Suchen zu können, aber noch nicht da. Datensätze sind "Tag"-bar.
Portal sollte etwas schaffen, wovon T3  auch profitiert.  
Portal sollte etwas schaffen wovon T3  auch profitiert.  
* Publikationen usw. wäre ein guter Anfang.  
* Publikationen usw. wäre ein guter Anfang.  
* Ontologie für ML-Algorithmen (schwer).  
* Ontologie für ML-Algorithmen (schwer).  
* Reproduzierbarkeit ist sehr schwer in der ML Community. Id's von Datensätzen werden fast nie zitiert.  
* Reproduzierbarkeit ist schwierig in der ML Community. ID's von Datensätzen werden fast nie zitiert.
* Textmining auf Publikationen nicht unbedingt zielführend. MS: zbMath arbeitet auch so, dauert Jahre.
* Textmining auf Publikationen nicht unbedingt zielführend. MS: zbMath arbeitet auch so, dauert Jahre.


Nächste Termine und Nächste Schritte
==== Nächste Termine und Nächste Schritte ====
 
* APIs anschauen, mit T3 für MaRDI zugängliche Daten kommunizieren: (Inhaltlich mehr Publikationen (Metadaten) | keine Formeln)  - JS und AO
* Slides und zusätzliche Informationen: OpenML, MLR3 von T3 erfragen - JS
* Ausformulieren des Plans um Daten, kommunizieren, nachdem die API's angeschaut wurden - noch offen
* Erste Datensätze und Publikationen verlinken - noch offen
* Nächstes Treffen:
** Anfang Mitte März nächstes Treffen.
** TA3 Treffen findet Workshop 09./10.03.22  statt März mit dem Team (TUM/aber hybrid online, möglicherweise auch komplett online), jemand von der T5 dabei sein als Beisitzer und im Anschluss ein Gespräch.
** Sebastian Fischer und Giuseppe in die Mails
** Konzept wie das einzubringen (z. B. Auffindbarkeit durch Suche) ist zusammengefasst und auch kommunizieren in weiterer Zeit
* Intern nächste Schritte:
** Requirements View etwas anpassen (einfacher und konkrete Absicht des ersten Treffens)  - JS
 
==== Nachgang ====
(BB)
 
mlr3:
Der beste Einstiegspunkt ist hier
* https://github.com/mlr-org/mlr3
dort sind auch Videos und Slides verlinkt (unter "videos") und extremst viel weiterführendes Material (Cheatsheets, Buch, Docs)
 
openml:
* http://openml.github.io/articles/slides/whyR2018_tutorial/slides_tutorial.html#1
* https://openml.org/
* https://docs.openml.org/
* https://docs.openml.org/APIs/
 
hier noch die neue OpenML Website: https://new.openml.org/
[[Category:Task Area Meeting Notes]]

Latest revision as of 17:59, 24 January 2022

Anwesend: Moritz Schubotz (T5), Alvaro Ortiz (T5), Tim Conrad (T5), Johannes Stegmüller (T5), Christiane Görgen(T6), Tabea Bacher (T6), Bernd Bischl (T3)

Vorstellungsrunde

BB: Mathias Drton unbedingt einladen. Lehrstuhl überwachtes ML hat 2 Personen eingestellt. Lange Zusammenarbeit mit OpenML (reproducibilty, shareability of ML, library benchmark datasets). Viel Software in R.

Vorstellung MaRDI Portal

https://portal.mardi4nfdi.de/

  • Import Forschungsdaten angefangen. Quellen: DLMF (https://dlmf.nist.gov/), mathematische Software (nur Software aus zbMath).
  • Anfragen in SPARQL sind jetzt schon möglich: https://query.portal.mardi4nfdi.de/
  • Wichtig, dass Datensätze "Provenance Information" haben.
  • Mediawiki-System und Knowledge Graph waren bis jetzt im Fokus, sind jetzt installiert.

Anwendungsfall Vorstellung

BB: T3 baut selber Infrastruktur. Keine konkreten Datensätze, sondern Infrastruktur um Datensätze zu analysieren. Ziel T3 innerhalb MaRDI: Infrastruktur erweitern.

https://www.openml.org

OpenML (aus der Präsentation beim FAIR Symposium):

  • Inhalte: Datasets, Tasks (Metadaten), Flows, Runs (Modell-Metadata)
  • Automatische Annotation von Daten (Dimensionen etc.)
  • Programmier-Sprache agnostisch. Verschiedene API's (Python, R)

JS: Silo oder verknüpfter Ansatz? BB: Beides: Daten werden verlinkt. Problem: Formatanforderungen sind relativ hart. Umformatierung nötig um zu Linken.

Übersicht an ML-Paketen: https://github.com/mlr-org. Sieh besonders: mlr3-oml Packet.

Vorstellung Requirements

TC: Wir sind 1 Projekt. Portal ist ein Katalog der Daten, Publikationen, Resultate, Metadaten etc. Gibt es "spontan" Daten aus T3, die wir im Knowledge Graph übernehmen könnten?

MS: Offene Standards wären wichtig für unser Portal: Suchfunktion, SPARQL Endpoint, APIs, Metadaten sollen auffindbar sein. Langfristig soll das Portal als Einstiegspunkt zur Verfügung stehen.

BB: Es gibt Uberschneidungen mit OpenML, warum ein neues Portal? (Riesiger Aufwand, Arbeit ist spezialistisch)

MS: Beispielfrage "Welcher Datensätze wird verwendet für welchen Task"? "Verknüpfung zwischen Publikationen und Datensätze"?

BB: Angedacht, Domain-Spezifisch suchen zu können, aber noch nicht da. Datensätze sind "Tag"-bar.

Portal sollte etwas schaffen, wovon T3 auch profitiert.

  • Publikationen usw. wäre ein guter Anfang.
  • Ontologie für ML-Algorithmen (schwer).
  • Reproduzierbarkeit ist schwierig in der ML Community. ID's von Datensätzen werden fast nie zitiert.
  • Textmining auf Publikationen nicht unbedingt zielführend. MS: zbMath arbeitet auch so, dauert Jahre.

Nächste Termine und Nächste Schritte

  • APIs anschauen, mit T3 für MaRDI zugängliche Daten kommunizieren: (Inhaltlich mehr Publikationen (Metadaten) | keine Formeln) - JS und AO
  • Slides und zusätzliche Informationen: OpenML, MLR3 von T3 erfragen - JS
  • Ausformulieren des Plans um Daten, kommunizieren, nachdem die API's angeschaut wurden - noch offen
  • Erste Datensätze und Publikationen verlinken - noch offen
  • Nächstes Treffen:
    • Anfang Mitte März nächstes Treffen.
    • TA3 Treffen findet Workshop 09./10.03.22  statt März mit dem Team (TUM/aber hybrid online, möglicherweise auch komplett online), jemand von der T5 dabei sein als Beisitzer und im Anschluss ein Gespräch.
    • Sebastian Fischer und Giuseppe in die Mails
    • Konzept wie das einzubringen (z. B. Auffindbarkeit durch Suche) ist zusammengefasst und auch kommunizieren in weiterer Zeit
  • Intern nächste Schritte:
    • Requirements View etwas anpassen (einfacher und konkrete Absicht des ersten Treffens) - JS

Nachgang

(BB)

mlr3: Der beste Einstiegspunkt ist hier

dort sind auch Videos und Slides verlinkt (unter "videos") und extremst viel weiterführendes Material (Cheatsheets, Buch, Docs)

openml:

hier noch die neue OpenML Website: https://new.openml.org/