Project:Treffen-T3-20220120: Difference between revisions

From MaRDI portal
Alvaro (talk | contribs)
Alvaro (talk | contribs)
Line 58: Line 58:


==== Nachgang ====
==== Nachgang ====
(BB)
mlr3:
mlr3:
 
Der beste Einstiegspunkt ist hier
der beste einstiegspunkt ist hier
 
* https://github.com/mlr-org/mlr3
* https://github.com/mlr-org/mlr3
 
dort sind auch Videos und Slides verlinkt (unter "videos") und extremst viel weiterführendes Material (Cheatsheets, Buch, Docs)
dort sind auch videos und slides verlinkt (unter "videos") und extremst viel weiterführendes material (cheatsheets, buch, docs)


openml:
openml:
* http://openml.github.io/articles/slides/whyR2018_tutorial/slides_tutorial.html#1
* http://openml.github.io/articles/slides/whyR2018_tutorial/slides_tutorial.html#1
* https://openml.org/
* https://openml.org/
* https://docs.openml.org/
* https://docs.openml.org/
* https://docs.openml.org/APIs/
* https://docs.openml.org/APIs/

Revision as of 17:54, 20 January 2022

Anwesend: Moritz Schubotz (T5), Alvaro Ortiz (T5), Tim Conrad (T5), Johannes Stegmüller (T5), Christiane Görgen(T6), Tabea Bacher (T6), Bernd Bischl (T3)

Vorstellungsrunde

BB: Mathias Drton unbedingt einladen. Lehrstuhl überwachtes ML hat 2 Personen eingestellt. Lange Zusammenarbeit mit OpenML (reproducibilty, shareability of ML, library benchmark datasets). Viel Software in R.

Vorstellung MaRDI Portal

https://portal.mardi4nfdi.de/

  • Import Forschungsdaten angefangen. Quellen: DLMF (https://dlmf.nist.gov/), mathematische Software (nur Software aus zbMath).
  • Anfragen in SPARQL sind jetzt schon möglich: https://query.portal.mardi4nfdi.de/
  • Wichtig, dass Datensätze "Provenance Information" haben.
  • Mediawiki-System und Knowledge Graph waren bis jetzt im Fokus, sind jetzt installiert.

Anwendungsfall Vorstellung

BB: T3 baut selber Infrastruktur. Keine konkreten Datensätze, sondern Infrastruktur um Datensätze zu analysieren. Ziel T3 innerhalb MaRDI: Infrastruktur erweitern.

https://www.openml.org

OpenML (aus der Präsentation beim FAIR Symposium):

  • Inhalte: Datasets, Tasks (Metadaten), Flows, Runs (Modell-Metadata)
  • Automatische Annotation von Daten (Dimensionen etc.)
  • Programmier-Sprache agnostisch. Verschiedene API's (Python, R)

JS: Silo oder verknüpfter Ansatz? BB: Beides: Daten werden verlinkt. Problem: Formatanforderungen sind relativ hart. Umformatierung nötig um zu Linken.

Übersicht an ML-Paketen: https://github.com/mlr-org. Sieh besonders: mlr3-oml Packet.

Vorstellung Requirements

TC: Wir sind 1 Projekt. Portal ist ein Katalog der Daten, Publikationen, Resultate, Metadaten etc. Gibt es "spontan" Daten aus T3, die wir im Knowledge Graph übernehmen könnten?

MS: Offene Standards wären wichtig für unser Portal: Suchfunktion, SPARQL Endpoint, APIs, Metadaten sollen auffindbar sein. Langfristig soll das Portal als Einstiegspunkt zur Verfügung stehen.

BB: Es gibt Uberschneidungen mit OpenML, warum ein neues Portal? (Riesiger Aufwand, Arbeit ist spezialistisch)

MS: Beispielfrage "Welcher Datensätze wird verwendet für welchen Task"? "Verknüpfung zwischen Publikationen und Datensätze"?

BB: Angedacht, Domain-Spezifisch suchen zu können, aber noch nicht da. Datensätze sind "Tag"-bar.

Portal sollte etwas schaffen, wovon T3 auch profitiert.

  • Publikationen usw. wäre ein guter Anfang.
  • Ontologie für ML-Algorithmen (schwer).
  • Reproduzierbarkeit ist schwierig in der ML Community. ID's von Datensätzen werden fast nie zitiert.
  • Textmining auf Publikationen nicht unbedingt zielführend. MS: zbMath arbeitet auch so, dauert Jahre.

Nächste Termine und Nächste Schritte

  • APIs anschauen, mit T3 für MaRDI zugängliche Daten kommunizieren: (Inhaltlich mehr Publikationen (Metadaten) | keine Formeln) - JS und AO
  • Slides und zusätzliche Informationen: OpenML, MLR3 von T3 erfragen - JS
  • Ausformulieren des Plans um Daten, kommunizieren, nachdem die API's angeschaut wurden - noch offen
  • Erste Datensätze und Publikationen verlinken - noch offen
  • Nächstes Treffen:
    • Anfang Mitte März nächstes Treffen.
    • TA3 Treffen findet Workshop 09./10.03.22  statt März mit dem Team (TUM/aber hybrid online, möglicherweise auch komplett online), jemand von der T5 dabei sein als Beisitzer und im Anschluss ein Gespräch.
    • Sebastian Fischer und Giuseppe in die Mails
    • Konzept wie das einzubringen (z. B. Auffindbarkeit durch Suche) ist zusammengefasst und auch kommunizieren in weiterer Zeit
  • Intern nächste Schritte:
    • Requirements View etwas anpassen (einfacher und konkrete Absicht des ersten Treffens) - JS

Nachgang

(BB)

mlr3: Der beste Einstiegspunkt ist hier

dort sind auch Videos und Slides verlinkt (unter "videos") und extremst viel weiterführendes Material (Cheatsheets, Buch, Docs)

openml: