Project:Treffen-T3-20220120: Difference between revisions

From MaRDI portal
Initial commit
Alvaro (talk | contribs)
Added category
 
(8 intermediate revisions by 3 users not shown)
Line 22: Line 22:
* Programmier-Sprache agnostisch. Verschiedene API's (Python, R)
* Programmier-Sprache agnostisch. Verschiedene API's (Python, R)


JS: Silo oder Verknüpfter Ansatz? BB: Beides: Daten werden Verlinkt. Problem: Formatanforderungen sind relativ hart. Umformatierung nötig um zu Linken.
JS: Silo oder verknüpfter Ansatz? BB: Beides: Daten werden verlinkt. Problem: Formatanforderungen sind relativ hart. Umformatierung nötig um zu Linken.


Übersicht an ML-Paketen: https://github.com/mlr-org. Sieh besonders: mlr3-oml Packet.
Übersicht an ML-Paketen: https://github.com/mlr-org. Sieh besonders: mlr3-oml Packet.
Line 33: Line 33:
BB: Es gibt Uberschneidungen mit OpenML, warum ein neues Portal? (Riesiger Aufwand, Arbeit ist spezialistisch)
BB: Es gibt Uberschneidungen mit OpenML, warum ein neues Portal? (Riesiger Aufwand, Arbeit ist spezialistisch)


MS: Beispielsfrage "Welcher Datensätze wird verwendet für welchen Task"? "Verknüpfung zwischen Publikationen und Datensätze"?
MS: Beispielfrage "Welcher Datensätze wird verwendet für welchen Task"? "Verknüpfung zwischen Publikationen und Datensätze"?


BB: Angedacht, Domain-Spezifisch Suchen zu können, aber noch nicht da. Datensätze sind "Tag"-bar.   
BB: Angedacht, Domain-Spezifisch suchen zu können, aber noch nicht da. Datensätze sind "Tag"-bar.   


Portal sollte etwas schaffen wovon T3  auch profitiert.  
Portal sollte etwas schaffen, wovon T3  auch profitiert.  
* Publikationen usw. wäre ein guter Anfang.  
* Publikationen usw. wäre ein guter Anfang.  
* Ontologie für ML-Algorithmen (schwer).  
* Ontologie für ML-Algorithmen (schwer).  
* Reproduzierbarkeit ist sehr schwer in der ML Community. Id's von Datensätzen werden fast nie zitiert.  
* Reproduzierbarkeit ist schwierig in der ML Community. ID's von Datensätzen werden fast nie zitiert.
* Textmining auf Publikationen nicht unbedingt zielführend. MS: zbMath arbeitet auch so, dauert Jahre.
* Textmining auf Publikationen nicht unbedingt zielführend. MS: zbMath arbeitet auch so, dauert Jahre.


==== Nächste Termine und Nächste Schritte ====
==== Nächste Termine und Nächste Schritte ====
* APIs anschauen, mit T3 für MaRDI zugängliche Daten kommunizieren: (Inhaltlich mehr Publikationen (Metadaten) | keine Formeln)  - JS und AO
* Slides und zusätzliche Informationen: OpenML, MLR3 von T3 erfragen - JS
* Ausformulieren des Plans um Daten, kommunizieren, nachdem die API's angeschaut wurden - noch offen
* Erste Datensätze und Publikationen verlinken - noch offen
* Nächstes Treffen:
** Anfang Mitte März nächstes Treffen.
** TA3 Treffen findet Workshop 09./10.03.22  statt März mit dem Team (TUM/aber hybrid online, möglicherweise auch komplett online), jemand von der T5 dabei sein als Beisitzer und im Anschluss ein Gespräch.
** Sebastian Fischer und Giuseppe in die Mails
** Konzept wie das einzubringen (z. B. Auffindbarkeit durch Suche) ist zusammengefasst und auch kommunizieren in weiterer Zeit
* Intern nächste Schritte:
** Requirements View etwas anpassen (einfacher und konkrete Absicht des ersten Treffens)  - JS
==== Nachgang ====
(BB)
mlr3:
Der beste Einstiegspunkt ist hier
* https://github.com/mlr-org/mlr3
dort sind auch Videos und Slides verlinkt (unter "videos") und extremst viel weiterführendes Material (Cheatsheets, Buch, Docs)
openml:
* http://openml.github.io/articles/slides/whyR2018_tutorial/slides_tutorial.html#1
* https://openml.org/
* https://docs.openml.org/
* https://docs.openml.org/APIs/
hier noch die neue OpenML Website: https://new.openml.org/
[[Category:Task Area Meeting Notes]]

Latest revision as of 16:59, 24 January 2022

Anwesend: Moritz Schubotz (T5), Alvaro Ortiz (T5), Tim Conrad (T5), Johannes Stegmüller (T5), Christiane Görgen(T6), Tabea Bacher (T6), Bernd Bischl (T3)

Vorstellungsrunde

BB: Mathias Drton unbedingt einladen. Lehrstuhl überwachtes ML hat 2 Personen eingestellt. Lange Zusammenarbeit mit OpenML (reproducibilty, shareability of ML, library benchmark datasets). Viel Software in R.

Vorstellung MaRDI Portal

https://portal.mardi4nfdi.de/

  • Import Forschungsdaten angefangen. Quellen: DLMF (https://dlmf.nist.gov/), mathematische Software (nur Software aus zbMath).
  • Anfragen in SPARQL sind jetzt schon möglich: https://query.portal.mardi4nfdi.de/
  • Wichtig, dass Datensätze "Provenance Information" haben.
  • Mediawiki-System und Knowledge Graph waren bis jetzt im Fokus, sind jetzt installiert.

Anwendungsfall Vorstellung

BB: T3 baut selber Infrastruktur. Keine konkreten Datensätze, sondern Infrastruktur um Datensätze zu analysieren. Ziel T3 innerhalb MaRDI: Infrastruktur erweitern.

https://www.openml.org

OpenML (aus der Präsentation beim FAIR Symposium):

  • Inhalte: Datasets, Tasks (Metadaten), Flows, Runs (Modell-Metadata)
  • Automatische Annotation von Daten (Dimensionen etc.)
  • Programmier-Sprache agnostisch. Verschiedene API's (Python, R)

JS: Silo oder verknüpfter Ansatz? BB: Beides: Daten werden verlinkt. Problem: Formatanforderungen sind relativ hart. Umformatierung nötig um zu Linken.

Übersicht an ML-Paketen: https://github.com/mlr-org. Sieh besonders: mlr3-oml Packet.

Vorstellung Requirements

TC: Wir sind 1 Projekt. Portal ist ein Katalog der Daten, Publikationen, Resultate, Metadaten etc. Gibt es "spontan" Daten aus T3, die wir im Knowledge Graph übernehmen könnten?

MS: Offene Standards wären wichtig für unser Portal: Suchfunktion, SPARQL Endpoint, APIs, Metadaten sollen auffindbar sein. Langfristig soll das Portal als Einstiegspunkt zur Verfügung stehen.

BB: Es gibt Uberschneidungen mit OpenML, warum ein neues Portal? (Riesiger Aufwand, Arbeit ist spezialistisch)

MS: Beispielfrage "Welcher Datensätze wird verwendet für welchen Task"? "Verknüpfung zwischen Publikationen und Datensätze"?

BB: Angedacht, Domain-Spezifisch suchen zu können, aber noch nicht da. Datensätze sind "Tag"-bar.

Portal sollte etwas schaffen, wovon T3 auch profitiert.

  • Publikationen usw. wäre ein guter Anfang.
  • Ontologie für ML-Algorithmen (schwer).
  • Reproduzierbarkeit ist schwierig in der ML Community. ID's von Datensätzen werden fast nie zitiert.
  • Textmining auf Publikationen nicht unbedingt zielführend. MS: zbMath arbeitet auch so, dauert Jahre.

Nächste Termine und Nächste Schritte

  • APIs anschauen, mit T3 für MaRDI zugängliche Daten kommunizieren: (Inhaltlich mehr Publikationen (Metadaten) | keine Formeln) - JS und AO
  • Slides und zusätzliche Informationen: OpenML, MLR3 von T3 erfragen - JS
  • Ausformulieren des Plans um Daten, kommunizieren, nachdem die API's angeschaut wurden - noch offen
  • Erste Datensätze und Publikationen verlinken - noch offen
  • Nächstes Treffen:
    • Anfang Mitte März nächstes Treffen.
    • TA3 Treffen findet Workshop 09./10.03.22  statt März mit dem Team (TUM/aber hybrid online, möglicherweise auch komplett online), jemand von der T5 dabei sein als Beisitzer und im Anschluss ein Gespräch.
    • Sebastian Fischer und Giuseppe in die Mails
    • Konzept wie das einzubringen (z. B. Auffindbarkeit durch Suche) ist zusammengefasst und auch kommunizieren in weiterer Zeit
  • Intern nächste Schritte:
    • Requirements View etwas anpassen (einfacher und konkrete Absicht des ersten Treffens) - JS

Nachgang

(BB)

mlr3: Der beste Einstiegspunkt ist hier

dort sind auch Videos und Slides verlinkt (unter "videos") und extremst viel weiterführendes Material (Cheatsheets, Buch, Docs)

openml:

hier noch die neue OpenML Website: https://new.openml.org/