Liebe Liste,



Benchmarking für Nischenaufgaben ist tatsächlich schwierig - umso besser wäre es, es würde sich eine Gruppe finden, die Eval-Datensätze etc. für den DH-Bereich entwickeln würde (diese aber bewusst nicht online teilt).


Damit zusammen hängt, dass es große Vorteile hätte, wenn LLMs als "öffentliches Gut" deklariert werden könnten, um hier Ressourcen zu poolen. Erste Bestrebungen existieren bereits: https://publicai.network/, https://www.mitre.org/focus-areas/artificial-intelligence


Wenn ich die technischen Trends richtig deute, dann geht der Weg weg von einem monolithischen Modell hin zu einer Mix-of-Agents Constellation, bei der verschiedene kleine Modelle miteinander kollaborieren (hatte Christopher auch schon erwähnt). Manche dieser Modelle in einer Constellation sind dann wahrscheinlich gar keine chatbots, sondern spezialisierte Embedder wie z.B. das hier:


https://huggingface.co/spaces/numind/NuExtract


Ein solches Modell, das aus großen, unstrukturierten Textcorpora Daten entlang eines Schemas extrahieren und in maschinell weiterverarbeitbarer Form (JSON) ausgeben kann, wäre an vielen Stellen nützlich.


Aber auch kleinere LLMs an sich erhalten mit integriertem function calling / tool use immer mehr Eigenschaften, die bislang nur über ein RAG integrierbar waren. Besonders gut finde ich hier aktuell Mistrals Large 2 Modell und Command R+ von Cohere.


https://docs.mistral.ai/capabilities/function_calling/


Damit werden praktisch die Schnittstellen zu anderen Werkzeugen schon direkt im Modell angelegt und können z.B. gefinetuned werden.


Was agentisches und mehrschrittiges autonomes Lösungsverhalten angeht, werden hier z.Zt. die meisten Fortschritte gemacht. Z.B. schlägt dieses Paper seit zwei Tagen Wellen: https://arxiv.org/abs/2408.06292 oder auch https://arxiv.org/abs/2404.14394


Ob all das aber letztlich zu logisch-rationalem "Denken" oder Bewusstsein bei LLMs führt, ist je nach Perspektive fraglich. Aktuell ist z.B. der Arc Prize ausgeschrieben: https://arcprize.org/


Wer es schafft, dass seine KI diese Grundschulaufgaben löst, erhält eine Million Dollar. Bislang wurden noch keine Gewinner benannt.


Gleichzeitig ist bekannt, dass OpenAI (und andere) mit z.B. dem Quiet-Star Ansatz (Q-Star, Strawberry) versuchen, logisches Denken in die Architektur von LLMs einzuschreiben. Entweder, das scheint grundlegend nicht zu funktionieren (weshalb sich die Veröffentlichung von GPT-5 verzögert), oder es hat schon zu gut funktioniert, weshalb Sutskever, Leike und andere OpenAI verlassen haben - und sich jetzt lieber auf Schadensbegrenzung: https://ssi.inc/



Viele Grüße

Thomas




Am 14.08.24 um 14:28 schrieb Thomas Jäger:

Liebe Liste,


das zielt ein bisschen in den Bereich, mit dem ich mich in meinem Kurzvortrag am 17.09. beschäftigen will. Ich glaube, dass das größtenteils tatsächlich unsere Aufgabe ist (als digitale Geisteswissenschaftler) - nicht nur die Benchmarks zu erstellen, sondern auch auch die Anwendungen, die mit den Benchmarks gemessen werden können. Natürlich wird uns unsere Aufgabe schon ein Stück erleichtert, wenn die Produkte bereits ein wenig Hilfestellung leisten - aber als Kulturwissenschaftler sind wir möglicherweise sogar ein Stück zu anspruchsvoll oder "speziell", um die Out-of-the-box-Funktionalitäten wirklich immer schätzen und nutzen zu können. Mir schweben deshalb nicht nur "best practices" sondern eher sowas wie "Design Patterns" für Kulturwissenschaftler vor und ein Qualitätskatalog für die von uns bereitgestellten Lösungen.


Thomas


Am 14.08.2024 um 14:13 schrieb Patrick Sahle:

Liebe Liste,

Danke für die updates, Christopher. Ich frage mich immer bei den neu aufkommenden bzw. verbesserten LLMs, wie weit die Evaluationen und Benchmarks eine Aussagekraft für "unseren Bereich" haben. Im Grund müssten wir ja ein benchmarking für "die Geisteswissenschaften" (oder: typische geisteswissenschaftliche Aufgaben) haben, um das alles zielgenau bewerten zu können. Mir scheint es da eher um die Frage zu gehen, wie wir bei bestimmten Anforderungen die "wir" nun mal haben, weiterkommen. Das betrifft z.B. (Liste bitte ergänzen)

- die von mir so genannte "Zitationshärte" (ich suche noch einen besseren Begriff,  bis dahin ©Sahle), also die Fähigkeit wirklich mit Stellen aus Texten arbeiten zu können und die auch präzise benennen zu können (also sowohl die Texte (bibliografisch) als auch die Stellen)
- echte actionability, also die Fähigkeit mit Web-Interfaces zu interagieren
- Logik und Rationalität der Argumentation
- Zuverlässigkeit und Vollständigkeit der Aufgaben-Abarbeitung
- "historisches Bewusstsein" oder "literarisches Bewusstsein"

Was für Entwicklungen zeichnen sich da ab? Und: mir ist klar, dass die Fragen nicht unbedingt auf LLMs im engeren Sinne, sondern die sie umgebenden Anwendungen zielen.

Viele Grüße, Patrick

Am 02.08.2024 um 11:32 schrieb Pollin, Christopher (christopher.pollin@uni-graz.at):
Liebe Liste, 

hier kurz die wichtigsten Entwicklungen (aus meiner Sicht):

LLama 3.1 Modelle (405B, 70B und 8B) wurden veröffentlicht. Es ist ein Open-Source-Modell (und wahrscheinlich auch Open-Weights), das in einigen Benchmarks (mit Vorsicht zu genießen) besser abschneidet als GPT-4o und Claude 3.5 Sonnet. In https://arena.lmsys.org liegt es etwas hinter diesen beiden Modellen. Aber es gibt jetzt Modelle, die GPT-4-Tier sind und die man selber (bei ausreichend Serverkapazität) hosten kann (Meta verfolgt damit natürlich kommerzielle Interessen, aber es ist schon eine wichtige Open-Source-Entwicklung).

Besonders bemerkenswert ist, dass die LLama 3.1 Modelle (70B und 8B) deutlich besser sind als die 3.0 Generation. D.h. "die Kleinen werden auch immer besser". Ein 8B sollte mit einer guten Grafikkarte auch auf einem lokalen Rechner laufen.

Meta hat auch ein sehr beeindruckendes Computer Vision Modell veröffentlicht: SAM 2 (ist nicht GenAI, aber trotzdem interessant). Man kann es direkt ausprobieren: https://sam2.metademolab.com/demo 

Und Google scheint auch wieder aktiv zu sein und führt tatsächlich die Chatbot Arena an mit einem neuen Gemini 1.5-Pro-Exp-0801. Gemini hat zur Zeit 2 Millionen Token Context Window. Man sollte ihn im Google AI Studio testen können. https://developers.googleblog.com/en/new-features-for-the-gemini-api-and-google-ai-studio/ 

Es gibt auch eine starke Entwicklung hin zu immer kleineren und besseren Modellen. So etwas wie Gemma 2 von Google oder GPT-4o mini und damit extreme Reduktionen er Kosten in der API-Nutzung. Und dann gibt es noch Themen wie LLM Routing und Context Caching, die ich spannend finde. LLM Routing geht in die Richtung: die komplexen Aufgaben für "die Großen" die einfachen Aufgaben für die "kleinen Modelle".  Es geht am Schluss ums Kosten einsparen.

OpenAI Speech Funktionalität ist jetzt bei den ersten Test-User:innen ausgerollt. Ethan Mollick hat einen interessanten Blog-Artikel geschrieben: https://www.oneusefulthing.org/p/on-speaking-to-ai. Damit sind das die ersten "nicht OpenAI Demos", die wir sehen.

Schönen Sommer! 

Christopher

_______________________________________________
Dhd-ag-agki mailing list -- dhd-ag-agki@lists.digitalhumanities.org
To unsubscribe send an email to dhd-ag-agki-leave@lists.digitalhumanities.org


--
Prof. Dr. Patrick Sahle
Bergische Universität Wuppertal - Lehrstuhl für Digital Humanities - Büro: L 12.22 - ☎︎ +49-202-439-5273
Mitglied des Institut für Dokumentologie und Editorik e.V.
patrick_sahle@fedihum.org - @patrick_sahle - @DH_BUW - @ideinfo

_______________________________________________
Dhd-ag-agki mailing list -- dhd-ag-agki@lists.digitalhumanities.org
To unsubscribe send an email to dhd-ag-agki-leave@lists.digitalhumanities.org

_______________________________________________
Dhd-ag-agki mailing list -- dhd-ag-agki@lists.digitalhumanities.org
To unsubscribe send an email to dhd-ag-agki-leave@lists.digitalhumanities.org