Liebe Liste,

Danke für die updates, Christopher. Ich frage mich immer bei den neu aufkommenden bzw. verbesserten LLMs, wie weit die Evaluationen und Benchmarks eine Aussagekraft für "unseren Bereich" haben. Im Grund müssten wir ja ein benchmarking für "die Geisteswissenschaften" (oder: typische geisteswissenschaftliche Aufgaben) haben, um das alles zielgenau bewerten zu können. Mir scheint es da eher um die Frage zu gehen, wie wir bei bestimmten Anforderungen die "wir" nun mal haben, weiterkommen. Das betrifft z.B. (Liste bitte ergänzen)

- die von mir so genannte "Zitationshärte" (ich suche noch einen besseren Begriff,  bis dahin ©Sahle), also die Fähigkeit wirklich mit Stellen aus Texten arbeiten zu können und die auch präzise benennen zu können (also sowohl die Texte (bibliografisch) als auch die Stellen)
- echte actionability, also die Fähigkeit mit Web-Interfaces zu interagieren
- Logik und Rationalität der Argumentation
- Zuverlässigkeit und Vollständigkeit der Aufgaben-Abarbeitung
- "historisches Bewusstsein" oder "literarisches Bewusstsein"

Was für Entwicklungen zeichnen sich da ab? Und: mir ist klar, dass die Fragen nicht unbedingt auf LLMs im engeren Sinne, sondern die sie umgebenden Anwendungen zielen.

Viele Grüße, Patrick

Am 02.08.2024 um 11:32 schrieb Pollin, Christopher (christopher.pollin@uni-graz.at):
Liebe Liste, 

hier kurz die wichtigsten Entwicklungen (aus meiner Sicht):

LLama 3.1 Modelle (405B, 70B und 8B) wurden veröffentlicht. Es ist ein Open-Source-Modell (und wahrscheinlich auch Open-Weights), das in einigen Benchmarks (mit Vorsicht zu genießen) besser abschneidet als GPT-4o und Claude 3.5 Sonnet. In https://arena.lmsys.org liegt es etwas hinter diesen beiden Modellen. Aber es gibt jetzt Modelle, die GPT-4-Tier sind und die man selber (bei ausreichend Serverkapazität) hosten kann (Meta verfolgt damit natürlich kommerzielle Interessen, aber es ist schon eine wichtige Open-Source-Entwicklung).

Besonders bemerkenswert ist, dass die LLama 3.1 Modelle (70B und 8B) deutlich besser sind als die 3.0 Generation. D.h. "die Kleinen werden auch immer besser". Ein 8B sollte mit einer guten Grafikkarte auch auf einem lokalen Rechner laufen.

Meta hat auch ein sehr beeindruckendes Computer Vision Modell veröffentlicht: SAM 2 (ist nicht GenAI, aber trotzdem interessant). Man kann es direkt ausprobieren: https://sam2.metademolab.com/demo 

Und Google scheint auch wieder aktiv zu sein und führt tatsächlich die Chatbot Arena an mit einem neuen Gemini 1.5-Pro-Exp-0801. Gemini hat zur Zeit 2 Millionen Token Context Window. Man sollte ihn im Google AI Studio testen können. https://developers.googleblog.com/en/new-features-for-the-gemini-api-and-google-ai-studio/ 

Es gibt auch eine starke Entwicklung hin zu immer kleineren und besseren Modellen. So etwas wie Gemma 2 von Google oder GPT-4o mini und damit extreme Reduktionen er Kosten in der API-Nutzung. Und dann gibt es noch Themen wie LLM Routing und Context Caching, die ich spannend finde. LLM Routing geht in die Richtung: die komplexen Aufgaben für "die Großen" die einfachen Aufgaben für die "kleinen Modelle".  Es geht am Schluss ums Kosten einsparen.

OpenAI Speech Funktionalität ist jetzt bei den ersten Test-User:innen ausgerollt. Ethan Mollick hat einen interessanten Blog-Artikel geschrieben: https://www.oneusefulthing.org/p/on-speaking-to-ai. Damit sind das die ersten "nicht OpenAI Demos", die wir sehen.

Schönen Sommer! 

Christopher

_______________________________________________
Dhd-ag-agki mailing list -- dhd-ag-agki@lists.digitalhumanities.org
To unsubscribe send an email to dhd-ag-agki-leave@lists.digitalhumanities.org


--
Prof. Dr. Patrick Sahle
Bergische Universität Wuppertal - Lehrstuhl für Digital Humanities - Büro: L 12.22 - ☎︎ +49-202-439-5273
Mitglied des Institut für Dokumentologie und Editorik e.V.
patrick_sahle@fedihum.org - @patrick_sahle - @DH_BUW - @ideinfo