Liebe Liste, hier kurz die wichtigsten Entwicklungen (aus meiner Sicht): LLama 3.1 Modelle (405B, 70B und 8B) wurden veröffentlicht. Es ist ein Open-Source-Modell (und wahrscheinlich auch Open-Weights), das in einigen Benchmarks (mit Vorsicht zu genießen) besser abschneidet als GPT-4o und Claude 3.5 Sonnet. In https://arena.lmsys.org liegt es etwas hinter diesen beiden Modellen. Aber es gibt jetzt Modelle, die GPT-4-Tier sind und die man selber (bei ausreichend Serverkapazität) hosten kann (Meta verfolgt damit natürlich kommerzielle Interessen, aber es ist schon eine wichtige Open-Source-Entwicklung). Besonders bemerkenswert ist, dass die LLama 3.1 Modelle (70B und 8B) deutlich besser sind als die 3.0 Generation. D.h. "die Kleinen werden auch immer besser". Ein 8B sollte mit einer guten Grafikkarte auch auf einem lokalen Rechner laufen. Meta hat auch ein sehr beeindruckendes Computer Vision Modell veröffentlicht: SAM 2 (ist nicht GenAI, aber trotzdem interessant). Man kann es direkt ausprobieren: https://sam2.metademolab.com/demo Und Google scheint auch wieder aktiv zu sein und führt tatsächlich die Chatbot Arena an mit einem neuen Gemini 1.5-Pro-Exp-0801. Gemini hat zur Zeit 2 Millionen Token Context Window. Man sollte ihn im Google AI Studio testen können. https://developers.googleblog.com/en/new-features-for-the-gemini-api-and-goo... Es gibt auch eine starke Entwicklung hin zu immer kleineren und besseren Modellen. So etwas wie Gemma 2 von Google oder GPT-4o mini und damit extreme Reduktionen er Kosten in der API-Nutzung. Und dann gibt es noch Themen wie LLM Routing und Context Caching, die ich spannend finde. LLM Routing geht in die Richtung: die komplexen Aufgaben für "die Großen" die einfachen Aufgaben für die "kleinen Modelle". Es geht am Schluss ums Kosten einsparen. OpenAI Speech Funktionalität ist jetzt bei den ersten Test-User:innen ausgerollt. Ethan Mollick hat einen interessanten Blog-Artikel geschrieben: https://www.oneusefulthing.org/p/on-speaking-to-ai. Damit sind das die ersten "nicht OpenAI Demos", die wir sehen. Schönen Sommer! Christopher
Liebe Liste, Danke für die updates, Christopher. Ich frage mich immer bei den neu aufkommenden bzw. verbesserten LLMs, wie weit die Evaluationen und Benchmarks eine Aussagekraft für "unseren Bereich" haben. Im Grund müssten wir ja ein benchmarking für "die Geisteswissenschaften" (oder: typische geisteswissenschaftliche Aufgaben) haben, um das alles zielgenau bewerten zu können. Mir scheint es da eher um die Frage zu gehen, wie wir bei bestimmten Anforderungen die "wir" nun mal haben, weiterkommen. Das betrifft z.B. (Liste bitte ergänzen) - die von mir so genannte "Zitationshärte" (ich suche noch einen besseren Begriff, bis dahin ©Sahle), also die Fähigkeit wirklich mit Stellen aus Texten arbeiten zu können und die auch präzise benennen zu können (also sowohl die Texte (bibliografisch) als auch die Stellen) - echte actionability, also die Fähigkeit mit Web-Interfaces zu interagieren - Logik und Rationalität der Argumentation - Zuverlässigkeit und Vollständigkeit der Aufgaben-Abarbeitung - "historisches Bewusstsein" oder "literarisches Bewusstsein" Was für Entwicklungen zeichnen sich da ab? Und: mir ist klar, dass die Fragen nicht unbedingt auf LLMs im engeren Sinne, sondern die sie umgebenden Anwendungen zielen. Viele Grüße, Patrick Am 02.08.2024 um 11:32 schrieb Pollin, Christopher (christopher.pollin@uni-graz.at):
Liebe Liste,
hier kurz die wichtigsten Entwicklungen (aus meiner Sicht):
LLama 3.1 Modelle (405B, 70B und 8B) wurden veröffentlicht. Es ist ein Open-Source-Modell (und wahrscheinlich auch Open-Weights), das in einigen Benchmarks (mit Vorsicht zu genießen) besser abschneidet als GPT-4o und Claude 3.5 Sonnet. In https://arena.lmsys.org liegt es etwas hinter diesen beiden Modellen. Aber es gibt jetzt Modelle, die GPT-4-Tier sind und die man selber (bei ausreichend Serverkapazität) hosten kann (Meta verfolgt damit natürlich kommerzielle Interessen, aber es ist schon eine wichtige Open-Source-Entwicklung).
Besonders bemerkenswert ist, dass die LLama 3.1 Modelle (70B und 8B) deutlich besser sind als die 3.0 Generation. D.h. "die Kleinen werden auch immer besser". Ein 8B sollte mit einer guten Grafikkarte auch auf einem lokalen Rechner laufen.
Meta hat auch ein sehr beeindruckendes Computer Vision Modell veröffentlicht: SAM 2 (ist nicht GenAI, aber trotzdem interessant). Man kann es direkt ausprobieren: https://sam2.metademolab.com/demo
Und Google scheint auch wieder aktiv zu sein und führt tatsächlich die Chatbot Arena an mit einem neuen Gemini 1.5-Pro-Exp-0801. Gemini hat zur Zeit 2 Millionen Token Context Window. Man sollte ihn im Google AI Studio testen können. https://developers.googleblog.com/en/new-features-for-the-gemini-api-and-goo...
Es gibt auch eine starke Entwicklung hin zu immer kleineren und besseren Modellen. So etwas wie Gemma 2 von Google oder GPT-4o mini und damit extreme Reduktionen er Kosten in der API-Nutzung. Und dann gibt es noch Themen wie LLM Routing und Context Caching, die ich spannend finde. LLM Routing geht in die Richtung: die komplexen Aufgaben für "die Großen" die einfachen Aufgaben für die "kleinen Modelle". Es geht am Schluss ums Kosten einsparen.
OpenAI Speech Funktionalität ist jetzt bei den ersten Test-User:innen ausgerollt. Ethan Mollick hat einen interessanten Blog-Artikel geschrieben: https://www.oneusefulthing.org/p/on-speaking-to-ai https://www.oneusefulthing.org/p/on-speaking-to-ai. Damit sind das die ersten "nicht OpenAI Demos", die wir sehen.
Schönen Sommer!
Christopher
_______________________________________________ Dhd-ag-agki mailing list --dhd-ag-agki@lists.digitalhumanities.org To unsubscribe send an email todhd-ag-agki-leave@lists.digitalhumanities.org
-- Prof. Dr. Patrick Sahle http://patrick-sahle.de Bergische Universität Wuppertal https://www.uni-wuppertal.de/ - Lehrstuhl für Digital Humanities - Büro: L 12.22 - ☎︎ +49-202-439-5273 Mitglied des Institut für Dokumentologie und Editorik http://www.i-d-e.de e.V. patrick_sahle@fedihum.org https://mastodon.social/@patrick_sahle@fedihum.org - @patrick_sahle https://twitter.com/patrick_sahle - @DH_BUW https://twitter.com/DH_BUW - @ideinfo https://twitter.com/ideinfo
Liebe Liste, das zielt ein bisschen in den Bereich, mit dem ich mich in meinem Kurzvortrag am 17.09. beschäftigen will. Ich glaube, dass das größtenteils tatsächlich unsere Aufgabe ist (als digitale Geisteswissenschaftler) - nicht nur die Benchmarks zu erstellen, sondern auch auch die Anwendungen, die mit den Benchmarks gemessen werden können. Natürlich wird uns unsere Aufgabe schon ein Stück erleichtert, wenn die Produkte bereits ein wenig Hilfestellung leisten - aber als Kulturwissenschaftler sind wir möglicherweise sogar ein Stück zu anspruchsvoll oder "speziell", um die Out-of-the-box-Funktionalitäten wirklich immer schätzen und nutzen zu können. Mir schweben deshalb nicht nur "best practices" sondern eher sowas wie "Design Patterns" für Kulturwissenschaftler vor und ein Qualitätskatalog für die von uns bereitgestellten Lösungen. Thomas Am 14.08.2024 um 14:13 schrieb Patrick Sahle:
Liebe Liste,
Danke für die updates, Christopher. Ich frage mich immer bei den neu aufkommenden bzw. verbesserten LLMs, wie weit die Evaluationen und Benchmarks eine Aussagekraft für "unseren Bereich" haben. Im Grund müssten wir ja ein benchmarking für "die Geisteswissenschaften" (oder: typische geisteswissenschaftliche Aufgaben) haben, um das alles zielgenau bewerten zu können. Mir scheint es da eher um die Frage zu gehen, wie wir bei bestimmten Anforderungen die "wir" nun mal haben, weiterkommen. Das betrifft z.B. (Liste bitte ergänzen)
- die von mir so genannte "Zitationshärte" (ich suche noch einen besseren Begriff, bis dahin ©Sahle), also die Fähigkeit wirklich mit Stellen aus Texten arbeiten zu können und die auch präzise benennen zu können (also sowohl die Texte (bibliografisch) als auch die Stellen) - echte actionability, also die Fähigkeit mit Web-Interfaces zu interagieren - Logik und Rationalität der Argumentation - Zuverlässigkeit und Vollständigkeit der Aufgaben-Abarbeitung - "historisches Bewusstsein" oder "literarisches Bewusstsein"
Was für Entwicklungen zeichnen sich da ab? Und: mir ist klar, dass die Fragen nicht unbedingt auf LLMs im engeren Sinne, sondern die sie umgebenden Anwendungen zielen.
Viele Grüße, Patrick
Am 02.08.2024 um 11:32 schrieb Pollin, Christopher (christopher.pollin@uni-graz.at):
Liebe Liste,
hier kurz die wichtigsten Entwicklungen (aus meiner Sicht):
LLama 3.1 Modelle (405B, 70B und 8B) wurden veröffentlicht. Es ist ein Open-Source-Modell (und wahrscheinlich auch Open-Weights), das in einigen Benchmarks (mit Vorsicht zu genießen) besser abschneidet als GPT-4o und Claude 3.5 Sonnet. In https://arena.lmsys.org liegt es etwas hinter diesen beiden Modellen. Aber es gibt jetzt Modelle, die GPT-4-Tier sind und die man selber (bei ausreichend Serverkapazität) hosten kann (Meta verfolgt damit natürlich kommerzielle Interessen, aber es ist schon eine wichtige Open-Source-Entwicklung).
Besonders bemerkenswert ist, dass die LLama 3.1 Modelle (70B und 8B) deutlich besser sind als die 3.0 Generation. D.h. "die Kleinen werden auch immer besser". Ein 8B sollte mit einer guten Grafikkarte auch auf einem lokalen Rechner laufen.
Meta hat auch ein sehr beeindruckendes Computer Vision Modell veröffentlicht: SAM 2 (ist nicht GenAI, aber trotzdem interessant). Man kann es direkt ausprobieren: https://sam2.metademolab.com/demo
Und Google scheint auch wieder aktiv zu sein und führt tatsächlich die Chatbot Arena an mit einem neuen Gemini 1.5-Pro-Exp-0801. Gemini hat zur Zeit 2 Millionen Token Context Window. Man sollte ihn im Google AI Studio testen können. https://developers.googleblog.com/en/new-features-for-the-gemini-api-and-goo...
Es gibt auch eine starke Entwicklung hin zu immer kleineren und besseren Modellen. So etwas wie Gemma 2 von Google oder GPT-4o mini und damit extreme Reduktionen er Kosten in der API-Nutzung. Und dann gibt es noch Themen wie LLM Routing und Context Caching, die ich spannend finde. LLM Routing geht in die Richtung: die komplexen Aufgaben für "die Großen" die einfachen Aufgaben für die "kleinen Modelle". Es geht am Schluss ums Kosten einsparen.
OpenAI Speech Funktionalität ist jetzt bei den ersten Test-User:innen ausgerollt. Ethan Mollick hat einen interessanten Blog-Artikel geschrieben: https://www.oneusefulthing.org/p/on-speaking-to-ai https://www.oneusefulthing.org/p/on-speaking-to-ai. Damit sind das die ersten "nicht OpenAI Demos", die wir sehen.
Schönen Sommer!
Christopher
_______________________________________________ Dhd-ag-agki mailing list --dhd-ag-agki@lists.digitalhumanities.org To unsubscribe send an email todhd-ag-agki-leave@lists.digitalhumanities.org
-- Prof. Dr. Patrick Sahle http://patrick-sahle.de Bergische Universität Wuppertal https://www.uni-wuppertal.de/ - Lehrstuhl für Digital Humanities - Büro: L 12.22 - ☎︎ +49-202-439-5273 Mitglied des Institut für Dokumentologie und Editorik http://www.i-d-e.de e.V. patrick_sahle@fedihum.org https://mastodon.social/@patrick_sahle@fedihum.org - @patrick_sahle https://twitter.com/patrick_sahle - @DH_BUW https://twitter.com/DH_BUW - @ideinfo https://twitter.com/ideinfo
_______________________________________________ Dhd-ag-agki mailing list --dhd-ag-agki@lists.digitalhumanities.org To unsubscribe send an email todhd-ag-agki-leave@lists.digitalhumanities.org
Liebe Liste, Benchmarking für Nischenaufgaben ist tatsächlich schwierig - umso besser wäre es, es würde sich eine Gruppe finden, die Eval-Datensätze etc. für den DH-Bereich entwickeln würde (diese aber bewusst nicht online teilt). Damit zusammen hängt, dass es große Vorteile hätte, wenn LLMs als "öffentliches Gut" deklariert werden könnten, um hier Ressourcen zu poolen. Erste Bestrebungen existieren bereits: https://publicai.network/, https://www.mitre.org/focus-areas/artificial-intelligence Wenn ich die technischen Trends richtig deute, dann geht der Weg weg von einem monolithischen Modell hin zu einer Mix-of-Agents Constellation, bei der verschiedene kleine Modelle miteinander kollaborieren (hatte Christopher auch schon erwähnt). Manche dieser Modelle in einer Constellation sind dann wahrscheinlich gar keine chatbots, sondern spezialisierte Embedder wie z.B. das hier: https://huggingface.co/spaces/numind/NuExtract Ein solches Modell, das aus großen, unstrukturierten Textcorpora Daten entlang eines Schemas extrahieren und in maschinell weiterverarbeitbarer Form (JSON) ausgeben kann, wäre an vielen Stellen nützlich. Aber auch kleinere LLMs an sich erhalten mit integriertem function calling / tool use immer mehr Eigenschaften, die bislang nur über ein RAG integrierbar waren. Besonders gut finde ich hier aktuell Mistrals Large 2 Modell und Command R+ von Cohere. https://docs.mistral.ai/capabilities/function_calling/ Damit werden praktisch die Schnittstellen zu anderen Werkzeugen schon direkt im Modell angelegt und können z.B. gefinetuned werden. Was agentisches und mehrschrittiges autonomes Lösungsverhalten angeht, werden hier z.Zt. die meisten Fortschritte gemacht. Z.B. schlägt dieses Paper seit zwei Tagen Wellen: https://arxiv.org/abs/2408.06292 oder auch https://arxiv.org/abs/2404.14394 Ob all das aber letztlich zu logisch-rationalem "Denken" oder Bewusstsein bei LLMs führt, ist je nach Perspektive fraglich. Aktuell ist z.B. der Arc Prize ausgeschrieben: https://arcprize.org/ Wer es schafft, dass seine KI diese Grundschulaufgaben löst, erhält eine Million Dollar. Bislang wurden noch keine Gewinner benannt. Gleichzeitig ist bekannt, dass OpenAI (und andere) mit z.B. dem Quiet-Star Ansatz (Q-Star, Strawberry) versuchen, logisches Denken in die Architektur von LLMs einzuschreiben. Entweder, das scheint grundlegend nicht zu funktionieren (weshalb sich die Veröffentlichung von GPT-5 verzögert), oder es hat schon zu gut funktioniert, weshalb Sutskever, Leike und andere OpenAI verlassen haben - und sich jetzt lieber auf Schadensbegrenzung: https://ssi.inc/ Viele Grüße Thomas Am 14.08.24 um 14:28 schrieb Thomas Jäger:
Liebe Liste,
das zielt ein bisschen in den Bereich, mit dem ich mich in meinem Kurzvortrag am 17.09. beschäftigen will. Ich glaube, dass das größtenteils tatsächlich unsere Aufgabe ist (als digitale Geisteswissenschaftler) - nicht nur die Benchmarks zu erstellen, sondern auch auch die Anwendungen, die mit den Benchmarks gemessen werden können. Natürlich wird uns unsere Aufgabe schon ein Stück erleichtert, wenn die Produkte bereits ein wenig Hilfestellung leisten - aber als Kulturwissenschaftler sind wir möglicherweise sogar ein Stück zu anspruchsvoll oder "speziell", um die Out-of-the-box-Funktionalitäten wirklich immer schätzen und nutzen zu können. Mir schweben deshalb nicht nur "best practices" sondern eher sowas wie "Design Patterns" für Kulturwissenschaftler vor und ein Qualitätskatalog für die von uns bereitgestellten Lösungen.
Thomas
Am 14.08.2024 um 14:13 schrieb Patrick Sahle:
Liebe Liste,
Danke für die updates, Christopher. Ich frage mich immer bei den neu aufkommenden bzw. verbesserten LLMs, wie weit die Evaluationen und Benchmarks eine Aussagekraft für "unseren Bereich" haben. Im Grund müssten wir ja ein benchmarking für "die Geisteswissenschaften" (oder: typische geisteswissenschaftliche Aufgaben) haben, um das alles zielgenau bewerten zu können. Mir scheint es da eher um die Frage zu gehen, wie wir bei bestimmten Anforderungen die "wir" nun mal haben, weiterkommen. Das betrifft z.B. (Liste bitte ergänzen)
- die von mir so genannte "Zitationshärte" (ich suche noch einen besseren Begriff, bis dahin ©Sahle), also die Fähigkeit wirklich mit Stellen aus Texten arbeiten zu können und die auch präzise benennen zu können (also sowohl die Texte (bibliografisch) als auch die Stellen) - echte actionability, also die Fähigkeit mit Web-Interfaces zu interagieren - Logik und Rationalität der Argumentation - Zuverlässigkeit und Vollständigkeit der Aufgaben-Abarbeitung - "historisches Bewusstsein" oder "literarisches Bewusstsein"
Was für Entwicklungen zeichnen sich da ab? Und: mir ist klar, dass die Fragen nicht unbedingt auf LLMs im engeren Sinne, sondern die sie umgebenden Anwendungen zielen.
Viele Grüße, Patrick
Am 02.08.2024 um 11:32 schrieb Pollin, Christopher (christopher.pollin@uni-graz.at):
Liebe Liste,
hier kurz die wichtigsten Entwicklungen (aus meiner Sicht):
LLama 3.1 Modelle (405B, 70B und 8B) wurden veröffentlicht. Es ist ein Open-Source-Modell (und wahrscheinlich auch Open-Weights), das in einigen Benchmarks (mit Vorsicht zu genießen) besser abschneidet als GPT-4o und Claude 3.5 Sonnet. In https://arena.lmsys.org liegt es etwas hinter diesen beiden Modellen. Aber es gibt jetzt Modelle, die GPT-4-Tier sind und die man selber (bei ausreichend Serverkapazität) hosten kann (Meta verfolgt damit natürlich kommerzielle Interessen, aber es ist schon eine wichtige Open-Source-Entwicklung).
Besonders bemerkenswert ist, dass die LLama 3.1 Modelle (70B und 8B) deutlich besser sind als die 3.0 Generation. D.h. "die Kleinen werden auch immer besser". Ein 8B sollte mit einer guten Grafikkarte auch auf einem lokalen Rechner laufen.
Meta hat auch ein sehr beeindruckendes Computer Vision Modell veröffentlicht: SAM 2 (ist nicht GenAI, aber trotzdem interessant). Man kann es direkt ausprobieren: https://sam2.metademolab.com/demo
Und Google scheint auch wieder aktiv zu sein und führt tatsächlich die Chatbot Arena an mit einem neuen Gemini 1.5-Pro-Exp-0801. Gemini hat zur Zeit 2 Millionen Token Context Window. Man sollte ihn im Google AI Studio testen können. https://developers.googleblog.com/en/new-features-for-the-gemini-api-and-goo...
Es gibt auch eine starke Entwicklung hin zu immer kleineren und besseren Modellen. So etwas wie Gemma 2 von Google oder GPT-4o mini und damit extreme Reduktionen er Kosten in der API-Nutzung. Und dann gibt es noch Themen wie LLM Routing und Context Caching, die ich spannend finde. LLM Routing geht in die Richtung: die komplexen Aufgaben für "die Großen" die einfachen Aufgaben für die "kleinen Modelle". Es geht am Schluss ums Kosten einsparen.
OpenAI Speech Funktionalität ist jetzt bei den ersten Test-User:innen ausgerollt. Ethan Mollick hat einen interessanten Blog-Artikel geschrieben: https://www.oneusefulthing.org/p/on-speaking-to-ai https://www.oneusefulthing.org/p/on-speaking-to-ai. Damit sind das die ersten "nicht OpenAI Demos", die wir sehen.
Schönen Sommer!
Christopher
_______________________________________________ Dhd-ag-agki mailing list --dhd-ag-agki@lists.digitalhumanities.org To unsubscribe send an email todhd-ag-agki-leave@lists.digitalhumanities.org
-- Prof. Dr. Patrick Sahle http://patrick-sahle.de Bergische Universität Wuppertal https://www.uni-wuppertal.de/ - Lehrstuhl für Digital Humanities - Büro: L 12.22 - ☎︎ +49-202-439-5273 Mitglied des Institut für Dokumentologie und Editorik http://www.i-d-e.de e.V. patrick_sahle@fedihum.org https://mastodon.social/@patrick_sahle@fedihum.org - @patrick_sahle https://twitter.com/patrick_sahle - @DH_BUW https://twitter.com/DH_BUW - @ideinfo https://twitter.com/ideinfo
_______________________________________________ Dhd-ag-agki mailing list --dhd-ag-agki@lists.digitalhumanities.org To unsubscribe send an email todhd-ag-agki-leave@lists.digitalhumanities.org
_______________________________________________ Dhd-ag-agki mailing list --dhd-ag-agki@lists.digitalhumanities.org To unsubscribe send an email todhd-ag-agki-leave@lists.digitalhumanities.org
Liebe Liste,
gemeinsam mit zwei Studentinnen, die bei mir ein 2-monatiges Praktikum absolvieren, plane ich u. A. die Qualität verschiedener Modelle - vor allem für NLP Aufgaben - für mehrsprachige Quellen zu evaluieren (und dadurch auch Evaluations-Datensätze zu erstellen). Hat jemand von Euch Erfahrung damit? Ich bin gerade auch im Austausch mit Informatiker:innen, aber was ist für uns in den Geisteswissenschaften wichtig zu beachten?
Mit besten Grüßen,
Sarah
From: Thomas Renkert
NLP-Aufgaben in den Geisteswissenschaften Eine erste einfache Antwort schiene es mir hier zu sein, dass die Lösungen auch für historische Texte und Sprachformen funktionieren; außerdem natürlich für die fiktionalen Texte der Literaturwissenschaften. Dann wäre die Frage, was denn klassische NLP-Aufgaben bei uns wären? Das müssten wir als community eigentlich sagen können ... - OCR (Drucke/Handschriften) - Erkennung von Textstrukturen, Codierung (Text 2 TEI) - Named Entity Recognition - Lemmatisierung / POS - Textsorten- und Genreklassifikation - Textvergleich, Text-Reuse - allgemeine/gezielte Informationsextraktion - analytische Annotationen ... was noch? Das geht natürlich schon in sehr verschiedene Richtungen. In welche würden Sie zuerst denken und Evaluations-Szenarien entwickeln wollen? Oder haben Sie eher an ganz Anderes gedacht? Viele Grüße, Patrick Sahle Am 15.08.2024 um 01:20 schrieb Oberbichler, Dr. Sarah:
gemeinsam mit zwei Studentinnen, die bei mir ein 2-monatiges Praktikum absolvieren, plane ich u. A. die Qualität verschiedener Modelle - vor allem für NLP Aufgaben - für mehrsprachige Quellen zu evaluieren (und dadurch auch Evaluations-Datensätze zu erstellen). Hat jemand von Euch Erfahrung damit? Ich bin gerade auch im Austausch mit Informatiker:innen, aber was ist für uns in den Geisteswissenschaften wichtig zu beachten?
Mit besten Grüßen,
Sarah
*From:* Thomas Renkert
*Sent:* Wednesday, August 14, 2024 4:50 PM *To:* dhd-ag-agki@lists.digitalhumanities.org *Subject:* [Dhd-ag-agki] Re: AI Update im Sommer Liebe Liste,
Benchmarking für Nischenaufgaben ist tatsächlich schwierig - umso besser wäre es, es würde sich eine Gruppe finden, die Eval-Datensätze etc. für den DH-Bereich entwickeln würde (diese aber bewusst nicht online teilt).
Damit zusammen hängt, dass es große Vorteile hätte, wenn LLMs als "öffentliches Gut" deklariert werden könnten, um hier Ressourcen zu poolen. Erste Bestrebungen existieren bereits: https://publicai.network/, https://www.mitre.org/focus-areas/artificial-intelligence
Wenn ich die technischen Trends richtig deute, dann geht der Weg weg von einem monolithischen Modell hin zu einer Mix-of-Agents Constellation, bei der verschiedene kleine Modelle miteinander kollaborieren (hatte Christopher auch schon erwähnt). Manche dieser Modelle in einer Constellation sind dann wahrscheinlich gar keine chatbots, sondern spezialisierte Embedder wie z.B. das hier:
https://huggingface.co/spaces/numind/NuExtract
Ein solches Modell, das aus großen, unstrukturierten Textcorpora Daten entlang eines Schemas extrahieren und in maschinell weiterverarbeitbarer Form (JSON) ausgeben kann, wäre an vielen Stellen nützlich.
Aber auch kleinere LLMs an sich erhalten mit integriertem function calling / tool use immer mehr Eigenschaften, die bislang nur über ein RAG integrierbar waren. Besonders gut finde ich hier aktuell Mistrals Large 2 Modell und Command R+ von Cohere.
https://docs.mistral.ai/capabilities/function_calling/
Damit werden praktisch die Schnittstellen zu anderen Werkzeugen schon direkt im Modell angelegt und können z.B. gefinetuned werden.
Was agentisches und mehrschrittiges autonomes Lösungsverhalten angeht, werden hier z.Zt. die meisten Fortschritte gemacht. Z.B. schlägt dieses Paper seit zwei Tagen Wellen: https://arxiv.org/abs/2408.06292 oder auch https://arxiv.org/abs/2404.14394
Ob all das aber letztlich zu logisch-rationalem "Denken" oder Bewusstsein bei LLMs führt, ist je nach Perspektive fraglich. Aktuell ist z.B. der Arc Prize ausgeschrieben: https://arcprize.org/
Wer es schafft, dass seine KI diese Grundschulaufgaben löst, erhält eine Million Dollar. Bislang wurden noch keine Gewinner benannt.
Gleichzeitig ist bekannt, dass OpenAI (und andere) mit z.B. dem Quiet-Star Ansatz (Q-Star, Strawberry) versuchen, logisches Denken in die Architektur von LLMs einzuschreiben. Entweder, das scheint grundlegend nicht zu funktionieren (weshalb sich die Veröffentlichung von GPT-5 verzögert), oder es hat schon zu gut funktioniert, weshalb Sutskever, Leike und andere OpenAI verlassen haben - und sich jetzt lieber auf Schadensbegrenzung: https://ssi.inc/
Viele Grüße
Thomas
Am 14.08.24 um 14:28 schrieb Thomas Jäger:
Liebe Liste,
das zielt ein bisschen in den Bereich, mit dem ich mich in meinem Kurzvortrag am 17.09. beschäftigen will. Ich glaube, dass das größtenteils tatsächlich unsere Aufgabe ist (als digitale Geisteswissenschaftler) - nicht nur die Benchmarks zu erstellen, sondern auch auch die Anwendungen, die mit den Benchmarks gemessen werden können. Natürlich wird uns unsere Aufgabe schon ein Stück erleichtert, wenn die Produkte bereits ein wenig Hilfestellung leisten - aber als Kulturwissenschaftler sind wir möglicherweise sogar ein Stück zu anspruchsvoll oder "speziell", um die Out-of-the-box-Funktionalitäten wirklich immer schätzen und nutzen zu können. Mir schweben deshalb nicht nur "best practices" sondern eher sowas wie "Design Patterns" für Kulturwissenschaftler vor und ein Qualitätskatalog für die von uns bereitgestellten Lösungen.
Thomas
Am 14.08.2024 um 14:13 schrieb Patrick Sahle:
Liebe Liste,
Danke für die updates, Christopher. Ich frage mich immer bei den neu aufkommenden bzw. verbesserten LLMs, wie weit die Evaluationen und Benchmarks eine Aussagekraft für "unseren Bereich" haben. Im Grund müssten wir ja ein benchmarking für "die Geisteswissenschaften" (oder: typische geisteswissenschaftliche Aufgaben) haben, um das alles zielgenau bewerten zu können. Mir scheint es da eher um die Frage zu gehen, wie wir bei bestimmten Anforderungen die "wir" nun mal haben, weiterkommen. Das betrifft z.B. (Liste bitte ergänzen)
- die von mir so genannte "Zitationshärte" (ich suche noch einen besseren Begriff, bis dahin ©Sahle), also die Fähigkeit wirklich mit Stellen aus Texten arbeiten zu können und die auch präzise benennen zu können (also sowohl die Texte (bibliografisch) als auch die Stellen) - echte actionability, also die Fähigkeit mit Web-Interfaces zu interagieren - Logik und Rationalität der Argumentation - Zuverlässigkeit und Vollständigkeit der Aufgaben-Abarbeitung - "historisches Bewusstsein" oder "literarisches Bewusstsein"
Was für Entwicklungen zeichnen sich da ab? Und: mir ist klar, dass die Fragen nicht unbedingt auf LLMs im engeren Sinne, sondern die sie umgebenden Anwendungen zielen.
Viele Grüße, Patrick
Am 02.08.2024 um 11:32 schrieb Pollin, Christopher (christopher.pollin@uni-graz.at):
Liebe Liste,
hier kurz die wichtigsten Entwicklungen (aus meiner Sicht):
LLama 3.1 Modelle (405B, 70B und 8B) wurden veröffentlicht. Es ist ein Open-Source-Modell (und wahrscheinlich auch Open-Weights), das in einigen Benchmarks (mit Vorsicht zu genießen) besser abschneidet als GPT-4o und Claude 3.5 Sonnet. In https://arena.lmsys.org liegt es etwas hinter diesen beiden Modellen. Aber es gibt jetzt Modelle, die GPT-4-Tier sind und die man selber (bei ausreichend Serverkapazität) hosten kann (Meta verfolgt damit natürlich kommerzielle Interessen, aber es ist schon eine wichtige Open-Source-Entwicklung).
Besonders bemerkenswert ist, dass die LLama 3.1 Modelle (70B und 8B) deutlich besser sind als die 3.0 Generation. D.h. "die Kleinen werden auch immer besser". Ein 8B sollte mit einer guten Grafikkarte auch auf einem lokalen Rechner laufen.
Meta hat auch ein sehr beeindruckendes Computer Vision Modell veröffentlicht: SAM 2 (ist nicht GenAI, aber trotzdem interessant). Man kann es direkt ausprobieren: https://sam2.metademolab.com/demo
Und Google scheint auch wieder aktiv zu sein und führt tatsächlich die Chatbot Arena an mit einem neuen Gemini 1.5-Pro-Exp-0801. Gemini hat zur Zeit 2 Millionen Token Context Window. Man sollte ihn im Google AI Studio testen können. https://developers.googleblog.com/en/new-features-for-the-gemini-api-and-goo...
Es gibt auch eine starke Entwicklung hin zu immer kleineren und besseren Modellen. So etwas wie Gemma 2 von Google oder GPT-4o mini und damit extreme Reduktionen er Kosten in der API-Nutzung. Und dann gibt es noch Themen wie LLM Routing und Context Caching, die ich spannend finde. LLM Routing geht in die Richtung: die komplexen Aufgaben für "die Großen" die einfachen Aufgaben für die "kleinen Modelle". Es geht am Schluss ums Kosten einsparen.
OpenAI Speech Funktionalität ist jetzt bei den ersten Test-User:innen Test-User:innen ausgerollt. Ethan Mollick hat einen interessanten Blog-Artikel geschrieben: https://www.oneusefulthing.org/p/on-speaking-to-ai. Damit sind das die ersten "nicht OpenAI Demos", die wir sehen.
Schönen Sommer!
Christopher
_______________________________________________
Dhd-ag-agki mailing list --dhd-ag-agki@lists.digitalhumanities.org
To unsubscribe send an email todhd-ag-agki-leave@lists.digitalhumanities.org
-- Prof. Dr. Patrick Sahle http://patrick-sahle.de Bergische Universität Wuppertal https://www.uni-wuppertal.de/ - Lehrstuhl für Digital Humanities - Büro: L 12.22 - ☎︎ +49-202-439-5273 Mitglied des Institut für Dokumentologie und Editorik http://www.i-d-e.de e.V. patrick_sahle@fedihum.org https://mastodon.social/@patrick_sahle@fedihum.org - @patrick_sahle https://twitter.com/patrick_sahle - @DH_BUW https://twitter.com/DH_BUW - @ideinfo https://twitter.com/ideinfo
_______________________________________________
Dhd-ag-agki mailing list --dhd-ag-agki@lists.digitalhumanities.org
To unsubscribe send an email todhd-ag-agki-leave@lists.digitalhumanities.org
_______________________________________________
Dhd-ag-agki mailing list --dhd-ag-agki@lists.digitalhumanities.org
To unsubscribe send an email todhd-ag-agki-leave@lists.digitalhumanities.org
_______________________________________________ Dhd-ag-agki mailing list --dhd-ag-agki@lists.digitalhumanities.org To unsubscribe send an email todhd-ag-agki-leave@lists.digitalhumanities.org
-- Prof. Dr. Patrick Sahle http://patrick-sahle.de Bergische Universität Wuppertal https://www.uni-wuppertal.de/ - Lehrstuhl für Digital Humanities - Büro: L 12.22 - ☎︎ +49-202-439-5273 Mitglied des Institut für Dokumentologie und Editorik http://www.i-d-e.de e.V. patrick_sahle@fedihum.org https://mastodon.social/@patrick_sahle@fedihum.org - @patrick_sahle https://twitter.com/patrick_sahle - @DH_BUW https://twitter.com/DH_BUW - @ideinfo https://twitter.com/ideinfo
Liebe Liste, lieber Thomas, Am 14.08.24 um 16:50 schrieb Thomas Renkert:
Wenn ich die technischen Trends richtig deute, dann geht der Weg weg von einem monolithischen Modell hin zu einer Mix-of-Agents Constellation, bei der verschiedene kleine Modelle miteinander kollaborieren (hatte Christopher auch schon erwähnt). Manche dieser Modelle in einer Constellation sind dann wahrscheinlich gar keine chatbots, sondern spezialisierte Embedder wie z.B. das hier:
https://huggingface.co/spaces/numind/NuExtract
Ein solches Modell, das aus großen, unstrukturierten Textcorpora Daten entlang eines Schemas extrahieren und in maschinell weiterverarbeitbarer Form (JSON) ausgeben kann, wäre an vielen Stellen nützlich.
Danke für den Hinweis, das sieht tatsächlich für viele Anwendungen in den DH sehr interessant aus! Eine Frage in die Runde: Die Beispiele extrahieren ja v.a. Strings. Für alles, was mit Linked Open Data zu tun hat, wäre es aber ja wünschenswert, gleich entsprechende URIs aus einem vorgegebenen Vokabular zu matchen, wie es z.B. Antelope macht https://service.tib.eu/annotation/. Konkret sehe ich das Problem, dass man ein solches Vokabular ja auch erst mal dem Modell übergeben müsste, was bei klassischen LLMs schnell das Kontextfenster sprengt. Hat da jemand Erfahrungen mit Ansätzen, die die neuen Möglichkeiten von LLMs für Entity Linking nutzen? Liebe Grüße Frederik -- Prof. Dr. Frederik Elwert Außerplanmäßiger Professor Centrum für Religionswissenschaftliche Studien Ruhr-Universität Bochum https://dh.ceres.rub.de/
Liebe alle, für uns stellt sich das gleiche Problem im Zusammenhang mit Autor:innen-disambiguierung im Rahmen von Zitationsextraktion. NuExtract werden wir ganz sicher einmal ausprobieren. Bisher gehen wir davon aus, das das Ganze in mehreren Arbeitsschritten gelöst werden muss -erst String-Extraktion, dann Linking mit externen Datenquellen, wofür es nicht unbedingt (oder gar nicht einmal primär) einer LLM bedarf - hier planen wir bisher, auf traditionelle Reconciliation-techniken zurückgreifen (die ggf. menschlicher Entscheidungen zwischen mehreren Kandidaten bedarf). Aber ich lasse mich gerne korrigieren ! Herzliche Grüße in die Runde, Christian ------------------------------------------------------------------------------- Dr. Christian Boulanger - Wissenschaftler, Abteilungskoordinator Max-Planck-Institut für Rechtsgeschichte und Rechtstheorie www.lhlt.mpg.de/boulanger -----Ursprüngliche Nachricht----- Von: Frederik Elwert via Dhd-ag-agki < > Gesendet: Montag, 19. August 2024 15:39 An: dhd-ag-agki@lists.digitalhumanities.org Betreff: [Dhd-ag-agki] Re: AI Update im Sommer Liebe Liste, lieber Thomas, Am 14.08.24 um 16:50 schrieb Thomas Renkert:
Wenn ich die technischen Trends richtig deute, dann geht der Weg weg von einem monolithischen Modell hin zu einer Mix-of-Agents Constellation, bei der verschiedene kleine Modelle miteinander kollaborieren (hatte Christopher auch schon erwähnt). Manche dieser Modelle in einer Constellation sind dann wahrscheinlich gar keine chatbots, sondern spezialisierte Embedder wie z.B. das hier:
https://huggingface.co/spaces/numind/NuExtract
Ein solches Modell, das aus großen, unstrukturierten Textcorpora Daten entlang eines Schemas extrahieren und in maschinell weiterverarbeitbarer Form (JSON) ausgeben kann, wäre an vielen Stellen nützlich.
Danke für den Hinweis, das sieht tatsächlich für viele Anwendungen in den DH sehr interessant aus! Eine Frage in die Runde: Die Beispiele extrahieren ja v.a. Strings. Für alles, was mit Linked Open Data zu tun hat, wäre es aber ja wünschenswert, gleich entsprechende URIs aus einem vorgegebenen Vokabular zu matchen, wie es z.B. Antelope macht https://service.tib.eu/annotation/. Konkret sehe ich das Problem, dass man ein solches Vokabular ja auch erst mal dem Modell übergeben müsste, was bei klassischen LLMs schnell das Kontextfenster sprengt. Hat da jemand Erfahrungen mit Ansätzen, die die neuen Möglichkeiten von LLMs für Entity Linking nutzen? Liebe Grüße Frederik -- Prof. Dr. Frederik Elwert Außerplanmäßiger Professor Centrum für Religionswissenschaftliche Studien Ruhr-Universität Bochum https://dh.ceres.rub.de/
Hallo,
ich verfolge so einen ähnlichen Ansatz bei der Extraktion von IDs aus einem
TEI Register. Ich habe das Register in chroma-db und nutze dann llama3 via
Ollama zur Extraktion der Entitäten bzw. der Ids. Llama3 hat eine
format=json flag, mit der man sehr konsistent strukturierte Daten erhält,
die man weiter verarbeiten kann. Nach dem Urlaub synche ich das auf GitHub
und teile bei Interesse gerne den Link.
Frederik Elwert via Dhd-ag-agki
Liebe Liste, lieber Thomas,
Am 14.08.24 um 16:50 schrieb Thomas Renkert:
Wenn ich die technischen Trends richtig deute, dann geht der Weg weg von einem monolithischen Modell hin zu einer Mix-of-Agents Constellation, bei der verschiedene kleine Modelle miteinander kollaborieren (hatte Christopher auch schon erwähnt). Manche dieser Modelle in einer Constellation sind dann wahrscheinlich gar keine chatbots, sondern spezialisierte Embedder wie z.B. das hier:
https://huggingface.co/spaces/numind/NuExtract
Ein solches Modell, das aus großen, unstrukturierten Textcorpora Daten entlang eines Schemas extrahieren und in maschinell weiterverarbeitbarer Form (JSON) ausgeben kann, wäre an vielen Stellen nützlich.
Danke für den Hinweis, das sieht tatsächlich für viele Anwendungen in den DH sehr interessant aus!
Eine Frage in die Runde: Die Beispiele extrahieren ja v.a. Strings. Für alles, was mit Linked Open Data zu tun hat, wäre es aber ja wünschenswert, gleich entsprechende URIs aus einem vorgegebenen Vokabular zu matchen, wie es z.B. Antelope macht https://service.tib.eu/annotation/.
Konkret sehe ich das Problem, dass man ein solches Vokabular ja auch erst mal dem Modell übergeben müsste, was bei klassischen LLMs schnell das Kontextfenster sprengt. Hat da jemand Erfahrungen mit Ansätzen, die die neuen Möglichkeiten von LLMs für Entity Linking nutzen?
Liebe Grüße Frederik
-- Prof. Dr. Frederik Elwert
Außerplanmäßiger Professor Centrum für Religionswissenschaftliche Studien Ruhr-Universität Bochum
_______________________________________________ Dhd-ag-agki mailing list -- dhd-ag-agki@lists.digitalhumanities.org To unsubscribe send an email to dhd-ag-agki-leave@lists.digitalhumanities.org
participants (8)
-
Boulanger, Christian
-
Frederik Elwert
-
Michael Schonhardt
-
Oberbichler, Dr. Sarah
-
Patrick Sahle
-
Pollin, Christopher (christopher.pollin@uni-graz.at)
-
Thomas Jäger
-
Thomas Renkert