Hallo,
ich verfolge so einen ähnlichen Ansatz bei der Extraktion von IDs aus einem
TEI Register. Ich habe das Register in chroma-db und nutze dann llama3 via
Ollama zur Extraktion der Entitäten bzw. der Ids. Llama3 hat eine
format=json flag, mit der man sehr konsistent strukturierte Daten erhält,
die man weiter verarbeiten kann. Nach dem Urlaub synche ich das auf GitHub
und teile bei Interesse gerne den Link.
Frederik Elwert via Dhd-ag-agki
Liebe Liste, lieber Thomas,
Am 14.08.24 um 16:50 schrieb Thomas Renkert:
Wenn ich die technischen Trends richtig deute, dann geht der Weg weg von einem monolithischen Modell hin zu einer Mix-of-Agents Constellation, bei der verschiedene kleine Modelle miteinander kollaborieren (hatte Christopher auch schon erwähnt). Manche dieser Modelle in einer Constellation sind dann wahrscheinlich gar keine chatbots, sondern spezialisierte Embedder wie z.B. das hier:
https://huggingface.co/spaces/numind/NuExtract
Ein solches Modell, das aus großen, unstrukturierten Textcorpora Daten entlang eines Schemas extrahieren und in maschinell weiterverarbeitbarer Form (JSON) ausgeben kann, wäre an vielen Stellen nützlich.
Danke für den Hinweis, das sieht tatsächlich für viele Anwendungen in den DH sehr interessant aus!
Eine Frage in die Runde: Die Beispiele extrahieren ja v.a. Strings. Für alles, was mit Linked Open Data zu tun hat, wäre es aber ja wünschenswert, gleich entsprechende URIs aus einem vorgegebenen Vokabular zu matchen, wie es z.B. Antelope macht https://service.tib.eu/annotation/.
Konkret sehe ich das Problem, dass man ein solches Vokabular ja auch erst mal dem Modell übergeben müsste, was bei klassischen LLMs schnell das Kontextfenster sprengt. Hat da jemand Erfahrungen mit Ansätzen, die die neuen Möglichkeiten von LLMs für Entity Linking nutzen?
Liebe Grüße Frederik
-- Prof. Dr. Frederik Elwert
Außerplanmäßiger Professor Centrum für Religionswissenschaftliche Studien Ruhr-Universität Bochum
_______________________________________________ Dhd-ag-agki mailing list -- dhd-ag-agki@lists.digitalhumanities.org To unsubscribe send an email to dhd-ag-agki-leave@lists.digitalhumanities.org