Hallo, 
ich verfolge so einen ähnlichen Ansatz bei der Extraktion von IDs aus einem TEI Register. Ich habe das Register in chroma-db und nutze dann llama3 via Ollama zur Extraktion der Entitäten bzw. der Ids. Llama3 hat eine format=json flag, mit der man sehr konsistent strukturierte Daten erhält, die man weiter verarbeiten kann. Nach dem Urlaub synche ich das auf GitHub und teile bei Interesse gerne den Link.

Frederik Elwert via Dhd-ag-agki <dhd-ag-agki@lists.digitalhumanities.org> schrieb am Mo., 19. Aug. 2024, 15:38:
Liebe Liste, lieber Thomas,

Am 14.08.24 um 16:50 schrieb Thomas Renkert:
> Wenn ich die technischen Trends richtig deute, dann geht der Weg weg von
> einem monolithischen Modell hin zu einer Mix-of-Agents Constellation,
> bei der verschiedene kleine Modelle miteinander kollaborieren (hatte
> Christopher auch schon erwähnt). Manche dieser Modelle in einer
> Constellation sind dann wahrscheinlich gar keine chatbots, sondern
> spezialisierte Embedder wie z.B. das hier:
>
>
> https://huggingface.co/spaces/numind/NuExtract
>
> Ein solches Modell, das aus großen, unstrukturierten Textcorpora Daten
> entlang eines Schemas extrahieren und in maschinell weiterverarbeitbarer
> Form (JSON) ausgeben kann, wäre an vielen Stellen nützlich.

Danke für den Hinweis, das sieht tatsächlich für viele Anwendungen in
den DH sehr interessant aus!

Eine Frage in die Runde: Die Beispiele extrahieren ja v.a. Strings. Für
alles, was mit Linked Open Data zu tun hat, wäre es aber ja
wünschenswert, gleich entsprechende URIs aus einem vorgegebenen
Vokabular zu matchen, wie es z.B. Antelope macht
<https://service.tib.eu/annotation/>.

Konkret sehe ich das Problem, dass man ein solches Vokabular ja auch
erst mal dem Modell übergeben müsste, was bei klassischen LLMs schnell
das Kontextfenster sprengt. Hat da jemand Erfahrungen mit Ansätzen, die
die neuen Möglichkeiten von LLMs für Entity Linking nutzen?

Liebe Grüße
Frederik




--
Prof. Dr. Frederik Elwert

Außerplanmäßiger Professor
Centrum für Religionswissenschaftliche Studien
Ruhr-Universität Bochum

https://dh.ceres.rub.de/

_______________________________________________
Dhd-ag-agki mailing list -- dhd-ag-agki@lists.digitalhumanities.org
To unsubscribe send an email to dhd-ag-agki-leave@lists.digitalhumanities.org