Liebe alle, für uns stellt sich das gleiche Problem im Zusammenhang mit Autor:innen-disambiguierung im Rahmen von Zitationsextraktion. NuExtract werden wir ganz sicher einmal ausprobieren. Bisher gehen wir davon aus, das das Ganze in mehreren Arbeitsschritten gelöst werden muss -erst String-Extraktion, dann Linking mit externen Datenquellen, wofür es nicht unbedingt (oder gar nicht einmal primär) einer LLM bedarf - hier planen wir bisher, auf traditionelle Reconciliation-techniken zurückgreifen (die ggf. menschlicher Entscheidungen zwischen mehreren Kandidaten bedarf). Aber ich lasse mich gerne korrigieren ! Herzliche Grüße in die Runde, Christian ------------------------------------------------------------------------------- Dr. Christian Boulanger - Wissenschaftler, Abteilungskoordinator Max-Planck-Institut für Rechtsgeschichte und Rechtstheorie www.lhlt.mpg.de/boulanger -----Ursprüngliche Nachricht----- Von: Frederik Elwert via Dhd-ag-agki < > Gesendet: Montag, 19. August 2024 15:39 An: dhd-ag-agki@lists.digitalhumanities.org Betreff: [Dhd-ag-agki] Re: AI Update im Sommer Liebe Liste, lieber Thomas, Am 14.08.24 um 16:50 schrieb Thomas Renkert:
Wenn ich die technischen Trends richtig deute, dann geht der Weg weg von einem monolithischen Modell hin zu einer Mix-of-Agents Constellation, bei der verschiedene kleine Modelle miteinander kollaborieren (hatte Christopher auch schon erwähnt). Manche dieser Modelle in einer Constellation sind dann wahrscheinlich gar keine chatbots, sondern spezialisierte Embedder wie z.B. das hier:
https://huggingface.co/spaces/numind/NuExtract
Ein solches Modell, das aus großen, unstrukturierten Textcorpora Daten entlang eines Schemas extrahieren und in maschinell weiterverarbeitbarer Form (JSON) ausgeben kann, wäre an vielen Stellen nützlich.
Danke für den Hinweis, das sieht tatsächlich für viele Anwendungen in den DH sehr interessant aus! Eine Frage in die Runde: Die Beispiele extrahieren ja v.a. Strings. Für alles, was mit Linked Open Data zu tun hat, wäre es aber ja wünschenswert, gleich entsprechende URIs aus einem vorgegebenen Vokabular zu matchen, wie es z.B. Antelope macht https://service.tib.eu/annotation/. Konkret sehe ich das Problem, dass man ein solches Vokabular ja auch erst mal dem Modell übergeben müsste, was bei klassischen LLMs schnell das Kontextfenster sprengt. Hat da jemand Erfahrungen mit Ansätzen, die die neuen Möglichkeiten von LLMs für Entity Linking nutzen? Liebe Grüße Frederik -- Prof. Dr. Frederik Elwert Außerplanmäßiger Professor Centrum für Religionswissenschaftliche Studien Ruhr-Universität Bochum https://dh.ceres.rub.de/