Lieber Christopher, lieber Patrick,

nur ein schneller Nebengedanke ...

Die Generierung von Texten verbessert sich momentan zunehmend von Version zu Version (und von Beta der Zwischenversion zu Zwischenversion der Beta) auch bei z.B. Midjourney. Mit etwas Geduld und/oder nicht allzu komplexen Aufgaben hat man ja oft doch schon recht schnell ein gutes Ergebnis. Trotzdem geht es momentan oft immer noch schneller, die Textbestandteile in der Bildbearbeitung nachträglich zu optimieren. Die One-Shot-Trefferquote nimmt jedoch deutlich zu. In mancher Hinsicht ist es da vielleicht sogar ein Vorteil, wenn das derzeitige Problem weiterhin bei Dall-E hängt. Optimierungen bei Dall-E sollten in kürzeren Zeitabständen möglich sein, als Verbesserungen des Gesamtprodukts.

... und ja, auch ich bin enttäuscht, dass ich 4o noch nicht zum Singen bringen konnte!

Thomas

Dr. Thomas Jäger
Abteilungsleitung Digital Humanities
https://pagina-dh.de
https://www.instagram.com/paginadh/
https://twitter.com/paginaDH



E-Mail: thomas.jaeger@pagina.gmbhh
Telefon: (07071) 9876-21

pagina GmbH - Publikationstechnologien
Herrenberger Straße 51 | 72070 Tübingen
www.pagina.gmbh | www.parsx.de

Handelsregister Stuttgart - HRB 380249
Geschäftsführer: Tobias Ott

Am 15.05.2024 um 15:24 schrieb Christopher Pollin:

Lieber Patrick,

aus meiner Sicht funktioniert es mit dem Text in den Bildern etwas besser, ist aber immer noch nicht brauchbar, wie du richtig sagst. Es sollte aber schon eine DALL-E Version sein.

Zwei Gedanken:

Es ist einfach etwas besser, wenn der Text in den Bildern generiert wird. Aber eben nicht wirklich brauchbar, wenn auch besser als früher.

Das ist, wie andere multimodale Funktionen, etwas, das erst in den nächsten Wochen kommen wird. Viele User:innen sind übrigens überrascht, dass nicht alle angekündigten Funktionen sofort nutzbar sind ... super seriöse Firma ... ^^

Und wenn ich schon dabei bin, was ich wirklich spannend finde: Man kann jetzt in Gemini Advanced (kostenpflichtige Version) das 1 Million Token Context Window benutzen. Habe ich heute schon ausprobiert. Bis 700 Seiten im Context Window zu haben ist wirklich beeindruckend.

lg

Christopher

Am 14.05.2024 um 11:33 schrieb Patrick Sahle:
Lieber Christopher, liebe alle,

Danke auch für das update zu GPT4o. Mich hat da besonders der Punkt "Gute Texterzeugung in Bildern" interessiert, denn das war bisher ja eine doofe Schwäche. Und in deinem Beispiel auf der Folie ist ja auch korrekter Text. Jetzt habe ich das in GPT4o selbst getestet und kann das nicht bestätigen.

Es macht zwar ein "Diagramm" mit korrektem Text, aber bei "Bildern" scheint es immer noch von DALL-E abhängig zu sein (?), das dann wieder alles verhunzt?

Auf Rückfrage bestätigt GPT, dass das zweite von DALL-E gekommen sei und behauptet GPT, dass das erste python+matplotlib sei.

Deshalb die Frage: wie wird wohl das Beispiel auf deiner Folie erzeugt worden sein? Das ist dann doch nicht DALL-E? Weiß jemand genaueres?

Vermutlich ist es doch einfach DALL-E. Ich habe den Prompt für das Beispiel nochmal in einen frischen Chat kopiert und bekomme dieses wie üblich falsche Ergebnis:

Viele Grüße, Patrick

Am 14.05.2024 um 10:10 schrieb Christopher Pollin:
Liebe Liste,

eine Erinnerung für das Webinar zu GitHub Copilot. Sebastian Schiller-Stoff wird zeigen, wie er Copilot in seiner täglichen Arbeit als Softwareentwickler einsetzt.

Morgen: 15.05. (11:30 bis 12:30)

Zoom: https://uni-graz.zoom.us/j/69588616456?pwd=OFJsYzc0TXFXM3draHI2M2ZGSDlSUT09

Und noch zwei interessante Infos:

Claude 3 ist nun auch in Europa verfügbar: https://claude.ai

Aber wahrscheinlich zu spät, denn OpenAI hat gestern GPT-4o veröffentlicht. Das ist nämlich kostenlos! Anbei ein kleines und schnelles Slide-Deck, wo ich alle Infos über GPT-4o gesammelt habe, soweit ich sie aufbereitet habe (#AISteward). Oder das AI Explained Video zum Thema: https://youtu.be/ZJbu3NEPJN0?si=52rDEQyVV-8ipyEb

Kostenlos sind die Anfragen auf 16 alle 3 Stunden begrenzt (wenn ich das auf Discord richtig gelesen habe). Vision und Audio sind eigentlich ziemlich krass ... wenn ich das mal so "wissenschaftlich" ausdrücken darf. :)

Liebe Grüße
Christopher und Gerrit
_______________________________________________
Dhd-ag-agki mailing list -- dhd-ag-agki@lists.digitalhumanities.org
To unsubscribe send an email to dhd-ag-agki-leave@lists.digitalhumanities.org
--
Prof. Dr. Patrick Sahle
Bergische Universität Wuppertal - Lehrstuhl für Digital Humanities - Büro: L 12.22 - ☎︎ +49-202-439-5273
Mitglied des Institut für Dokumentologie und Editorik e.V.
patrick_sahle@fedihum.org - @patrick_sahle - @DH_BUW - @ideinfo
_______________________________________________
Dhd-ag-agki mailing list -- dhd-ag-agki@lists.digitalhumanities.org
To unsubscribe send an email to dhd-ag-agki-leave@lists.digitalhumanities.org
_______________________________________________
Dhd-ag-agki mailing list -- dhd-ag-agki@lists.digitalhumanities.org
To unsubscribe send an email to dhd-ag-agki-leave@lists.digitalhumanities.org