[Humanist] 24.636 events: book design; text mining

Humanist Discussion Group willard.mccarty at mccarty.org.uk
Fri Jan 7 07:18:49 CET 2011


                 Humanist Discussion Group, Vol. 24, No. 636.
         Centre for Computing in the Humanities, King's College London
                       www.digitalhumanities.org/humanist
                Submit to: humanist at lists.digitalhumanities.org

  [1]   From:    Dominic Forest <dominic.forest at umontreal.ca>              (79)
        Subject: Appel à participation DEFT2011

  [2]   From:    Wim Van-Mierlo <Wim.Van-Mierlo at SAS.AC.UK>                 (19)
        Subject: Call for Papers: Book Design from the Middle Ages to the
                Future


--[1]------------------------------------------------------------------------
        Date: Thu, 06 Jan 2011 14:39:14 -0500
        From: Dominic Forest <dominic.forest at umontreal.ca>
        Subject: Appel à participation DEFT2011


********************************************************
DEFT2011 - Appel à participation

Le défi DEFT est un atelier d'évaluation francophone en fouille de
textes. L'édition 2011 portera, d'une part sur la variation
diachronique en corpus de presse francophone et d'autre part sur
l'appariement d'un article scientifique avec son résumé.

Site web : http://deft2011.limsi.fr/
Comité d'organisation :
- présidents : Cyril Grouin (LIMSI-CNRS) et Dominic Forest (EBSI,
  Université de Montréal)
- contact : deft2011 at limsi.fr

********************************************************
Dates importantes :
- Inscription : à partir du 25 janvier 2011
- Diffusion des corpus d'apprentissage : 1er mars 2011
- Test : 3 jours pris entre le 1er et le 7 mai 2011
- Atelier : le 1er juillet 2011 lors de la conférence TALN

********************************************************
DEFT2011 constitue la septième édition de la campagne d'évaluation en
fouille de textes DEFT. L'atelier de clôture se tiendra à Montpellier
dans le cadre de la conférence TALN.

Pour cette nouvelle édition, nous proposons deux pistes distinctes :
- la variation diachronique en corpus de presse ;
- l'appariement d'articles scientifiques et de résumés.

*** Piste 1.
Dans la continuité de l'édition 2010 du défi, nous offrons de nouveau
l'opportunité de travailler sur l'étude de la variation diachronique
en corpus de presse. Cette piste sera ainsi l'occasion de mesurer les
évolutions des systèmes depuis la précédente édition du défi.

Le corpus se compose d'archives journalistiques parmi plusieurs titres
français (dont "Le Journal des Débats", "Le Journal de l'Empire", "Le
Journal des Débats politiques et littéraires", "Le Figaro", et "La
Croix" ; des titres supplémentaires seront éventuellement ajoutés
selon disponibilité) sur une période comprise entre 1800 et 1944. Les
documents de travail sont le résultat d'une OCRisation

Deux sous-pistes sont envisagées :
- la première concerne des extraits de 300 mots semblables à ceux
  fournis dans les corpus de l'année passée.
- la seconde se rapporte à des extraits plus larges intégrant 500
  mots.

Les participants devront identifier l'année de parution de l'extrait
étudié (et non plus la décennie comme en 2010). Les résultats seront
évalués au moyen d'une distance entre l'année fournie et l'année
attendue (fenêtre d'évaluation autour de l'année de référence).

Pour cette piste, les participants auront la possibilité d'utiliser
des ressources externes (linguistiques, historiques, etc.) qu'ils
devront obligatoirement déclarer lors de la soumission des
résultats. Les ressources provenant de Gallica ne seront pas
autorisées !

*** Piste 2.
Nous proposons également une piste axée autour du résumé d'article
scientifique. Plutôt que de se placer dans la perspective d'une
génération automatique de résumé à partir d'un article (approche
intéressante mais délicate à évaluer de manière automatique), nous
adoptons l'approche inverse qui consiste à identifier à quel article
scientifique correspond un résumé.

Les méthodes qui seront utilisées pour effectuer ces appariements
devraient permettre de mettre en évidence les éléments saillants qui
doivent se retrouver dans le résumé et les techniques langagières
utilisées pour produire de tels résumés.

Cette seconde piste se composera de deux corpus d'articles
scientifiques, le premier en français dans le domaine des sciences
humaines et sociales, le second en anglais dans le domaine de la
santé.

Plusieurs sous-pistes ont été définies sur cette tâche :
- identifier les couples résumé/article scientifique complet ;
- identifier les couples résumé/article scientifique auquel on a
  enlevé l'introduction et la conclusion.

********************************************************
Les équipes participant à DEFT2011 devront s'inscrire à l'aide du
formulaire en ligne, et signer les accords de restriction d'usage des
corpus.

Des corpus d'apprentissage seront fournis aux participants inscrits, à
partir du 1er mars 2011. Ces corpus sont composés de 60% des corpus
d'origine. Les 40% de corpus restants seront utilisés pour le test. Le
test aura lieu sur la première semaine de mai. A partir de la date
qu'ils auront choisie dans cet intervalle, les participants auront
trois jours pour appliquer, sur les corpus de test, les méthodes mises
en oeuvre sur les corpus d'apprentissage.



--[2]------------------------------------------------------------------------
        Date: Thu, 6 Jan 2011 12:04:50 +0000
        From: Wim Van-Mierlo <Wim.Van-Mierlo at SAS.AC.UK>
        Subject: Call for Papers: Book Design from the Middle Ages to the Future


Book Design from the Middle Ages to the Future
Traditions and Evolutions

Date: 29 & 30 September 2011
Venue: University of Antwerp, Antwerp, Belgium
Deadline for abstracts: 28 February 2011

The objective of this international congress is to explore traditions and innovations in book design and typography from the manuscript era to the age of the electronic book. The following questions will be addressed: How did the design of books evolve during the Middle Ages, the early modern period and beyond? Which traditions survived the successive transitions from manuscripts to hand press books in the early modern period, at the end of the eighteenth century (the period of mechanization and automatisation), and at the end of the twentieth century from the paper book to the electronic book? How did the changing conditions of production and use affect the appearance and content of books? Which elements endured and which ones were altered or disappeared? How is the design of books embedded in culture and how do the arts interact where the presentation of texts is concerned?
Twenty-minute papers are invited addressing different aspects of book design, typography and book layout from a comparative or long-term perspective. They may deal with single aspects, such as title pages, type and illustrations, or with strategies for the articulation of texts, such as rubrication, colour, typographical white, ornaments and initials. Contributions should focus on traditions and the long-term evolution of book design, or explore the interaction of different cultures that have influenced the typography of books in neighbouring regions.

Keynote speaker: Prof David McKitterick (Cambridge University)
Confirmed speakers include Dr Erik Kwakkel (Leiden University) & Prof Gerard Unger (Leiden University)

The congress will be preceded by a Miræus Lecture in the Nottebohm Hall of the Antwerp Erfgoedbibliotheek Hendrik Conscience, and will be followed by a guided tour of the Museum Plantin Moretus in Antwerp on Saturday 1 October.

For further information & questions, please contact Dr Goran Proot, University of Antwerp, Grote Kauwenberg 18, room d218, b-2000 Antwerp, Belgium.
Please send twenty-line abstracts by 28 February 2011 to goran.proot at gmail.com.

*****************

dr. Goran Proot
Universiteit Antwerpen
Grote Kauwenberg 18 kamer D218
2000 Antwerpen
03-265.42.88
goran.proot at gmail.com





More information about the Humanist mailing list