[Humanist] 25.422 new publication on text mining

Humanist Discussion Group willard.mccarty at mccarty.org.uk
Thu Oct 27 09:17:30 CEST 2011


                 Humanist Discussion Group, Vol. 25, No. 422.
            Department of Digital Humanities, King's College London
                       www.digitalhumanities.org/humanist
                Submit to: humanist at lists.digitalhumanities.org



        Date: Wed, 26 Oct 2011 17:46:52 -0400
        From: Dominic Forest <dominic.forest at umontreal.ca>
        Subject: Fouille de textes et la recherche / Text mining and information retrieval


Le volume 35, numéro 3 (septembre 2011) de la Revue canadienne des sciences
de l'information et de bibliothéconomie sur le thème de la fouille de textes
et la recherche d'information est maintenant disponible sur Project MUSE
http://muse.jhu.edu/journals/canadian_journal_of_information_and_library_sci
ence/toc/ils.35.3.html

Table des matières :

1-- Fouille de textes et recherche d'information
http://muse.jhu.edu/journals/canadian_journal_of_information_and_library_sci
ence/summary/v035/35.3.forest.html
Introduction par Dominic Forest et Lyne Da Sylva

2-- Named Entity Normalization: Combining Normalization Rules, Endogenous
Resources and User-Oriented Process / Normalisation des entités nommées :
allier règles déclaratives, ressources endogènes et processus centré sur
l'utilisateur 
http://muse.jhu.edu/journals/canadian_journal_of_information_and_library_sci
ence/summary/v035/35.3.andreani.html
Vanessa Andréani, Thibault Roy et Thomas Lebarbé

Abstract: Normalization is involved in many fields of information
processing. It improves the performance of several applications, such as
information retrieval or information extraction, and makes the construction
of language resources more reliable. Normalization consists in standardizing
each variant of a term or named entity into a unique form, and in this way
restricts the impact of language variation. Our work applies to named entity
normalization, and aims at optimizing fine-grained corpus analyses carried
out by the TecKnowMetrix Company. Our approach mixes several methods, such
as pattern matching, similarity metrics and endogenous techniques. Moreover,
we place the user in the center of our normalization process, in order to
obtain fully reliable data that fit his or her needs.

Résumé : La normalisation intervient dans de nombreux champs du traitement
de l'information. Elle permet d'améliorer l'efficacité d'applications telles
que la recherche ou l'extraction d'information, et de rendre plus fiable la
constitution de ressources langagières. La normalisation consiste à ramener
toutes les variantes d'un même terme ou d'une entité nommée à une forme
standard, et permet de limiter les effets de la variation linguistique.
Notre travail porte sur la normalisation des entités nommées, et vise à
optimiser les analyses de corpus fines réalisées par la société
TecKnowMetrix. Notre approche combine plusieurs méthodes, telles que
l'utilisation de formes, de calculs de similarité, ou encore de techniques
endogènes. De plus, nous plaçons l'utilisateur au centre du processus de
normalisation, afin d'obtenir des données parfaitement fiables et adaptées à
ses besoins.

3-- Bilingual Document Clustering: Evaluating Cognates as Features / Le
groupage de documents bilingues : l'évaluation des cognats comme
caractéristiques 
http://muse.jhu.edu/journals/canadian_journal_of_information_and_library_sci
ence/summary/v035/35.3.denicia-carral.html
Claudia Denicia-Carral, Manuel Montes-y-Gómez, Luis Villaseñor-Pineda et
David Pinto-Avendaño

Abstract: This paper focuses on the task of bilingual clustering, which
involves dividing a set of documents from two different languages into a set
of groups, so that documents with similar topics belong to the same group,
regardless of their source language. It mainly considers a clustering
approach that relies on the use of cognates as document features.
Particularly, it proposes two straightforward methods that extract cognates
from their own target document collection and do not require using any
external bilingual resource, like parallel corpora or a bilingual
dictionary. Experimental results in two bilingual collections that include
news reports in English and Spanish are encouraging. They indicate that
cognates are relevant features for the task of bilingual clustering,
outperforming by more than 10% the results achieved by other known
approaches. 

Résumé : Cet article se consacre à la tâche du groupage bilingue, qui
comprend la répartition d'une série de documents appartenant à deux langues
différentes en une série de groupes, de telle façon que les sujets
similaires apparaissent dans le même groupe, quelle que soit la langue
d'origine. Il s'intéresse surtout à une approche de groupage qui fait usage
des cognats considérés comme des traits distinctifs des documents. En
particulier, il propose deux méthodes directes permettant l'extraction des
cognats à partir de leur propre collection de documents cibles, sans
recourir à l'utilisation de ressources bilingues externes, telles que des
corpus parallèles ou un dictionnaire bilingue. Nous avons obtenu des
résultats expérimentaux encourageants avec deux collections bilingues
incluant des bulletins de nouvelles en anglais et en espagnol. Ces résultats
indiquent que les cognats sont des traits distinctifs valables pour le
groupage de documents bilingues, et qu'ils permettent d'obtenir des
résultats dépassant de 10 % ceux que l'on obtient avec les autres approches
connues. 

4-- Automatic Modeling of Logical Connectors by Statistical Analysis of
Context / Modélisation automatique de connecteurs logiques par analyse
statistique du contexte
http://muse.jhu.edu/journals/canadian_journal_of_information_and_library_sci
ence/summary/v035/35.3.charton.html
Eric Charton et Juan-Manuel Torres-Moreno

Abstract: In this paper we present an algorithm for the enrichment of the
language model by a model of logical connectors. Using seed connectors based
on a corpus, our algorithm is capable of grouping context-dependant logical
connectors of identical meaning into classes. This categorization of links
may then be employed to generate finite state machines (FSMs) capable of
identifying logical articulation of a phrase. In this capacity, it
constitutes a first step towards an automatic analysis of argumentative
texts. We use this device (FSMs), assisted by a language model, to rewrite
automatically sentences in a text processing system.

Résumé : Dans cet article, nous décrivons un algorithme d'enrichissement de
modèle de langue par un modèle de connecteurs logiques. Notre algorithme est
capable, en partant de connecteurs amorces et en s'appuyant sur un corpus,
de regrouper automatiquement des connecteurs logiques de sens identiques, en
fonction du contexte. Ce regroupement peut être ensuite utilisé pour générer
des automates à états finis capables d'identifier une articulation logique
dans une phrase. À ce titre, il constitue un premier pas en direction de
l'analyse automatique de textes argumentatifs. Nous utilisons ce dispositif
dans un système de réécriture automatique de phrases, assisté par modèle de
langue. 

 
5-- A Sentiment-Based Digital Library of Movie Review Documents Using Fedora
/ Une bibliothèque numérique de documents critiques de films basée sur les
sentiments en utilisant Fedora
http://muse.jhu.edu/journals/canadian_journal_of_information_and_library_sci
ence/summary/v035/35.3.na.html
Jin-Cheon Na, Tun Thura Thet, Arie Hans Nasution et Fauzi Munif Hassan

Abstract: This study develops a digital library of movie review documents
that supports sentiment-based browsing and searching. Firstly, we develop an
automatic method for in-depth sentiment analysis and classification of movie
review documents to provide sentiment orientations toward multiple
perspectives of movies, such as overall opinion about the movie, director,
and cast. By utilizing information extraction techniques such as entity
extraction, co-referencing, and pronoun resolution, the review texts are
segmented into multiple sections where each section contains multiple
sentences and discusses a particular aspect of the reviewed movie. For each
aspect section, a machine-learning algorithm, Support Vector Machine (SVM),
is applied to determine sentiment orientation toward the target aspect.
Secondly a prototype digital library is developed with the automatically
analysed data to show the usefulness of sentiment-based browsing and
searching. Using the system, the user can browse and search movies by
sentiment polarity (positive, neutral, or negative) of multiple aspects in
the movie. Finally, a usability evaluation is conducted to observe the
effectiveness of the sentiment-based digital library.

Résumé : Cette étude examine le développement d'une bibliothèque numérique
de documents critiques de films permettant l'exploration et la recherche par
sentiments. Pour commencer, nous développons une méthode automatique pour
l'analyse en profondeur des sentiments et la classification des documents
critiques de films propres à fournir des orientations à propos des
sentiments capables d'offrir des perspectives multiples sur les films, comme
par exemple l'opinion générale sur le film, sur le metteur en scène, et sur
les acteurs. Grâce à l'utilisation de techniques d'extraction d'information
telles que l'extraction d'entités, le co-référencement, et la résolution de
pronoms, les comptes rendus sont segmentés en de multiples sections où
chacune contient plusieurs phrases et aborde un aspect particulier du film
en question. À chacune de ces sections on applique un algorithme
d'apprentissage automatique, Support Vector Machine (SVM), qui détermine
l'orientation du ou des sentiments pour cette section. Ensuite, nous
développons un prototype de bibliothèque numérique en utilisant les données
analysées automatiquement afin de montrer l'utilité de l'exploration et de
la recherche par sentiments. En utilisant ce système, l'utilisateur peut
explorer et faire des recherches dans les films selon les polarités des
sentiments (positif, neutre, ou négatif) et ce, sur de nombreux aspects des
films. Pour finir, nous avons effectué une évaluation d'utilisabilité afin
de vérifier l'efficacité d'une bibliothèque numérique basée sur les
sentiments. 

 
A respected source of the most up-to-date research on library and
information science, The Canadian Journal of Information and Library Science
is recognized internationally for its authoritative bilingual contributions
to the field of information science. Established in 1976, the journal is
dedicated to the publication of research findings, both in full-length and
in brief format; reviews of books; software and technology; and letters to
the editor.
Pour en savoir plus : www.utpjournals.com/cjils
Suivez les Presses de l'université de Toronto sur Facebook :
www.facebook.com/utpjournals

____________________________________________________________
Dominic Forest, Ph. D.
Professeur adjoint 
 
Adresse postale : 
École de bibliothéconomie et des sciences de l'information
Université de Montréal
C.P. 6128, succursale Centre-ville
Montréal (Québec) H3C 3J7
 
Adresse géographique :
École de bibliothéconomie et des sciences de l'information
Université de Montréal
Pavillon Lionel-Groulx
3150, rue Jean-Brillant, bureau C-2046
Montréal (Québec) H3T 1N8
 
Téléphone : (514) 343-6119
Télécopieur : (514) 343-5753
 
Courrier électronique : dominic.forest at umontreal.ca
Sites Internet : www.dominicforest.name  et www.ebsi.umontreal.ca
____________________________________________________________




More information about the Humanist mailing list