Skip to Main Content

Early English Books Online (EEBO) sur la plateforme ProQuest

Recherche de variantes de mots

Depuis la première publication de la revue EEBO en 1998, les utilisateurs et les bibliothécaires craignent que l'orthographe incohérente des anciens textes anglais modernes ne fasse manquer aux utilisateurs de nombreux textes pertinents à leur recherche et ne limite ainsi leur capacité à utiliser ces ressources à leur plein potentiel.

S'appuyant sur les recherches menées par le professeur Martin Mueller de l'Université Northwestern, la mission du projet VosPos (Virtual Orthographic Standardisation and Part of Speech) est de développer un outil qui permet aux utilisateurs experts et non experts de rechercher des bases de données telles que EEBO en utilisant des orthographes modernes en anglais et de récupérer automatiquement les instances de variantes orthographiques modernes anciennes qui existent.

La fonctionnalité de recherche de variantes est le résultat de ce projet de recherche en cours visant à fournir une standardisation orthographique à une vaste archive de textes de ProQuest et du Text Creation Partnership (TCP), en incluant EEBO. Le projet de modernisation virtuelle du CIC CLI est une initiative du Center for Library Initiatives (CLI) du Comité de la coopération institutionnelle (CIC). Il est soutenu par ProQuest et les institutions membres du CIC.

Une orthographe " standardisée " est typiquement, mais pas toujours, une forme du mot " moderne ". Ainsi, louynge et loues désignent respectivement loving et loves , mais loueth désigne loveth, l'orthographe standard dans laquelle cette forme archaïque apparaît dans, par exemple, la Bible du roi Jacques (the King James Bible).

Un autre élément clé du projet VosPos est la création de données de lemmatisation, qui va encore plus loin dans le processus de standardisation. La lemmatisation est le terme du linguiste pour désigner la pratique consistant à regrouper les différentes formes d'un mot dans une forme sous laquelle le mot est susceptible d'apparaître dans un dictionnaire. Ainsi, lovesloved, et loving sont des formes du lemme de love. La lemmatisation permet aux utilisateurs de rechercher toutes les variantes orthographiques de l'orthographe standard love ou de rechercher la lemmatistion du terme love (récupération de toutes les variantes orthographiques du terme standard loveloveslovethloving, et loved).

La standardisation de l'orthographe virtuelle est à la disposition de tous les utilisateurs de EEBO et de Literature Online.

Comment fonctionne la recherche de variantes​?

La recherche de variantes est active par défaut si la Linguistique est active pour la plateforme ProQuest - elle peut être désactivée par la bibliothèque depuis le module d'administration de ProQuest ou par les utilisateurs de Mon Compte, dans les préférences. Ou alors, un utilisateur peut arrêter la recherche de variantes en mettant des guillemets autour du terme de recherche.

Pour voir toutes les variantes qui ont fait l'objet d'une recherche en haut de la page de résultats, utilisez la recherche avancée et sélectionnez l'option " Options de la page de résultats ". Voir l'exemple ci-dessous.

Si vous tapez un terme de recherche dans la zone de recherche, vous récupérerez automatiquement toutes les occurrences de votre terme de recherche et ses formes et orthographes les plus anciennes, des premières variantes modernes dans EEBO. Par exemple, si vous tapez le mot murder, lorsque vous soumettez votre recherche, vous obtiendrez toutes les occurrences du mot murder ainsi que ses formes variantes murdered, murderingmurders et ses variantes orthographiques les plus anciennes, murthermurdremurdir et mvrder.

Plus des exemples des premières variantes orthographiques modernes déclinées de toutes les formes de votre terme de recherche original, par exemple murthredmurthrestmurdrethmurdringmurtherynge et murthers

Remarque : Lorsque vous tapez une expression de recherche qui inclut des opérateurs de troncature et de caractères génériques (par exemple,  je?lo?s*), la recherche de variantes ne s'applique pas.

Ce processus d'élargissement d'une recherche pour inclure les formes déclinées de votre terme original est connu sous le nom de lemmatisation.

  

    1) - Lorsque vous utilisez la recherche avancée pour rechercher des mots-clés,,

   2) - Cliquez sur les options de la page Résultats (dans la partie inférieure de la page Recherche avancée),

    3) - puis sélectionnez Afficher d'autres termes inclus dans la recherche. 

   4) - De cette façon, les variantes orthographiques et les formes de variantes de votre mot-clé seront listées en haut de la liste des résultats.

 

Les variantes typographiques sont-elles incluses dans la recherche de variantes ?

Les premières conventions typographiques modernes signifient que dans les textes antérieurs à 1700, certains caractères sont souvent utilisés de manière interchangeable. Par exemple, les caractères j et i sont souvent échangés, le mot juniper apparaissant parfois comme iuniper, et le mot Ireland comme Jreland. De même, u apparaît souvent comme un v, et vice versa, de sorte que le mot love apparaît souvent comme loue, tandis que usurper apparaît parfois comme vsurper. La lettre w est parfois représentée à la fois par vv et uu, et vaut la peine d'apparaître comme vvorth et uuorth.

Dans ProQuest, vous récupérerez automatiquement les instances de vos termes de recherche dans lesquelles l'une de ces substitutions simples (i pour j et vice versa, u pour v et vice versa, et uu et vv pour w) a eu lieu. Ainsi, une recherche du terme woman permettra de retrouver les formes de ce mot avec des variantes typographiques telles que vvoman et uuoman (ainsi que d'autres orthographes anciennes de woman telles que womanne et vvoeman).

 

Notez qu'il est possible que certaines variantes purement typographiques de vos termes de recherche ne figurent pas en haut de la liste des résultats, bien que ces variantes soient présentes dans l'EEBO. En effet, les listes de mots qui apparaissent sur cet écran n'incluent que les premières variantes typographiques et orthographiques modernes qui sont présentes dans le corpus de 13 000 textes saisis produit par le Partenariat pour la création de texte ; les autres variantes typographiques qui sont uniques aux 146 000 notices bibliographiques de l'EEBO (c'est-à-dire les variantes typographiques qui ne sont pas présentes dans la collection Text Creation Partnership) ne seront pas affichées. Toutefois, la recherche récupérera automatiquement les occurrences de vos termes de recherche dans lesquelles l'une des substitutions typographiques décrites ci-dessus a eu lieu, que ces variantes apparaissent ou non en haut de la liste des résultats.

Plus d'informations sur le projet de modernisation virtuelle de CIC CLI

Le travail sur le projet a commencé en été 2005 avec un groupe d'étudiants de premier cycle et d'étudiants diplômés du Nord-Ouest travaillant sous la direction du professeur Mueller. Les travaux sont maintenant entrés dans une phase plus officielle et se poursuivent dans le cadre d'un projet de collaboration entre le professeur Mueller et le personnel du groupe Academic Technologies de l'Université Northwestern.

Le projet a également élargi son champ d'application pour inclure le marquage partiel de la parole. Le marquage partiel de la parole est nécessaire pour résoudre les ambiguïtés (bee, doe, etc.), mais ses avantages vont bien au-delà de cette application pratique.

Une fois terminé, le projet offrira une normalisation orthographique virtuelle et un marquage partiel de la parole pour environ un milliard de mots d'anglais écrit de la fin du XVe au XIXe siècle, y compris les collections en texte intégral ProQuest de poésie anglaise, de théâtre anglais (y compris le texte folio de Shakespeare), de prose fiction anglaise ancienne, de Bible King James, de fiction du XVIIIe siècle, de roman du XIXe siècle, de littérature théorique.

Il y a environ trois millions d'orthographes distinctes dans ce recueil de textes, dont environ 500 000 mots étrangers (surtout latins et français) et environ 250 000 noms. On estime que 750 000 orthographes représentent au moins 99 % de toutes les occurrences de mots. La version actuelle de la fonctionnalité mise à la disposition des utilisateurs de EEBO met l'accent sur le rapprochement de l'orthographe des mots anglais à leurs formes standard. Aucun effort n'a encore été fait pour établir la correspondance entre l'orthographe des noms et les formulaires standard, ce qui pose des problèmes particuliers.

Les rapports sur les travaux en cours sont disponibles sous forme de fichiers PDF à l'adresse http://panini.northwestern.edu/mmueller/vospos.pdf.

Institutions membres de CIC​

Les institutions suivantes sont membres du Projet de modernisation virtuelle, qui a soutenu le développement de la fonctionnalité désormais disponible pour tous les utilisateurs de EEBO :

  • Indiana University
  • Michigan State University
  • Northwestern University
  • Ohio State University
  • Penn State University
  • Purdue University
  • University of Chicago
  • University of Illinois at Urbana-Champaign
  • University of Iowa
  • University of Michigan
  • University of Minnesota
  • University of Victoria
  • University of Wisconsin at Madison
  • Columbia University
Remerciements

Nous sommes reconnaissants pour les efforts des personnes suivantes qui ont travaillé sur le projet de modernisation virtuelle et qui ont rendu possible les améliorations de EEBO qui en ont résulté :

Martin Mueller, Professor of English & Comparative Literature, Northwestern University
Jeffrey Garrett, Assistant University Librarian for Collection Management, Northwestern University
Phil Burns, Academic Technologies, Northwestern University
Jeff Cousens, Academic Technologies, Northwestern University
John Norstad, Academic Technologies, Northwestern University