Ce carnet traite des principes et des méthodes de la terminologie ainsi que de techno-langagerie. Yvan Cloutier, terminologue

Rechercher sur ce blogue

Cyber-langagerie

jeudi 20 novembre 2008

Un publicité efficace et futée

Un peu de diversion

En naviguant je tombe sur une mini-fenêtre dans laquelle je vois des mouches qui s'activent.



Au coin inférieur droit il est écrit : Kill the bugs by clicking on them 
Déjà captivé j'avance mon curseur dans la fenêtre et il se transforme en tue-mouches. Voici les fenêtres qui s'affichent ensuite.



et la fenêtre suivante



On trouve souvent des publicités idiotes sur le sites Web mais celle-ci est vraiment géniale, bravo!

Voir ici


YC


Portails multilingues avec flux RSS (CE)

The Joint Research Centre (JRC) is a Directorate-General of the European Commission. The JRC has for many years worked on highly multilingual text analysis applications and has also contributed to the dissemination of the DGT (Directorate-General for Translation) Translation Memory. In addition to developing various reliable high-usage in-house tools, the JRC made three news aggregation and analysis applications of the Europe Media Monitor (EMM) family publicly accessible. EMM aggregates news from about 1,200 news portals world-wide in 42 languages. The news portals are visited around the clock and EMM updates its pages every ten minutes. The non-public, Commission-internal EMM applications additionally ingest news from about 20 different newswires. EMM's sites receive up to 1.2 million hits per day. Much information is available via RSS feeds.

  • MedISys: EMM's Medical Information System selects the health-related EMM news and additionally gathers documents from about 150 medical web sites. MedISys displays the medical news according to diseases, symptoms, organisations and themes and has statistics-based early warning functions for each category. A second, restricted site offers more functionality to EU public health organisations. 42 languages.
    http://medusa.jrc.it/medisys/homeedition/all/home.html
  • NewsExplorer: Summary of the news in 19 languages for each 24-hour window; grouping of related news into clusters; linking of daily clusters over time and across languages (multilingual and cross-lingual topic tracking); visualisation of time lines and of geographical news coverage; information extraction to detect and disambiguate persons, organisations and locations; individual, daily-updated pages for 700,000 names; detection of quotations by and about people; automatic calculation of social networks.
    http://press.jrc.it/NewsExplorer/home/en/latest.html

mercredi 19 novembre 2008

Un assistant futé

Citations 

Zotero is an easy-to-use yet powerful research tool that helps you gather, organize, and analyze sources (citations, full texts, web pages, images, and other objects), and lets you share the results of your research in a variety of ways. An extension to the popular open-source web browser Firefox, Zotero includes the best parts of older reference manager software (like EndNote)—the ability to store author, title, and publication fields and to export that information as formatted references—and the best parts of modern software and web applications (like iTunes and del.icio.us), such as the ability to interact, tag, and search in advanced ways.

Zotero integrates tightly with online resources; it can sense when users are viewing a book, article, or other object on the web, and—on many major research and library sites—find and automatically save the full reference information for the item in the correct fields. Since it lives in the web browser, it can effortlessly transmit information to, and receive information from, other web services and applications; since it runs on one’s personal computer, it can also communicate with software running there (such as Microsoft Word). And it can be used offline as well (e.g., on a plane, in an archive without WiFi).

  • Automatic capture of citation information from web pages
  • Flexible notetaking with autosave
  • Automatic capture of citation information from web pages
  • Runs right in your web browser
  • Saves records and notes in any language; interface available in over 30 languages
  • Storage of PDFs, files, images, links, and whole web pages
  • Integration with Microsoft Word and OpenOffice
Commentaire
  • Le logiciel le plus utilisé est certainement le navigateur. Zotero s'intègre parfaitement dans Firefox au haut ou au bas de l'écran. C'est un de ses plus grands avantages. Il agit comme un secrétaire toujours présent prêt à consigner tout ce qui passe dans votre navigateur.
     
  • En quelques clics, il classifie, indexe, ajoute des notes personnelles. Et pourquoi pas lui faire indexer un glossaire (ou sinon tous vos glossaires unilingues et multilingues dans Word ou autre format) au passage, et un autre et une autre ... il deviendra votre ressource terminologique principale puisqu'il a des capacités de recherche assez évoluées.

  • Il est redimensionnable en mode mi-écran ,on peut aussi l'afficher plein écran et le cacher et le rappeler d'un seul clic.

  • Il se présente en trois colonnes :  « The left column contains your full library (“My Library”) and your individual collections, which are subsets of “My Library”; the middle column shows the items in the collection that is highlighted in the left column; the right column shows information about the item that is selected in the middle column. »

  • Lorsqu'activé Zotero ne change en rien l'affichage et la gestion des onglets.

  • Gestion des documents indexés. 

  • J'ai lu qu'il pouvait indexer les bases de données (à vérifier). 

  • Zotero utilise les tags et le classement des documents dans plusieurs catégories. La gestion des tags intervient dans le filtrage des recherches en combinaison avec les mots clés.

  • Zotero reconnaît les références et les ajoute automatiquement à la collection (My Library) : il affiche alors un icône cliquable à droite de l'URL. Il est possible à main levée d'ajouter des commentaire, des mots clefs et d'indexer le document. Zotero consigne tout sur un document : les auteurs, le résumé, le nom du journal, le volume, le numéro, la date, l'ISSN, le DOI, la date et l'heure à laquelle on a accédé au document.

  • Zotero permet la sélection (surlignement) d'une portion de texte et sur le clic droit de la souris affiche un menu contextuel pour ajouter une note et indexer.
Un souvenir du passé

Certains se souviendront d'Alta Vista Discovery qui avait intéressé plus d'un langagier à l'époque et qui est disparu de la toile suite au déclin d'AV. Discovery permettait la création d'une base de données personnelle et une interrogation avec tous les opérateurs du moteur sur son propre PC. Il me semble que Zotero effectue le même travail avec plus de possibilités.






Yvan Cloutier, terminologue

mardi 18 novembre 2008

Mise à jour du CERTE

Le Centre de recherche terminologique Eurêka a été mis à jour.
Voir le nouveau dossier Web As a Corpus.


samedi 15 novembre 2008

Just The Word

Citations
  • JustTheWord is a completely new kind of aid to help you with writing English.
  • If English is your first language, JustTheWord can help you express that elusive idea with le mot juste.
  • When we write, we search our knowledge of words in two ways. We choose between words that mean similar things. A thesaurus gives us access to this sort of knowledge. But our choice constrains and is constrained by the other words in the sentence. We know, or need to know, which word combinations sound natural. A dictionary gives us access to some of this sort of knowledge.
  • Type a word into the box and hit return or Show Combinations. JustTheWord will give you a detailed description of the company which that word keeps in modern-day English. To help you find your way to the information you need, in the right-hand frame you'll find the part(s)-of-speech and the types of relation that the word is found in. If you're looking for the right adjective to modify a noun you've chosen, click on the 'ADJ mod N*' link. If you want a verb with the noun as its object, follow the 'V obj N*' link. The star * marks your input, so you can tell the difference between for instance 'N* and N' and 'N and N*'. Within many types of relation you'll find the uses of the word clustered into groups with a similar meaning. The words that are not assigned to a cluster are grouped together at the end of the relation. 
  • Lire la suite ... 
Mon commentaire

Excellent me semble-t-il pour varier la manière de s'exprimer et les tournures de phrases en anglais. Sûrement un outil utile pour un langagier qui doit réinventer sans cesse l'expression.



Bilan Show Combinations


Bilan Show Alternatives



Yvan Cloutier, terminologue

jeudi 13 novembre 2008

Your mail Sir !


J'avais un logiciel de courriel qui me signifiait l'arrivée d'une nouvelle missive par un personnage qui marchait sur mon écran (j'entendais ses pas). Il ressemblait à un majordome anglais et lançait : « Your mail Sir ! » en me présentant une lettre sur un plateau d'or. Il demeurait planté au premier plan jusqu'à ce que je m'occupe de ce courriel.  Je l'ai répudié parce qu'il était trop fidèle à sa tâche. DOMMAGE ... avec un peu d'entraînement il aurait pu un  jour me servir mon café! 

Un poste de travail pour le traducteur

Outils nécessaires
Introduction

Avec des outils simples et surtout gratuits le travail de traduction peut être simplifié au maximum du point de vue de l'ergonomie du poste de travail. Dans mon esprit, un nombre réduit de clics et un accès visuel à tous les outils utiles sur le bureau virtuel concourent à faciliter le travail du langagier. Ai-je raison ? Je pense qu'il importe avec toutes les applications que nous utilisons d'avoir un écran de travail fixe et de ne pas avoir à chercher dans la barre des tâches ou les signets ce que l'on veut utiliser.  - Je perçois le poste de travail comme une table de travail physique sur laquelle on dépose tous les outils spécifiques à un projet donné : dictionnaires généraux, de traduction, banques de terminologie (bien que numériques !!), etc. 

Le navigateur Wapiti

Wapiti a été pensé par un langagier pour des langagiers.  Il a été développé par  Sébastien Doucet qui y a suggéré d'excellentes améliorations. Nous avons travaillé en étroite collaboration.

Wapiti  est un navigateur très particulier (encore en développement) qui affiche par défaut trois fenêtres intégrées. Elles peuvent être réduites à deux ou une selon les besoins. Chaque fenêtre peut contenir par défaut une page Web  (ou vierge) ainsi que ses propres onglets. Wapiti est muni de la fonction innovatrice Ajout de bitextes. Comme pour les favoris, on peut ajouter puis afficher dans des onglets plusieurs bitextes et les gérer.

Wapiti Split Browsers
Un bitexte est un seul texte dans deux langues différentes dont l'une est traduite. Dans Wapiti les bitextes s'affichent uniquement dans les fenêtres gauche et droite du bas (2 et 3) et sont accessibles par un seul onglet : un clic sur un onglet bitexte affiche donc une adresse Web dans la fenêtre de gauche jumelée à une autre adresse dans la fenêtre de droite. L'onglet bitexte a d'abord été pensé pour afficher un couple langue de départ et langue d'arrivée, mais on peut l'employer à des fins différentes.

Le premier objectif de Wapiti est donc de comparer des textes traduits selon la procédure suivante : fenêtre 1 = moteur de recherche de bitextes, fenêtre 2 = texte de la langue de départ, fenêtre 3 = texte de la langue d'arrivée. La routine prévue est : générer un bilan de recherche de bitextes en haut, explorer les résultats, glisser-déposer un lien langue de départ à gauche et glisser-déposer le texte traduit à droite. 

Centre de recherche terminologique Eurêka (CERTE)

Le CERTE (ou l'ancien portail Eurêka) est une page Web bi-cadres qui affiche dans le cadre gauche des ressources terminologiques reconnues, classées par dossiers, qui peuvent être consultées dans le cadre droit. Sans changer de page Web il est donc possible d'y faire des recherches terminologiques comparatives dans des ouvrages langagiers majeurs. 

CERTE


















Iframe

Iframe est un nouveau venu dans le outils Eurêka. Il présente les ressources, dans ce cas des mémoires de traduction, imbriquées dans un seule page Web. Dans le cas des mémoires de traduction le contenu est plus sujet à l'attestation. On se méfie plus des textes traduits et il est plus probable que l'on veuille confronter les différences pour la traduction d'un même concept d'une mémoire à l'autre. 

Pratiquement, lorsque que je travaille avec les interfaces mentionnées dans ce billet j'ouvre un éditeur de texte primaire comme Wordpad (ou Notepad) qui me sert de cahier de notes pour consigner les textes opportuns puisés dans les différentes ressources terminologiques. Cela me permet par la suite de tirer des conclusions et de faire un choix.


Iframe

Google terminologique

Le google terminologique est destiné à la consultation des banques de terminologie. Il a besoin d'une refonte. Il permet de consulter plusieurs banques de terminologie à partir d'un seul formulaire. Le Google terminologique affiche les résultats dans des « popups » permettant là aussi un comparaison des résultats.

Pratiquement comment simplifier ?

Tous les outils mentionnés plus haut sont intégrés dans Centre de recherche terminologique Eurêka. Voici donc rassemblés tous les outils susceptibles simplifier le poste de traducteur. 

Mode d'emploi
  • Télécharger Wapiti ici. L'application est très légère.
  • Accéder à Wapiti et cliquer sur Outils -> Option pour obtenir la fenêtre qui suit. Ajouter l'adresse http://pages.globetrotter.net/mverge/eureka/demoFrameset.html dans la case (No 1) et cliquer sur Valider (No 2) pour fermer la fenêtre. Désormais à chaque lancement de Wapiti le CERTE sera affiché en haut par défaut et il y aura deux pages vierges dans les fenêtres du bas. Comme le CERTE se veut un collection de ressources terminologiques reconnues il me semble logique de procéder ainsi.



  • Dans la fenêtre qui suit, cliquer sur l'icône maison (No 5) pour afficher l'adresse du CERTE. C'est désormais la page d'accueil du cadre supérieur. Cette page peut être rappelée en cliquant sur le même icône.

  • Le CERTE renferme toutes les ressources mentionnées dans ce billet et bien d'autres que je vous laisse découvrir. À cette étapes votre poste langagier est déjà très polyvalent. Voyons un peu comment ?
Dans le cadre du haut la combinaison du CERTE  et de Wapiti permettent les fonctions et présentations suivantes :
  • Redimensionnement du cadre ou plein cadre (icône No 6 dans la fenêtre précédente qui fonctionne à bascule) pour un plus grand espace de travail.

  • Le CERTE peut être utilisé normalement dans le cadre supérieur selon son principe « choisissez à gauche et consultez à droite ».

  • Un ressource du CERTE peut être récupérée dans un nouvel onglet : un clic droit de la souris sur un hyperlien du cadre gauche et choisir  dans le menu contextuel Ouvrir dans un nouvel onglet. Autant de ressources que l'on veut peuvent être affichées de cette manière et sauvegardées sous forme de favori : menu Favori ->Ajouter aux favoris.

  • Chaque onglet du cadre supérieur possède les caractéristiques du mode redimensionnement de cadre ou plein cadre. Le basculement entre le mode plein cadre et trois cadres permet de profiter d'un plus espace de travail pour le CERTE ou sinon de l'espace des cadres inférieurs.

  • Dans le cadre supérieur chaque lien d'un onglet peut être ajouté au favoris.

  • En mode trois cadres, tout lien qui apparaît dans un onglet du cadre supérieur ou dans le CERTE peut être glissé-déposé (drag and drop) dans les cadres gauche ou droit inférieurs. On dispose alors de deux fenêtres pour faire des appariements de ressources qui se complètent et qui s'interrogent séparément. Exemples, un onglet bitexte peut afficher IATE jumelé avec GDT, un autre Wikipedia et Balnéo, un autre Electropedia et GEMET, etc. Chacune de ces combinaisons peut être sauvegardée dans le menu Bitextes -> Ajouter un bitexte. Voici des exemples :

Exemple : cadres inférieurs Wikipédia et Balnéo



  • Dans la fenêtre qui suit, on a accès à trois banques simultanément. L'ajout d'autres onglets en haut et de bitextes en bas peut faire varier les combinaisons à l'infini. Dans chacun des cadres il toujours possible de poser le curseur sur lien d'utiliser Ouvrir dans un nouvel onglet. Note : une amélioration à venir dans Wapiti est la capacité de récupérer les texte que l'on traduit et de l'éditer.





Yvan Cloutier, terminologue

mardi 11 novembre 2008

Un mini-concordancier : CONCORDANCER


Citations



Mes commentaires

  • D'utilisation simple et interface légère.
  • Concordancer est muni d'un traducteur qui passe probablement par les différentes versions de Wikipédia pour donner des équivalents : les traductions sont parfois approximatives.


  • Tous les mots de l'écran d'affichage des concordances sont hyperliés. Un clic affiche la fenêtre Word in context qui contient la phrase complète.


  • Le corpus de référence me semble très limité pour la recherche de mots scientifiques et techniques. Ce que je retiens c'est simplicité et la légèreté de l'interface et la convivialité de présentation des données. Un modèle à imiter à mon avis pour d'autres concordanciers que j'ai présenté dans ce blogue.
Yvan Cloutier, terminologue


lundi 10 novembre 2008

TIME MAGAZINE CORPUS (100 MILLION WORDS, 1923-2006)

Citations

« This website allows you to quickly and easily search more than 100 million words of text of American English from 1923 to the present, as found in TIME magazine. You can see how words and phrases have increased and decreased in usage and see how words have changed meaning over time. »

À noter

  • Accès au texte complet

  • Interface convivial

  • Copie-écran des options possibles : 




  • Choose the type of display

    CHART: This option presents "bar charts" that indicate the overall frequency for all matching words or phrases in each section of the corpus. This is probably the best option for comparing between different genres (spoken, magazines, etc), or to compare time blocks since 1990. (Example of chart display)

    LIST: Choose this option to see a listing of each individual word or string that matches the query. (More information on types of search strings).

    COMPARE WORDS: This allows you to compare the collocates (nearby words) for two different words, such as small / little, or start / begin, which provides insight into the difference in meaning or use of these two words. (More information on word comparisons).

  • Beaucoup d'autres options sont possibles.

  • Une excellente source à consulter si on tient compte de la notoriété du magazine qui a toujours été très près de l'actualité. 



EUROPEAN PARLIAMENT INTERPRETING CORPUS

Citations du site 

« EPIC is an open, parallel, trilingual (Italian, English and Spanish) corpus of European Parliament speeches and their corresponding interpretations currently being compiled at SITLeC (University of Bologna). 
....

In 2004 several European Parliament plenary sessions were recorded off the news channel EbS (Europe by Satellite). By selecting different audio channels, it was possible to record the original speakers and the interpreters working in the various booths (in our case, Italian, English and Spanish). All the material thus obtained is being digitised and edited by using dedicated software in order to create a multimedia archive. At the moment, video and audio files are not available on-line, but information on the content and the structure of the archive can be obtained by clicking on Multimedia Archive in the left hand-side bar. 

...

The final step in the compilation of EPIC is the alignment of source texts and target texts in order to create parallel subcorpora (see Aligned Texts). Overall, EPIC is made up of three subcorpora of original texts (Org-It, Org-En and Org-Es) and 6 subcorpora of interpreted texts (indicated as Int followed by the language direction, e.g. En-It for English into Italian) covering all the combinations and directions of the three languages, as well as 6 aligned subcorpora of source and target texts (indicated as Org + Int).

        






Liens associés 





Iframe Eureka

Iframe Eureka. 
Interrogation des mémoires de traduction
Notes : Les quatres fenêtre sont interrogeables séparément à partir d'une seule page. Les langues par défaut de LinearB sont l'anglais et le français mais il est possible de les changer comme celles des autres sites. Utiliser le clic droit de la souris sur les liens Open in new Tab ou Open in new Window pour plus de convivialité. Cette page fonctionne dans IE, Firefox et Google Chrome.



samedi 8 novembre 2008

FranceTerme, veille de termes intégrée à une banque de terminologie

Du nouveau et de l'inédit chez FranceTerme. En naviguant sur le site je tombe sur des fils RSS et des bulletins de nouvelles qui relient à un veille terminologique très pointue sur les ajouts faits dans la banque. 

Le filtrage fin se fait par domaines, exemple : si le domaine Alimentaire vous intéresse vous pouvez demander une alerte sur ce domaine en particulier. À noter que ce site est voué en partie à la néologie. Quoi de mieux que de se tenir au courant des néologismes dans ses domaines d'intérêt.

J'espérais depuis longtemps que les alertes soient intégrées un jour dans banques de terminologie et voilà qui est fait ! Certainement un exemple à suivre.




Je note également sur ce site des remarques sur : Qu'est-ce que la terminologie ? 
Voici le texte.  Les mots qui me semblent importants sont en gras :

« Une langue n’est pas une entité figée, fixée une fois pour toutes : sans cesse des mots disparaissent, meurent, des mots nouveaux apparaissent…le monde change, et le lexique évolue.

Pour désigner les réalités nouvelles, le français, comme toutes les autres langues, s’enrichit de nouveaux mots -les néologismes- qui sont créés à partir du français ou empruntés aux langues étrangères.

Dans la langue courante, cette création est en quelque sorte spontanée, l’inventivité des jeunes, des journalistes, sans parler des écrivains et poètes… se déploie dans la plus grande liberté. Il suffit de penser à tous ces mots nouveaux, gouvernance, altermondialisme, écocitoyen, slam …) que l’on entend dans les médias, que l’on voit dans les journaux. Tantôt ils passent de mode rapidement, tantôt ils s’implantent durablement dans l’usage, et dans les dictionnaires.

Dans les domaines techniques et scientifiques, les données sont différentes et d’une toute autre ampleur : pour exprimer des notions souvent très complexes, les professionnels emploient dans leur domaine d’activité particulier des mots ou des expressions très précis, des termes, qui se dénombrent en centaines de milliers (par comparaison, un dictionnaire de langue générale compte 50 000 à 100 000 mots au maximum).

Une terminologie est d’abord un ensemble de termes spécialisés relevant d’un même domaine d’activité qui a son vocabulaire propre: terminologie de la médecine, de l’informatique, du sport, de la marine… Le mot terminologie désigne aussi une activité, l’ « art de repérer, d’analyser et, au besoin, de créer le vocabulaire pour une technique donnée, dans une situation concrète de fonctionnement, de façon à répondre aux besoins d’expression de l’usager » de produire les termes et définitions pour désigner les notions et réalités d’un domaine : récemment il a fallu créer génome, cybercaméra, biocarburant, minimessage…

La terminologie (ou terminographie) s’applique aux langages spécialisés comme la lexicographie touche à la langue générale. Une notion, une définition, un terme : c’est le principe d’élaboration de toute terminologie ; chaque notion nouvelle doit être définie avec précision et désignée par un terme, le plus adapté, le plus parlant, le plus clair possible. 
Elle est proche de la traduction, se fondant sur le sens d’une notion pour donner des termes équivalents d’une langue à l’autre. C’est enfin une discipline linguistique qui étudie les concepts spécialisés et les termes qui les désignent en langue de spécialité. »



Y.C.

mercredi 5 novembre 2008

La liste Eurêka, rien n'a changé

Il y a quelques années je publiais le texte qui suit dans la liste Eurêka. Je constate que les objectifs passés sont encore valides pour la plupart. Au moment de la création je travaillais au Bureau de la Traduction du Gouvernement canadien comme terminologue. Aujourd'hui je suis à la retraite et je consacre presque toutes mes heures de loisirs à Eurêka et j'y trouve un grand intérêt. À ce jour la liste compte au delà de 720 membres très fidélisés semble-t-il. Presque 10 ans et 14 000 messages plus tard la liste Eurêka est toujours là !
----------------------------------------------------------------------------
Réflexion inspiratrice pour la création d'une liste de diffusion

Deux types de ressources utiles pour les langagiers peuvent être discernées dans l'Internet.
D'une part, il y a  les ressources périssables lesquelles sont constituées de pages Web très volatiles et qui témoignant de la mouvance et du caractère ponctuel de la toile mondiale. Celles-ci ne sont pas négligeables puisqu'elles contiennent une terminologie de pointe à laquelle il importe d'avoir accès. 

D'autre part, il y a les ressources non périssables, telles les bases de données et les moteurs spécialisés techniques et scientifiques. Parmi ces ressources, il y a les banques de terminologie, ces pierres précieuses pour les travailleurs du langage, qu'on se doit de collectionner et de consigner,  parce qu'elles sont conçues à partir de méthodes éprouvées dans un but de continuité et de manière à structurer le savoir terminologique sous la forme d'équivalenciers multilingues.

Buts d'Eurêka

Eurêka a pour but principal d'exercer une veille Internet dans tous les domaines liés aux besoins des langagiers afin d'y repérer les ressources pouvant présenter un intérêt. Eurêka analyse, évalue et fait ressortir les aspects des ressources repérées qui sont particulièrement aptes à faciliter la pratique des professions langagières.

Eurêka a aussi pour objectif de repérer et de suggérer à ses membres des moteurs, des bases de données et, particulièrement, des banques de terminologie spécialisées, ces dernières étant plus  propices à combler les besoins des langagiers.

Veille langagière permanente

Afin d'atteindre ses buts, le modérateur d'Eurêka est abonné à des listes de diffusion (et des fils RSS). Les sites d'intérêt repérés par cette veille terminologique éclairée et permanente sont analysés et évalués. Lorsqu'ils présentent un intérêt pour le langagier, il font l'objet de messages dans la liste de diffusion.

La liste de diffusion Eurêka

La liste de diffusion Eurêka est une adresse unique eureka@yahoogroupes.fr sous laquelle sont regroupées les adresses électroniques des abonnés dûment enregistrés. Ces derniers, à condition qu'ils soient membres, peuvent y poster leurs messages (en anglais, en français et en espagnol) lesquels sont automatiquement repostés à tous les abonnés par le robot gestionnaire de la liste.

La liste Eurêka est une excellente façon de profiter d'une veille avertie et raisonnée sur tout ce qui touche langagerie.

Yvan Cloutier, modérateur Eureka




Envoyer un message : eureka@yahoogroupes.fr

S’inscrire : eureka-subscribe@yahoogroupes.fr

Désinscription : eureka-unsubscribe@yahoogroupes.fr

Fondateur de la liste : eureka-owner@yahoogroupes.fr

mardi 4 novembre 2008

Une communauté d'agents intelligents

Les spécialistes de la toile mondiale s'entendent pour dire qu'un mois en temps Internet équivaut à une année en temps réel. La toile mondiale se métamorphose constamment à la vitesse de l'éclair sous les yeux de l'Internaute : une absence d'à peine quelques semaines et le voilà submergé de courriels; de nouveaux sites naissent toutes les secondes, d'autres disparaissent.  

Jacques Attali a très finement  décrit le Web : « Quiconque a essayé un jour d'entrer dans Internet sait qu'il ne faudrait pas parler d'autoroutes de l'information mais plutôt de labyrinthes : gigantesque enchevêtrement de ruelles et d'impasses, de bibliothèques et de cafés, le réseau se compose de mille chemins qui souvent se terminent en impasses. Internet ressemble plus au labyrinthe d'une ville médiévale, sans véritable architecte, qu'au bel ordonnancement d'une autoroute.  Malgré cette agitation incessante et l'anarchie qui y règne, Internet s'est  imposé pour beaucoup comme un outil indispensable dans leurs activités quotidiennes. » 

L'absence de frontières physiques entre les pays dans l'Internet favorise le multiculturalisme et la création de communautés virtuelles de spécialistes dans des domaines très ciblés, ainsi que la libre communication entre les intervenants de ces groupes. La diffusion, la mise à jour et la consultation des documents électroniques se font désormais instantanément, quelle que soit leur provenance dans le monde. 

Internet apparaît comme une grande agora où l'on peut, d'un simple clic de la souris, contempler l'activité humaine de par le monde. Jacques Attali poursuit : « Internet c'est la porte d'entrée dans tout l'univers virtuel, dans ce que j'ai appelé le septième continent, c'est-à-dire un univers nouveau où on pourra faire tout ce qu'on fait dans la réalité : acheter, vendre, travailler, se distraire, faire semblant de vivre, comme on fait dans la réalité d'ailleurs. Donc c'est une nouvelle Amérique. Il y a une loi d'airain qui fait qu'un espace ne peut être véritablement structuré que s'il devient un champ de foire. Internet, l'espace virtuel, va devenir un champ de foire et c'est très bien ainsi.  Or les marchands de cette foire, qui avaient pignon sur rue, n'ont souvent plus qu'une adresse URL, nouvelle mesure de la proximité des clients, qui de concitoyens sont devenus des cybercitoyens . Ce nouvel environnement imposé par le Web, qui est vite devenu un passage obligé pour le commerce, a complètement transformé les lois de la concurrence. Toute entreprise ou organisation qui veut rester un chef de file sur la toile mondiale se doit de veiller (ou d'exercer une vigie) dans son domaine d'intérêt au risque d'être dépassée. »
  
Carlo Revelli, spécialiste de la veille Internet, dans son livre intitulé Intelligence stratégique sur Internet, justifie en ces termes la nécessité de veiller : « L'information se renouvelle à une telle vitesse sur Internet qu'il est humainement impossible de suivre l'évolution de l'actualité d'un secteur économique ou l'apparition d'innovations technologiques. Même si vous obligez une personne à rester branchée nuit et jour sur Internet pour surveiller ne serait-ce que dix sites assez volumineux, vous n'obtiendrez pas de résultats satisfaisants. La quantité d'informations est trop importante pour qu'un être humain puisse détecter tous les changements qui ont eu lieu. »
 
Dans un article publié dans l'Actualité terminologique, Marc Laforge parle de « competitive intelligence » en ces termes : « ... la competitive intelligence est l'utilisation de la surcharge informationnelle à bon escient, disons de manière  intelligente, d'où le nom. Cette activité consiste à trier l'information pertinente, à l'organiser, à la structurer d'une façon cohérente, à en faire la synthèse afin de permettre aux décideurs de prendre des décisions plus éclairées et, au bout du compte, d'acquérir un avantage compétitif sur la concurrence en Europe, on parle surtout et beaucoup d'intelligence concurrentielle. Au Canada, on privilégie « veille concurrentielle ou stratégique »
  
Bernard Dousset, Taoufiq Dkaki et Saïd Karouach, auteurs sur le veille , définissent  « competitive intelligence » comme « la pratique qui englobe les actions de collecte, analyse et diffusion des informations en vue de rendre plus intelligible l'environnement de l'entreprise. En cherchant à anticiper les évolutions du marché par une mise en valeur des informations et des connaissances, la veille a pour objectif d'accroître l'adaptabilité de l'entreprise à son marché. » Ils distinguent la veille commerciale, la veille concurrentielle, la veille stratégique, la veille juridique, la veille scientifique, etc. On pourrait certainement y ajouter la veille langagière, dont l'importance est plus que justifiée par le fait que la barrière linguistique freine la libéralisation de la communication intégrale entre les peuples sur Internet, d'où une prolifération de  mesures palliatives.  

La vitrine mondiale d'Internet ouvre des portes à tous les commerçants du monde qui sont soudainement confrontés au plurilinguisme, d'où l'apparition d'une multitude d'outils langagiers et de technologies permettant d'aplanir les différences linguistiques qui nuisent au commerce électronique : logiciels de traduction automatisée des courriels ou de sites complets, moteurs translingues capables, à partir d'une mémoire de traduction, d'interpréter dans plusieurs langues une demande formulée en langage naturel, et j'en passe.
   
Étant donné que le Web est un passage obligé et que, par surcroît, il contient une quantité astronomique d'informations, toute organisation ou entreprise désireuse de demeurer concurrentielle doit effectuer des activités de veille en mettant sur pied une  cellule de veille. La veille est un processus de mise à jour régulière d'informations. Beaucoup plus qu'une simple recherche thématique, elle consiste à traquer et à recueillir des renseignements, à les synthétiser et à en déduire les conclusions utiles pour l'adaptation de l'organisation à une situation concurrentielle donnée. 

Le traitement de l'information est confié à des professionnels de la recherche qui font partie intégrante de la cellule de veille. Leur travail consiste à repérer les données concurrentielles appropriées et à les passer au crible afin de trouver l'élément informationnel offrant l'avantage concurrentiel recherché. La cellule de veille se compose d'une équipe de veilleurs actifs, qui reçoit l'appui de tous les membres de l'organisation concernée (veilleurs potentiels ou passifs) à qui l'on fait connaître la nature et l'importance des activités de veille. En font partie un spécialiste des systèmes informatiques, un spécialiste de la recherche sur le Web et un spécialiste du traitement des données qui indexe, ordonne et diffuse dans l'organisation les renseignements recueillis.
 
L'équipe de veille doit faire une distinction entre données et  information. Les données sont des renseignements bruts souvent recueillis à partir de moyens machines qui sont susceptibles de servir à établir des relations, des prévisions, sinon des futuribles. L'information est, en général, un ensemble cohérent significatif pour l'organisation, généralement établi humainement à partir des données, que l'équipe doit maîtriser et mettre à la disposition de l'entreprise pour lui donner une position favorable dans un environnement concurrentiel donné. Ces distinctions sémantiques s'établissent selon les étapes suivantes : la validation, qui permet d'établir la pertinence des données brutes; l'indexation des données; la synthèse, qui consiste à interpréter et à résumer les informations; la  diffusion au sein de l'organisation. 

Comme je l'ai déjà mentionné, la quantité de données disponibles sur le Web est astronomique et dépasse les capacités d'acquisition et de surveillance humaines. Les outils traditionnels de recherche tels les moteurs de recherche classiques et les répertoires de toutes catégories, bien qu'utiles pour effectuer les recherches courantes, ne suffisent plus pour accomplir les recherches complexes et pointues qu'exigent les activités de veille. 

Voilà où entre en jeu l'agent intelligent. L'agent intelligent est un assistant électronique ou 
un robot de recherche capable d'effectuer en autonomie des tâches répétitives
d'investigation et de surveillance en tenant compte de paramètres et de filtres imposés par le maître. Il doit posséder les attributs suivants : autonomie, adaptabilité, comportement coopératif, réactivité, aptitude sociale et mobilité. L'agent est autonome lorsqu'il peut tenir compte, sans intervention humaine, des besoins, des intérêts et des objectifs de son maître et prendre les initiatives appropriées. 

On dit que l'agent s'adapte lorsqu'il est capable d'apprendre afin d'interagir avec l'environnement extérieur (c'est-à-dire le monde physique, les humains, les autres agents, l'Internet) de sorte que son rendement s'améliore avec le temps. L'agent est réactif lorsqu'il sait percevoir les changements de son environnement, qu'il peut modifier au besoin. L'agent est dit social lorsqu'il peut interagir avec d'autres agents (et possiblement des humains) à l'aide d'un langage qui lui est propre. Dans un environnement multi-agents, l'agent a un comportement coopératif lorsqu'il est capable de travailler avec d'autres agents dans le but de fusionner les informations afin d'atteindre un objectif commun. Enfin, l'agent est mobile lorsqu'il a la capacité de choisir lui-même une direction et de se déplacer vers un lieu du réseau dans le but d'accomplir ses tâches.
 
Dans la pratique, l'agent intelligent doit donc être capable d'apprendre le profil de son maître, d'en tenir compte et de reprendre une recherche en fonction de nouveaux paramètres, d'éliminer les doublons et d'effectuer la synthèse machine des documents résultant d'une recherche, de mémoriser ses expériences et d'en tenir compte, d'adapter son comportement à son environnement, d'assumer des fonctions automatiques de contrôle, de mémorisation ou de transfert d'informations. 

La principale caractéristique de l'agent intelligent est avant tout sa capacité de veille permanente et son assiduité implacable à effectuer des tâches surhumaines face à la complexité et à la quantité des données à scruter sur la toile. Tous les spécialistes s'accordent pour dire qu'aucune organisation ne peut assurer une veille efficace sans le concours d'agents intelligents. Non seulement ces derniers sont infatigables, mais ils soustraient également le veilleur humain  à certaines tâches routinières et rébarbatives.  

Le veilleur doit donc, au début de sa démarche, collectionner des données à l'aide d'agents intelligents. Cette tâche de cueillette est facilitée par la grande diversité des agents de veille, que l'on peut classifier selon leur mode de fonctionnement et leur spécialisation. D'après le mode de fonctionnement, on peut distinguer les agents agissant selon le modèle du tirer et les agents agissant selon le modèle du pousser, cette distinction étant importante puisqu'elle implique la façon dont l'agent entrera en interaction avec l'utilisateur lors de l'accomplissement de sa mission. 

Les agents de tirer impliquent de la part de l'internaute une démarche active, c'est-à-dire qu'il doit rechercher lui-même l'information. Par exemple, les agents agissant par courriel émettent une alerte postale (exemple : Google Alert) chaque fois qu'une adresse présélectionnée et mémorisée a subi des modifications (mise à jour du texte, changement ou ajout de liens, etc.) ou lorsqu'une demande préalablement ciblée et filtrée produit un nouveau bilan de recherche à partir d'un ou plusieurs moteurs de recherche. 

Parmi les agents de tirer, on peut aussi distinguer les agents d'alerte hors connexion (hors ligne), qui sont des logiciels que l'utilisateur installe sur son ordinateur. Il s'agit d'aspirateurs de sites qui se connectent automatiquement au réseau et permettent la copie de sites entiers sur une unité de disque locale à partir de la racine indiquée. Certains de ces agents demeurent en mode de veille permanente afin de lancer une nouvelle alerte à la suite de modifications apportées sur les pages déjà aspirées. 

Les agents de pousser (comme les fils RSS) collectent les données et les transmettent directement et automatiquement à l'utilisateur sans démarche active de sa part, à intervalles réguliers et selon des directives préétablies. Parmi les agents de pousser, on distingue également ceux fonctionnant hors connexion et ceux agissant en ligne. Les agents de pousser en ligne sont des sites accessibles au moyen d'un identifiant  et un mot de passe qui permettent de personnaliser une page Web affichant les résultats d'une recherche à partir de certains filtres et paramètres. Ces sites permettent de générer de véritables bulletins d'information personnalisés en ligne. Les agents de pousser hors connexion effectuent les mêmes tâches que les agents en ligne mais nécessitent l'installation d'un logiciel client.  

Quel que soit le type d'agent utilisé, l'objectif de la veille est toujours la collection rapide de données très spécifiques qui permettent à une organisation de faire face à la concurrence et de s'assurer une présence prépondérante devant la croissance fulgurante et le gigantisme du Web.  Les agents intelligents,  ces créatures numériques qui habitent le Web et qui y vivent en permanence, s'imposent pour accomplir cette tâche. Ce sont des robots veilleurs assidus, ponctuels et implacables qui surpassent les capacités humaines de résolution et d'assimilation des données.
  
Pour le profane, les agents intelligents peuvent  trouver leur utilité dans le domaine des achats en ligne. L'agent de magasinage, par exemple, s'avérera souvent indispensable devant la taille du Web afin de comparer les prix tout en tenant compte de la qualité des produits. Il sera en alerte 24 heures sur 24 à la recherche de la meilleure offre pour l'achat d'un ordinateur dont les spécifications techniques auront été imposées par l'utilisateur. Ce fidèle serviteur informera régulièrement son maître des meilleurs achats à faire à l'aide d'alertes sous forme de bilans contenant les renseignements pertinents. 

Quoi que que l'on puisse affirmer sur la toile mondiale, il faudra toujours se rappeler qu'elle est en constante mutation. S'il est vrai que la réalité virtuelle change dans le rapport un mois internet égale une année en temps réel, il en va de même des agents.  Donc, au moment de lire ce billet il sera déjà temps pour moi de songer à en faire une nouvelle description! 
  
Sources

  • Carlo Revelli. Intelligence stratégique sur Internet, 2e édition, 1999, 220 pages. ISBN : 2 10 0005154 7. 
  • H.S. Nwana and D.T. Nduma.AAn Introduction to Agent Technology,@BT Technology Journal, Vol. 14, No. 4, ctober 1996.

  • Pattie Maes. AHow to do the right thing,@AI-Laboratory, Vrije Universiteit Brussel and AI-Laboratory, Vrije UniversiteitBrussel, Massachusetts Institute of Technology.
  • Michael Wooldridge and Nicholas R. Jennings. AIntelligent Agents : Theory and Practice,@ Knowledge Engineering Review.
  • David L. Martin, Adam Cheyer and Gowang-Lo Lee. ADevelopment Tools for the Open Agent Architecture.@
  • Andreas Rasmusson and Sverker Jansson. APersonal Security Assistance for Secure Internet Commerce.@
  • Don Gilbert and Peter Janca.AIBM Intelligent Agents @.
  • Philip R. Cohen, Adam Cheyer, Michelle Wang and Soon Cheol Baeg. AAn Open Agent Architecture,@ SRI International, Stanford University, ETRI.



lundi 3 novembre 2008

Resource Description Framework et la terminologie

Le but de ce billet est d'explorer le moteur Sindice qui indexe les métadonnées du Web sémantique et d'illustrer en quoi il est susceptible d'aider le travail du langagier. Voici des citations de Wikipédia au sujet du Web sémantique. Les mots importants sont en gras.

  • « Le Web sémantique désigne un ensemble de technologies visant à rendre le contenu des ressources du World Wide Web accessible et utilisable par les programmes et agents logiciels, grâce à un système de métadonnées formelles ... » Source 

  • « Une métadonnée (mot composé du préfixe grec meta, indiquant l'auto-référence ; le mot signifie donc proprement « donnée de/à propos de donnée ») est une donnée servant à définir ou décrire une autre donnée quel que soit son support (papier ou électronique) . » Source

  • « Resource Description Framework (RDF) est un modèle de graphe destiné à décrire de façon formelle les ressources Web et leurs métadonnées, de façon à permettre le traitement automatique de telles descriptions ... En annotant des documents non structurés et en servant d'interface pour des applications et des documents structurés (pe. bases de données, GED, etc.) RDF permet une certaine interopérabilité entre des applications échangeant de l'information non formalisée et non structurée sur le Web.» Source.

  • « Un document structuré en RDF est un ensemble de triplets. Un triplet RDF est une association : sujet, prédicat, objet. Le sujet représente la ressource à décrire. Le prédicat représente un type de propriété applicable à cette ressource. L'objet représente une donnée ou une autre ressource : c'est la valeur de la propriété. » Source.

  • « Sindice est un moteur de recherche qui permet d'exploiter des données publiées en RDF, qu'elles se trouvent ... dans des fichiers RDF, ou dans des pages HTML sous forme de métadonnées ... Sindice surveille, collecte et indexe ces données ... Ensuite, il met à disposition tout cela sous forme d'API pour qu'on puisse l'utiliser dans une autre application. Sindice est une des briques essentielles du Web of data ... Source »
Voici un interrogation du moteur RDF Sindice : 



  • les guillemets anglais pour forcer la juxtaposition des mots d'unités terminologiques complexes semblent acceptés quoique que je n'ai pu le vérifier sur le site.

  • l'interrogation se fait dans les métadonnées cachées dans les codes de pages Web.

  • le bilan donne un accès direct au fichier RDF ; cliquer sur le libellé en bleu du terme pour accès à la page suivante :

    ==========début de la page des résultats

  • Public-key cryptography, also known as asymmetric cryptography, is a form of cryptography in which the key used to encrypt a message differs from the key used to decrypt it. In public key cryptography, a user has a pair of cryptographic keys—a public key and a private key. The private key is kept secret, while the public key may be widely distributed. Incoming messages would have been encrypted with the recipient's public key and can only be decrypted with his corresponding private key. The keys are related mathematically, but the private key cannot be practically derived from the public key. Conversely, secret key cryptography, also known as symmetric cryptography uses a single secret key for both encryption and decryption. ... (en)
  • La criptografía asimétrica es el método criptográfico que usa un par de claves para el envío de mensajes. Las dos claves pertenecen a la misma persona a la que se ha enviado el mensaje. Una clave es pública y se puede entregar a cualquier persona, la otra clave es privada y el propietario debe guardarla de modo que nadie tenga acceso a ella. El remitente usa la clave pública del destinatario para cifrar el mensaje, y una vez cifrado, sólo la clave privada del destinatario podrá descifrar este mensaje. Los sistemas de cifrado de clave pública o sistemas de cifrado asimétricos se inventaron con el fin de evitar por completo el problema del intercambio de claves de los sistemas de cifrado simétricos. Con las claves públicas no es necesario que el remitente y el destinatario se pongan de acuerdo en la clave a emplear. Todo lo que se requiere es que, antes de iniciar la comunicación secreta, el remitente consiga una copia de la clave pública del destinatario. Es más, esa misma clave pública puede ser usada por cualquiera que desee comunicarse con su propietario. Por tanto, se necesitarán sólo n pares de claves por cada n personas que deseen comunicarse entre sí. (es)
  • Ein asymmetrisches Kryptosystem ist ein Kryptosystem, bei dem jeder der kommunizierenden Parteien ein Schlüsselpaar besitzt, das aus einem geheimen Teil (privater Schlüssel) und einem nicht geheimen Teil (öffentlicher Schlüssel) besteht. Der öffentliche Schlüssel ermöglicht es jedermann, Daten für den Inhaber des privaten Schlüssels zu verschlüsseln, dessen digitale Signaturen zu prüfen oder ihn zu authentifizieren. Der private Schlüssel ermöglicht es seinem Inhaber zum Beispiel, Daten zu entschlüsseln, digitale Signaturen zu erzeugen oder sich zu authentifizieren. Im Gegensatz zu einem symmetrischen Kryptosystem müssen die kommunizierenden Parteien keinen gemeinsamen geheimen Schlüssel kennen. Asymmetrische Kryptosysteme werden daher auch als Public-Key-Verfahren bezeichnet. (de)
  • La cryptographie asymétrique est une méthode de chiffrement qui s'oppose à la cryptographie symétrique. Elle utilise généralement une clé publique (qui est diffusée) qui permet de coder le message et une clé privée (gardée secrète) qui permet de décoder le message. Ainsi l'expéditeur peut coder le message que seul le destinataire pourra décoder. (fr)
  • La crittografia asimmetrica, conosciuta anche come crittografia a coppia di chiavi, crittografia a chiave pubblica/privata o anche solo crittografia a ... »more» (it)
  • 公開鍵暗号(こうかいかぎあんごう、Public key cryptosystem)とは、暗号化と復号に別個の鍵(手順)を使い、暗号化の為の鍵を公開できるようにした暗号方式である。1980年代にかけ、日本で紹介された直後は「公衆暗号系」と訳されていた。 (ja)
  • Bij asymmetrische cryptografie (zoals RSA) wordt gebruik gemaakt van twee aparte sleutels: één sleutel wordt gebruikt om de informatie te coderen (vercijferen) ... »more» (nl)
    ======fin de la page des résultats

  • Noter que les définitions qui précèdent semblent originales (non traduites) et que la langue est indiquée (en gras à la fin des textes).

  • Le page RDF affiche d'autres renseignements terminologiques utiles que je vous laisse découvrir à l'adresse suivante  : http://dbpedia.org/page/Public-key_cryptography.

  • On se trouve ici en présence d'un site qui non seulement peut donner des tarductions mais aussi des définitions aux langagiers. De quoi résoudre des problèmes terminologiques épineux ou sinon fournir des définitions pour la rédaction de fiches.

  • Mieux que les données visibles d'une page il semble que les métadonnées en sont à recréer le Web.
Adresses complémentaires

Suivis

À mon sujet

Ma photo
Carleton-sur-Mer, Gaspésie, Canada
Cyber-terminologue