Ce carnet traite des principes et des méthodes de la terminologie ainsi que de techno-langagerie. Yvan Cloutier, terminologue

Rechercher sur ce blogue

Cyber-langagerie

mardi 16 décembre 2008

DeepDyve - un autre moteur de recherche fédérée

J'ai souvent lu dernièrement des textes portant sur l'incapacité de Google à donner une information objective. Certains ont même affirmé que YouTube a tendance a être plus consulté que Google. Il semble aussi parallèlement que les moteurs fouillant le Web caché se développent de plus en plus. Voilà sans doute une solution pour l'accès à une information objective qui est un atout à l'exercice des professions langagières.

Le moteurs du Web caché sont de plus en plus sophistiqués. J'en ai décrit certains dans des billets précédents (voir les liens à la fin) et je m'y intéresse parce que soupçonne que ces moteurs seront les seuls moteurs valables sous peu. Le problème est qu'ils sont pour la plupart actuellement en version bêta et qu'on veut sur ces sites vendre un technologie. À consulter ces moteurs on constate souvent que pour avoir accès à l'information recherchée il faut payer. La recherche d'information sera-t-elle bientôt payante ? Il ne faut oublier que le Web caché constitue la partie cachée de l'iceberg et donc plus volumineux que le Web des moteurs génériques.

Voici les caractéristiques du Web caché d'après Wikipédia :

« Dynamic contentdynamic pages which are returned in response to a submitted query or accessed only through a form, especially if open-domain input elements (such as text fields) are used; such fields are hard to navigate without domain knowledge.

Unlinked content – pages which are not linked to by other pages, which may prevent Web crawling programs from accessing the content. This content is referred to as pages without backlinks (or inlinks).

Private Web – sites that require registration and login (password-protected resources).
Contextual Web – pages with content varying for different access contexts (e.g., ranges of client IP addresses or previous navigation sequence).

Limited access content – sites that limit access to their pages in a technical way (e.g., using the Robots Exclusion Standard, CAPTCHAs or pragma:no-cache/cache-control:no-cacheHTTP headers[citation needed]), prohibiting search engines from browsing them and creating cached copies.

Scripted content – pages that are only accessible through links produced by JavaScript as well as content dynamically downloaded from Web servers via Flash or AJAX solutions.
Non-HTML/text content – textual content encoded in multimedia (image or video) files or specific file formats not handled by search engines. »

L'info disséminée sur le Web cachée est privilégiée et elle a fait l'objet d'une classification humaine basée sur des principes reconnus de collection des données.
Voici ce que dit encore Wikipédia :

« To discover content on the Web, search engines use web crawlers that follow hyperlinks. This technique is ideal for discovering resources on the surface Web but is often ineffective at finding deep Web resources. For example, these crawlers do not attempt to find dynamic pages that are the result of database queries due to the infinite number of queries that are possible. It has been noted that this can be (partially) overcome by providing links to query results, but this could unintentionally inflate the popularity (e.g., PageRank) for a member of the deep Web.

One way to access the deep Web is via federated search based search engines. Search tools such as Science.gov are being designed to retrieve information from the deep Web. These tools identify and interact with searchable databases, aiming to provide access to deep Web content.

Another way to explore the deep Web is by using human crawlers instead of algorithmic crawlers. In this paradigm referred to as Web harvesting, humans find interesting links of the deep Web that algorithmic crawlers can't find. »

Parmi le moteurs je vous présente après cette longue introduction le moteur DeepDyve qui innove encore avec des options d'interface qui ajoutent à ce que j'ai déjà présenté dans d'autres billets.

vendredi 12 décembre 2008

La respiration et la traduction

Traduire c'est aussi stressant on le sait tous. La traduction est une profession de précision, de recherche, de concentration et de gestion serrée des échéanciers. Elle implique aussi des relations humaines et donc de la diplomatie. Le traducteur est souvent confronté à des choix  professionnels importants tant du point de vue de sa pratique que du point de vue financier. Toutes ces obligations sont un très grande source d'accumulation de frustrations et peuvent générer des pressions énormes sur un être humain.

La respiration contrôlée que j'ai souvent pratiquée a été très efficace pour moi dans plusieurs étapes de ma vie et j'y crois. Elle aide significativement à diminuer les stress et a d'autres effet (comme une influence sur le poids)  que je ne soupçonnais pas comme vous le verrez en consultant les références de ce billet.

« Le docteur O’Hare estime que d’agir sur sa respiration permet d’influencer positivement le rythme cardiaque. Des exercices quotidiens de quatre ou cinq minutes suffisent pour chasser le stress. »

Pour convivialiser l'exercice d'un respiration contrôlée le docteur O'Hare met en ligne sur son site un ingénieux guide visuel de respiration qu'il appelle Le guide respiratoire. Voir cette page :

Voir aussi l'entrevue accordée à Christaine Charette à Radio-Canada ici :

Yvan Cloutier



mardi 9 décembre 2008

SUN Glossary Tool

Définitivement toutes les grosses boîtes informatiques (Microsoft et Google aussi) reconnaissent le besoin des banques de terminologie et de la traduction. Je viens de tomber sur les site de Sun Microsystems et j'y ai trouvé une base terminologique et des ressources pour les traducteurs.

Le Sun Glossary Tool est ici

NOTE : ce Glossaire multilingue a été ajouté dans le CERTE à cette adresse


et les ressources ici


Yvan


lundi 8 décembre 2008

De l'importance des langues et des langagiers

Je ne peux m'empêcher de citer en partie ce texte de Térésa Cabré qui exprime d'une manière admirable le rôle prépondérant des langues sur le Web . Il n'est pas donné à tous de s'exprimer d'une manière concise et claire.

« Dans la société contemporaine, les langues ont acquis un rôle stratégique très important. Le multilinguisme s'impose aujourd'hui comme une réalité qui ne doit pas être évitée, mais au contraire encouragée. Il se traduit par une attitude de respect envers l'autre, envers ce qui est différent. Il est également perçu comme un fait écologique de préservation de la diversité réelle, d'une diversité qu'il est fondamental de conserver comme un bien naturel et patrimonial de l'humanité. Cependant, la diversité linguistique peut aussi représenter un obstacle dans des circonstances dans lesquelles on se veut efficace et univoque. Dans de telles situations, la préservation de la diversité, si elle n'est pas correctement définie, n'est pas viable. Nous évoluons donc entre deux tendances: l'une conduisant vers l'unité linguistique, l'autre vers la diversité. »


Yvan Cloutier

Repérage terminologique automatisé ?

Je reçois le courriel qui suit. 

Il traite de la possibilité de repérer des unités terminologiques sur le Web à l'aide d'un logiciel. Si je comprends bien il s'agit là de ce que l'on pourrait appeler du « dépouillement terminologique automatisé ». 

Devant l'abondance et le fouillis, cela me semble une solution des plus efficaces. Créer une communauté d'agents intelligents qui exercent une veille terminologique dans des domaines précis. Ceux-ci pourraient même être entraînés à rechercher dans les textes des contextes définitoires pertinents, c'est-à-dire être capables de reconnaître les contextes et de les comparer. La technologie évolue à la vitesse de l'éclair et la langue qui la décrit également de sorte que ces agents pourraient être forts appréciés dans un avenir rapproché. 

Bien entendu le tout sous supervision humaine.


Début du courriel ===========================
Prochain séminaire interne de linguistique :


Par : Stéphanie WEISER

Titre :
Repérage automatique d'informations temporelles touristiques dans des
pages Web

Résumé :
Les expressions temporelles liées au domaine du tourisme ont des
caractéristiques précises : elles ont une visée informative et sont
assez spécifiques. Elles le sont d'autant plus lorsqu'elles figurent
dans des pages Web. Notre travail consiste à extraire ces informations
des pages Web et à les annoter afin d'alimenter la base de
connaissance d'un portail touristique sur Internet. Après avoir
caractérisé les informations que nous voulons détecter, nous verrons
les difficultés qui peuvent se poser, au moment de l'extraction ou de
l'annotation.

Sur un plan technique nous présenterons notre méthode d'extraction, et
les transducteurs (termes apperentés) qui ont été réalisés à l'aide d'Unitex pour les
besoins du projet.

Sur un plan théorique, nous ferons une étude comparative des
expressions temporelles touristiques sur Internet et dans les guides
touristiques papier.  Nous étudierons également la façon dont le temps
est représenté sur le Web : informations sans cesse actualisées, dates
relatives, etc.

Lieu :
Université Paris-Est, bâtiment Copernic 4ème étage, salle de
séminaire

URL : 
http://infolingu.univ-mlv.fr

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <
LN@cines.fr>
-------------------------------------------------------------------------

samedi 6 décembre 2008

L'agrégation des contenus ou une recherche structurée

Dans mon billet précédent je traitais du moteur à agrégation de contenus Xclustering. Mednar est un autre moteur qui pré-élague en thèmes et sous-thèmes les résultats d'une recherche. Même si ce moteur n'est pas généraliste (il est médical) certaines de ses particularités méritent d'être soulignées. 

conceptual clustering <->agrégation conceptuelle
Organisation d'objets, d'événements ou de faits en classes caractérisées, au moyen de concepts descriptifs simples. 

CITATIONS
  • Using ... federated search technology from Deep Web Technologies, Mednar accelerates your research by returning the most relevant results from across the World Wide Web, including blogs, wikis, mainstream searches and deep web sources to one, easily navigable page.

    Federated Search <-> Recherche fédérée
    Recherche effectuée en une seule requête dans plusieurs sources de données hétérogènes de différents formats. (GDT)


    Invisible Web <-> Web caché
    Partie du Web correspondant à l'ensemble des documents Web qui ne sont pas indexés par les outils de recherche traditionnels. (GDT)


    COMMENTAIRE
    Un métamoteur qui interroge plusieurs bases de données dans le Web caché (par définition mieux structuré) : voilà une solution face à l'abondance de la toile et à la tendance de plus en plus mercantile des moteurs commerciaux.

  • Each search is done in real-time, searching the sources you select as if you were entering the search term on each individual website yourself. Duplicates are removed, the results weighed for relevance and then ranked according to how closely it matches your search word or phrase.

    ranking <-> classement
    Attribution d'un rang aux pages Web d'un site par un outil de recherche, de façon à ce que, à la suite d'une requête spécifique par mot-clé, les sites les plus appropriés apparaissent les premiers dans la page des résultats. (GDT)

    COMMENTAIRE
    Il suffit de savoir sur quels critères on se base pour identifier les doubles, pour établir le degré de pertinence et pour fixer le degré de proximité entre la requête et le bilan de recherche.  Il y a toujours un jugement machine qui s'insère dans le couple requêtes-résultats d'un moteur de recherche. Dans le cas de ce moteur on peut cependant noter qu'entre la requête et son résultat il y a un souci de se baser sur des règles de référencement reconnues.

  • Each Mednar source is chosen for its outstanding contributions to the medical search world.
  • Dans la recherche avancée, il est possible de choisir le sources consultées. L'une de celles-ci est la World Health Organization. On trouve une liste de sources cochable ici que l'on peut sauvegarder. Il est possible d'être alerté sur des sujets précis. Le formulaire de recherche est muni d'un filtre temporel comprend les champs suivants : plein texte, titre et auteur.
Scénario de recherche

Je recherche « blood test ».  Par défaut le moteur recherche plein texte. Si on veut fait une recherche plus thématisée on peut choisir la recherche avancée et opter pour  « Title ». Ceci fait la différence entre une recherche dans laquelle on veut avoir des mentions contextuelles du terme ou des textes de fond portant sur le terme « blood test ». Remarquer qu'en cochant dans les préférences de sources WHO on ne recherche que dans le site de cette organisation dans lequel il y a éventuellement des bitextes.

Il est possible de ciseler le filtrage du terme puisque l'arborescence à gauche de l'écran se décline jusqu'à trois sous-thèmes, et cela, avant même d'avoir consulté le contenu du bilan de recherche. Une fois le bilan affiché, il est possible de trier par auteurs, par titre et par date, de relancer la requête avec filtrage par sources, de poster le bilan détaillé formaté par courriel et de créer des alertes. Pour aider à choisir les sources à consulter celles-ci sont mentionnées à droite de l'écran et des cases à cocher permettent de les sélectionner.





Noter que certaines options ne sont accessibles que par identification comme c'est le cas par exemple pour « Get Updates on This Search ». Rien n'est vraiment gratuit. 


Ressources

Other free Federated Search Research Sites : 

Scitopia.org- Scitopia.org is a free federated vertical search portal to the digital libraries of leading worldwide science and technology societies.

The Science.gov Alliance- Science.gov is a gateway to over 50 million pages of authoratative selected science information provided by U.S. government agencies, including research and development results.

WorldWideScience.org- WorldWideScience.org is a global science gateway-accelerating scientific discovery and progress through a multilateral partnership to enable federated searching of national and international scientific databases. 

jeudi 4 décembre 2008

Dans le fouillis rechercher par agrégation de notions (clustering)

Nous avons tous comme but lors d'une recherche sur le Web de repérer rapidement l'information. Les moteurs courants sont souvent décevants parce que, pour la plupart, ils ne font pas d'élagage des données et sont souvent axés sur des critères commerciaux. 

Google par exemple devient de moins en moins séduisant pour les langagiers se permettant par exemple de laisser tomber les accents, d'extrapoler des formes dérivées, etc. Nous sommes biens habitués à Google qui devient de plus en plus marchand mais peut être un jour faudra-t-il songer à un autre moteur.  Voici un texte qui fait réfléchir : 

« It's called SEO—search engine optimization—and it's pretty much all anyone working with Web sites ever talks about nowadays ... But in fact, it centers around the idea that Google sucks so much that companies think they need to use SEO to get the results they deserve.

... From a user's perspective, once you learn how Google does what it does, it's a miracle that you ever get the right results. And from my experience, the right results in many circumstances are nearly impossible to obtain—and may never be obtainable in the future.
Let's look at some of the problems that have developed over the years.

Inability to identify a home site. All the search engines have this habit, but often it is laughable. You'd think that if I were looking for Art Jenkins, and Art Jenkins had a Web site named Artjenkins.com, search engines would list that first, right? Most often this page is never listed anywhere.

Too much commerce, not enough information. There seems to be an underlying belief, especially at Google, that the only reason you go online is to buy something. People merely looking for information are a nuisance. This is made apparent anytime you look for information about a popular product. All you find are sites trying to sell you the product. Hey, here's a challenge: Ask Google to find you a site that honestly compares cell-phone plans and tells you which is best. Try it! All you get are thousands of sites with fake comparisons promoting something they are selling.
...

Parked sites. Have you ever gone to look for something and found what seems like the perfect site near the top of the Google results? You click on it only to find one of those fake "parked" sites, where people park domain names, pack them with links to other sites, and hope for random clicks that pay them 10 cents each. How does page ranking, if it works, ever manage to give these bogus sites a high number?

Unrepeatable search results. Ever run a search a week later and get completely different results? In the end, you have to use the search history and hope you can find it. Can things change so drastically day-to-day that the search results vary to an extreme month-to-month? This is compounded by the weird results you get when you are logged in to Google. These are somehow customized for you? In what way?

Google sign-in changes a query's results to an extreme with no discernible benefit. Often two people are on a call trying to discuss something and both will try finding something online. The conversation often goes like this: "Here it is, I found it. Type in the search term 'ABCD Fix' and it's the fourth result listed." "I don't see it. The fourth one down is a pill company." "You typed in ABCD Fix, right?" "Yeah." This goes on for a while until you realize that one of the two people is logged into Google.

The solution to this entire mess, which is slowly worsening, is to "wikify" search results somehow without overdoing it. Yahoo! had a good idea when its search engine was actually a directory with segments "owned" by communities of experts. These people could isolate the best of breed, something Google has never managed to do. The basis for Google page-ranking is to equate popularity with quality, and once you look at the information developed by SEO experts, you learn that this strategy barely works.

We have to suffer until something better comes along, but there is at least one crucial fix that could be easily implemented: user flagging. Parked sites, for instance, could be flagged the way you flag spam on a message board or a miscategorized post on craigslist. The risk here is that creeps trying to shut down a specific site could swamp Google with false flags, so maintaining integrity would be difficult. People with their own agendas have already infiltrated and controlled aspects of craigslist and Wikipedia, unfortunately. On Wikipedia, for example, a group pushing the global-warming agenda prevents almost any post with contrary data or opinions, no matter how minor the point.

One suggestion floating around involves the semantic Web, which anticipates even more SEO tricks—and requires a certain level of honesty that can never be maintained. I suggest rethinking the basic organization of the Web itself, using the Google News concept. In other words, compartmentalize the Web to an extreme. Tagging might help. But you should be able just to search through a subsegment and check a box that eliminates merchants with faux-informational sites.

And speaking of check boxes, over the years there have been numerous attempts at creating an advanced search mechanism utilizing check boxes and a question-and-response AI network. You'd think that idea would have gotten further than it has. Hopefully, someone will conceptualize something new that works better than what we have today. The situation is just deteriorating too fast. »


Personnellement je pense qu'il importe d'avoir l'oeil ouvert. Si on tient compte de arguments troublants mentionnés plus haut et devant l'abondance de la Toile un début de solution pourrait être une pré-classification des résultats de recherche pour sauver du temps. 

C'est le principe même des banques de terminologie dans lesquelles le filtrage par domaines est apparu depuis le début comme un moyen efficace de rechercher plus rapidement le bon équivalent (terme traduit) face à la polysémie de certains mots. Ce principe du filtrage est appliqué aux moteurs de recherche par agrégation qui catégorisent les données à l'aide de descripteurs. Un de ces moteurs est Xclustering.

L'avantage de ce moteur est qu'il affiche à gauche de l'écran une hiérarchie de descripteurs et de sous-descripteurs qui permet un débroussaillage souvent très efficace des données brutes qui deviennent des informations utilisables. Dans le cas d'expressions contenant des termes polysémiques comme « heat sensor » par exemple il est préférable d'interroger « sensor » pour obtenir les usages du terme dans plusieurs domaines. 



Xclustering peut, une fois les résultats affichés, faire un recherche dans Wikipédia.



À essayer ce moteur parce que rien ne peut être pris pour acquis :



Liens sur le même sujet

Why Google must die

Google doit-il disparaître ?

Yvan Cloutier, terminologue

SearchWiki pour Google

Google permet désormais de personnaliser les résultats d'une recherche. Voici ce qui est nouveau.

  • SearchWiki lets you customize your Google Web Search results by ranking, removing, and adding notes to them. You'll see your changes whenever you do the same searches while signed in to your Google Account, or until you decide to undo them. You can also see how other users have tailored any given search results page with their own notes and changes.

  • Like a certain search result?
    Click Like_it to move it to the top of the page. This result will appear at the top whenever you do the same search in the future. We'll add this marker Move_up next to it so you'll recognize it later.

  • Don't like a result?
    Click Don't_like_it to remove it, and it'll remain hidden whenever you do the same search in the future.

  • Know of a better webpage? 
    Click Add a result at the bottom of any search results page to add a page that you consider relevant to that search. Type the URL in the box, then click Add. When you do this search in the future, you'll see the page you suggested at the top with this marker Move_up.

  • Want to comment on a result?
    Click Comment to open a text box and type your comment. You'll see it the next time this result appears for any of your searches. Comments are a great way to save and recall any thoughts you had or notes you took about a particular page.

Les icônes de personnalisation de la recherche sont utilisables immédiatement. Vous les reconnaîtrez dans le bilan de recherche à la fin de chaque entrée. Il ne s'agit ni d'un module d'extension (plugin) ni d'un logiciel à installer. Ces nouvelles fonctions associées au bilan des résultats Google me semblent utiles devant l'abondance de liens non-pertinents que l'on peut récolter lors d'une recherche. 

Il devient donc possible d'élaguer les résultats, de prendre des notes et de ciseler un recherche selon ses besoins. Il est aussi possible de sauvegarder une recherche, de la rappeler plus tard et de la compléter avec un autre recherche parallèle faite dans un autre onglet du navigateur.  On peut ainsi monter un dossier étoffé sur un sujet donné.


Un traducteur automatique bien pensé

On ne peut manquer de s'intéresser aux traducteurs automatiques comme langagiers même si les résultats sont décevants. Beaucoup d'efforts (par Google et Microsoft par exemple)  sont déployés sur le Web actuellement pour perfectionner les technologies de traduction automatisée. 

Voir cette page



Ce traducteur de Microsoft innove :
  • Affichage parallèle horizontal ou vertical  des textes.
  • Affichage indépendant du texte de départ et d'arrivée.
  • En mode affichage unilingue, le dépôt du curseur sur une phrase  de texte affiche en popup la phrase de l'autre langue et vice versa. 

  • Un clic sur un lien dans le texte de la langue départ déclenche sa traduction automatique dans le fenêtre de la langue d'arrivée.

mercredi 3 décembre 2008

La mémoire de traduction de Microsoft ?









Est-ce que le titre de ce billet est fondé ? Je tombe sur cette page que vous connaissez peut être et qui me semble utile pour la terminologie informatique. 

Je pense qu'il faut supposer que la langue de départ est par défaut l'anglais puisqu'elle n'apparaît pas dans le menu déroulant des langues. Dans le menu « Language » la langue choisie est donc la langue d'arrivée. 

On y trouve un dictionnaire de traduction de termes informatiques et des définitions souvent étoffées.

Dans le menu « Product », un nombre impressionnant de produits Microsoft est sélectionnable pour filtrer les requêtes.


mardi 2 décembre 2008

Eurêka les faits

La liste Eurêka existe depuis janvier 1999. Au delà de 14 000 messages y ont été publiés. La liste n'a cessée de croître depuis toutes ces années : augmentation des abonnements et très peu de démissions. Eurêka est aussi un projet bénévole qui comprend la liste Eurêka, le blogue Cyber-langagerie et divers outils destinés à faciliter la recherche sur le Web. Voici la démarche Eurêka.

Veiller assidûment : la liste Eurêka est constamment à l'affût des ressources potentielles qui fusent continuellement sur la Toile, la liste est composée de 750 membres et publie mensuellement en moyenne 200 messages. Analyser et approfondir : le blogue Cyber-langagerie produit des études plus détaillées et concluantes sur certains produits langagiers. Repenser et adapter : les outils Eurêka (Iframe, CERTE, Interrogation Multisite, Wapiti) sont des créations concrètes destinées à faciliter le travail des langagiers.

Repérer dans l'anarchie

Le Web est incommensurable, on peut y déambuler tout en découvertes sans jamais passer par le même chemin. On accède à l'information par des routes imprévisibles : un site conduit à un autre, un lien dans un texte suscite notre intérêt soudainement, à la poursuite d'objectifs de veille le hasard des navigations propose souvent d'autres avenues. Le Web est très volatile et en même temps impalpable par son immensité. Il donne accès à toutes les connaissances humaines et, de ce fait, paraît des plus attrayant pour ceux qui, comme moi, s'imaginent pouvoir le conquérir.

Le veille permanente

En tant que fondateur-modérateur d'Eurêka, j'effectue quotidiennement de cinq à sept heures de veille langagière sur le Web sous forme de navigation à main-levée ou par le dépouillement de centaines de flux RSS. Je suis abonné à des dizaines de bulletin de nouvelles et j'utilise des outils de plus en plus sophistiqués (voir mon billet sur les agents intelligents). Sans ces moyens de plus en plus efficaces une veille décente serait pratiquement impossible. La quantité d'information à rechercher, à analyser et à consigner est phénoménale. Même en filtrant les données de veille, l'information valable diffusée risque d'exaspérer, de submerger ou sinon de décourager les abonnés de la liste.

L'âge d'or de la langue et des langagiers

La langue écrite prend sur la Toile mondiale une importance capitale entraînant ainsi dans son sillon les langagiers qui deviennent des facilitateurs indispensables à la communication inter-linguistique et inter-culturelle. La traduction a explosé sur le Web, les traducteurs humains sont devenus indispensables. Il n'arrivent pas à combler tous le besoins et sont remplacés souvent par des traducteurs-machines.


Yvan Cloutier, terminologue


Suivis

À mon sujet

Ma photo
Carleton-sur-Mer, Gaspésie, Canada
Cyber-terminologue