Annonce

Réduire
Aucune annonce.

Pour l'ordinateur, traduction rime moins avec trahison

Réduire
X
 
  • Filtre
  • Heure
  • Afficher
Tout nettoyer
nouveaux messages

  • Pour l'ordinateur, traduction rime moins avec trahison

    Traduisez cette phrase en anglais : "Zoé a aimé cet avocat. Il n'était pas véreux." Difficile, sans le contexte, de deviner si l'avocat en question était un "lawyer" ou un "avocado". C'est l'un des défis que posent aux machines les langues naturelles : comment en réduire les ambiguïtés, les nuances, pour en faire des objets "calculables" par l'ordinateur ?

    A l'évidence, la question reste encore sans réponse définitive, comme ont pu en témoigner les spécialistes du traitement automatique des langues (TAL) réunis mardi 23 juin en colloque à la Sorbonne pour célébrer les 50 ans de l'Association pour le traitement automatique des langues (Atala). L'Atala, première au monde de son genre, a très tôt pris acte des difficultés, troquant le terme de "traduction" (le T de son acronyme initial) pour celui, plus générique, de "traitement".

    Dès 1966, dans un rapport d'évaluation resté célèbre, le linguiste Yehoshua Bar-Hillel avait refroidi les enthousiasmes naissants, jugeant impossible une "traduction entièrement automatisée de haute qualité". "Il nous a rappelé qu'on ne pouvait traduire sans comprendre", résume Laurence Danlos (Institut national de recherche en informatique et automatique), organisatrice du colloque.

    Impossible de traduire sans comprendre ? Voire. Car la discipline est divisée en deux camps : les linguistes, héritiers de Chomsky, qui tentent de définir des règles, des théories sur la façon dont les mots s'articulent. Et les statisticiens, qui préfèrent faire émerger leurs traductions de la comparaison de larges corpus de textes disponibles en différentes langues. Certains allant jusqu'à prétendre traduire une langue sans en connaître un mot.

    Hermann Ney (université d'Aix-la-Chapelle), un des champions de cette approche statistique, estime qu'elle offre un outil incomparable de prise de décision face à l'incertitude langagière. Les expériences de traduction automatique des discours des parlementaires européens qu'il présente impressionnent, même s'il faut encore 20 secondes de traitement pour assurer une seconde de traduction. Pour lui, le cap est clair : "se rapprocher de la physique pour rencontrer le succès".

    Mais son confrère linguiste Martin Kay (Stanford University) n'est pas convaincu. "Plus le corpus d'entraînement d'un système statistique sera vaste, plus sa traduction se dégradera", prévient-il. "Un système de traduction de la Bible ne peut que pâtir d'un entraînement fondé sur des bases de données généralistes, incluant par exemple des termes juridiques ou des notices d'utilisation de machine à laver", convient Joseph Mariani (Laboratoire d'informatique pour la mécanique et les sciences de l'ingénieur, CNRS). L'adage "il n'est pas de meilleures données que plus de données", cher aux statisticiens, est donc à nuancer.

    FOISONNEMENT

    Hommes de lettres et hommes des chiffres sont condamnés à coopérer. "Les ingénieurs constatent qu'ils manquent de théorie pour progresser, note Eduard Hovy (université de Californie du Sud). Ils commencent à utiliser des règles syntaxiques, mais n'intègrent pas encore la sémantique." A l'inverse, la société Systran s'est mise, depuis deux ans, à utiliser la statistique. "L'irruption de Google nous a poussés à évoluer", témoigne son président Dimitris Sabatakakis.

    Google, qui peut faire des statistiques sur des banques de données sans rivales, est en effet en train de révolutionner le secteur, en offrant des systèmes de traduction en ligne gratuits. Au-delà de la traduction, le traitement automatique des langues va exploser sur Internet, qu'il s'agisse du texte ou de la voix. Plusieurs PME françaises en faisaient la démonstration à la Sorbonne, avec des systèmes de traitement automatique des curriculum vitae, de recherche des tendances émergentes dans les réseaux sociaux, d'extraction d'information dans le foisonnement des publications scientifiques... Ces technologies intéressent évidemment les secteurs de l'intelligence économique et la défense.

    L'"effet Google" consiste aussi à éduquer le public à des résultats parfois médiocres, mais pas pour autant inutiles. Le TAL rapprocherait l'homme de la machine en les montrant également imparfaits ? Tous deux sont en tout cas à égalité face à des phrases autoréférentielles, telle que "this sentence in english is difficult to translate into french". Difficult ? Impossible, même si ce n'est pas français.

    Par le Monde
Chargement...
X