Agents conversationnels: comparaison n'est pas raison ?
Répondre à la discussion
Affichage des résultats 1 à 6 sur 6

Agents conversationnels: comparaison n'est pas raison ?



  1. #1
    Liet Kynes

    Agents conversationnels: comparaison n'est pas raison ?


    ------

    Bard est lancé en Europe et les articles vont fuser pour le comparer à Bing-conversation ou chatGPT.

    Le but du jeu proposé ici est de trouver ce qui est pertinent à comparer et surtout de chercher une méthode d'évaluation.
    Le côté pertinent implique de laisser de côté ce que l'on sais déjà comme n'étant pas fiable pour un agent conversationnel.
    La difficulté réside à mon avis dans le caractère qualitatif de ce qui va être évalué.

    Capacité à résumer un texte, à formuler ou reformuler une idée etc..

    J'ai cherché des outils sur le web dans ce sens mais j'ai pas trouvé grand-chose pour l'instant, peut-être regarder comment font les profs de français pour évaluer ?

    -----
    Sans questions il n'y a que des problèmes sans réponses.

  2. #2
    jiherve

    Re : Agents conversationnels: comparaison n'est pas raison ?

    bonjour
    comme dans l'absolu il est impossible d’évaluer quoique ce soit pour ces engins, comment alors pouvoir les comparer.
    Ce qu'ils produise est probabiliste il n'y a aucune explication fournie avec la réponse comme pouvaient le faire les IA symboliques.
    C'est pour çà qu'aucune IA de cet type ne pourra être certifiée en aéro, sauf si bien sur les règles de certification changent.
    JR
    l'électronique c'est pas du vaudou!

  3. #3
    pm42

    Re : Agents conversationnels: comparaison n'est pas raison ?

    Ce sont deux outils qui n'ont pas été conçus avec les mêmes objectifs en effet.
    Pour ce qui est de l'évaluation des LLM, c'est un vaste sujet et pas simple à cause notamment de la variété des usages.

    Un peu de lecture : https://research.aimultiple.com/larg...el-evaluation/

    P.S : je doute que regarder ce que font les profs de français soit pertinent malgré tout le respect que je leur dois. Le cadre dans lequel ils travaillent est beaucoup normé et borné.
    Et les LLMs sont en général multi-langues ce qui amène d'autres sujets : https://towardsdatascience.com/world...i-340df6241fbf qui pourrait par exemple poser des problèmes à un prof d'histoire en Corée.

    P.P.S : au delà de la performance de chaque modèle qui reste fondamentale, il y a aussi tout ce qui est en train d'être construit en terme d'écosystème, d'intégration avec les outils de la communauté (langchain, llama-index, etc) et de coût.
    Je n'ai pas encore regarder comment Bard se comporte de ce point de vue mais pour le moment, je ne l'ai pas non plus vu cité dans les articles.

    Par exemple, quelque chose de récent qui élargi énormément le spectre d'utilisation de ChatGPT, c'est l'interpréteur de code qui vient d'être intégré. On avait évoqué cette possibilité au début notamment quand certains s'obstinaient à faire exécuter des algorithmes à un modèle du langage. Elle est arrivée au moins partiellement. A terme, que les LLM sachent reconnaitre des instructions et passer la main directement à l'écriture puis l'exécution du code est plus que probable.

    https://towardsdatascience.com/chatg...k-3c65a8dfa935

  4. #4
    Liet Kynes

    Re : Agents conversationnels: comparaison n'est pas raison ?

    C'est en effet compliqué, l'article est très intéressant, la partie évaluation humaine serait davantage l'objet de ce fil.

    Décider ce qui peut être évalué, de quelle manière est déjà pas simple mais aussi c'est déterminer le test à faire passer qui pose un problème.

    Exemple résumé de texte:


    Résumez ce texte en 10 mots : " Un vol audacieux a été commis en Suisse. Des oeuvres de Picasso exposées temporairement au public en ont fait les frais. Il s'agit plus exactement de toiles qui sont au nombre de sept. Les voleurs se sont introduits dans une galerie de Zurich durant le dernier week-end, après la fermeture du samedi après-midi. Nous ne connaissons pas encore l'identité du propriétaire. On peut toutefois estimer le préjudice entre 50 et 200 millions de francs suisses. Les tableaux volés appartiennent aux périodes "bleue" et "rose" du grand peintre. Figure parmi eux "Le Christ de Montmartre" (1904). Notons que deux des toiles ont déjà été dérobées en 1991 avant d'être retrouvées l'année suivante."

    ChatGPT:

    Vol audacieux en Suisse : 7 toiles de Picasso dérobées à Zurich, préjudice estimé entre 50 et 200 millions de francs. Certains tableaux avaient déjà été volés en 1991.

    Bard:

    Bien sûr, voici le résumé du texte en 10 mots :Sept tableaux de Picasso volés en Suisse, valeur estimée à 50-200 millions CHF

    Bing mode créatif:

    Voici un résumé possible en 10 mots :

    Sept Picasso volés à Zurich, préjudice de 200 millions.


    On peux classer la perf: 1 Bing, 2 Bard, 3 chatGPT mais il faudrait répéter l'opération plusieurs fois avec des textes intégrant des sémantiques très différentes (langage technique, développement logiques etc..)

    à la réflexion c'est pas simple du tout et je pense que les articles de presse vont surtout être le reflet d'individus qui pensent savoir de quoi ils parlent mais qui n'auront pas de méthode
    Sans questions il n'y a que des problèmes sans réponses.

  5. A voir en vidéo sur Futura
  6. #5
    jiherve

    Re : Agents conversationnels: comparaison n'est pas raison ?

    re
    quel intérêt y a t il a faire une comparaison ?
    Autant il est pertinent de comparer la précision de calcul de deux machine car c'est quantifiable autant il me semble futile d’évaluer ces bécanes, car il n'existe aucun critère d’évaluation fiable, amha cela se rapprochera très vite de l'idiophilie.
    Il est plus urgent de faire des recherches pour pouvoir expliciter leur "raisonnement"
    JR
    l'électronique c'est pas du vaudou!

  7. #6
    Liet Kynes

    Re : Agents conversationnels: comparaison n'est pas raison ?

    Citation Envoyé par jiherve Voir le message
    re
    quel intérêt y a t il a faire une comparaison ?
    Autant il est pertinent de comparer la précision de calcul de deux machine car c'est quantifiable autant il me semble futile d’évaluer ces bécanes, car il n'existe aucun critère d’évaluation fiable, amha cela se rapprochera très vite de l'idiophilie.
    Il est plus urgent de faire des recherches pour pouvoir expliciter leur "raisonnement"
    JR
    Ces agents ont une utilité pratique en termes de rédaction, ou de traitement de l'info dans un usage courant. Mais oui je pense aussi que dans la semaine qui vient on va voir fleurir pas mal de conneries dans la presse.

    -> du coup exercice clos car pas réalisable, je ne sais pas si cela vaut le coup de poursuivre en discussion scientifique, il n'y a pas grand chose à ajouter.
    Sans questions il n'y a que des problèmes sans réponses.

Discussions similaires

  1. Fréquence d'utilisation des agents conversationnels
    Par Archi3 dans le forum Discussions scientifiques
    Réponses: 43
    Dernier message: 04/04/2023, 19h43
  2. Réponses: 4
    Dernier message: 04/02/2013, 20h54
  3. [Biochimie] Agents intercalants et ADN
    Par invitefdf04c47 dans le forum Biologie
    Réponses: 3
    Dernier message: 21/11/2008, 19h02
  4. Agents complexants
    Par invite36006e80 dans le forum Chimie
    Réponses: 2
    Dernier message: 16/11/2008, 17h21
  5. Agents reducteurs
    Par invitef167b2f8 dans le forum Chimie
    Réponses: 2
    Dernier message: 18/12/2007, 21h24