Le topic de l'Intelligence Artificielle, le topic qui parle en langage naturel

**Nilsou** · 22/03/2023, 22h37

Envoyé par Shosuro Phil

Moi je vois qu'on lui montre une image de chat, et il se met à utiliser des emojis chats. Il n'y a donc aucun problème...

**Charmide** · 25/03/2023, 18h41

On se marre toujours bien sur Twitter je trouve

**Anonyme20240202** · 25/03/2023, 19h08

J'peux jouer moi aussi?

**Charmide** · 25/03/2023, 19h19

ça se tient

**Anonyme20240202** · 25/03/2023, 19h25

- - - Mise à jour - - -

**Charmide** · 25/03/2023, 19h28

"Ah pardon j'ai oublié les contraintes du monde réel"

**Anonyme20240202** · 25/03/2023, 19h30

Le vrai monde

- - - Mise à jour - - -

'Tain et moi comme un pauvre avec mon compte open AI gratos j'ai même pas GPT-4, je vais me faire remplacer manu militari d'ici 2 semaines

**Charmide** · 25/03/2023, 19h38

J'ai beau payer, je suis sur liste d'attente pour avoir l'accès API à GPT-4, sur liste d'attente pour avoir le droit de développer un plugin, et sur liste d'attente pour avoir le droit d'utiliser les plugins. Pas de justice.

- - - Mise à jour - - -

En tâtonnant un peu pour l'avoir en zero-shot:

**Anonyme20240202** · 25/03/2023, 19h39

Intéressant, je me demande comment c'est réparti ce bazar sur leur infra, ils vont tout remplacer petit à petit par la nouvelle version j'imagine

- - - Mise à jour - - -

Lol Charmide tu devrais lui demander "what's a non real-world scenario"

**Charmide** · 25/03/2023, 19h43

Ca c'est la vraie ingénierie du futur, tu suspends la causalité pendant quelques instants histoire de

EDIT: J'aime bien le cheat code de "Wrong answers only" aussi:

**tompalmer** · 25/03/2023, 20h25

J'ai vu que y'avait des modeles Open source de type Stable Diffusion que tu peux faire tourner en local, ca c'est peut être l'avenir

**Anonyme20240202** · 25/03/2023, 20h42

C'est open source Stable Diffusion, tu peux essayer chez toi ce soir

https://github.com/CompVis/stable-diffusion, t'as même de petits trucs pré entraînés https://huggingface.co/CompVis

ou des trucs out of the box https://github.com/AUTOMATIC1111/stable-diffusion-webui

**Nilsou** · 25/03/2023, 20h44

Ouais t'en a pas mal, et pas que Stable Diffusion, il y a tout un paquet de variante qu'on trouve à droite à gauche dans des dépôts github.
edit : c'était pas Enyss qui avait commencé à en faire tourner un chez lui pour le fun ?

**tompalmer** · 25/03/2023, 20h50

Je parlais de modèles de langage sur ce mode

**Nilsou** · 25/03/2023, 20h52

Il doit y en avoir, les algos sont connus et relativement facile à reproduire, mais, de mémoire, les ordres de grandeurs sont plus élevés en terme de nombre de neurone etc. Ce qui fait qu'il peut être difficile de les faire tourner sur un PC perso.
ChatGPT, toujours de mémoire, c'était le réseau le plus gros au monde (maintenant ça doit être l'équivalent chez google), donc tu te doute que tu va peut être avoir du mal à le faire tourner en local ...

Ceci étant dit, il n'est pas impossible que l'architecture du réseau soit très bourrine pour pas grand chose

(voir ma réponse à ce sujet sur le topic de la tech) .
Je ne connais pas Llama mais effectivement, si ce qui est montré comme publi sur la vidéo est juste, en terme de performance c'est très intéressant ...

edit, je viens de voir que c'est l’œuvre d'un petit malin : https://www.usine-digitale.fr/articl...ernet.N2109261

Haha, bien joué à celui qui a fait le coup.

**Charmide** · 25/03/2023, 21h12

Envoyé par tompalmer

J'ai vu que y'avait des modeles Open source de type Stable Diffusion que tu peux faire tourner en local, ca c'est peut être l'avenir

Y'a un hacker tout seul qui a réussi à faire tourner la version à 7B de paramètres de llama sur un iphone, c'est assez drôle. Bon ça génère littéralement un mot toutes les 7 secondes, mais tu t'imagines assez bien le truc que ça peut donner avec un peu d'effort d'ingénierie

EDIT: ou plutôt alpaca, la version ré-entrainée avec l'aide de chatgpt: https://twitter.com/antimatter15/sta...95917514784775

**tompalmer** · 25/03/2023, 22h03

Maintenant je me disais un truc, avec toute ma candeur de béotien :

Il serait pas possible de faire une IA qui ne se base pas sur le langage mais qui FAIT des trucs en live ?

Ce serait peut être mieux par exemple, qu'au lieu de régurgiter des mots, des phrases et des pavés, elle fasse sa propre recherche Google, croise les sources, etc ...

Je comprends que ce soit beaucoup plus long, mais elle pourrait faire ca plus vite qu'un humain

Ca éviterait également la limite de 2021 de ChatGPT, mais par contre toutes les protections anti bot du web lui ferait la vie dure. Elle pourrait avoir un corpus de culture générale pour pouvoir répondre rapidement

**Charmide** · 25/03/2023, 22h28

Envoyé par tompalmer

Maintenant je me disais un truc, avec toute ma candeur de béotien :

Il serait pas possible de faire une IA qui ne se base pas sur le langage mais qui FAIT des trucs en live ?

Ce serait peut être mieux par exemple, qu'au lieu de régurgiter des mots, des phrases et des pavés, elle fasse sa propre recherche Google, croise les sources, etc ...

Je comprends que ce soit beaucoup plus long, mais elle pourrait faire ca plus vite qu'un humain

Ca éviterait également la limite de 2021 de ChatGPT, mais par contre toutes les protections anti bot du web lui ferait la vie dure. Elle pourrait avoir un corpus de culture générale pour pouvoir répondre rapidement

C'est grosso-modo ce que font les plugins que j'avais link dans l'autre topic (https://openai.com/blog/chatgpt-plugins, t'en as un qui fait des recherches web et se balade sur les sites - ctrl-F "browsing") ou bing qui est juste un ChatGPT qui fetch des résultats avant de répondre.

Souvent, le modèle c'est celui-ci https://arxiv.org/abs/2302.04761 , en gros tu lui apprends à "appeller" des outils qui ne sont que des tokens comme les autres. Par exemple une calculatrice, tu demandes au LLM de générer du texte comme d'hab, si il génère, disons, [Calculatrice(2+2)], parce que tu lui as dis que ça existe et qu'il a besoin de calculer 2+2, quand il le fait tu interceptes ça, tu fais ton calcul, tu remplaces [Calculatrice(2+2)] par 4, puis tu lui demande de continuer à générer du texte comme si de rien n'était. Comme ça tu peux "donner accès" à des APIs ou n'importe quel banque de données externes, ou le laisser exécuter du code par ex.

**Nilsou** · 25/03/2023, 23h45

Envoyé par tompalmer

Maintenant je me disais un truc, avec toute ma candeur de béotien :

Il serait pas possible de faire une IA qui ne se base pas sur le langage mais qui FAIT des trucs en live ?
Ce serait peut être mieux par exemple, qu'au lieu de régurgiter des mots, des phrases et des pavés, elle fasse sa propre recherche Google, croise les sources, etc ...
Je comprends que ce soit beaucoup plus long, mais elle pourrait faire ca plus vite qu'un humain
Ca éviterait également la limite de 2021 de ChatGPT, mais par contre toutes les protections anti bot du web lui ferait la vie dure. Elle pourrait avoir un corpus de culture générale pour pouvoir répondre rapidement

En vrai, des IAs qui font des trucs, c'est un peu ... tout le reste de la recherche en IA. Et d'ailleurs, d'une certaine manière ChatGPT fait aussi des trucs (il écrit des mots).
Fondamentalement il n'y a pas d'énorme différence entre une action et une autre pour la sortie de ce type de réseau. Donc en soit rien n'interdit de lui dire de sortir des actions pertinentes à la place ou en plus des mots (cf réponse de Charmide : on peut tout à fait coder une action sous forme de mot, c'est un hack facile, mais parfaitement fonctionnel, mais en soit on pourrait lui dire de sortir les contrôle les plus pertinent pour une grue, en binaire, que ça ne pose pas de problème fondamental sur ce type de modèle (c'est même overkill)).

Ici la différence est sans doute que ChatGPT n'est pas en mode roue libre tout seul. Tu lui donne une entrée et il te sort une sortie, il ne fait rien tout seul. Alors que souvent, quand on fait des modèles d'IAs qui « font des trucs », c'est pour viser une forme d'autonomie. De fait, je ne suis pas certains que ChatGPT soit capable, dans cette version, de rebondir de recherche en recherche par lui même.
Une autre nuance, plus fondamentale, c'est qu'ici tout le modèle est basé sur un codage en mot d'une action, et on peut imaginer assez aisément que cela peut avoir ses limites, tant dans les entrées (mais ils sont en train d'essayer de le passer en multimodal de manière efficace) que dans les sorties (dans ce cas il faudra passer à un modèle comme avec mon exemple de la grue au dessus : mais la base d'apprentissage serait alors infiniment plus importante que celle existante actuellement : agir sur tout les objets du monde étant une base de donnée probablement bien plus importante que ce qu'ils ont fait ingurgité à l'IA comme texte humain jusque là).

Bref, oui et non comme d'habitude en IA

. J'imagine que c'est possible de pousser le hack de tout coder sous forme de mot jusqu’à un certains point, voir même de lui donner des entrées diversifiées, ce qui réponds en partie à ta question. Mais par contre ça peut être relativement difficile de faire un modèle qui viendrait avoir une posture, hump, proactive, en allant « croiser les sources » etc, comme tu dis, dans la mesure ou tout le concept du modèle c'est, pour le moment, une mémoire limitée et un rebouclage quasi inexistant. Et il y a également un gros problème de base d'apprentissage. Il va falloir, par exemple, une base avec des « bons » exemples de « comment faire une bonne recherche sur internet », et ça c'est pas si simple à constituer (sans être insurmontable, faut penser qu'il faudra des exemples terrains pour chacune des actions que tu imagines).

**Grosnours** · 26/03/2023, 10h09

Envoyé par tompalmer

Maintenant je me disais un truc, avec toute ma candeur de béotien :

Il serait pas possible de faire une IA qui ne se base pas sur le langage mais qui FAIT des trucs en live ? [

Voilà un exemple concret: ChatGPT intégré à l'éditeur Unity qui programme à ta place.
"Je veux mille cubes, avec des rotations et couleurs aléatoires et quelques lumières qui clignotent" et pouf ChatGPT le fait à ta place.

En pratique il y a beaucoup de limites.

**Charmide** · 26/03/2023, 13h55

Envoyé par Nilsou

Ici la différence est sans doute que ChatGPT n'est pas en mode roue libre tout seul. Tu lui donne une entrée et il te sort une sortie, il ne fait rien tout seul. Alors que souvent, quand on fait des modèles d'IAs qui « font des trucs », c'est pour viser une forme d'autonomie. De fait, je ne suis pas certains que ChatGPT soit capable, dans cette version, de rebondir de recherche en recherche par lui même.

Bing le fait déjà, il lance de nouvelles recherches en fonction des résultats des précédentes. Y'a des exemples dans les démos de plugins aussi. Dans toutes les pistes les plus intéressantes à explorer en terme d'applications sur les LLMs t'as une forme de récursion avec de la composition d'outils où c'est le LLM qui fait glue avec ~une certaine forme~ d'autonomie pour atteindre le résultat demandé. Parfois en composant plusieurs LLMs aussi. C'est limité mais ça suffit à faire peur à ceux qui attendent une IA type agent avec de vraies intentions et de la poursuite d'objectifs.

C'est même pas super compliqué à faire, t'as langchain qui est un framework open source pour te filer un peu d'abstractions et tu peux vite faire des trucs de ce genre:

Un autre exemple que j'ai déjà donné sur l'autre thread: https://www.geoffreylitt.com/2023/01...langchain.html, le LLM connait plusieurs APIs et peut les enchainer pour trouver un résultat donné, et même s'auto-corriger quand il tente d'accéder à une info mais que ça provoque une erreur.

**Nilsou** · 26/03/2023, 14h05

C'est pas mal du tout oui. Ça utilise, dirait-on, le même hack que là haut, à savoir tout décrire sous forme textuelle puis faire appels à des outils externes. Une forme de délégation de l'expertise sur certains point.
Je n'ai pas encore regardé comment ils font pour le monologue intérieur que sont les thought.

Ha trouvé, faut que je lise ceci en détail surtout, et les papiers qui vont avec :
https://ai.googleblog.com/2022/11/re...nd-acting.html

edit, papier d'origine sur les chain of though. Ça semble assez simple dans le fond : https://arxiv.org/abs/2201.11903

**Charmide** · 26/03/2023, 14h15

Yes c'est ce pattern là, comme pas mal de trucs autour des LLMs c'est très très bête comme principe mais ça marche étonnament bien.
Y'a pas mal d'exemples dans la doc de langchain aussi: https://python.langchain.com/en/late...es/agents.html, c'est pas mal représentatif du genre de cas d'usage que les gens essaient de hacker et qui me rend assez optimiste sur le fait que même si le fond vaut ce qu'il vaut avec ces limites, y'a déjà pas mal de trucs intéressants à faire avec

**Kodiak** · 26/03/2023, 18h07

Envoyé par Grosnours

Voilà un exemple concret: ChatGPT intégré à l'éditeur Unity qui programme à ta place.
"Je veux mille cubes, avec des rotations et couleurs aléatoires et quelques lumières qui clignotent" et pouf ChatGPT le fait à ta place.

En pratique il y a beaucoup de limites.

Dans ton exemple, tout commence par je veux un cube. Si il y avait un générateur 3D qui te sortirai non plus simplement un cube mais l'asset 3D que tu veux en fonction de tes propres connaissances, verrais tu un intérêt ?
Pour ma part, oui.
Le business modèle émergeant ces dernières années dans le secteur de la création digitale est un business collaboratif en s'appuyant sur un poucentage de répartition du risque et de la vente d'un produit.
Par exemple Fab.com doit sa genèse à la volonté de faciliter la création. L'objectif est de capter les créatifs pour créer une dépendance collaborative (moteur 3D, distribution).
Un générateur 3D aurait sa place dans ce modèle sachant que le créatif, le fournisseur de moteur, le distributeur ou bien le consommateur n'auront pas comme critère principale "qui" mais "quoi et à quel prix". Non ?

**Charmide** · 26/03/2023, 19h02

On a cette boîte cocorico sur ce terrain là de génération d'assets pour le jeu vidéo: https://www.scenario.com/

L'exemple à l'intérieur d'Unity ça ressemble plus à du remplacement d'interface, tu peux t'imaginer remplacer un parcours pour aller changer quelques réglages dans des sous-sous-sous-menus ou une douzaine de clics par une interface textuelle où tu tapes/dictes ce que tu veux. Y'a la démo d'Hubspot dans ce style là aussi.
Je doute pas trop que ça sera partout dans quelques années mais je sais pas si ça me fait beaucoup rêver, la GUI a de beaux restes. D'ailleurs y'a d'autres idées qui consistent à demander aux LLM de générer des interfaces à la volée que j'aime pas mal.

Et sinon pas grand chose à voir, mais je crois qu'Harry Potter en Balenciaga a le prix de la création IA la plus chelou et/ou hypnotique jusqu'ici.

**Anonyme20240202** · 26/03/2023, 19h15

C'est laid

**Kodiak** · 26/03/2023, 19h33

Merci pour les liens.

Le premier lien est une belle illustration de la possibilité que j'évoquais. C'est une première ébauche mais l'idée est là.

**Charmide** · 26/03/2023, 20h21

Yeah! Y'en a tout plein des premières ébauches ces temps-ci, va y avoir des morts ou des idées qui demanderont trois ou quatres générations mais dans le fond..

Envoyé par Kamikaze

C'est laid

3/10, dissertation du niveau lycée, simple perroquet, pas de pensée originale, ce truc fait par un gus sur son laptop en 2 semaines ne ressemble pas à la vraie production des films harry potter, aucun avenir ces IAs

Le discours sur twitter a rattrapé celui de CPC:

**Anonyme20240202** · 26/03/2023, 20h50

Y'a des messages contradictoires sur ce thread, d'un côté LLaMA c'est plus puissant que GPT, de l'autre un random sur twitter détruit le directeur de la recherche pour LLaMA

- - - Mise à jour - - -

Comme disait mon prof, y'a des montagnes de claques qui se perdent

Je veux plus jamais le voir lui

**Charmide** · 26/03/2023, 20h55

Hehe.. Y'a beaucoup de camps dans cette affaire, c'est un peu le bordel à suivre. De ce que je sais LeCun est plus pessimiste que d'autres sur les futures évolutions des LLMs actuels sur des trucs comme la vérifiabilité, l'autonomie dont on parlait plus haut, ou l'émergence d'autres propriétés du style en faisant que scaler les paramètres et les données, qui grosso modo était le pari d'OpenAI. Je sais pas si il a explicitement dit que c'était une voie de garage et qu'on ferait mieux de bosser sur d'autres trucs, mais beaucoup se souviennent de prédictions relativement pessimistes, et de quand il a été voir la presse pour dire que tout le monde s'excitait pour rien avec ChatGPT et qu'il y avait rien de nouveau.
En attendant comme tu dis, FB a l'air d'être plutôt bien placé dans l'affaire, il n'y est visiblement pas pour rien, Microsoft est vachement dépendant d'OpenAI et Google est un peu à la rue, Bard ça a pas l'air d'être la joie, malgré Google Brain/Deepmind et les investissements dans d'autres directions.

Discussion: Le topic de l'Intelligence Artificielle, le topic qui parle en langage naturel

Outils de la discussion

Règles de messages