Comment fonctionnent les IA génératives (IAG) ?

Jeremy Lamri
10 min readJan 21, 2023

[Article rédigé le 21 janvier 2023 par Jeremy Lamri avec le support de l’algorithme Open AI GPT-3 Da-Vinci-003 pour environ 15%].

Ca y est, on est dedans. A ce stade, nombreux sont ceux qui ont pu voir ou essayer des intelligences artificielles génératives (IAG), que ce soit pour du texte avec GPT-3, ou pour des images avec Dall-e, Stable Diffusion ou Mid Journey. Mais comment fonctionnent ces algorithmes, si puissants et avancés qu’ils semblent parfois indissociables de la magie ? Plongée très vulgarisée dans l’univers fantastique des IA, avec un gros focus sur les IAG d’images.

ATTENTION : cet article ne vise aucunement à minimiser les risques et enjeux liés à nouveaux usages. Au contraire, le risque est réel et conséquent, et c’est pourquoi je le traiterai spécifiquement dans un article de grande ampleur prochainement. Pour que ce soit clair, je dédie même une partie entière dans cet article pour préparer ce dossier de fond. Pour l’heure, il s’agit déjà de comprendre comment tout cela fonctionne, au moins sur ce que l’on sait ! Merci donc d’en tenir compte dans votre lecture bienveillante :)

Créé par Jérémy Lamri avec Dall-e (Tous droits réservés, 2023)

Des IA aux IAG

Lorsque l’on parle d’IA de nos jours, on parle pratiquement exclusivement de deep learning, qui est une catégorie du machine learning. Et de plus en plus, on s’intéresse aux IA dont l’apprentissage n’est pas supervisé. L’intelligence artificielle non supervisée est une forme d’apprentissage automatique qui permet à un ordinateur d’identifier des modèles et des tendances dans des données sans avoir besoin d’être guidé par des exemples et des instructions. Les algorithmes d’IA non supervisée sont généralement utilisés pour découvrir des informations cachées et des relations complexes dans des jeux de données très volumineux.

Lorsque l’on s’intéresse en surface aux IA génératives ou IAG, on pourrait tenter de résumer le sujet ainsi : les algorithmes utilisent des techniques telles que l’apprentissage profond et les réseaux de neurones convolutifs pour apprendre à reconnaître des caractéristiques pertinentes dans les images et à les reproduire. Ensuite, l’algorithme peut générer des images qui ressemblent aux données d’entrée en utilisant ces caractéristiques et ainsi créer des images originales. Mais ce serait passer à côté de la réelle révolution que sont les nouveaux outils qui débarquent sur le marché depuis l’an dernier, car il y a sensiblement plus que ces aspects de génération et d’extraction.

Pour avoir pas mal lu d’avis sur les forums, beaucoup de gens pensent encore que les IA génératives comme Dall-e utilisent des réseaux antagonistes génératifs, ou GAN, apparus il y a une dizaine d’années. Sur le principe, il s’agit de deux réseaux d’algorithmes qui s’affrontent, l’un pour créer une image la plus réaliste possible, l’autre pour détecter si l’image est artificielle ou non. Ils s’entrainent l’un l’autre jusqu’à arriver à une image pour laquelle il est difficile de savoir si elle a été créée par une IA ou non. Ce type de réseaux adversariaux s’avère très compétent lorsque le concept à illustrer est très défini, cadré et unique.

De mon côté, je suis un grand fan des GAN car leur équation relève de la théorie des jeux, où l’objectif est de créer un jeu à somme nulle. Mais a priori, leur entrainement est quand même bien compliqué et empêche souvent la convergence nécessaire. Autrement dit, ça marcherait pour un couple d’algorithmes dont le seul but est de créer et de détecter des chats par exemple, ou un autre concept ultra clair et documenté. Mais lorsque les concepts sont plus nombreux et complexes (visages, paysages, objets, symboles, etc.), c’est très très loin de suffire, et ce malgré la performance exceptionnelle des GAN sur leur métier.

Créé par Jérémy Lamri avec Dall-e (Tous droits réservés, 2023)

De quelles IA parle-t-on avec les IAG ?

On pourrait entrainer des GAN pour tout ce qui existe sur Terre, puis les assembler, mais ça prendrait un peu trop de temps, et ça ne permettrait pas de mélanger des concepts pour créer des concepts originaux. Donc il a fallu une autre approche pour permettre les IA génératives telles que Dall-e, Mid Journey ou Stable Diffusion. Ces IA génératives représentent une nouvelle manière de penser l’interprétation d’une information en image. Elles reposent sur ce que l’on appelle des algorithmes de diffusion, qui excellent dans l’échantillonnage par le débruitage conditionné et non supervisé.

(Yang et al., 2022)

Dit comme ça, pas sûr que ça nous avance. Mais voyons le plutôt ainsi : imaginez qu’à partir d’une image un peu floue ou dégradée, un algorithme arrive à reconstituer une meilleure résolution, un peu comme dans les films où la CIA rend comme par magie une photo pourrie hyper nette. Si on le fait dans ce sens là, on peut le faire dans l’autre sens, en apprenant aux algorithmes à dégrader une image. Une image complètement dégradée se traduirait en un ensemble de pixels de toutes les couleurs, un peu comme un gros nuage de points, où il est impossible de distinguer quoi que ce soit. C’est ce que l’on pourrait appeler une image complètement bruitée. Le processus visant à améliorer l’image s’appelle ainsi le débruitage.

(Yang et al., 2022)

Une fois que l’algorithme sait faire ce travail dans les deux sens, il est capable de reconstituer n’importe quelle image nette et précise à partir d’un gros nuage de bruit. Mais sachant qu’à partir de ce gros nuage, il existe une énorme quantité de résultats finaux possibles, il faut bien donner quelques indications à l’algorithme sur ce qu’il est censé reconstituer. C’est là que le texte que l’on insère, le fameux ‘prompt’, entre en jeu. Ce texte est analysé par un algorithme dit de plongement, qui va associer notre demande à un ou plusieurs champs sémantiques. Il faut voir ce type d’algorithmes comme des versions évoluées des algorithmes de programmation du langage (NLP).

Créé par Jérémy Lamri avec Dall-e (Tous droits réservés, 2023)

Comment fonctionnent les nouvelles IAG ?

Ainsi, à partir d’une image pleine de pixels (a priori) aléatoires), donc complètement bruitée, l’algorithme de diffusion débruite progressivement l’image, en suivant le conditionnement imposé par l’algorithme de plongement. Petit à petit, pixel par pixel, il crée l’image qui se rapproche le plus possible du concept imposé. Dans l’esprit, c’est un peu comme quand on regarde les nuages, et qu’on y voit des visages humains. On est tellement entrainés et conditionnés à voir des visages humains, qu’on finit par s’en inventer, même si le nuage n’avait aucune volonté de représenter un visage.

Vu que le nuage de bruit utilisé comme toile pour créer l’image est complètement aléatoire, c’est ce qui explique que chaque image finale est différente. L’IA part de ce nuage, et le débruite jusqu’à arriver à une image nette représentant le concept voulu, mais cette interprétation finale dépend forcément des pixels du départ ! Tout simplement redoutable.

Surtout, le plus intéressant avec ce couple entre IA de diffusion et IA de plongement, c’est qu’elles peuvent apprendre de leur collaboration, pour retenir les nuages de bruit qui constituent la meilleure base pour des concepts ou associations donnés. Egalement, en proposant plusieurs résultats à l’utilisateur, l’IA peut apprendre, en partant du principe que l’image retenue par l’utilisateur est celle qui représente le mieux sa demande. Ainsi, les résultats peuvent devenir de plus en plus fins et précis. Vraiment redoutable. Et ce n’est que le début de cette nouvelle ère !

Créé par Jérémy Lamri avec Dall-e (Tous droits réservés, 2023)

Quels enjeux éthiques et légaux avec ces IAG ?

Les IAG promettent d’améliorer la prise de décision et offrent des possibilités nouvelles et excitantes pour les entreprises et les organisations. Je pense qu’elles ont réellement le potentiel de transformer radicalement le monde dans lequel nous vivons. Cependant, avec le développement de ces technologies, de nombreux enjeux éthiques et légaux se posent.

Définition du rôle de la responsabilité humaine dans le processus de création et d’utilisation des IA génératives

Il est important de définir le rôle des êtres humains dans le processus de création et d’utilisation des IA génératives et de déterminer qui est responsable des décisions et des actions prises par ces systèmes. Les IA génératives sont des systèmes complexes qui peuvent prendre des décisions à partir de données complexes, et leur utilisation peut comporter des risques et des responsabilités.

Droit à l’intimité et protection des données personnelles lors de l’utilisation des IA génératives

Les systèmes d’IA générative peuvent collecter et traiter des données personnelles, ce qui peut poser des problèmes de protection de la vie privée. Il est donc nécessaire d’adopter des mesures pour assurer que les informations personnelles ne sont pas utilisées à des fins non autorisées, et que les données personnelles sont protégées.

Risques liés à l’utilisation de l’IA générative, notamment en matière de discrimination et de biais

Les systèmes d’IA génératives peuvent faciliter la discrimination et le biais lorsqu’ils sont mal utilisés. Par exemple, un système d’IA générative peut être utilisé pour prendre des décisions automatisées basées sur des données qui sont discriminatoires ou biaisées. Il est donc important de veiller à ce que les données utilisées pour alimenter un système d’IA générative soient collectées de manière équitable et sans biais et que les résultats obtenus soient également équitables et justes.

Loi sur les droits de propriété intellectuelle et l’utilisation des œuvres créées par l’IA générative

Les systèmes d’IA générative peuvent être utilisés pour créer des œuvres qui peuvent être protégées par la loi sur les droits de propriété intellectuelle. Il est donc important de comprendre comment cette loi s’applique aux œuvres créées par l’IA et de s’assurer que les droits des créateurs et des utilisateurs sont respectés.

Risques liés à la création et à l’utilisation d’IA générative, notamment en matière de sécurité et de confidentialité

Les systèmes d’IA génératives peuvent être ciblés par des attaques informatiques, et leur utilisation peut entraîner des risques de sécurité et de confidentialité. Il est donc important de comprendre ces risques et de prendre des mesures pour les minimiser, notamment en mettant en place des mesures de sécurité et de confidentialité adéquates.

Au-delà de ces cinq enjeux, et au vu du nouveau monde qui s’ouvre, on pourrait étendre cette liste bien au-delà. Par exemple : droit à la liberté de choix et à l’autonomie décisionnelle des utilisateurs face aux IA génératives, impact des IA génératives sur l’emploi et l’économie, effets des IA génératives sur l’environnement, utilisation et exploitation des technologies d’IA générative par des acteurs non autorisés, risque d’utilisation abusive des IA génératives pour la propagation de contenu illégal ou nuisible, contrôle des IA génératives par des mécanismes d’audit, définition et promotion des bonnes pratiques pour l’utilisation des IA génératives, etc.

Créé par Jérémy Lamri avec Dall-e (Tous droits réservés, 2023)

Conclusion

L’intelligence artificielle générative est sans aucun doute un domaine de la recherche en intelligence artificielle en plein essor. Ses origines, ses méthodes de fonctionnement et ses enjeux sont des sujets qui méritent d’être étudiés plus en profondeur. Les applications pour l’industrie, les sciences sociales et la santé sont nombreuses et prometteuses. Les développements technologiques et la recherche en IA générative nous permettront de mieux comprendre le monde qui nous entoure et de créer des solutions innovantes pour résoudre certaines des plus grandes problématiques auxquelles nous sommes confrontés aujourd’hui.

Avec autant de possibilités, émergeront nécessairement des enjeux au moins aussi puissants. Dans un prochain article, lorsque le marché disposera d’un peu plus de recul, je prendrai le temps de détailler autant d’enjeux que possible.D’ici là, expérimentez, apprenez, faites vous votre propre opinion. Apprendre aujourd’hui pour ne pas subir demain !

Bibliographie

Gozalo-Brizuela, R., & Garrido-Merchan, E. C. (2023). ChatGPT is not all you need. A State of the Art Review of large Generative AI models. arXiv preprint arXiv:2301.04655.

Huang, C. W., Lim, J. H., & Courville, A. C. (2021). A variational perspective on diffusion-based generative models and score matching. Advances in Neural Information Processing Systems, 34, 22863–22876.

Ma, H., Zhang, L., Zhu, X., & Feng, J. (2022, October). Accelerating score-based generative models with preconditioned diffusion sampling. In Computer Vision–ECCV 2022: 17th European Conference, Tel Aviv, Israel, October 23–27, 2022, Proceedings, Part XXIII (pp. 1–16). Cham: Springer Nature Switzerland.

Rombach, R., Blattmann, A., Lorenz, D., Esser, P., & Ommer, B. (2022). High-resolution image synthesis with latent diffusion models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 10684–10695).

San-Roman, R., Nachmani, E., & Wolf, L. (2021). Noise estimation for generative diffusion models. arXiv preprint arXiv:2104.02600.

Yang, L., Zhang, Z., Song, Y., Hong, S., Xu, R., Zhao, Y., … & Yang, M. H. (2022). Diffusion models: A comprehensive survey of methods and applications. arXiv preprint arXiv:2209.00796.

[Article rédigé le 21 janvier 2023 par Jeremy Lamri avec le support de l’algorithme Open AI GPT-3 Da-Vinci-003 pour environ 15%].

— —

Suivez mon actualité avec Linktree

Si vous vous intéressez à la combinaison du web 3 avec les RH, et plus généralement aux enjeux sociétaux liés à l’émergence du métavers et des nouvelles technologies, je vous invite à vous abonner à la newsletter dédiée que je tiens sur le sujet, et à lire les articles que j’écris régulièrement :

--

--

Jeremy Lamri
Jeremy Lamri

Written by Jeremy Lamri

CEO @Tomorrow Theory. Entrepreneur, PhD Psychology, Author & Teacher about #FutureOfWork. Find me on https://linktr.ee/jeremylamri

No responses yet