Moonlight Shadow

He was caught in the middle of a desperate fight

IA-Pulse
6 min ⋅ 27/04/2024

Bienvenue sur IA Pulse Weekend. En vous abonnant, vous recevez tous les samedis matin, l’essentiel de ce qu’il s’est passé cette semaine autour de l’IA : un coup de gueule édito, une sélection de 3 actualités avec pour chacune un résumé rapide à lire, plus 1 article de fond pour ouvrir l’esprit et réfléchir et 1 podcast à écouter.

⏱️Temps de lecture de cette newsletter par une unité carbone : 8 mins


Tu as le bonjour d’Albert ! Oui, bon c’est facile. Ce qui l’est moins, c’est la mise en place d’un tel service à l’échelle de l’Administration. Parce qu’il s’agit de ça : mettre à disposition un agent conversationnel pour l’ensemble des personnels de l’Etat. C’est ce qui s’est passé en France cette semaine. En termes de complexité, on doit pouvoir trouver plus simple. Et n’oublions pas non plus que notre pays est troisième, après les Etats-Unis et la Chine, dans les classement des nations qui produisent des modèles ML/LLM. Arrêtons de nous faire mal. Nous n’avons pas à rougir.

Cette semaine a aussi et surtout été la semaine du “on device” et de ces “petits” modèles de langage (SLM) qui peuvent fonctionner directement sur un smartphone et inférer sans avoir recours à une connexion externe. Microsoft a présenté Phi-3 et Apple a présenté OpenELM. Drôle de voir ces deux dinosaures se battre encore et toujours depuis le début des années 80. Ce qui a surtout retenu l’attention, c’est la décision d’Apple de laisser en “open source” son nouveau modèle. Mais est-ce si surprenant ? Dans un autre genre Synthesia a dévoilé son dernier modèle, capable de donner des expressions à ses avatars vidéo.

Bon weekend.

Cette semaine la partie de cette newsletter gérée par l’IA, les 3 clusters d’articles, a été générée par Llama 3 70B propulsé par Groq pour les résumés des articles sources et Mistral Large pour génération du cluster et de son titre. Comme d’habitude trop souvent j’ai fait quelques beaucoup de modifications, mais j’ai aussi laissé quelques tournures typiques des modèles de langage. Et bien entendu, mes commentaires éventuels sont en italique dans ces résumés. Le texte de “l’article qui fait réfléchir” est issu d’un ping-pong entre Claude-3 Opus et votre serviteur.
L’image d’illustration ci-dessous est générée par Midjourney.

📰 Les 3 infos de la semaine

📱 Microsoft lance Phi-3 un modèle compact et performant pour une utilisation sur appareils personnels

Microsoft a lancé Phi-3, un modèle de langage (LLM) plus léger et compact que les modèles de langage comme GPT-4 ou Llama 3. Phi-3 est disponible en trois versions : Phi-3 Mini (3,8 milliards de paramètres), Phi-3 Small (7 milliards de paramètres) et Phi-3 Medium (14 milliards de paramètres). Le modèle a été entraîné sur un jeu de données plus petit, comprenant des "histoires du soir" et des "livres pour enfants" générés par d'autres LLM, ainsi que des , données web filtrées.

Phi-3 est conçu pour être plus économique en termes de ressources. Il peut fonctionner sur des appareils personnels tels que les téléphones et les ordinateurs portable. Bien que plus petit, Phi-3 offre des performances similaires à celles de modèles plus grands comme GPT-3.5 et Mixtral 8x7B.

Les petits modèles d'AI comme Phi-3 présentent plusieurs avantages, tels que des coûts réduits, une plus grande accessibilité, et une meilleure flexibilité. Cependant, ils peuvent aussi présenter des limites, comme une moindre précision et une performance réduite par rapport aux systèmes d'IA plus grands. Phi-3 Mini, par exemple, est actuellement limité à la langue anglaise - j’ai testé en français, ça fonctionne - et peut générer des contenus inappropriés, amplifier les biais et présenter des "hallucinations" - oui comme n’importe quel LLM actuel de n’importe quelle taille.

Microsoft et d'autres comme Google et Meta se tournent vers le développement de ces modèles de langage petits et légers pour des tâches spécifiques. Les entreprises clientes peuvent ainsi choisir entre des modèles d'IA plus petits et plus abordables, ou des modèles plus grands et plus puissants, en fonction de leurs besoins et de leur budget. Le développement de Phi-3 représente un changement dans la stratégie du "plus c'est grand, mieux c'est" - c’est quoi cette traduction LLama ? - vers des modèles plus spécialisés et efficaces, ce qui pourrait rendre l'IA plus accessible pour les entreprises et les consommateurs.

Sources : The Verge, The New York Times, Ars Technica, The Register

📱 On device et open : Apple lance OpenELM, une famille de modèles de langage pour appareils mobiles

Apple a lancé OpenELM (Efficient Language Model), une famille de petits modèles de langage (SLM) ouverts et efficaces conçus pour fonctionner directement sur les appareils mobiles, sans avoir besoin de se connecter à des serveurs cloud.

OpenELM se compose de huit modèles de tailles variées, allant de 270 millions à 3 milliards de paramètres. Les modèles ont été entraînés sur des ensembles de données publics totalisant environ 1,8 trillion de tokens. Apple a adopté une stratégie d'échelonnement pour allouer les paramètres de manière plus efficace, ce qui permet d'améliorer les performances tout en réduisant les coûts de calcul. Grâce à cette stratégie, OpenELM surpasse les modèles de langage existants de taille comparable formés sur des ensembles de données accessibles au public.

Apple a rendu le code source d'OpenELM accessible sous une licence "sample code license", ce qui permet une utilisation commerciale et des modifications. De plus, Apple a ouvert le code source de plusieurs outils pour aider les développeurs à intégrer OpenELM dans leurs projets, y compris une bibliothèque qui permet de faire fonctionner les modèles sur les iPhones et les Macs.

Bien qu'Apple ait averti que les modèles OpenELM peuvent produire des sorties inexactes biaisées en réponse à des prompts d'utilisateurs, ils sont conçus pour être utilisés dans des applications, comme les assistants vocaux ou les applications de messagerie. Il est possible qu'Apple intègre OpenELM dans ses devices à l'avenir, comme une amélioration pour Siri par exemple.

Sources : SiliconAngle, VentureBeat, Numerama, ArsTechnica

🎬 Synthesia transforme la création de vidéos avec des avatars expressifs

Synthesia a mis à jour sa plateforme de création de vidéos en introduisant des "avatars expressifs". Ces avatars numériques utilisent un modèle d'apprentissage automatique appelé EXPRESS-1 pour ajuster leur ton, leurs expressions faciales et leur langage corporel en fonction du contexte du contenu présenté, ce qui permet de créer des vidéos plus réalistes et naturelles pour les entreprises.

Les avatars expressifs sont générés entièrement par l'intelligence artificielle et peuvent simuler des émotions et des mouvements humains de manière plus convaincante que les avatars traditionnels. Ils peuvent suivre des scripts comme des acteurs réels, utilisant le bon ton de voix, les mouvements du corps et la synchronisation des lèvres. Cette approche permet à Synthesia de proposer des avatars pour les vidéos de formation, de marketing et de promotion, se démarquant ainsi dans un marché de plus en plus concurrentiel.

Synthesia a mis en place des politiques d'utilisation pour garantir que cette technologie est utilisée de manière positive et responsable. La startup a également pris des mesures pour prévenir l'utilisation malveillante de sa technologie, comme la production de deepfakes et de fausses informations, en restreignant l'accès à certains types de contenus et en investissant dans la détection des acteurs de mauvaise foi.

Synthesia a levé 90 millions de dollars lors d'une levée de fonds en série C menée par Nvidia, portant sa valorisation à 1 milliard de dollars. La startup compte plus de 55 000 clients dans le monde et a généré plus de 18 millions de vidéos de présentations dans plus de 130 langues.

Sources : TechCrunch, VentureBeat, Quartz


🧠 L’article qui fait réfléchir - et qu’il faut absolument lire

To build a better AI helper, start by modeling the irrational behavior of humans

Lift me up

Les progrès récents de l'intelligence artificielle nous invitent à repenser la nature de la collaboration entre l'homme et la machine. La technique innovante développée par les chercheurs du MIT et de l'Université de Washington pour modéliser le comportement des agents en tenant compte de leurs contraintes computationnelles ouvre de nouvelles perspectives. En déduisant le "budget d'inférence" d'un agent à partir de ses actions passées, cette approche permet de mieux comprendre les processus de prise de décision et de prédire les comportements futurs.

Cette recherche soulève des questions fondamentales sur la nature de la rationalité et de la cognition humaine. Bien que souvent considérés comme des êtres irrationnels, les humains prennent des décisions en fonction de contraintes cognitives, temporelles et matérielles. En modélisant ces contraintes, les chercheurs nous invitent à reconsidérer notre conception de la rationalité et à explorer les mécanismes qui sous-tendent nos processus de pensée. Cette approche pourrait ainsi contribuer à une meilleure compréhension de la psychologie humaine et des biais cognitifs qui influencent nos choix.

Mais au-delà de son intérêt théorique, cette recherche ouvre également des perspectives concrètes pour le développement de systèmes d'IA capables de collaborer efficacement avec les humains. En anticipant les erreurs potentielles et en s'adaptant aux faiblesses de leurs collaborateurs humains, les agents IA pourraient devenir de véritables partenaires, capables de suggérer des solutions plus efficaces et de nous assister dans une multitude de tâches. Cette symbiose entre l'homme et la machine pourrait ainsi révolutionner de nombreux domaines, de la prise de décision en entreprise à la résolution de problèmes complexes.

Cependant, cette vision soulève également des inquiétudes légitimes quant à la place de l'humain dans un monde où les machines sont de plus en plus capables de comprendre et de prédire nos comportements. Il est essentiel de s'interroger sur les implications éthiques et sociétales de ces avancées technologiques. Comment préserver l'autonomie et la liberté de choix des individus face à des systèmes d'IA toujours plus performants ? Comment s'assurer que ces technologies soient développées et utilisées de manière responsable et transparente, dans le respect de la dignité humaine et de nos valeurs fondamentales ?

📻 Le podcast de la semaine

Comptoir IA : Llama 3, le modèle qui va tout changer

Nicolas Guyon de "Comptoir IA" discute avec Thomas Scialom de Llama 3, un modèle de langage open-source de Meta, salué par Elon Musk. Équipé de 8 milliards de paramètres, il promet de transformer l'interaction IA-humain. Il est loué pour son accessibilité et sa capacité d'adoption massive.


👨🏽‍🦳👩🏽‍🦳 C’était mieux avant - Il y a 1 an

Il y a un an, on parlait de Reddit qui fermait l’accès à ses contenus aux crawlers IA - alors 1 an après ? -, de Google qui rapprochait les équipes de Brain et Deepmind, et de Stability qui voulait lancer son propre GPT like - j’avais oublié ça…
La fête est finie ?


🔮Et s’il vous reste un peu de temps, vous pouvez lire le texte de mon intervention au Forum des Eclaireurs du Droit de Lamy Liaisons, qui s’est déroulé lundi dernier.
"Est-il raisonnable de faire confiance aux contenus créés par l’IA ?"


N’hésitez à me contacter si vous avez des remarques et suggestions sur cette newsletter, ou si dans votre entreprise vous cherchez à être accompagnés dans l’intégration d’outils IA et d’IA générative : olivier@255hex.ai

Bon weekend !

IA-Pulse

Par Olivier Martinez

Je navigue d'un neurone à l'autre .