Dr. Warith Harchaoui

Warith Harchaoui

 
Expert en intelligence artificielle

Computer Vision,
Natural Language Processing,
et Machine Learning


En Data Science,
Pas de Data,
Pas de Science






Bio

Crazy Scientist Drawing

Je suis Warith Harchaoui, docteur en Mathématiques Appliquées et passionné par l'intelligence artificielle (IA). Je bâtis ma carrière en intelligence artificielle tant dans la recherche que dans les entreprises.

En 2008, j'ai commencé mon apprentissage avec les meilleurs chercheurs en IA grâce à l'École Normale Supérieure de Cachan (MVA M.Sc.). Après plusieurs expériences dans le domaine de la Computer Vision dans des startups et des entreprises internationales, je poursuis mes recherches à l'École Normale Supérieure de Paris aux laboratoires Willow / Sierra qu'on compte parmi les meilleurs au monde.

Plus tard, j'ai renforcé le volet entreprise de ma carrière en Data Science au sein du leader mondial Oscaro.com du e-commerce en pièces automobiles de 2014 à 2020. Tout en gardant mes responsabilités opérationnelles, j'accomplis mon doctorat en mathématiques appliquées de 2016 à 2020 grâce à Charles Bouveyron au laboratoire MAP5 de l'Université de Paris. Aujourd'hui, j'exprime mon expertise en matière de traitements de l'image, du son, de la vidéo et du texte au sein de Jellysmack en tant que Research Fellow avec toujours le même désir de concrétiser des idées d'intelligence artificielle dans le monde réel.

  






Ambition en intelligence artificielle

AI Media

De toutes mes forces, je crois à l'idée que l'intelligence artificielle (IA) doit être comprise comme une révolution comparable à l'agriculture 10 000 ans avant Jésus-Christ, à l'invention de l'écriture 3 000 ans avant Jésus-Christ ou encore à l'imprimerie au 15e siècle. Par IA, j'entends la définition la plus large : Les mathématiques appliquées avec des ordinateurs connues sous le nom d'apprentissage statistique, de reconnaissance des formes, d'apprentissage automatique, de science des données et même de traitement du signal pour divers supports tels que le son, l'image, la vidéo, le texte et même les données tabulaires. L'impact tangible de l'IA modifie profondément la relation entre notre esprit et le monde. Pour les entreprises, presque tous les domaines de notre monde contemporain sont désormais impactés par cette Science.

D'un point de vue philosophique, l'IA est l'émergence automatisée de certains aspects de l'intelligence naturelle tels que l'apprentissage, la prise de décision, l'adaptation, la prédiction, l'imitation, la production de contenu, etc. grâce à l'application de mathématiques appliquées aux ordinateurs. Concrètement, l'Intelligence Artificielle est la science qui permet à une machine d'exécuter des tâches sans énumération exhaustive de scénarios par l'intervention humaine. L'IA est l'extension naturelle de l'automatisation de la matière à l'information.

En pratique, cette ambition se traduit par des réalisations en vue de cette étape inévitable pour l'humanité en entretenant des relations étroites avec des universités telles que le laboratoireMAP5, Université de Paris, INRIA Masaai, l'Executive MBA de Rennes School of Business, think tank 4ème Révolution et des entreprises comme Jellysmack, mais aussi grâce à des conseils opérationnels en tant qu'entrepreneur avec Ircam Amplify pour l'analyse et la monétisation de la musique et VizioSense pour la vision par ordinateur embarquée.






Ils disent

Tout au long de mon expérience professionnelle, j'ai compris l'importance de favoriser un environnement de travail collaboratif où toutes les voix et les idées sont entendues. Un projet avec une équipe qui ne s'entend pas bien finit toujours par en payer le prix. C'est pourquoi je recueille les retours de mes collaborateurs et de mes collègues pour améliorer mon travail et celui de mes équipes.






Jellysmack

“Warith est une Bible en IA”
Évaluation annuelle des performances chez Jellysmack, 2022

La diversité des problématiques à résoudre chez Jellysmack conforte l'idée de culture scientifique et de culture d'entreprise sans frontière. Pour les sciences, il s'agit de prendre du recul et de laisser la créativité s'exprimer dans l'inspiration de la littérature publiée. Pour le succès de Jellysmack, il s'agit de contribuer à l'innovation nécessaire pour un marché compétitif au service des créateurs de vidéos sur internet.










Executive MBA de la Rennes School of Business

“Un duo improbable mais incroyable!”
Étudiant, 2022

Donner un cours de 2 jours / 16 heures avec Laurent Pantanacce pour un groupe d'une douzaine d'étudiants expérimentés est un défi. Les retours que nous avons reçus justifient tous les efforts déployés!
Le cours porte sur l'Intelligence Artificielle et ses utilisations en matière de technologie, de produits et de clients










Ircam Amplify

“Merci pour ce super boulot.”
Nathalie Birocheau, fondatrice de Ircam Amplify, 2021

Ça a été un privilège de travailler avec le Centre français de recherche sur la musique, l'Ircam, afin de satisfaire les besoins pragmatiques de l'industrie de la musique. Travailler avec Matthieu Bouxin m'a rappelé une jolie époque d'étudiants quand je travaillais avec lui en Java en écoutant du Pow Wow et du Queen.










VizioSense

“L'expertise de Warith dans les domaines de l'IA et de la vision par ordinateur a joué un rôle clé dans la constitution de l'équipe de R&D.”
Maxime Schacht, fondateur de VizioSense, 2021

Cette expérience de conseil opérationnel en vision par ordinateur a placé la barre haute pour mes futures collaborations : plus de syndrome de l'imposteur, juste du travail ! Traduire ce que la recherche produit de mieux pour ses applications concrètes est ce qui me réveille le matin.










MAP5 Lab de l'Université Paris Descartes

“On sent ta personalité dans ton manuscrit de doctorat !”
Erwann Le Pennec, professeur à l'École polytechnique et rapporteur pour mon jury de doctorat, 2020

Des gens formidables comme Pr. Charles Bouveyron (mon directeur de thèse académique), Dr. Stéphane Raux (mon directeur de thèse en entreprise), Dr. Pierre-Alexandre Mattei et Pr. Andrés Almansa m'ont fait l'honneur de m'aider à accomplir mon travail de doctorat dans la chaleur du laboratoire MAP5 et avec la pugnacité de l'entreprise Oscaro.
Je suis fier d'un défi que j'ai pu relever : un chapitre état de l'art (state of the art) qui reste pertinent aujourd'hui.










Oscaro.com

“Cette collaboration avec l'université a apporté beaucoup de valeur à l'entreprise que j'ai fondée, Oscaro, avec le produit Cerbero.”
Pierre-Noël Luiggi, fondateur d'Oscaro.com, 2020

Aller et venir entre l'université et l'entreprise Oscaro.com pendant mon doctorat a été une expérience formidable. Les questions centrales de mon doctorat y ont naturellement émergées : les groupes de clients, l'incertitude pour la prédiction et les indicateurs de performance utiles et compréhensibles pour ma hiérarchie d'entreprise et mes pairs universitaires.










Livres favoris en intelligence artificielle

Dans le domaine de l'intelligence artificielle (IA) qui avance rapidement, il est courant de voir un volume et un rythme très élevés de publications tant scientifiques que non scientifiques. Cependant, il est heureux que des scientifiques expérimentés prennent le temps d'écrire des livres complets qui fournissent un recul précieux avec des vues d'ensembles rétrospectives sur le domaine. Outre le format concis des publications lors des grandes conférences en IA, il est pertinent de se pencher sur les subtilités mathématiques et algorithmiques de ces livres afin de comprendre les travaux plus courts et d'utiliser efficacement les diverses boîtes à outils disponibles en ligne. C'est dans ce contexte que je présente une liste de livres que je trouve particulièrement dignes d'intérêt, ainsi que quelques commentaires, pour les lecteurs désireux de s'engager dans la passionnante "aventure de l'IA".

À notre époque, la langue internationale de l'intelligence artificielle est l'anglais. De la même façon, au temps du britannique Newton au XIXe siècle, ses travaux pionniers en calculs différentiels pour la trajectoire des astres ont été publiés en latin. Al-Khwârizmî au XVIIIe et XIXe siècle, de langue maternelle perse s'est exprimé scientifiquement en arabe et a laissé son nom à l'algorithme qui est l'un des concepts qu'il a su développé avec aussi l'algèbre dont on considère qu'il est le père. C'est pourquoi, je me permets à mon époque en 2022 de me concentrer sur les livres en anglais en recommandant aux jeunes de maîtriser cette langue.


Je n'ai pas encore commenté tous les livres que j'aime jusqu'à présent. En effet, il m'est difficile de commenter les livres de personnes que j'admire d'une manière qui soit utile aux lecteurs, et cela me prend du temps.






Machine Learning


Le Machine Learning est la science qui apprend à partir des données qui constitue une expérience acquise en analysant les données au lieu d'une programmation explicite. Pour ce faire, on utilise des algorithmes sur ordinateur qui analysent les données d'entrée, identifient des modèles à l'aide de techniques statistiques et prennent des décisions ou font des prédictions. En conséquence, la machine peut s'adapter à des données nouvelles et inédites et faire des prédictions plus précises.






Pattern Recognition and Machine Learning
Christopher M. Bishop, 2006,

Ce livre célèbre de 738 pages offre un aperçu complet des domaines de la reconnaissance des formes et de l'apprentissage automatique. La partie reconnaissance de formes du titre me rappelle combien il est pragmatique pour les ingénieurs de construire des choses que les gens ne comprennent pas encore appelées moteurs, il peut être subjectif de le dire mais j'aime vraiment ce livre ( sauf la couverture d'un goût particulier, sinon il serait parfait ! ). Le fond mathématique n'est pas trop lourd, et surtout très rafraîchissant pour les lecteurs.





Machine Learning: A Probabilistic Perspective
Kevin Murphy, 2012,

Ces trois livres (d'environ mille pages chacun) couvrent en détail un large éventail de sujets, notamment les probabilités, l'optimisation, l'algèbre linéaire, pour le Machine Learning avec une attention particulière pour les champs aléatoires conditionnels, la régularisation L1 pour la parcimonie, et l'apprentissage profond. Les personnes ayant une formation mathématique trouveront dans cet ouvrage une excellente référence, et c'est également un bon choix pour l'apprentissage par soi-même.

L'unification des sujets traditionnels et plus récents offre une cohérence et une réflexion précieuses pour développer une culture. Ces ouvrages traitent non seulement des fondamentaux, mais aussi de l'état de l'art. Idéalement, un étudiant en Master envisageant une thèse de doctorat devrait au moins essayer de lire le premier volume Machine Learning : A Probabilistic Perspective : si l'étudiant n'est pas fasciné, à mon humble avis il ne devrait peut-être pas poursuivre un doctorat en IA.

Il est écrit dans un style facile à comprendre, avec des pseudo-codes pour les algorithmes les plus importants et de nombreux exemples tirés de domaines réels comme la biologie, le traitement du texte par IA, la vision par ordinateur et la robotique. Au lieu de vous donner un tas d'astuces et de techniques aléatoires, le livre s'intéresse de plus près aux modèles graphiques pour aborder la modélisation probabiliste de manière claire et concise.





Bayesian Reasoning and Machine Learning
David Barber, 2012,

Ce livre de 735 pages explique comment les outils établis sont utilisés dans un large éventail d'applications industrielles qui se répandent rapidement, notamment les moteurs de recherche, le séquençage de l'ADN, l'analyse boursière et la locomotion des robots. Au-delà des discussions stériles sur Bayésiens contre Fréquentistes (discussions troll équivalentes à emacs contre vim ou Linux contre Windows dans l'apprentissage automatique), ce livre est le premier, à ma connaissance, à expliquer ce que signifient réellement Modélisation bayésienne ou Modèles graphiques. Ce texte pratique ouvre aux étudiants en informatique ayant un certain goût pour les mathématiques la possibilité d'aller plus loin. Ce livre raconte très bien les avancées dans le domaine de l'apprentissage automatique et des modèles graphiques. Avant de lire ce livre, je ne comprenais pas les cercles et les flèches dans les articles affirmant qu'il s'agissait de modèles graphiques. Maintenant ces dessins sont beaucoup plus clairs pour moi et parfois j'en fais moi-même. Je peux même dire que ce qui rend ce livre unique, c'est l'intégration de plusieurs disciplines grâce à l'utilisation de modèles graphiques. En outre, la transition de l'intelligence artificielle traditionnelle à l'apprentissage automatique moderne, exécutée avec finesse, ajoute à la valeur du livre. Il est écrit avec clarté et, en tant que tel, devrait être accessible à un public diversifié, y compris à des personnes ayant des niveaux de compétence différents en mathématiques.





Computer Vision

La vision par ordinateur est un domaine de l'intelligence artificielle qui vise à reproduire les capacités de la vision humaine en apprenant aux ordinateurs à interpréter et à comprendre l'environnement visuel d'une manière similaire à celle des humains. Ce domaine est appliqué à une variété de tâches, par exemple telles que la reconnaissance faciale, la détection d'objets, la conduite autonome et l'imagerie médicale.






Computer Vision: Algorithms and Applications, 2nd Edition
Richard Szeliski, 2022,

Cette 2ème édition du livre (1212 pages) est agréablement divertissante tout en couvrant presque tous les sujets importants de la vision par ordinateur : Filtrage, Reconnaissance, Correspondance des caractéristiques, alignement des images, estimation du mouvement, photographie computationnelle, vision pour la robotique, estimation de la profondeur (avec 2 ou même 1 photographie(s) de la même scène), 3D, Rendu...

Je recommande vivement ce livre aux nouveaux venus qui veulent se plonger dans le domaine.





Computer Vision: A Modern Approach, 2nd Edition
David Forsyth and Jean Ponce, 2011,

Ce livre (de 800 pages) a été rédigé par deux légendes vivantes de la Computer Vision : David A. Forsyth et Jean Ponce. L'objectif principal est de développer une culture scientifique et de renforcer les réflexes mathématiques pour traiter les problèmes classiques de vision par ordinateur, de la modélisation d'images à la compréhension de l'activité humaine.

Le livre est particulièrement complet sur la construction des caractéristiques des images, la géométrie computationnelle, le prétraitement des images, la segmentation et la reconnaissance des objets, ce qui donne un aperçu au-delà de la vision par ordinateur.





Multiple View Geometry in Computer Vision
Richard Hartley and Andrew Zisserman, 2004,

Le livre (de 670 pages) couvre les principes de base de la Computer Vision, notamment en ce qui concerne la compréhension de la structure des scènes photographiées et leur reconstruction à l'aide de principes géométriques, algébriques et algorithmiques. Ceci livre est non seulement fondamental pour les représentations 3D mais aussi pour la compréhension de la perspective 2D dans les images et les vidéos. S'imprégner du style d'écriture de Richard Hartley et d'Andrew Zisserman est également précieux pour être soi-même un chercheur..





Natural Language Processing

Le traitement du langage naturel (TAL ou NLP en anglais) permet aux machines d'interpréter et de comprendre le langage humain de texte. Pour ce faire, on utilise des algorithmes qui analysent de grandes quantités de données de texte et le but est d'en extraire son sens. Idéalement, on voudrait ainsi comprendre automatiquement le langage d'une manière similaire à celle des humains. Le NLP est appliqué dans divers contextes, notamment l'optimisation des moteurs de recherche, le résumé automatique, l'analyse des sentiments et la génération de langage naturel.






Neural Network Methods in Natural Language Processing
Yoav Goldberg, 2017,

Cet article long (76 pages) que l'on peut combiner avec le booklivre plus long associé (309 pages) est une première lecture assez fine du traitement du langage naturel qui fonctionne enfin dans la pratique ! Comment les nombres peuvent-ils exprimer les mots et les expressions des êtres humains ? Comment utiliser la formidable idée du plongement même au-delà du traitement du langage naturel. Comment utiliser l'artillerie du Deep Learning pour accomplir des merveilles depuis les approches pionnières telles que word2vec au milieu des années 2010. Les lecteurs apprécieront les explications directes et claires de l'auteur.





Foundations of Statistical Natural Language Processing
Chris Manning and Hinrich Schütze, 1999,

Ce livre de 620 pages est ancien mais il résume très bien toutes les bonnes pratiques du traitement non-deep du langage naturel. Il est bien écrit et constitue une bonne source d'inspiration pour les problèmes non liés à la NLP, notamment pour le prétraitement des données. On peut recommander ce livre pour comprendre au moins les problèmes abordés dans les publications récentes tels que le speech tagging, les grammaires sans contexte, l'extraction de sujets ou la recherche d'information.




Signal Processing

Le traitement du signal est la manipulation, l'analyse et la transformation des signaux. Ces signaux peuvent être par exemple des ondes sonores, des ondes radio, des images ou des données provenant d'instruments médicaux. Le traitement du signal est appliqué dans de nombreux contextes, notamment pour son amélioration. Souvent, le traitement du signal consiste à extraire des informations utiles des signaux, comme la fréquence, l'amplitude ou la couleur, et à les modifier pour les rendre plus nets.






A Wavelet Tour of Signal Processing, 3rd Edition
Stéphane Mallat, 2008,

On peut recommander ce livre légendaire (ré-édité plusieurs fois) même si vous n'aimez pas les ondelettes. La grande valeur de ce livre réside dans ses explications des liens entre l'algèbre et le traitement du signal (bases et projections), les intuitions rafraîchissantes sur ce qu'est une transformée de Fourier, une analyse temps-fréquence, la parcimonie, les échelles-espaces, la compression, les problèmes inverses... tout cela grâce à un style d'écriture agréable.

Le site web associé A Wavelet Tour of Signal Processing est tout simplement magique! Je ne peux pas m'empêcher de citer son site frère Numerical Tours de Gabriel Peyré (qui a aussi contribué à cette édition).




Reinforcement Learning

L'apprentissage par renforcement (Reinforcement Learning, RL) consiste à faire apprendre aux machines de leur environnement et à faire des actions qui maximisent les récompenses. Pour ce faire, on donne à l'ordinateur un but ou un objectif numérique, puis on lui fournit un retour d'information après chaque action qu'il effectue sous la forme de punition et de récompense elles aussi numériques. L'ordinateur ajuste alors ses actions en fonction de ce retour d'information, apprenant de ses erreurs et optimisant son comportement au fil du temps. L'apprentissage par renforcement est appliqué dans divers domaines, notamment les jeux, la robotique et les véhicules autonomes. En termes généraux, l'apprentissage par renforcement est le processus qui consiste à apprendre à un ordinateur à effectuer les actions les plus efficaces dans un environnement donné afin de maximiser les récompenses.






Reinforcement Learning, 2nd Edition
Richard S. Sutton and Andrew G. Barto, 2018,

Comme son nom l'indique, ce livre de 557 pages offre une introduction approfondie de l'apprentissage par renforcement (RL) par deux figures d'autorité de cette communauté : R. Sutton et A. Barto. Ce livre est une lecture indispensable pour comprendre l'apprentissage par renforcement, et il ne suppose pas de connaissances préalables (pour un étudiant en Master). Il est parfait pour quelqu'un qui veut en savoir plus sur le RL, mis à jour dans cette deuxième édition avec des approches de deep learning.

Dans les nouveaux chapitres de cette édition, les lecteurs pourront apprécier la relation entre le RL et le contrôle optimal, ainsi qu'un chapitre consacré à des exploits célèbres tels qu'AlphaGo, AlphaGo Zero, le jeu Atari et IBM Watson.




Algorithms and Optimization

Les algorithmes sont des ensembles d'instructions permettant de résoudre des problèmes de manière systématique. L'optimisation est le processus qui consiste à identifier la manière la plus efficace de résoudre un problème. Essentiellement, les algorithmes et l'optimisation peuvent être considérés comme des techniques soeurs permettant d'améliorer l'efficacité leurs efficacités. Les algorithmes et l'optimisation sont les pierres angulaires de l'intelligence artificielle pour ajuster les paramètres des modèles pour épouser les données. La maîtrise des algorithmes et des techniques d'optimisation fournit les outils théoriques, mais surtout pratiques, permettant d'en créer de nouveaux et d'adapter les anciens pour répondre à la spécificité de vos problèmes du monde réel.






Introduction to Algorithms
Thomas H. Cormen, Charles E. Leiserson, Ronald L. Rivest and Clifford Stein, 2009,

Ce livre de 1312 pages est légendaire. Ne vous laissez pas tromper par le mot introduction ni par son âge relativement avancé (2009) : je considérerais quiconque comme très compétent s'il maîtrise ce livre. Il est considéré comme un ouvrage incontournable pour de nombreux membres de la communauté de l'IA et même de la communauté informatique au sens large.

Ce qui le rend si spécial, c'est que les chapitres sont à la fois complets et précis, avec un effort particulier pour être simple mais pas simpliste. Dans la pratique, j'ai gagné beaucoup de temps dans mon travail grâce aux chapitres sur calculs en multiprocessing et sur la façon d'utiliser les algorithmes en diviser pour régner, de planification dynamique et des algorithmes gloutons pour résoudre des problèmes généraux au-delà du langage de programmation préféré et à la mode que vous aimez.





Convex Optimization
Stephen Boyd and Lieven Vandenberghe, 2004,

Le Boyd est un bon premier livre de 727 pages, accessible mais rigoureux, destiné aux nouveaux venus dans le domaine de l'optimisation numérique. Chaque fois que nous entendons parler d'entraînement ou d'apprentissage à partir de données, il s'agit fondamentalement d'optimisation, même au-delà de l'IA. Les problèmes d'optimisation convexe sont des cas particuliers dont les solutions exactes peuvent être utilisées pour résoudre des problèmes non convexes par approximations successives, ce qui en fait un élément crucial de l'apprentissage automatique (et de l'apprentissage profond).

Les exercices sont tellement bons que je soupçonne parfois les scientifiques qui écrivent des articles de s'inspirer des exercices de ce livre et de les prolonger simplement dans des publications de valeur. J'apprécie également ce livre pour développer des intuitions et des interprétations des concepts et des méthodes. Je ne peux pas écrire sur ce livre sans mentionner sa célèbre boîte à outils CVXPY qui est vraiment utile pour les scientifiques et les praticiens.





Numerical Optimization, 2nd Edition
J. Frédéric Bonnans, J. Charles Gilbert, Claude Lemaréchal and Claudia A. Sagastizábal, 2006,

L'optimisation numérique est omniprésente en science et en ingénierie, comme l'introduction le rappelle. C'est un élément clé de nombreux algorithmes en apprentissage automatique, traitement du signal, traitement d'image, vision par ordinateur, robotique et de nombreux autres domaines.

Ce livre de 508 pages présente de manière unifiée et accessible les principaux concepts et algorithmes, en mettant l'accent sur les aspects pratiques de leur mise en œuvre. Les auteurs sont connus dans ce domaine et enseignent depuis de nombreuses années, avec une expérience rarement égalée dans la résolution de problèmes d'optimisation pour l'énergie, les géosciences et en biologie.

En imaginant de nouveaux algorithmes en IA, lorsque je suis incertain c'est le premier livre que je lirais pour confirmation et inspiration. Quand les gens ne trouvent pas leurs réponses dans le Boyd, je recommande celui-ci. Le livre est destiné aux étudiants en fin de Master mais je n'ai aucun problème à admettre que je le consulte régulièrement.





Numerical Recipes, 3rd Edition
William H. Press, Saul A. Teukolsky, William T. Vetterling and Brian P. Flannery, 2007,

“Numerical Recipes” est un livre célèbre et complet de 1256 pages sur les techniques de calculs scientifiques. Il couvre un large éventail de sujets, notamment en algèbre linéaire, l'informatique qu'elle implique et diverses méthodes et algorithmes numériques.

C'est typiquement le genre de livre qui pourrait vous aider à concevoir des algorithmes de calcul lourds en C/C++ ou Fortran appelés depuis des langages de haut niveau comme Python. Il est assez rare de trouver un livre aussi facile et précis à lire, co-écrit par des experts mondiaux du monde universitaire et de l'industrie. J'utilise ce livre depuis de nombreuses années et je le trouve toujours aussi utile. Il s'agit d'un livre indispensable pour tout scientifique ou ingénieur sérieux qui souhaite fournir des logiciels fiables à grande échelle.






Computational Optimal Transport
Gabriel Peyré and Marco Cuturi, 2019,

Cet livre (de 209 pages dipsonibles gratuitement et légalement sur internet) passe en revue le thème du transport optimal en mettant l'accent sur les méthodes numériques et leurs applications à différentes échelles : petite, moyenne et grande. L'un des points forts de cet ouvrage est le site Web qui l'accompagne, qui propose un matériel pédagogique impressionnant, une abondante littérature et des boîtes à outils de qualité industrielle, comme la boîte à outils Python Optimal Transport (POT) (développée par Rémi Flamary et Nicolas Courty).

En commençant par un historique du transport optimal (inventé par Gaspard Monge en 1781), le livre guide le lecteur à travers une étude complète du domaine, en particulier pour le concept de régularisation entropique et la façon dont il a permis l'utilisation du transport optimal à grande échelle dans des domaines tels que les sciences de l'imagerie (comme le traitement des couleurs ou des textures), la vision par ordinateur, l'imagerie graphique (pour la manipulation des formes) et l'apprentissage automatique (pour des tâches comme la régression, le regroupement, la classification, l'estimation de densité et même la génération de contenu par imitation). À ma connaissance, c'est le seul livre à couvrir le sujet du transport optimal avec un angle numérique aussi poussé.





Contributions en intelligence artificielle

Le fait de garder des liens à la fois le monde de l'entreprise et le monde universitaire en intelligence artificielle est probablement le meilleur choix conscient de ma carrière jusqu'à présent. L'industrie et le monde universitaire sont deux mondes très différents, mais ils sont aussi complémentaires selon mon expérience. Parfois, la frontière est floue dans des institutions comme OpenAI ou des entreprises de valorisation dépassant le millier de milliards de dollars comme Microsoft Research, Baidu Research, Amazon Research ou Google Research (liste non exhaustive et dans un ordre aléatoire) qui contribuent avec des articles époustouflants et des boîtes à outils OpenSource comme le feraient d'excellents chercheurs dans des universités au meilleur niveau.

Pour être honnête, partir d'un problème industriel me permet de limiter certaines divagations scientifiques (que j'aime tant car elles sont une source de créativité déguisée !) au profit d'un plus grand impact sur le monde réel... ce qui justifie les efforts. Finalement, je suis récompensé par la satisfaction de faciliter la vie de quelqu'un d'autre, soulagé(e) de son problème initial. Ainsi, à ma façon, j'essaie de contribuer avec ce que je peux à ce rêve millénaire qu'est l'intelligence artificielle. Heureusement, j'ai eu la chance de continuer à travailler dans des environnements tant académiques que corporatifs avec des publications, des enseignements et des prototypes/moteurs en production.







Artificial Intelligence for Business — 2nd Edition
Warith Harchaoui, Laurent Pantanacce and Nicolas Renard, Décembre 2022, Rennes School of Business

Ce cours en anglais d'Executive MBA en 16 heures pour 2 jours porte sur l'IA et ses usages en matière de technologie, de produits et de clients en entreprise avec Laurent Pantanacce et Nicolas Renard. Nous nous concentrons sur des sujets tels que l'apprentissage automatique, le traitement du langage naturel et la vision par ordinateur, ainsi que leurs applications aux entreprises.

Grâce à ce cours, les étudiants comprennent comment l'IA peut être utilisée pour améliorer les processus d'affaires et les opérations, ainsi que les aperçus des données. Ils apprennent également à utiliser l'IA pour développer des solutions aux problèmes quotidiens des entreprises. Les ingrédients sont tirés de Jellysmack, INSEAD, Stanford, Coursera et de notre propre expérience du monde réel. Dans cette 2ème édition, le Generative AI s'est invité sous différentes formes dans le texte et les images, changeant la façon dont nous pensons à notre propre intelligence.





Generalised Mutual Information for Discriminative Clustering
Louis Ohl, Pierre-Alexandre Mattei, Charles Bouveyron, Warith Harchaoui, Arnaud Droit, Mickaël Leclercq and Frédéric Precioso, 2022, NEURIPS (ex-NIPS)

L'article porte sur le deep clustering, qui est un type de technique d'apprentissage automatique utilisé pour regrouper les données en catégories (ou clusters). La méthode consiste à utiliser une mesure appelée information mutuelle (IM) pour entraîner un réseau de neurones (ou un réseau deep). Nous avons constaté que l'utilisation de GEMINI (pour Generalised Mutual Information) permet d'obtenir de bons clusters. GEMINI peut également déterminer automatiquement le nombre approprié de groupes à utiliser. Il s'agit d'une considération importante car, dans le clustering deep et non deep, le nombre de groupes n'est généralement pas connu à l'avance. Nous avons également montré que GEMINI est plus efficace que l'IM classique pour le clustering deep.





Artificial Intelligence for Business — 1st Edition
Warith Harchaoui, Laurent Pantanacce, Mars 2022, Rennes School of Business

Ce cours en anglais d'Executive MBA en 16 heures pour 2 jours porte sur l'IA et ses usages en matière de technologie, de produits et de clients en entreprise avec Laurent Pantanacce. Nous nous concentrons sur des sujets tels que l'apprentissage automatique, le traitement du langage naturel et la vision par ordinateur, ainsi que leurs applications aux entreprises.

Grâce à ce cours, les étudiants comprennent comment l'IA peut être utilisée pour améliorer les processus d'affaires et les opérations, ainsi que les aperçus des données. Ils apprennent également à utiliser l'IA pour développer des solutions aux problèmes quotidiens des entreprises. Les ingrédients sont tirés de Jellysmack, INSEAD, Stanford, Coursera et de notre propre expérience du monde réel.





Thoughts in 2021 about Hardware in Artificial Intelligence
Warith Harchaoui, Novembre 2021,

Toute cette Intelligence Artificielle dans votre poche ! Ce petit article met par écrit quelques réflexions sur l'IA en 2021. Des expressions telles que “Big Data&rdquo ; ou “loi de Moore&rdquo ; semblent loin derrière nous mais sont toujours pertinentes, toujours revisitées et même réinventées alors que les communautés de l'IA assistent à au moins trois prouesses qui changent la donne.





Optimal transport-based machine learning to match specific expression patterns in omics data
Thi Thanh Yen Nguyen, Olivier Bouaziz, Warith Harchaoui, Christian Neri, Antoine Chambaz, Juillet 2021,

Nous présentons des algorithmes conçus pour apprendre un modèle de correspondance entre deux ensembles de données dans des situations où il est souhaitable de faire correspondre des éléments qui présentent une relation appartenant à un modèle paramétrique connu. L'application consiste à mieux comprendre la régulation des micro-ARN (miRNA) dans le striatum de souris atteintes de la maladie de Huntington (HD). En traitant des données sur les miRNA et les ARN messagers (ARNm), l'hypothèse biologique est que si un miRNA induit la dégradation d'un ARNm cible ou bloque sa traduction en protéines, ou les deux, alors le profil des premiers devrait être similaire par une transformation affine. Grâce à un transport optimal régularisé par l'entropie utilisant l'algorithme de Sinkhorn, nous dérivons soit plusieurs co-clusters, soit plusieurs ensembles d'éléments appariés. On illustre notre propos avec un code associé pour montrer en pratique comment cela fonctionne.





La valeur de la donnée — Livre blanc pour l'intelligence artificielle
Warith Harchaoui et Laurent Pantanacce, Juin 2021, Closerie des Lilas à Paris pour 4ème Révolution

Chaque révolution industrielle est portée par une force motrice : une matière première, une énergie source, une technologie créatrice qui redéfinit l'économie. Depuis le XIXe siècle, nous pouvons énumérer la vapeur, le charbon, le pétrole, l'électricité, la radio, le transistor, l'informatique et aujourd'hui l'intelligence artificielle (IA). Notre quatrième révolution industrielle est troublante parce que sa denrée première est abstraite : la donnée. [...]

Pourquoi ce document existe officiellement ?
Ces 8 pages forment un chapitre pour un livre blanc que mon ami Alkéos Michaïl a demandé à mon mentor Laurent Pantanacce et moi-même d'écrire pour le think tank 4ème Révolution. Bien que les chapitres de plusieurs auteurs n'aient pas été rassemblés ni publiés, j'ai pensé qu'il serait dommage de laisser celui-ci se perdre car il constitue une bonne introduction au sujet de la valeur des données pour les cadres, les managers et les scientifiques qui reconnaissent que l'IA et sa matière première les données, ont métamorphosé leur travail.

Pourquoi ce document existe pour de vrai ?
C'était juste une bonne excuse pour écrire quelques idées avec mon mentor et ami Laurent à la Closerie des Lilas à Paris comme des intellectuels, poètes et philosophes français au lieu de laisser nos discussions passionnées s'envoler !

The document also exists in English.





Invitation à l'intelligence artificielle du texte
Warith Harchaoui, Mai 2021, IUT de l'université de Paris

En intelligence artificielle, le medium “texte” est spécial parce qu'il n'est pas un signal physique contrairement au son, à l'image ou la vidéo. Il s'agit plutôt d'un “signal symbolique” directement issu de l'intelligence humaine depuis son invention trois millénaires avant Jésus-Christ.

Cet exposé présente quelques concepts de l'intelligence artificielle du texte (ou NLP pour Natural Language Processing). Le but est de convaincre un public d'étudiants en informatique de 1ère année, de jeunes curieux en sciences pour qu'ils jouent avec les données et qu'ils programment sur ces sujets qui modifient en profondeur presque tous les domaines de notre monde contemporain.





True Story for a Rare Punctuation Mark
Warith Harchaoui, Mars 2021,

Cher Professeur,

Le 2 mars 2021 à Stanislas, avec mon ami Quentin, je suis venu vous remercier au nom de beaucoup d’élèves pour nous avoir transmis «le point de satisfaction». Depuis presque vingt ans que j’utilise cette ponctuation, j’ai l’impression d’appartenir à une sorte de guilde éclairée par les sciences que vous nous enseignez encore aujourd’hui. Il est difficile pour moi de décrire aux autres ce que cela représente. Je vais donc vous raconter pourquoi j’aime cette ponctuation et peut-être que chacun pourra imaginer l’impact de vos enseignements sur nos existences. [...]

Je voudrais remercier la gazette local de Stanislas L'Échos de Stan (page 30) d'avoir publié cette lettre pour mon cher professeur Yves Dupont qui a joué un rôle essentiel dans ma carrière en science.

The document also exists in English.





Learning Representations using Neural Networks and Optimal Transport (Ph.D.)
Warith Harchaoui, Septembre 2016 à Octobre 2020, MAP5 — Université Paris Descartes

Mon travail de thèse a été sur l'intelligence artificielle pour:

  • comment faire des groupes ex: pour des images, videos et sounds;
  • comment montrer les attributs distinctifs des données ex: pour les clients et les images;
  • comment estimer le niveau de confiance d'une décision automatique ex: pour les contraintes industrielles, la santé, la sécurité et même la justice;
Ces problèmes partagent une question scientifique commune: comment représenter les données? Pour cela, j'ai revisité un ancien concept mathématique appelé Transport Optimal avec un outil algorithmique bien connu appelé Réseaux de Neurones (surnommé “Deep Learning” depuis 2010 environ).

Des gens formidables comme Pr. Charles Bouveyron (mon directeur de thèse académique), Dr. Stéphane Raux (mon directeur de thèse d'entreprise), Dr. Pierre-Alexandre Mattei, Pr. Andrés Almansa, Thi Thanh Yen Nguyen, Pr. Olivier Bouaziz et Pr. Antoine Chambaz m'ont fait un honneur en m'aidant à accomplir ce travail dans la chaleur du laboratoire MAP5 et avec la pugnacité de l'entreprise Oscaro.





Rencontre avec Luc Julia, l’IA n’existe pas !⎜ORLM-363
Luc Julia et Warith Harchaoui, Février 2020, IUT de l'université de Paris

Discussion informelle dans la webTV ORLM (On refait le Mac) animée par Olivier Frigara avec Luc Julia et moi. Luc Julia est un pionnier de l'intelligence artificielle en Californie dès la fin des années 1990, co-fondateur de Siri, CTO de Samsung Innovation puis aujourd'hui chez Renault (au moment où je l'écris en 2022). Il nous présente son livre L'IA n'existe pas. Nous échangeons sur les enjeux et impacts de l'intelligence ariticielle sur la société, l'économie et donc nos vies tandis que je suis là la tête baissée à baragouiner pour cette première médiatisation télévisuelle !





Une introduction aux réseaux de neurones
Warith Harchaoui, Décembre 2018, MAP5 — Université Paris Descartes, Institut Henri Poincaré, École 42

Depuis un seul neurone, à une couche de neurones, puis plusieurs couches parfois convolutionnelles et même plusieurs réseaux de neurones opposés, nous voyons émerger certains aspects du mystère de l'intelligence à travers une technologie qui change la donne dans presque tous les domaines de notre monde contemporain.

Cet exposé a été donné trois fois: à l'IHP (Institut Henri Poincaré) le 26 janvier 2018, l'Université Paris Descartes le 30 novembre 2018 et à l'École 42 le 18 décembre 2018.





Wasserstein Adversarial Mixture Clustering (WAMiC) — Poster
Warith Harchaoui, Pierre-Alexandre Mattei, Andrés Almansa and Charles Bouveyron, Été 2018, Data Science Summer School — École Polytechnique

Clustering complex data is a key element of unsupervised learning which is still a challenging problem. In this work, we introduce a deep approach for unsupervised clustering based on a latent mixture living in a low-dimensional space. We achieve this clustering task through adversarial optimization of the Wasserstein distance between the real and generated data distributions.

Le groupement (clustering) de données complexes est un élément clef de l'apprentissage non supervisé et reste un problème difficile. Dans ce travail, nous introduisons une approche dite de deep learning pour du clustering avec un mélange latent vivant dans un espace de faible dimension. Nous parvenons à cette tâche de clustering par optimisation adversaire sur la distance de Wasserstein entre les distributions de données réelles et générées.

L'approche proposée permet aussi à la fois la réduction de dimensionnalité et la sélection de modèle. Nous obtenons des résultats compétitifs sur des jeux de données difficiles constitués d'images, de données creuses et de données denses.

Finalement, ce travail a abouti dans un chapitre de mon manuscrit de thèse intitulé Wasserstein Clustering.





Artificial Intelligence, Machine Learning, Computer Vision and Natural Language Processing with Python
Warith Harchaoui, Mohamed Chelali, Matias Tassano, Pierre-Louis Antonsanti and Azedine Mani, Dernière mise-à-jour en décembre 2022 (maintenu depuis 2018), MAP5 — Université Paris Descartes

L'intelligence artificielle a besoin de calculs lourds. Pendant les années 2010, la communauté Deep Learning a ouvert la voie de l'accélération matérielle en utilisant historiquement les Unités de Traitement Graphiques (GPU) dédiées à la recherche en Mathématiques Appliquées au-delà du domaine des calculs graphiques.

Le but de cette page est de présenter un cheat sheet pour la programmation en Machine Learning
(c'est-à-dire l'Apprentissage Statistique, la Reconnaissance de Formes, l'Intelligence Artificielle, la Science des Données) pour de nombreuses applications telles que la Vision par Ordinateur, le Traitement du Signal et le Traitement du Langage Naturel.

Cette page a été utilisée de manière intensive au moins dans le MAP5, Oscaro.com, Jellysmack pour les Mathématiques Appliquées pour conduire des recherches en Apprentissage Machine (ML), Vision par Ordinateur (CV) et Traitement du Langage Naturel (NLP) en Python. N'hésitez pas à me contacter (Warith Harchaoui, ) pour des améliorations et des suggestions.