Hallelujah, Mesdames et Messieurs, ChatGPT est arrivé et certaines start up très prometteuses souhaitent l’incorporer à des applis de prise de parole !! Elles existent déjà depuis quelques temps aux Etats-Unis et commencent à apparaître en France. La question peut alors se poser: l’IA peut-elle remplacer un coach en prise de parole ou un expert voix? Petite extrapolation.
Pour celles et ceux qui me suivent, ou qui ont déjà suivi mes formations voix, j’aime la technologie. Dès que ma veille d’information fait paraître quelque chose d’insolite concernant les voicebots, la biométrie vocale ou l’intelligence artificielle, je m’empare tout de suite de l’information, je creuse un peu, j’extrapole, mon cerveau se régale et cela accessoirement enrichit mon discours.
Du fait de cette appétence pour la tech en général et la tech appliquée à la voix en particulier, je vais régulièrement au salon Voicetech et je travaille en collaboration avec des start ups dans le domaine de la voix ou la reconnaissance vocale. L’une d’entre elles, Loquans, qui a un énorme potentiel de développement, m’a parlé de son projet d’appli avec un diagnostic rapide, des métriques mesurables plutôt sensées sur le débit de la voix et compte utiliser, si j’ai bien compris, ChatGPT afin de façonner des discours de présentation sur des sujets donnés. Le fine tuning de l’outil d’Elon Musk et son OpenIA a l’air possible, quoique complexe.
M’est venu alors une pensée un peu farfelue. Est-ce que l’avenir de la prise de parole en public passe forcément par l’IA? Va-t-on pouvoir se passer de coach à terme? L’extrapolation me fait dire oui. Le principe de réalité présent me fait dire…. pas encore ! Mais déjà voyons ce que l’IA peut faire. Et c’est déjà assez extraordinaire.
Par exemple, Netdragon, une société chinoies dans la tech qui pèse plusieurs milliards de dollars, a nommé à sa tête un CEO IA femme !!! Vous avez bien lu !!! Elle s’appelle Tang Yu, travaille 24h sur 24h, a l’apparence d’une jeune femme assez stricte avec une voix relativement grave et rassurante. Et elle ne s’arrête apparemment jamais !!!
Plus près de chez nous maintenant, et plus concret: des IA commencent déjà à analyser les discours d’hommes ou de femmes politiques, de manière assez exacte grâce à l’analyse de la sémantique, des récurrences linguistiques et des emprunts à d’autres personnalités, par exemple Damon Mayaffre avec le cas assez complexe de la colonne vertébrale idéologique mouvante d’Emmanuel Macron. Dans ce cas précis, on a un outil plutôt performant mais qui ne fait qu’observer, compiler, analyser donc. Mais qu’en serait-il si cet outil d’analyse créait des candidats de toutes pièces?
On aurait alors tout un process d’écriture de discours ou d’idéologie à destination d’un public visé via un ajustement de ChatGPT, un visage défini par IA choisi selon les préceptes d’Alexander Todorov sur l’aspect rassurant de la régularité des traits d’une personnes, une voix au milieu de celle des autres par voice averaging (Pascal Belin et al), lissée et sans aspérités vocales, ce qui est le cas de Tang Yu mentionnée précédemment, etc. Bref, on aurait un candidat, ou une candidate, taillé(e) sur mesure pour un public ciblé, selon une stratégie d’efficacité électorale. Ou on peut carrément fabriquer ce candidat ex nihilo en lui donnant une silhouette, une voix, un discours et des réponses totalement générés par IA. C’est pour le moment de la science-fiction mais on y arrivera bientôt. Revenons au présent.
Pour le moment, les IA pour la prise de parole ne peuvent pas totalement faire le travail d’un formateur dans cette thématique ou d’un coach vocal. Elles ont d’ailleurs une fonction support et ne suffisent pas à un accompagnement efficace. Pour qu’elles soient vraiment performantes, il y a encore besoin d’une quantité de métriques mesurables, notamment sur des données acoustiques vocales (GRAS, spectre de la voix, dispersion de certaines consonnes), avec un compromis à trouver entre traitement satisfaisant et rapidité de l’analyse, sans compter le biais de la webcam et du micro si on fait l’enregistrement hors studio.
Bref, il y a encore pas mal de travail avant que cela soit au point. Et il faut l’aide d’un expert voix ou prise de parole avec une appétence pour les statistiques et la standardisation de ce qu’est une prise de parole réussie. (suivez-mon regard….)
Maintenant, imaginons que l’IA soit réellement performante et propose un diagnostic exact sur les aptitudes d’orateur de quelqu’un…. comment accompagner ou coacher ensuite?
Et surtout avec quelle voix? Comme pour les robots médicaux, prêter une voix à une IA qui soit empathique ou motivante sera un enjeu très important à l’avenir, ne serait-ce que pour une question de crédibilité. Et comme pour la reconnaissance vocale, il faut un maximum d’acteurs pour éviter d’avoir par exemple des bugs notoires, comme des IA qui ne reconnaissent pas l’accent africain américain.
On tourne en rond pour l’instant.
Il faut des gens qualifiés pour bien cibler les données à fournir à l’IA… mais aussi pour déterminer le contexte où la voix doit performer ! D’où la nécessité de toute manière de passer par des experts en prise de parole ET de la voix (de manière indissociable), qui seront à même de cibler d’autres métriques de référence pour résoudre ce type de problème.
Des questions ?
A propos
Emilien Hamel
Formateur en prise de parole et coach vocal, Expert Voix, Grenoble et visio