Entretien avec Nicolas Obin (AFSI), spécialiste de synthèse vocale à IRCAM
L'IRCAM est le célèbre Institut de Recherche et de Coordination Acoustique Musique crée par Pierre Boulez, il se trouve en plein cœur de Paris et rattaché au Centre George Pompidou. C’est un lieu unique qui accueille des musiciens et des compositeurs de musiques qui y cherchent de nouvelles voies d’expression et d’expérimentation ; un espace de recherche sur les sciences et technologies du son et qui pousse de plus en plus sur les terrains du sound design. Tu nous décris ta fonction au sein de cette organisme? Et un peu ton parcours peut-être?
Nicolas Obin : Je suis actuellement enseignant-chercheur à Sorbonne Université dans les domaines du traitement du son, de l’informatique, et de l’intelligence artificielle. Passionné par les comportement et la communication entre humains, animaux, et robots, je conduits mon activité de recherche au sein de l’équipe analyse et synthèse des sons à l’IRCAM principalement sur la synthèse et la transformation de la voix humaine et ce qu’on appelle aujourd’hui le voice cloning ou les deep fakes audios. Mon objectif est d’être capable de simuler des voix humaines de la manière la plus réaliste ou la plus crédible possible, aussi bien pour imiter des voix, que pour en créer des nouvelles, ou encore créer des voix hybrides. Dans le monde sonore, la parole constitue avec la musique parmi les productions les plus complexes de l’être humain, associant langage et créativité. Je suis originaire du Sud de la France à côté de Marseille et ai suivi une formation scientifique allant d’Aix-en-Provence jusqu’à Paris. Adolescent, j’étais en recherche d’inspiration pour des métiers qui me permettraient d’allier mes capacités en sciences et ma passion pour la musique. Un jour, à travers un numéro hors-série sur les métiers du son, je fis ma première rencontre avec l’IRCAM : un lieu mystérieux où se réalisaient, dans les entrailles de Paris, les expérimentations et les innovations en pointe de la recherche musicale : « les sorciers du son ». Un hasard devenu une nécessité.
Erwan KERZANET : Le son est désormais partie intégrante du design industriel. Vous travaillez avec des secteurs qui ne sont ni cinéma ni musique?
NO : Longtemps ignoré ou relégué à la périphérie des considérations écologiques, fonctionnelles, et esthétiques dans l’ensemble des activités humaines, le sonore est en passe de regagner sa légitimité sensorielle. Les pratiques du son se sont aujourd’hui largement diversifiées, depuis le design industriel et architectural jusqu’aux installations sonores immersives dans des environnements virtuels ou intégrées dans des environnements naturels. Pour illustrer avec quelques exemples tirés des activités de l’Ircam, je pense chronologiquement à la sonorisation de voitures électriques alliant fonctionnalité et esthétique. Si l’idée première est de signaler la présence d’un véhicule par la son, la signalétique sonore a été pensée entre tradition et modernité en empruntant des sonorités associées au fonctionnement d’un moteur physique mais revisitées par l’électronique. Ces demandes se sont rapidement multipliées, avec aussi bien des créations sonores en lien avec de la sonification pour des marques d’horlogerie ou de champagne, pour habiller des défilés de mode, et plus récemment encore pour véhiculer une image de marque. Par ailleurs, depuis les premiers « Jardins sonores », les installations sonores ou autres dispositifs acousmatiques se sont succédés pour augmenter des environnements naturels, comme le « Carré Magique » dans le jardin de l'abbaye de Royaumont ou encore « Biotope » à la grande Halle de la Villette. Le son sous toutes ses formes est amené à investir sur mesure nos espaces de vie depuis nos objets aux environnements sonores dans lesquels nous vivons.
PAC : Comment expliquer la primauté du visuel sur le sonore ?
NO : Le sens visuel prime généralement sur le sens auditif pour l’être humain - aussi bien dans l’histoire de son évolution que dans son propre développement. Cette affirmation a des bases biologique et cognitive : le cortex visuel est plus développé que le cortex auditif, et nous captons plus d’informations par la vision en particulier sur notre environnement spatial. Par ailleurs, cette information est interprétable directement comme une photographie instantanée. La vision nous permet donc de scanner en temps-réel notre environnement, pour y examiner une situation de danger ou pour tenter de comprendre les intentions d’une autre personne. Enfin, l’apparente stabilité de notre environnement issue de notre vision nous donne une impression de permanence des choses, ce qui est probablement rassurant pour appréhender le monde extérieur. Le son se définit autant en complément, substitution, ou opposition à la vision. Tout d’abord, tout ce qu’il se passe dans notre environnement n’a pas nécessairement de trace sonore. Nous n’entendons pas les longueurs d’ondes de la lumière ni la plupart des fréquences de vibration de notre environnement. Mais quand la nuit tombe, l’audition se substitue à la vision pour appréhender notre environnement. En outre, le son est par essence transitoire et nécessite une perception intégrée - c’est-à-dire qu’au moins une fraction temporelle du son est préalable à son interprétation. Pour schématiser, la vision est le sens de l’espace et l’écoute est le sens du temps. Culturellement, cette tendance s’est considérablement renforcée dans les sociétés industrielles et post-industrielles : avec la publicité, les réseaux sociaux, les écrans, etc… nous sommes aujourd’hui littéralement saturés de stimuli visuels pour capturer notre attention. Le monde du sonore est fascinant à bien des égards. Immatériel, invisible, et transitoire, le son permet d’une certaine manière de s’affranchir de la désignation ou de représentation - détaché du signe dirait Gilles Deleuze : c’est une porte ouverte à l’imaginaire - au-delà des mots.
EK : La synthèse des instruments a été au centre des préoccupations pendant longtemps, on arrive à des instruments synthétiques assez bluffants. Aujourd’hui on est dans l’ère du morphing des voix. Lorsque que j’ai découvert Audiosculpt il y a déjà pas mal d’années, ça m'é"tait apparu comme un outil vraiment magique, l’un des premiers à pouvoir morpher deux sons, c’est parti d’où cette recherche? Aujourd’hui, elle arrive à quels résultats?
NO : L’IRCAM a toujours été très impliqué dans le développement « hardware » et « software » pour rendre les innovations scientifiques et technologiques accessibles pour la production musicale et sonore, mais aussi au plus grand nombre ! Dans les années 1980, l’IRCAM construisait ses propres ordinateurs et machines, comme la fameuse 4X que Pierre Boulez utilisait pour réaliser des traitements sonores en temps-réel, ce qui constituait une véritable prouesse pour l’époque. Rapidement, l’IRCAM a multiplié le développement d’algorithmes accessibles en ligne de commande ou avec des prototypes expérimentaux mais aussi sous la forme d’applications ou de « patchs » fonctionnant Ave le logiciel Max, rendus accessibles sur le Forum (https://forum.ircam.fr/). Pour la voix, les logiciels XSPECT, CHANT, AudioSculpt, ircamLab TS ou aujourd’hui ASAP (AudioSculpt As Plugins) se sont succédés depuis les années 1980 jusqu’à aujourd’hui. J’ai personnellement utilisé AudioSculpt pour de nombreuses productions artistiques, comme pour le film Marilyn de Philipe Parreno avec Nicolas Becker ou pour les essais d’Annette de Leos Carax avec … toi. Tout simplement pour « copier/coller » des intonations d’un comédien sur un autre, ou la ligne mélodique d’une chanteuse sur une comédienne pour en transférer la justesse et l’interprétation tout en préservant son identité vocale. Nicolas Becker a également utilisé les logiciels IRCAM comme ircamLab TS pour le film Sound of Metal en exploitant la fonctionnalité de remix « sinusoïdes + bruit » pour reproduire la sensation de perte d’audition et la confusion sensorielle liée à celle-ci. En tant que scientifiques, nous réalisons de nombreuses solutions techniques et technologiques mais nous n’avons pas toujours conscience de leur potentiel esthétique et artistique. C’est la raison pour laquelle l’expérimentation au contact directe des artistes est une démarche essentielle de nos activités.
EK : Il y a de plus en plus de croisements entre les espaces musique et cinéma du fait de l’IA ?
NO : L’IRCAM est un lieu foisonnant de recherches et de développements sur l’analyse, la synthèse, la captation, et la diffusion de signaux sonores dans des espaces physiques, virtuels, ou mixtes. S’il existe évidemment des axes de recherches spécifiquement musicaux - comme les représentations symboliques, l’orchestration, le suivi de partition, ou la simulation numérique d’instruments de musique - de nombreuses lignes de recherche traversent l’ensemble des pratiques liées à la création sonore en général. Par exemple, la spatialisation sonore ou le « son 3D » constitue une innovation qui touche autant la composition de l’espace pour un musicien que la création d’une écoute en immersion dans des environnements sonores physique ou virtuel, collectif ou individuel. L’IRCAM est à la pointe de l’innovation dans la réalisation de tels dispositifs de diffusion sonore, depuis l’Ambisonie ou la « Wave Field Synthesis » (WFS) pour une restitution dans des espaces tels qu’une salle de concert ou de cinéma ; ou du binaural pour une restitution d’un espace sonore au casque. Par ailleurs, la synthèse sonore et les effets sonores sont largement répandus sous forme de logiciels ou de plug-ins. L’IRCAM est également moteur dans ce domaine : que les sons soient créés par modèles physiques (par exemple : en spécifiant le matériau, la géométrie, et les dimensions d’un instrument ou corps résonateur), signaux sonores (pour le changement de hauteurs, de durée, l’ajout de réverbération), ou encore par intelligence artificielle.
EK: C’est quoi le domaine privilégié de l’IA pour le son et le cinéma?
NO : L’IA est amenée à révolutionner les pratiques et les métiers du son à l’image, et plus largement l’industrie cinématographique en général. L’ère de l’IA ouvre sur de nouveaux horizons à explorer pour la création sonore, où les possibilités créatives et les pratiques du son doivent être repensées et réinventées à l’aune de ces nouveaux outils ! Les IAs génératives récemment popularisées comme Dall-E, Midjourney, ou ChatGPT donnent un avant-gout des profondes mutations en cours. Au-delà du sentiment d’excitation associé à la découverte et à la nouveauté, ces IAs interrogent les pratiques artistiques, la place de l’artiste, le geste de création, et l’utilisation de l’IA pour amplifier ou transfigurer ce geste. Les industries créatives et les métiers du son vont être amenées à réaliser une transformation numérique en profondeur pour répondre aux enjeux de l’IA. Pour donner quelques exemples tirés de l’actualité sur la voix, il est désormais possible de cloner une identité vocale pour en créer un rendu piloté par VoCap (l’équivalent pour la voix du MoCap, ou l’acteur offre sa voix et son interprétation comme une surface sur laquelle appliquer la texture du timbre de l’identité à reproduire). C’est ainsi que nous avons reproduit les voix de Marilyn Monroe en 2013 avec l’artiste plasticien Philippe Parreno ou plus récemment la voix de Dalida pour l’émission L’Hôtel du Temps de Thierry Ardisson ou encore celle du Général de Gaulle en collaboration avec Le Monde pour reconstituer l’Appel du 18 juin. Il existe aussi des sociétés proposant des services pour doubler automatiquement des acteurs dans d’autres langues, et même pour manipuler le visage des comédiens afin d’ajuster le mouvement des lèvres et des expressions faciales pour les rendre conformes au texte prononcé. Enfin, il existe des logiciels très performants pour isoler des voix, nettoyer des enregistrements, ou encore pour reproduire un mix à partir d’un film ou d’un album donné en exemple. Dans cette transformation en cours, les frontières entre technicité, expertise, et créativité sont de plus en plus diffuses et mouvantes. Si les IA vont assister et simplifier les tâches en s’affranchissant en partie de la technique et de l’expertise, l’humain demeure au centre de la genèse créative, depuis son positionnement au sein d’un contexte historique, culturel et social, sa démarche esthétique, jusqu’aux choix nécessaires à la réalisation d’une œuvre singulière.
EK : Quels seraient les developpements et résultats que souhaiterait atteindre l’IRCAM… qu’est qui fait encore rêver l’IRCAM?
NO: Historiquement, l’IRCAM a été un acteur visionnaire anticipant ou initiant les mutations musicales et sonores. Face aux vagues d’industrialisation et de démocratisation du « hardware » (l’électronique : ordinateurs personnels et synthétiseurs) puis du « software » (l’informatique : logiciels), et aujourd’hui de l’intelligence artificielle - l’IRCAM n’a de cesse de se réinventer. Ce qui distingue l’IRCAM, c’est la place de l’artiste au coeur du processus de création et un espace unique ouvert à l’échange et à l’expérimentation. Qu’il soit augmenté ou non par la technologie, l’artiste, son expertise, et sa réflexion est essentiel pour faire face et questionner les évolutions techniques et les représentations dans un monde en constante mutation.
[Photos de © Philippe Barbosa]
EK: L’IRCAM n’a pas renouvelé finalement les Sound Design Days de 2019 ?
NO : Les acteurs des métiers du son – en particulier du « sound design » – s’ils sont mus par un même objet, ont souvent des motivations et des pratiques qui rendent ces communautés multiples, hétérogènes, avec finalement relativement peu d’échanges entre elles. Les Sound Design Days ont offert l’occasion d’arpenter, de cartographier, et de créer des passerelles entre ces « archipels du sonore ». La première édition en 2019 a eu pour focus thématique le son à l’image animée, avec notamment la carte blanche à Nicolas Becker sur le « Son de la Science-Fiction » ou la présentation de Guillaume Bouchateau sur « La voix des machines ». Ces interventions sont librement accessibles en rediffusion sur : https://medias.ircam.fr/x39c2c7. Cette ouverture à l’image animée et au multimédia est pour moi l’occasion de sortir hors des murs de l’IRCAM et de penser la pratique du son dans des perspectives non-exclusivement musicales. A titre personnel, je suis moi-même passionné de cinéma, d’animés, et de jeux-vidéo ; par ailleurs, mon frère Marc Obin était réalisateur, je contribue d’une certaine manière à prolonger son activité et son œuvre par les chemins détournés du son. Nous travaillons actuellement à l’élaboration du programme de la deuxième édition que nous espérons pour l’automne 2023 ! En parallèle, j’ai créé en 2022 les « Fast-Forward » : un espace de rencontres et d’expérimentations autour du sound design pour l’image animée. Vous pouvez vous abonner à la liste de mail fast-forward-request@listes.ircam.fr si vous le voulez. Les « Fast-Forward » proposent des ateliers pratiques réunissant des chercheurs, développeurs, techniciens, artistes, et sound designers pour présenter les innovations techniques et technologiques liées au son, et créer un contact direct entre ces communautés. Pour son lancement le 22 Mars 2022, le développeur Pierre Guillot a présenté en avant-première les plugins ASAP (AudioSculpt As Plugins) et Cyril Holtz et son équipe ont présenté leur travail du son pour le film To the North de Mihai Mincan. A travers ces rencontres, nous espérons créer un espace d’échanges et de rencontres propices à la création de collaborations concrètes pour la réalisation de projets artistiques ou de solutions sonores (plugins, dispositifs, etc…).
Inscription aux Ateliers du Forum de l'Ircam (29 au 31 mars 2023)
Jean-Pierre Duret à France Culture et en Projections/débat pour son film "S
Jean-Pierre DURET nous raconte dans cette émission de France culture ses rencontres avec Maurice...
Rencontre avec Nicolas Naegelen, dirigeant de Poly Son.
Rencontre avec Nicolas Naegelen, dirigeant de Poly Son, à l'occasion du César Technique...
Rencontre avec Pierre Lenoir.
AFSI, le 17 octobre 2011.Projection de deux extraits en 35 mm SRD:Le Crime est notre affaire...
Interview de Frédéric Dubois
Interview de Frédéric Dubois
Au sein de sa salle de montage, entouré d'écrans et de...
Rencontre AFSI avec Bernard Chaumeil : Foi de hiéroglyphe !
C'est comme un trésor que l'on redécouvre : samedi 2 février 2013 après-midi, en hommage à son...
Rencontre avec Nadine Muse, monteuse son
Plusieurs fois nommée pour le César du meilleur son, Nadine Muse est une monteuse son reconnue...