Utilisation du prélude Tristan d'OrchPlay pour étudier l'identification des instruments de musique dans des scénarios acoustiques réalistes

par Simon Jacobsen
28 avril 2023

Introduction

L'identification des instruments de musique est un sujet important tant dans le domaine de la recherche d'informations musicales (MIR) que dans celui de la cognition musicale. Alors que la MIR s'efforce de mettre au point des algorithmes capables de détecter tous les instruments dans des mélanges sonores complexes, les études sur les performances humaines se sont limitées à des sons isolés ou à des conditions de mélange contrôlées. Dans le cadre de ma thèse de doctorat, je modéliserai l'identification des instruments de musique dans des conditions acoustiques réalistes.

Qu'est-ce que j'entends par « conditions réalistes » ? Imaginez un concert symphonique à l'Elbphilharmonie de Hambourg, en Allemagne. Vous êtes assis à la meilleure place de la salle—même si, à vrai dire, toutes les places sont les meilleures dans cette salle de concert—et vous fermez les yeux pour écouter cette musique que vous n'avez jamais entendue auparavant. Alors que vous êtes exposé aux sons provenant de la scène et à leurs réflexions sur les murs, vous êtes submergé par les émotions fortes que suscite la musique. Et vous vous dites : « Quel beau son de hautbois ! Et l'accompagnement... Attendez, quels instruments est-ce que j'entends ? Est-ce un cor français ou un basson ? » Peut-être ne vous posez-vous pas réellement ces questions, mais vous pourriez le faire. Et elles sont tout à fait légitimes.

Or, mener des recherches scientifiques pendant un concert d'orchestre dans une salle de concert peut s'avérer difficile et plutôt inhabituel. Il serait donc intéressant de simuler un tel environnement. C'est précisément ce que propose la bibliothèque OrchPlayMusic : de précieuses occasions de plonger plus profondément dans le monde de l'orchestration et du timbre. Dans mon cas, c'est un outil qui me permet de mener des recherches scientifiques approfondies sur la perception musicale et l'analyse de scènes musicales. Dans cette mise à jour du projet, je vais décrire comment j'intègre OrchPlay dans mon projet de recherche. Elle contient les résultats des activités de recherche menées pendant mon échange ACTOR au laboratoire de perception et de cognition musicales de l'université ɬÀï·¬, ainsi que les mises en Å“uvre qui ont suivi au laboratoire de perception et de traitement musicaux de l'université Carl von Ossietzky d'Oldenburg, en Allemagne, jusqu'à présent. Je prévois de publier une série de mises à jour sur ce projet à l'avenir.

Motivation

Identification et mélange des instruments

Lorsqu'on parle d'identification d'instruments, il existe différentes façons d'évaluer les performances de l'auditeur. Il y a l'approche « L'instrument était-il dans le mixage », qui se concentre principalement sur la reconnaissance, car le type d'instrument en lui-même n'est pas nécessairement important. Une approche plus générale consisterait à simplement jouer un mélange, puis à demander à l'auditeur de lister tous les instruments qu'il a entendus. Ce serait le défi ultime dans le cadre d'un orchestre complet. Dans mon projet, j'utiliserai une approche intermédiaire entre ces deux méthodes. À partir d'une ligne mélodique donnée, ambiguë sur le plan acoustique et timbral, le ou les instruments corrects représentant cette mélodie doivent être identifiés dans un mélange sonore ultérieur. En fonction de l'orchestration sous-jacente, la mélodie donnée ne correspond pas nécessairement à un seul instrument cible. Elle pourrait très bien représenter plusieurs instruments cibles jouant à l'unisson. En ce sens, la tâche d'identification pourrait être utilisée comme une mesure objective du mélange entre les instruments individuels. Comme le suggère Sandell (1995), le mélange entre les sons pourrait être décrit par l'hétérogénéité timbrale, l'augmentation timbrale ou l'émergence timbrale. Alors que les deux premiers cas rendent les instruments participants identifiables, le troisième devrait aboutir à un mélange complet des sons, les rendant ainsi non identifiables. Ces résultats perceptifs du mélange devraient être inversement corrélés aux performances d'identification.

Voici quatre exemples audio tirés de l'interprétation par OrchPlay du prélude de Wagner à « Tristan et Isolde » pour simuler la tâche d'identification. Chaque stimulus commence par la mélodie cible basée sur des sons purs, suivie du mélange orchestral. À titre de référence, le ou les instruments cibles isolés sont ensuite également reproduits. Tous les instruments cibles contenus dans le mélange sont également répertoriés à la fin de ce rapport.

Acoustique des salles

Mais mon étude ne portera pas uniquement sur le timbre des instruments. Dans le but de combiner la boucle de communication acoustique complète, l'acoustique de la salle et la réverbération qui fournit des repères binauraux à l'auditeur constitueront un autre axe du projet. Afin de quantifier les effets de la salle dans laquelle la musique est jouée – il s'agit d'une salle de concert pouvant accueillir un orchestre symphonique complet –, trois paramètres acoustiques de la salle seront étudiés. Pour mesurer la taille effective de la salle, différents temps de réverbération T60 seront utilisés. Le T60 est une mesure du temps nécessaire pour que le son soit réduit de 60 dB après que la source sonore a cessé de jouer. Les deux autres paramètres sont la distance entre l'auditeur et la scène, qui sert à mesurer le son direct par rapport au son réverbérant, et la configuration spatiale des instruments sur scène, qui fournit différents degrés de repères binauraux à partir des premières réflexions.

Matériel audio

Score simulé

Pour effectuer la tâche d'identification et contrôler les instruments individuels, il est nécessaire de disposer de l'audio multicanal de la partition entière. La bibliothèque OrchPlayMusic fournit des pistes stéréo individuelles pour chaque instrument. Le son des instruments est très réaliste et provient d'une combinaison de bibliothèques sonores qui fournissent des enregistrements des sons individuels des instruments sur toute la gamme de hauteur, la gamme dynamique et la palette d'articulation de l'instrument. Différentes bibliothèques sonores utilisent différents types d'enregistrements microphoniques, tels que la prise de son rapprochée, la prise de son A/B et leur combinaison. Certains instruments sonnent mieux avec une prise de son rapprochée (principalement les bois) et d'autres avec une prise de son A/B (cuivres et cordes). Les pistes d'instruments « sèches » obtenues ont ensuite été mixées à l'aide d'une station de travail audio numérique (DAW) afin d'ajouter de la réverbération, d'égaliser les instruments individuels et de créer d'autres effets dynamiques et d'accordage pour obtenir une interprétation hybride acoustique-numérique de la partition qui sonne agréablement et recrée un enregistrement de salle de concert.

Manipulation des pistes audio

Pour ce projet, l'audio multicanal sera utilisé pour restituer chaque instrument dans un environnement acoustique virtuel (VAE), comme décrit plus en détail dans la section suivante consacrée à la restitution acoustique. Dans l'ensemble, l'idée est de restituer et de manipuler l'acoustique ou la réverbération de la salle à l'aide d'un outil de simulation acoustique. Mais il y a un problème : comme l'audio d'OrchPlay comprend déjà une réverbération, les simulations ultérieures d'une salle de concert à l'aide de ces stimuli créeraient une réverbération supplémentaire qui s'ajouterait à celle déjà existante. Cela ne reflète pas un scénario physique et acoustique réaliste. Pour surmonter ce problème de « double réverbération », des modifications ont dû être apportées au mixage pour chaque instrument. Tout d'abord, la réverbération sélectionnée – dans ce cas, la Grande Salle de la Philharmonie de Berlin – a été supprimée pour tous les instruments. Ensuite, afin de garantir des latences sonores correctes entre les instruments dans la simulation de salle, les délais numériques supplémentaires dépendant des instruments ajoutés dans la DAW ont été supprimés. Dans l'enregistrement stéréo, les délais devaient créer une impression de distance entre les instruments. Les pistes obtenues comprenaient désormais les enregistrements originaux avec différentes techniques de prise de son et les modifications spectrales, dynamiques et de panoramique ajoutées.

Il s'est avéré que d'autres mesures devaient être prises pour que les stimuli soient prêts à être traités. Étant donné que l'emplacement spatial des instruments serait déterminé par le logiciel de simulation acoustique de la pièce, le panoramique initial via l'audio stéréo a dû être supprimé et mixé en un signal audio mono. De plus, le délai numérique a été ajouté à nouveau, car les entrées des instruments semblaient être dispersées lors des premiers tests dans le VAE. Le fait de conserver le délai des pistes originales semblait résoudre ce problème.

Limites et défis

Il existe encore certaines limites à l'ensemble actuel de stimuli qui devront être abordées à l'avenir. Il convient notamment d'étudier comment les enregistrements réalisés à l'aide de différentes techniques de prise de son influencent la perception des instruments individuels, car certains enregistrements comprennent déjà des réflexions précoces. Leur audibilité et leur superposition devraient être testées dans le cadre d'expériences psychoacoustiques. Un autre problème concerne l'ensemble des cordes, qui ont été enregistrées en ensemble. En théorie, chaque instrument solo devrait être rendu pour composer chaque section, puis rendu dans la simulation acoustique de la pièce. Mais cette option n'est généralement pas viable, car elle supprime l'effet tutti des cordes et ne donne finalement pas un son très réaliste. Pour la simulation, cependant, cela signifie que chaque section est représentée par une seule source sonore qui ne remplit pas un grand espace de la scène virtuelle. Le simple fait de dupliquer les sources pour ajouter une impression spatiale entraînerait des artefacts audibles, car les sources sonores sont identiques et donc cohérentes. La superposition de versions légèrement retardées en raison de la configuration spatiale entraînerait également des effets de filtre en peigne, en particulier pour le son direct et les premières réflexions. Le maintien de l'image stéréo pour les cordes semblait permettre de surmonter ce problème et d'ajouter la perception d'une source spatialement étendue dans une première implémentation, comme décrit dans les sections suivantes.

Position of the loudspeakers and the listener in the Dark-Lab

Figure 1. Position des haut-parleurs et de l'auditeur dans le Dark-Lab.

Rendu acoustique

Logiciel de simulation

Comme déjà mentionné dans la partie précédente, les stimuli sont rendus dans un environnement acoustique virtuel (VAE) qui crée une scène avec l'acoustique d'une salle de concert. La boîte à outils pour la création et le rendu de scènes acoustiques () est utilisée pour construire le chemin sonore direct et les combinaisons spécifiques à la pièce des réflexions précoces et de la réverbération tardive à l'aide de réseaux de retard de rétroaction (FDN). (Grimm et al., 2019). En termes simples, elle utilise un modèle géométrique d'une salle de concert avec des coefficients d'absorption et de réflexion pour les murs et le plafond et calcule les réflexions jusqu'à un ordre donné. La réverbération tardive est ajoutée à l'aide d'un son diffus. Les instruments individuels peuvent être placés librement dans la pièce, tout comme l'auditeur. TASCAR est même capable d'ajuster tous les chemins sonores pendant la lecture afin de simuler en temps réel le déplacement des sources sonores ou des récepteurs. Pour restituer un orchestre entier, les sources sonores des instruments sont placées sur la scène selon un système de coordonnées tridimensionnel. L'auditeur virtuel peut également être placé à des coordonnées spécifiques, par exemple dans le public ou même parmi les instruments sur la scène. En ce sens, la perception sonore du point de vue du musicien peut également être simulée.

Disposition des haut-parleurs

Le VAE est actuellement diffusé à travers une configuration rectangulaire de 16 haut-parleurs (Figure 1). Douze haut-parleurs ont été espacés selon un angle de séparation de 30 degrés, de sorte que quatre d'entre eux se trouvent aux emplacements 0, 90, 180 et –90 degrés. À l'avant (0 degré), où la scène est rendue, quatre haut-parleurs supplémentaires comblent les espaces à 15, 45, –45 et –15 degrés afin de réduire l'angle de séparation à 15 degrés. Emplacements de tous les haut-parleurs : 0, 15, 30, 45, 60, 90, 120, 150, 180, –150, –120, –90, –60, –45, –30, –15 degrés. La configuration a été calibrée à un niveau de référence de 70 dB SPL de bruit rose pour le son direct de chaque haut-parleur et le champ diffus combiné. Différentes options de lecture peuvent être sélectionnées, notamment le panoramique du haut-parleur le plus proche (NSP), le panoramique d'amplitude vectoriel (VBAP) ou l'ambisonique bidimensionnelle d'ordre supérieur. L'auditeur réel est alors placé au centre de la pièce pour une lecture acoustique optimale. À l'avenir, le VAE sera lu à travers un ensemble encore plus grand de 48 haut-parleurs. Cela permettra une localisation plus précise des instruments lors de l'utilisation de la méthode NSP.

Nivellement

Les étapes suivantes consistaient à équilibrer les différents instruments et à trouver une option de lecture appropriée pour les cordes tutti. Pour l'équilibrage, certains instruments ont été pris comme référence, puis les autres instruments ont été ajustés par rapport à l'instrument de référence. Chaque groupe d'instruments a été équilibré séparément. Par exemple, pour les cuivres, les cors, qui jouent un rôle dominant et caractéristique dans le prélude, ont d'abord été réglés à un niveau sonore réaliste, puis le trombone, les trompettes et le tuba ont été ajustés en conséquence. La même chose a pu être faite pour les bois. Cependant, seuls leurs niveaux sonores globaux ont été ajustés, car leurs niveaux étaient déjà hautement optimisés pour le jeu d'ensemble et le mélange. Pour les cordes tutti, avant d'ajuster les niveaux, une solution de lecture différente a été étudiée, qui impliquait la séparation susmentionnée des canaux gauche et droit de l'enregistrement stéréo. Au lieu de mixer et de lire un signal mono, comme cela a été fait pour les bois, les cuivres et les timbales, les signaux stéréo séparés doivent être placés de manière à créer un effet spatial, par exemple une section de premiers violons qui s'étend de l'extrême gauche au centre de la scène, vue depuis le public. Cette méthode devait créer un effet spatial enveloppant l'auditeur sans générer d'artefacts audibles tels que des filtres en peigne, recréant ainsi l'image stéréo originale au sein de la scène. Les premiers tests en laboratoire ont confirmé que ce choix constituait une bonne solution pour « simuler » les cordes tutti, même s'il ne reflète pas nécessairement la réalité physique au sein du VAE. Néanmoins, il offre pour l'instant une option de lecture convaincante et de bonne qualité. Il faudra toutefois tenir compte à l'avenir des implications pour les tâches d'identification spécifiques impliquant les cordes.

Conclusion et perspectives

Cette mise à jour du projet portait sur les premières étapes et les mises en œuvre utilisant le prélude de Tristan et Isolde de Richard Wagner comme étude de cas pour mon projet de recherche doctorale sur la modélisation de l'identification des instruments de musique dans des conditions acoustiques réalistes. Les stimuli instrumentaux d'OrchPlay ont été utilisés et manipulés pour permettre le rendu acoustique de la pièce dans un environnement acoustique virtuel (VAE). Grâce au logiciel de simulation TASCAR, les réflexions précoces et la réverbération tardive donnent l'impression réaliste d'une salle de concert. Les efforts de positionnement et de nivellement des sources pour tous les instruments ont déjà montré une intégration réussie et une recréation réaliste des simulations orchestrales d'OrchPlay.

Le projet présente ainsi une mise en œuvre pratique d'OrchPlay pour la recherche scientifique sur l'analyse de scènes musicales. Non seulement l'utilisation de stimuli orchestraux dans des expériences psychoacoustiques, mais aussi la possibilité de rendre l'acoustique de la pièce dans un environnement sonore surround montrent les capacités et les défis de l'application d'OrchPlay dans un tel environnement. Il s'agit de la première tentative de création d'un moyen de combiner le logiciel avec des simulations acoustiques externes de la pièce, ce qui pourrait ouvrir la possibilité d'une lecture sonore surround directement via OrchPlay.

En ce qui concerne le déroulement de mon projet de recherche, la configuration actuelle fournit les bases pour des expériences avec des musiciens et des non-musiciens, ainsi qu'avec des participants normo-entendants et malentendants à l'avenir. Les performances d'identification, mais aussi les évaluations de la qualité sonore, fourniront des informations sur les mécanismes d'analyse des scènes musicales et sur la manière dont les éléments musicaux et acoustiques façonnent ce processus du système auditif.

Félix and Simon working on the virtual orchestra scene

Figure 2. Félix et Simon travaillant sur la scène de l'orchestre virtuel dans le Dark-Lab de l'université d'Oldenburg.

Remerciements

Je tiens à remercier Stephen McAdams, le Music Perception and Cognition Lab et le programme ACTOR de m'avoir accueilli à Montréal en octobre 2022. Je remercie tout particulièrement Félix Baril pour m'avoir fourni les sons OrchPlay, m'avoir aidé à manipuler les stimuli et être venu à Oldenburg pour un projet commun visant à mixer les instruments dans la scène virtuelle.

Liste de références

  • Grimm, G., Luberadzka, & J., Hohmann, V. (2019). Une boîte à outils pour le rendu d'environnements acoustiques virtuels dans le contexte de l'audiologie. Acta Acustica united with Acustica, 105(3), 566–578
  • Sandell, Gregory J. (1995). Rôles du centroïde spectral et d'autres facteurs dans la détermination des combinaisons d'instruments « mélangés » dans l'orchestration. Music Perception, 13(2),209–246.

Résolution des instruments dans les exemples audio

  • Exemple audio 1, instrument(s) cible(s) : hautbois
  • Exemple audio 2, instrument(s) cible(s) : 2 bassons (à l'unisson)
  • Exemple audio 3, instrument(s) cible(s) : 2 cors français (loco et 8vb)
  • Exemple audio 4, instrument(s) cible(s) : 2 hautbois (à l'unisson), cor anglais, 2 clarinettes (à l'unisson), 2 bassons (à l'unisson 8vb), 2 cors français (loco et 8vb)