Effet de fusion temporelle : couplage acoustique en studio

On a tendance à traiter les problèmes d'écoute en studio en deux temps : d'abord les enceintes, ensuite le traitement acoustique. Mais la réalité est plus subtile. L'objectivité d'une écoute est déterminée non seulement par les caractéristiques des enceintes — courbe de réponse, comportement de phase, distorsion, vitesse d'écoulement de l'énergie dans le temps — mais aussi par le local d'écoute, et surtout par le couplage physique et psychoacoustique entre les deux.

Il faut distinguer deux régimes bien différents. En dessous de 200 Hz, l'énergie restituée à l'endroit d'écoute est réellement modifiée par le local : c'est un couplage physique. Au-delà de 200 Hz, le son direct fourni par l'enceinte reste identique, mais le local nous le fait percevoir différemment : c'est un couplage psychoacoustique. Ces deux phénomènes appellent des solutions très différentes.

01 / Acoustique

Couplage physique dans le grave : en dessous de 200 Hz

Dans cette partie du spectre, les longueurs d'onde sont grandes devant la distance d'écoute. Conséquence directe : il est impossible de distinguer en timbre le son provenant du local de celui provenant de l'enceinte. Ils fusionnent de manière inséparable dans la perception.

La courbe de réponse globale dans cette plage doit donc être la plus régulière possible. Or, si le local n'est pas homogène acoustiquement, les ondes stationnaires qui s'y forment génèrent des impédances acoustiques très variables selon la fréquence et la position d'écoute. L'adaptation d'impédance entre l'enceinte (générateur) et l'air du local (récepteur) fluctue alors fortement, rendant la courbe de réponse très irrégulière — même si l'enceinte est parfaitement plate en champ libre.

Le schéma ci-dessous illustre ce phénomène d'adaptation d'impédance entre l'enceinte et le local, et ce qu'il produit sur la courbe de réponse mesurée à l'endroit d'écoute.

Schéma d'adaptation d'impédance acoustique entre enceinte de studio et local d'écoute — L'adaptation d'impédance acoustique entre l'enceinte et l'air du local varie fortement selon la fréquence, déformant la courbe de réponse même si l'enceinte est théoriquement "droite" en champ libre.

À défaut de traitement acoustique supprimant les ondes stationnaires, une égalisation classique mais prudente peut être envisagée à l'endroit d'écoute.

⚠ Règle d'égalisation dans le grave Un excès d'énergie (bosse) peut toujours être réduit par égalisation. Un manque d'énergie (trou) ne peut souvent pas être compensé électriquement : le traitement ne ferait qu'exciter davantage l'onde stationnaire responsable, augmentant dangereusement la distorsion. Égalise uniquement par attenuation, jamais par amplification.

Deux solutions d'encastrement du caisson de grave

Une approche souvent intéressante consiste à encastrer le caisson de grave afin d'éliminer les filtres en peigne dus aux réflexions à l'arrière de l'enceinte. Deux configurations sont alors possibles :

Toute l'enceinte est encastrée Il faut s'assurer de la parfaite neutralité du bafflage prolongeant la partie médium-aigu, afin d'éviter les irrégularités de rayonnement dans les premières millisecondes à ces fréquences.
Seul le grave est encastré Il faut alors retarder le satellite médium-aigu pour conserver une réponse impulsionnelle et une phase correctes entre les deux voies — sans quoi la cohérence temporelle est compromise.

02 / Psychoacoustique

L'effet de fusion temporelle : les premières réflexions avant 20 ms

Au-delà de 200 Hz, le son direct fourni par l'enceinte reste inchangé. Mais les réflexions du local le contaminent subtilement. On constate aux mesures des déformations de la courbe de réponse dues au retard ∆t entre le son réfléchi R et le son direct D. La vraie question est : percevons-nous ces déformations ? Et si oui, comment les interprétons-nous ?

Une étude psychoacoustique portant sur 150 personnes a été menée à l'INA dans le cadre des stages de formation professionnelle. Elle a montré que seule la portion de la courbe située en dessous d'une fréquence particulière — la fréquence de fusion (Ff) — est réellement significative pour notre perception.

Les trois graphes suivants montrent comment la fréquence de fusion délimite la zone où le son réfléchi se confond avec le son direct, et au-delà de laquelle la réflexion est perçue comme de la réverbération.

Courbe illustrant l'effet de fusion temporelle entre son direct et son réfléchi — cas 1

Courbe illustrant l'effet de fusion temporelle — cas 2 avec retard plus important

Courbe illustrant l'effet de fusion temporelle — cas 3, zone de fusion clairement délimitée

Comment fonctionne la fréquence de fusion

En dessous de Ff, il est impossible de dissocier le son réfléchi du son direct : il y a fusion. Les deux sont perçus comme une seule entité sonore, et la déformation de timbre qu'ils génèrent ensemble est bel et bien audible — et perçue comme appartenant à la source elle-même.

Au-delà de Ff, les deux sons sont perçus distinctement. La perturbation mesurée n'est alors plus interprétée comme une coloration de timbre, mais comme de la réverbération. Celle-ci peut modifier la transparence et la localisation en profondeur de la source, mais pas son timbre.

La fréquence Ff varie inversement avec le retard ∆t entre le son direct et le son réfléchi — phénomène dû à la constante de temps de l'oreille, qui varie elle-même avec la fréquence. A2t a établi une courbe expérimentale rigoureuse permettant de quantifier ce phénomène et de délimiter avec précision la zone de fusion.

Ni l'enceinte, ni le local d'écoute ne doivent ajouter quoi que ce soit dans l'intervalle 0–20 ms — surtout aux fréquences élevées — sous peine de dénaturer la source sonore enregistrée.

Pour simplifier : l'effet de fusion s'étale temporellement de 0 à 20 ms, couvrant graduellement les fréquences de 20 000 Hz (à 0 ms) jusqu'à 200 Hz (à 20 ms). Tout ce qui arrive dans cet intervalle fusionne avec le son direct et colore ton timbre d'écoute — que tu le veuilles ou non, et même si l'effet paraît agréable ou semble ajouter de la précision.

Méthode de mesure Les réflexions qui ne peuvent pas être supprimées par traitement acoustique — comme l'énergie réfléchie par la console — doivent être égalisées électroniquement, mais uniquement via une méthode de mesure de type MLS, sélective en temps et en fréquence. Une mesure au bruit rose est ici insuffisante et trompeuse : elle est aveugle à la dimension temporelle, seule pertinente pour tenir compte de l'effet de fusion.

03 / Acoustique

Le champ réfléchi diffus et l'indice C20

Au-delà de 20 ms, l'énergie entre 200 Hz et 20 000 Hz est perçue comme provenant à part entière du local. Elle provoque un effet de masque d'autant plus gênant qu'elle est importante et qu'elle se situe haut dans le spectre. Néanmoins, elle doit demeurer suffisante pour garantir un confort acoustique naturel, indispensable à la compatibilité de ton mixage à l'extérieur du studio.

L'indice de clarté C20 Un écart de niveau moyen de 5 à 10 dB (selon la fréquence) est acceptable entre l'énergie avant 20 ms et l'énergie après 20 ms. Cette mesure est formalisée par l'indice de clarté C20 :

C20 = 10 log ( ∫₀²⁰ᵐˢ p²(t).dt / ∫₂₀ₘₛ^∞ p²(t).dt )
Ce rapport doit rester stable avec la fréquence. Une variation du C20 selon la fréquence induit une modification du timbre perçu : un effet de masque plus fort à une fréquence donnée crée une impression de manque de niveau à cette même fréquence, et inversement.

Directivité croissante ou constante : deux stratégies différentes

Lorsque l'effet de masque varie selon la fréquence, la manière d'y répondre dépend directement du type d'enceinte que tu utilises.

Directivité croissante Jouer sur l'orientation

En orientant l'enceinte différemment par rapport à l'auditeur, tu modifies l'équilibre tonal du son direct indépendamment du son réfléchi. Le C20 évolue réellement en fonction de la fréquence. C'est une correction rationnelle, cohérente avec la nature auditive du phénomène.

Directivité constante Recourir à l'égalisation globale

L'égalisation modifie la puissance acoustique restituée au local dans sa globalité. Le C20 reste identique. On tente alors de compenser un déséquilibre subjectif par un déséquilibre objectif — ce qui n'est pas rationnel, car les deux ne sont pas de même nature auditive.

Les deux solutions ne sont pas équivalentes. Pour répondre à l'ensemble de ces exigences, une enceinte doit présenter des courbes de réponse sans accidents et une directivité régulièrement croissante avec la fréquence — ce qui assure une phase de rayonnement stable sur 360°. De plus, son bafflage doit permettre un écoulement parfait de l'énergie de 0 à 10 ms, condition nécessaire à l'analyse objective des premières réflexions de l'enregistrement.

04 / Mesure

Cas pratiques : courbes de réponse d'une B 6030

Pour illustrer concrètement ces critères, voici les courbes de réponse en niveau et en phase d'une B 6030 répondant aux exigences décrites : directivité régulièrement croissante, bafflage neutre, écoulement de l'énergie maîtrisé sur les premières millisecondes.

Courbe de réponse en niveau de l'enceinte B6030 illustrant une directivité régulièrement croissante avec la fréquence — Courbe de réponse en niveau de la B 6030 — la directivité croît régulièrement avec la fréquence, garantissant une phase de rayonnement stable à 360° et un son réfléchi prévisible.

Courbe de réponse en phase de l'enceinte B6030 montrant un écoulement de l'énergie maîtrisé dans les 10 premières millisecondes — Courbe de phase de la B 6030 — l'écoulement de l'énergie est maîtrisé sur les 10 premières millisecondes, condition indispensable à l'analyse objective des premières réflexions de l'enregistrement.

Qu'est-ce que la fréquence de fusion (Ff) exactement ?

La fréquence de fusion est la fréquence en dessous de laquelle il est impossible de dissocier le son réfléchi du son direct. Dans cette zone, les deux fusionnent perceptivement et colorent le timbre de ce qu'on entend. Au-delà de Ff, la réflexion est perçue comme de la réverbération — sans effet notable sur le timbre, mais avec un impact sur la transparence et la localisation. Cette fréquence varie inversement avec le retard ∆t entre son direct et son réfléchi.

Pourquoi ne pas se contenter d'une mesure au bruit rose pour corriger son écoute ?

Une mesure au bruit rose n'analyse pas le temps : elle ne distingue pas ce qui arrive avant 20 ms (zone de fusion, qui colore le timbre) de ce qui arrive après (réverbération, qui ne le colore pas). Une égalisation fondée sur ce type de mesure risque de corriger des phénomènes que tu ne perçois pas comme une coloration, et d'ignorer ceux qui t'en causent réellement. La méthode MLS, sélective en temps et en fréquence, est la seule approche rationnelle pour tenir compte de l'effet de fusion.

Peut-on compenser tous les défauts acoustiques par égalisation ?

Non. Dans le grave (< 200 Hz), une bosse peut être réduite électriquement, mais un creux ne peut généralement pas être comblé : l'égalisation exciterait davantage l'onde stationnaire responsable et augmenterait la distorsion. Dans la zone de fusion (0–20 ms, au-delà de 200 Hz), les réflexions qui ne peuvent pas être supprimées acoustiquement peuvent être corrigées, mais uniquement via une mesure MLS. L'égalisation reste un outil de correction de dernier recours, pas un substitut au traitement acoustique.

Le couplage enceinte / local dans le grave

Tu veux approfondir la question du couplage physique et des ondes stationnaires en dessous de 200 Hz ? L'article dédié détaille les solutions pratiques pour maîtriser ton grave en studio.

Lire l'article

Le couplage et l'effet de fusion

Le couplage et l'effet de fusion temporelle

Couplage physique dans le grave : en dessous de 200 Hz

Deux solutions d'encastrement du caisson de grave

L'effet de fusion temporelle : les premières réflexions avant 20 ms

Comment fonctionne la fréquence de fusion

Le champ réfléchi diffus et l'indice C20

Directivité croissante ou constante : deux stratégies différentes

Cas pratiques : courbes de réponse d'une B 6030

Le couplage enceinte / local dans le grave

La check-list
d'une session
en studio pro

Présentation de la Nova avec Alexandre Garcia

Présentation du Trinnov ST2

Optimiser son écoute avec ARC 4

Optimiser son écoute avec Sonarworks

Le couplage et l'effet de fusion

Le couplage et l'effet de fusion temporelle

Couplage physique dans le grave : en dessous de 200 Hz

Deux solutions d'encastrement du caisson de grave

L'effet de fusion temporelle : les premières réflexions avant 20 ms

Comment fonctionne la fréquence de fusion

Le champ réfléchi diffus et l'indice C20

Directivité croissante ou constante : deux stratégies différentes

Cas pratiques : courbes de réponse d'une B 6030

Le couplage enceinte / local dans le grave

La check-list d'une session en studio pro

Présentation de la Nova avec Alexandre Garcia

Présentation du Trinnov ST2

Optimiser son écoute avec ARC 4

Optimiser son écoute avec Sonarworks

La check-list
d'une session
en studio pro