Comment évaluer les algorithmes de
séparation de sources audio ?
Emmanuel V INCENT 1 , Cédric F ÉVOTTE 2 , Rémi G RIBONVAL 3 ,
Laurent B ENAROYA 3 , Xavier RODET 1 , Axel RÖBEL1 , Éric L E C ARPENTIER 2 , Frédéric B IMBOT 3
1 IRCAM, équipe Analyse-Synthèse
1, place Igor Stravinsky, F-75004 PARIS
2 IRCCyN,équipe ADTS
1, rue de la Noë BP 92 101, F-44321 NANTES CEDEX 03
3 IRISA,
projet METISS
Campus de Beaulieu, F-35042 RENNES CEDEX
prenom.nom@ircam.fr, prenom.nom@irccyn.ec-nantes.fr, prenom.nom@irisa.fr
Résumé Dans cet article, nous présentons des applications de la séparation de sources audio et nous proposons quelques idées en vue de
constituer des ressources communes pour l'évaluation des algorithmes de séparation. Notre démarche se décompose en trois parties : identifier
les tâches typiques à résoudre par les algorithmes, construire des critères de mesure de performance, et collecter des jeux de données appropriés
à l'évaluation.
Abstract In this article, we describe a few applications of audio source separation and we propose some ideas towards the construction of an
agreed-upon evaluation framework for audio source separation algorithms. Our work is composed of three steps : identifying the typical tasks to
be addressed by the algorithms, designing numerical performance criteria, and collecting relevant datasets.
1 Introduction
Dans le cadre de cette démarche, après une présentation des
applications de la SSA en Section 2, nous dressons en Section 3
La séparation de sources audio (SSA) est un domaine en la liste de quelques tâches à résoudre par les algorithmes de
plein essor que l'on sait maintenant comment aborder grâce SSA et en proposons une typologie. En Section 4, nous nous
à plusieurs modèles, comme l'Analyse en Composantes In- intéressons aux tâches d'extraction des signaux sources pour
dépendantes (ACI) [1] ou les Décompositions Parcimonieuses lesquelles nous proposons des critères numériques de mesure
(DP). Cependant, la SSA ne consiste pas seulement à résoudre de performance adaptés. Enfin, nous concluons sur la présenta-
un modèle simple, mais à obtenir des résultats pertinents pour tion d'une structure de base de données que nous avons adoptée
l'application visée. Outre la séparation et le débruitage de sour- pour la collecte de données tests et discutons la validité de notre
ces musicales visant une restitution haute qualité, la SSA re- démarche pour d'autres domaines d'applications de la sépara-
couvre des applications aussi diverses que la séparation à des tion de sources.
fins d'indexation dans le domaine du multimédia, la recon-
naissance de la parole en "cocktail party" ou la localisation Le but de cet article n'est donc pas de fournir un panorama
de sources pour l'analyse de scènes auditives. La difficulté du des applications de la SSA, ni d'énumérer les algorithmes les
problème est influencée par des facteurs qui dépendent de l'ap- plus performants. Les lecteurs intéressées par ces questions
plication, et il en est de même des critères et signaux tests à pourront se référer à [5] pour une liste plus complète d'appli-
utiliser pour évaluer la performance d'un algorithme de SSA. cations et d'algorithmes de SSA assortie de nombreuses réfé-
On conçoit donc qu'il est difficile de comparer plusieurs mé- rences, et consulter les résultats de quelques algorithmes sur
thodes si la tâche à résoudre n'est pas explicitement précisée. des signaux test au sein d'une base de données mise à disposi-
tion sur internet [2].
C'est pourquoi nous pensons qu'il est aujourd'hui opportun
de constituer des ressources communes pour l'évaluation des
méthodes de SSA. Nous proposons pour cela une démarche en 2 Applications de la SSA
trois parties [2] : identifier les tâches typiques, construire des
critères de mesure de performance adaptés à chaque tâche, et Une distinction importante peut être faite entre les applica-
collecter des jeux de données pertinents pour l'évaluation. Une tions de la SSA selon que la sortie de l'algorithme est ou non un
réflexion avait été initiée sur le sujet par les auteurs de [3, 4] ensemble de sources extraites destinées à être écoutées. Nous
lors du congrès ICA'99, mais volontairement limitée au cas de appelons ces deux catégories séparation Orientée Qualité Au-
la restitution haute qualité des sources. dio (OQA) et Orientée Extraction de Caractéristiques (OEC).
2.1 Séparation Orientée Qualité Audio extrait musical, le texte prononcé par un locuteur et les carac-
téristiques de ce locuteur dans un enregistrement de parole, la
La séparation OQA vise à extraire les sources d'un mélange position spatiale des sources et le lien avec des objets visuels
en vue de les écouter. Elle se divise en deux familles : extrac- dans un film.
tion "un contre tous" et modification de scènes audio. La difficulté du problème varie selon le nombre de sources et de
Quelques notations permettent de clarifier ces termes. Le pro- capteurs, la quantité de réverbération, la vitesse de déplacement
blème général (éventuellement convolutif) de la SSA xi (t) = des sources, le nombre de catégories pour la classification et la
N
j=1 (aij sj )(t) + ni (t) est exprimé grâce au formalisme des robustesse des algorithmes d'extraction de caractéristiques. La
matrices de filtres comme x = A s + n, où s est le vecteur qualité d'une description globale prenant en compte plusieurs
des N signaux sources (sj )N , x est le vecteur des M signaux
j=1 paramètres peut se mesurer en combinant les qualités d'esti-
d'observation (xi )M , A est la matrice des filtres de mélange,
i=i mation de chaque paramètre (taux d'erreur, distances,etc.) ou
et n est le vecteur des M signaux de bruit additif (ni )M .
i=i en effectuant une série de tests d'écoute.
L'extraction "un contre tous" consiste à extraire d'un mé-
lange une seule sorte de son (la source d'intérêt sj ). Parfois il
n'est pas nécessaire d'extraire sj proprement dit : l'estimation
de l'image sj img = A [0, . . . , 0, sj , 0, . . . , 0]T de sj sur les
capteurs suffit.
Parmi les exemples, on peut citer la restauration de vieux en- 3 Typologie proposée des tâches typiques
registrements musicaux [6], le débruitage et la déréverbération
de la voix pour les prothèses auditives ou les communications en SSA
téléphoniques [7], et l'extraction de sons particuliers dans des
extraits musicaux pour la création de musique électronique. La Les applications de la SSA sont donc nombreuses et très va-
difficulté du problème varie en fonction du nombre de sources riées et, pour chacune, des critères appropriés sont nécessaires
et de capteurs, de l'information a priori disponible, du niveau pour évaluer la performance d'un algorithme. Nous proposons
de bruit, de la dépendance entre les sources, du type de mé- donc de regrouper ces applications en un plus petit nombre de
lange, etc. Une bonne séparation dans ce cas se mesure par des "tâches", afin de permettre la comparaison des diverses mé-
critères dérivés du Rapport Signal-à-Bruit (RSB), nous discu- thodes de séparation en identifiant les critères qualitatifs ap-
tons ce point en Section 4. propriés à chaque tâche.
Le Tableau 1 propose un certain nombre de tâches typiques à
La modification de scènes audio vise à obtenir un nouveau accomplir, définies par la nature des entrées et sorties des al-
mélange xremix = B [f1 (s1 ), . . . , fn (sn )]T correspondant gorithmes (les observations x étant une entrée implicite dans
à l'application d'un traitement audio adapté fj (compression tous les cas). Les noms des tâches sont proches de ceux utilisés
de dynamique, . . . ) à chaque source suivi du mélange des nou- dans la littérature, et les indéterminations du modèle de SSA
velles pistes à l'aide d'une nouvelle matrice B. (filtrage et permutation des sources) sont prises en compte par
Le remastering d'un CD [8], la diffusion sur plusieurs canaux une matrice de permutation P et une matrice diagonale D ar-
d'enregistrements stéréo [9] et le "karaoké automatique" (sup- bitraires.
pression de la voix dans une chanson) en sont des exemples. La
difficulté dépend des mêmes facteurs que précédemment, ainsi Nous séparons les tâches en deux familles, selon qu'un mo-
que du niveau de modification introduit par fj et B. Le pro- dèle des sources est disponible ou non. En effet, la définition
blème est généralement plus simple car au sein de xremix les d'une tâche dépendant de la nature des données en entrée, la
erreurs d'estimation d'une source peuvent être masquées par différence entre les tâches aveugles et les tâches non aveugles
la présence des autres sources. L'évaluation du résultat peut se correspondantes apparaît non négligeable.
faire en calculant un critère dérivé du RSB entre la scène re- Par contre, contrairement à [3, 4], nous regroupons dans chaque
mixée à partir des sources estimées et celle à partir des vraies tâche les mélanges instantanés et convolutifs. Nous pensons
sources. que la structure du mélange A (nombre de sources, taille des
filtres), parfois fournie en entrée à l'algorithme, devrait être
2.2 Séparation Orientée Extraction de Caracté- considérée comme un critère de difficulté (ou une sous-tâche)
ristiques plutôt qu'une tâche à part entière.
Nous regroupons de même dans certaines tâches non aveugles
Le but de la séparation OEC est d'extraire d'un mélange plusieurs types d'information a priori donnant lieu à divers ni-
complexe des informations d'ordre perceptif et cognitif sur les veaux de difficulté. L'information a priori la plus simple est un
sources et/ou les paramètres de mélange. Cela n'implique pas modèle général des sources (famille de distributions de proba-
forcément deux processus successifs de séparation de sources bilité, modèle physique, etc), dont les paramètres peuvent éven-
et de description abstraite : la reconnaissance peut aider la sé- tuellement être appris sur un ensemble d'enregistrements. Par-
paration en fournissant des informations contextuelles. fois, une description des observations est également disponible,
Les appplications OEC concernent principalement l'indexation où nous entendons par description n'importe quel type d'infor-
de bases de données [10] et la création de systèmes d'écoute mation (segmentation temporelle, partition musicale, etc) qui
intelligents [11]. Des exemples de descripteurs utilisés dans ce précise les paramètres du modèle général en fonction des ob-
cadre sont le nom et la partition de chaque instrument dans un servations proprement dit.
TAB . 1 Quelques tâches de SSA, définies par les données en
Pour certaines applications, il peut être utile de séparer dans
entrée et en sortie
la qualité du résultat les erreurs d'estimation dues aux inter-
férences des autres sources, à des résidus de bruit additif et à
d'éventuels artefacts dus à l'algorithme. Il est particulièrement
Tâche Entrée Sortie
important de mesurer la quantité d'artefacts introduite dans le
Comptage n
^ cas des mélanges sous-déterminés, car les algorithmes de sé-
paration donnent souvent dans ce cas une teinte artificielle aux
Identification structure de A sources estimées, les rendant inutilisables pour une application
^
APD musicale par exemple [12].
aveugle de (pas toujours)
mélange Une mesure possible de ces différentes contributions consiste
à décomposer l'erreur totale sous la forme de termes orthogo-
N M
Extraction PD^ ou
s naux etotal = l=1 l sl + k=1 k nk + eartef et à calculer
structure de A j pour chaque terme un rapport d'énergies de type RSD.
aveugle de {^img }N non
s j=1
Une boîte à outils MATLAB implémentant ces critères est dis-
sources ordonnées ponible sur internet [2].
Modification structure de A, B
xremix
^ Enfin, puisque les sources sont destinées à être écoutées, il
aveugle de scène et (fj )N
j=1
est possible de modifier de façon mineure ces critères pour te-
modèles des nombre ^k de nir compte des spécificités de l'audition, telles que les lois de
Détection masquage auditif spectral et temporel.
sources sources suivant
(Mk )K
k=1 Mk
Identification/ description de s 5 Conclusion et perspectives
modèle de s
Représentation et A
Ce travail donne un aperçu des applications de la SSA et
modèle et ^ ou
s (^j )N
simg j=1 propose une démarche à suivre pour la construction d'un cadre
Extraction de
description de s d'évaluation commun des algorithmes de SSA. Celle-ci consiste
sources ordonnées
et A en trois points : dresser un tableau des tâches typiques à ré-
soudre ; pour chaque tâche, construire des critères de mesure
modèle et des- de performance ; rassembler des données test structurées pour
Modification de cription de s et A, xremix
^ l'évaluation.
scène B et (fj )N
j=1
Nous avons abordé les deux premiers points dans les Sec-
tions 3 et 4, en proposant une typologie de quelques tâches
4 Critères de performance pour l'extrac- identifiées dans la littérature et des critères adaptés aux tâches
d'extraction de sources. Nous encourageons les chercheurs à
tion de sources engager une discussion à partir de nos propositions sur notre
liste de discussion [2], de façon à aboutir à un cadre d'évalua-
Chaque tâche décrite en Section 3 sous-entend un moyen tion partagé par la communauté.
qualitatif de mesurer la performance des algorithmes qui s'y at- En ce qui concerne le troisième point, une base de données
taquent. Cependant, un cadre d'évaluation rigoureux nécessite structurée et plusieurs signaux test ont été mis à disposition sur
la définition de critères objectifs pertinents et partagés [3, 4]. internet [2]. Ordonnée par tâches et par niveaux de difficulté
Pour les tâches d'extraction de sources, aveugle ou non, il est (ou sous-tâches), cette base de données permet de consulter in-
possible de mesurer la qualité de chaque source estimée sm en
^ dépendamment les informations sur un jeu de données, sur un
fonction de la vraie source sm par des critères de type RSB. algorithme, et sur ses performances. Le succès de cette initia-
La difficulté tient à la prise en compte des indéterminations du tive dépend des contributions de la communauté SSA, aussi
modèle et au choix de critères adaptés aux applications. nous encourageons nos collègues à soumettre leurs jeux de
données et les résultats de leurs algorithmes.
Dans le cas d'un mélange instantané, une possibilité consiste Enfin, en vue de fournir une liste objective des algorithmes les
à écrire la source estimée sous la forme sm = m sm + etotal ,
^ plus performants pour certaines applications, nous projetons
où l'erreur totale etotal est orthogonale à la vraie source sm , d'organiser un concours de séparation de sources audio dès que
et à définir un Rapport Signal-à-Distorsion (RSD) RSDm = possible.
m sm 2 / etotal 2 [12].
Lorsque A est inversible et n = 0, ce RSD peut aussi se cal- Nous pensons que la démarche que nous avons entreprise
culer sur la matrice de mixage estimée, mais dans les cas plus en vue de l'évaluation des méthodes de séparation de sources
complexes l'estimation correcte de la matrice de mixage ne suf- appliquées aux signaux audio pourrait être appliquée avec suc-
fit plus à retrouver les sources. C'est pourquoi il est important cès à d'autres domaines comme les applications biomédicales,
de distinguer les mesures de performance pour les tâches d'ex- l'imagerie hyperspectrale, la classification multimédia, la com-
traction de sources et d'identification de mélange. pression, etc. L'approche consistant à identifier des tâches ty-
piques à résoudre préablablement à la collecte de jeux de don-
nées permet de structurer ces jeux de données de façon adaptée
au problème et d'évaluer tous les algorithmes par les mêmes
critères.
D'autre part, une typologie des tâches peut permettre d'identi-
fier certaines tâches moins étudiées que les autres, fournissant
ainsi de nouveaux buts de recherche. C'est le cas en audio pour
les tâches de modification de scènes qui, malgré leurs critères
de performance moins restrictifs, semblent moins étudiées que
les tâches d'extraction de sources par exemple.
6 Remerciements
Ce travail a été réalisé dans le cadre de l'Action Jeunes Cher-
cheurs du GdR ISIS "Ressources pour la séparation de signaux
audiophoniques". La démarche décrite dans cet article consti-
tue l'objectif de l'Action, et ses résultats, y compris les articles
[5, 12], sont disponibles sur le site internet [2].
Références
[1] J.-F. Cardoso, "Blind source separation : statistical prin-
ciples," in IEEE Proc., 1998, vol. 90, pp. 20092026.
[2] Action Jeunes Chercheurs du GDR ISIS (CNRS), "Res-
sources pour la séparation de signaux audiophoniques,"
http ://www.ircam.fr/anasyn/ISIS/.
[3] D. Schobben, K. Torkkola, and P. Smaragdis, "Evaluation
of blind signal separation methods," in Proc. Int. Work-
shop on ICA and BSS (ICA'99), 1999, pp. 261266.
[4] R.H. Lambert, "Difficulty measures and figures of merit
for source separation," in Proc. Int. Workshop on ICA and
BSS (ICA'99), 1999, pp. 133138.
[5] E. Vincent, X. Rodet, A. Röbel, C. Févotte, R. Gribonval,
L. Benaroya, and F. Bimbot, "A tentative typology of
audio source separation tasks," in Proc. Int. Worshop on
ICA and BSS (ICA'03), 2003, pp. 715720.
[6] Olivier Cappé, Techniques de réduction de bruit pour la
restauration d'enregistrements musicaux, Ph.D. thesis,
Télécom Paris, 1993.
[7] H. Attias, J.C. Platt, A. Acero, and L. Deng, "Speech de-
noising and dereverberation using probabilistic models,"
in Proc. Int. Workshop on Neural Information Processing
Systems (NIPS'01), 2001.
[8] R. Radke and S. Rickard, "Audio interpolation," in Proc.
Int. Conf. on Virtual, Synth. and Entertainment Audio,
2002.
[9] R. Dressler, "Dolby Surround Pro Logic II decoder :
Principles of operation," Dolby Laboratories Information,
2000.
[10] M. Casey, "Generalized sound classification and simila-
rity in MPEG-7," Organized Sound, vol. 6, no. 2, 2002.
[11] D.P.W. Ellis, Prediction-driven computational auditory
scene analysis, Ph.D. thesis, MIT, 1996.
[12] R. Gribonval, L. Benaroya, E. Vincent, and C. Févotte,
"Proposals for performance measurement in source sepa-
ration," in Proc. Int. Workshop on ICA and BSS (ICA'03),
2003, pp. 763768.