TITRE: Représentation de la phase pour la conversion de voix
LABO: Equipe PAROLE, Inria Nancy (http://parole.loria.fr/)
ENCADRANTS: Joseph Di Martino et Emmanuel Vincent
DEBUT: entre janvier et avril 2014
DUREE: 4 à  6 mois
REMUNERATION: gratification
CANDIDATURE: envoyer un CV, une lettre de motivation, et le relevé de notes de master 1 à  emmanuel.vincent@inria.fr


La conversion de voix vise à  modifier un signal de parole prononcé par un locuteur (source) de sorte à  ce qu'il semble avoir été prononcé par un autre locuteur (cible). Pour cela, on représente le signal source par un modèle excitation-filtre, on traduit les paramètres de ce modèle dans l'espace du locuteur cible grà¢ce à  une transformation basée sur les mélanges de gaussiennes [1,2] ou la factorisation matricielle parcimonieuse [3], et on resynthétise le signal à  partir des paramètres transformés.

La majorité des techniques existantes sont basés sur la représentation STRAIGHT [4], qui modélise le signal d'excitation par sa hauteur. Cette représentation est insuffisante pour une bonne qualité de resynthèse en pratique. La technique ISE2D [5] se démarque en représentant le signal d'excitation par son spectre de puissance, qui permet une meilleure estimation du spectre de puissance de la voix après conversion. La représentation du spectre de phase reste cependant un problème ouvert important pour obtenir une qualité parfaite.

Ce stage vise à  étudier une représentation du spectre de phase issue de la recherche en séparation de sources audio [6]. Les résultats obtenus seront évalués sur les corpus franà§ais Idiologos [7] (200 locuteurs) ou le corpus anglais CMU ARCTIC [8] (4 locuteurs). Un corpus anglais complémentaire pourra àªtre collecté auprès de quelques locuteurs.


Profil recherché:
Master 2 en traitement du signal ou en informatique.
Expérience de programmation en Matlab, Python/SciPy, ou C/C++.


[1] Y. Stylianou, O. Cappé, and E. Moulines, Ã¢â‚¬Å“Continuous probabilistic transform for voice conversionÃ¢â‚¬, IEEE Transactions on Speech and Audio Processing, 6(2):131-141, 1998.

[2] T. Toda, A. Black, and K. Tokuda, "Voice conversion based on maximum likelihood estimation of spectral parameter trajectory", IEEE Transactions on Audio, Speech, and Language Processing, 15(8):2222-2235, 2007.

[3] R. Aihara, R. Takashima, T. Takiguchi, and Y. Ariki, "A preliminary demonstration of exemplar-based voice conversion for articulation disorders using an individuality-preserving dictionary", EURASIP Journal on Audio, Speech and Music Processing, 2014:5, 2014.

[4] H. Kawahara, I. Masuda-Katsuse, and A. de Cheveigné, "Restructuring speech representations using a pitch-adaptive time-frequency smoothing and an instantaneous-frequency-based f0 extraction", Speech Communication, 27:187-207, 1999.

[5] A. Werghi, J. Di Martino, and S. Ben Jebara, "On the use of an iterative estimation of continuous probabilistic transforms for voice conversion", in Proc. 5th International Symposium on I/V Communications and Mobile Network (ISVC), pp. 1-4, 2010.

[6] P. Mowlaee and R. Saeidi, "On phase importance in parameter estimation in single-channel speech enhancement", in Proc. 2013 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 7462-7466, 2013.

[7] E. Pinto, D. Charlet, H. Franà§ois, D. Mostefa, O. Boà«ffard, D. Fohr, O. Mella, F. Bimbot, K. Choukri, Y. Philip, and F. Charpentier, "Development of new telephone speech databases for French: the NEOLOGOS Project", in Proc. 4th International Conference on Language Resources and Evaluation (LREC), 2004.

[8] J. Kominek and A. Black, "CMU ARCTIC databases for speech synthesis", Technical Report, Carnegie Mellon University, 2003.