TITRE: R&eacute;seaux de neurones profonds pour l&apos;estimation robuste de la fr&eacute;quence fondamentale
LABO: &eacute;quipe PAROLE, Inria Nancy (http://parole.loria.fr/)
ENCADRANTS: Vincent Colotte et Emmanuel Vincent
DEBUT: entre janvier et avril 2014
DUREE: 4 &agrave;  6 mois
REMUNERATION: gratification
CANDIDATURE: envoyer un CV, une lettre de motivation, et le relev&eacute; de notes de master 1 &agrave;  vincent.colotte@loria.fr et emmanuel.vincent@inria.fr

La fr&eacute;quence fondamentale est une caract&eacute;ristique essentielle de la parole. Elle v&eacute;hicule des informations sur le sens global de la phrase (mise en relief, assertion, ou interrogation), sur l'&eacute;tat &eacute;motionnel du locuteur, et m&ecirc;me sur le sens des mots dans certaines langues (mandarin, vietnamien, zoulou...).

Les techniques classiques d'estimation de la fr&eacute;quence fondamentale sont bas&eacute;es sur le cepstre ou sur l'auto-corr&eacute;lation du signal [1,2]. Elles fonctionnement bien en environnenement calme, mais leur performance diminue dans les situations o&ugrave; la parole est superpos&eacute;e &agrave; un bruit [3].

Ce stage vise &agrave;  concevoir une technique d'estimation de la fr&eacute;quence fondamentale robuste au bruit bas&eacute;e sur les r&eacute;seaux de neurones profonds [4], qui constituent aujourd'hui l&apos;&eacute;tat de l&apos;art sur de nombreuses t&acirc;ches de traitement du signal. L&apos;usage des r&eacute;seaux de neurones profonds pour l&apos;estimation de la fr&eacute;quence fondamentale a &eacute;t&acute; &eacute;valu&eacute; dans [5] en utilisant le spectre de puissance &agrave; court terme du signal comme entr&eacute;e. Nous proposons d&apos;exploiter une nouvelle repr&eacute;sentation du spectre de phase [6] en entr&eacute;e afin de d&eacute;passer cet &eacute;tat de l&apos;art.

L&apos;apprentissage et le test de la technique d&eacute;velopp&eacute;e seront effectu&eacute;s sur un corpus de parole avec v&eacute;rit&eacute; terrain acquise par laryngographe [7]. La parole sera superpos&eacute;e &agrave;  diff&eacute;rentes sortes et niveaux de bruit correspondant &agrave;  des situations r&eacute;elles rencontr&eacute;es par les ing&eacute;nieurs du son.


Profil recherch&eacute; :
Master 2 en traitement du signal, informatique, ou apprentissage.
Exp&eacute;rience de programmation en Matlab, Python/SciPy, ou C/C++.


[1] A.M. Noll, "Cepstrum pitch determination", Journal of the Acoustical Society of America, 41(2):293-309, 1967.

[2] A. de Cheveign&eacute; and H. Kawahara, "YIN, a fundamental frequency estimator for speech and music", Journal of the Acoustical Society of America, 111:1917, 2002.

[3] I. Luengo, I. Saratxaga, E. Navas, I. Herneiez, J. Sanchez, and I. Sainz, "Evaluation of pitch detection algorithms under real conditions", in Proc. 2007 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), vol. 4, pp. 1057-1060, 2007.

[4] L. Deng and D. Yu, Deep learning: methods and applications, Now Publishers, 2014.

[5] K. Han and D.L. Wang, "Neural network based pitch tracking in very noisy speech", IEEE/ACM Transactions on Audio, Speech, and Language Processing, 22(12):2158-2168, 2014.

[6] P. Mowlaee and R. Saeidi, "On phase importance in parameter estimation in single-channel speech enhancement", in Proc. 2013 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 7462-7466, 2013.

[7] G. Pirker, M. Wohlmayr, S. Petrik, and F. Pernkopf, "A pitch tracking corpus with evaluation on multipitch tracking scenario", in Proc. Interspeech, pp. 1509-1512, 2011.
Online: http://www.spsc.tugraz.at/tools