Des chercheurs de l'université Concordia ont dévoilé une nouvelle méthode de tokenisation audio, FocalCodec, qui compresse la parole en tokens compacts tout en préservant le sens et la qualité.
En utilisant la quantification sphérique binaire et la modulation focale, FocalCodec réduit considérablement le débit binaire, ce qui facilite le traitement de la parole par les grands modèles linguistiques.
Lors de tests d'écoute réalisés auprès de 33 participants, la parole reconstituée a été jugée presque impossible à distinguer des enregistrements originaux, ce qui montre que la nouvelle méthode conserve un son naturel.