Un milliard de vidéos YouTube aux sous-titres automatiques

0

youtube

L’automatisation des sous-titres des vidéos YouTube a commencé progressivement dès 2006. En 2009, on observe encore un certain nombre d’incohérences dans les sous-titres automatiques, sans compter les problèmes de traduction. Aujourd’hui, le machine learning permet de corriger ce défaut : un milliard de vidéos sont désormais automatiquement sous-titrées.

YouTube a donc fait savoir qu’un milliard de vidéos, visionnées plus de 15 millions de fois par jour, ont des sous-titres automatiques. Les algorithmes de machine learning prennent en charge toute une panoplie de langues : l’anglais, le français, l’espagnol, le portugais, le russe, le néerlandais, l’italien, l’allemand, le coréen ainsi que le japonais. Le machine learning, pour parvenir à ce résultat, a été amélioré année après année. Concrètement, le jeu de données a été sensiblement accru. En outre, on a procédé au perfectionnement des algorithmes d’apprentissage automatique ou statistique, mais aussi à un affinement considérable de la reconnaissance automatique de la parole. En tout cas, les sous-titres automatiques en anglais, entre autres, sont deux fois plus précis après des années de travail d’optimisation.

Des obstacles peuvent compliquer la tâche à YouTube

Il est clair que les responsables de la plateforme en ligne sont parfaitement conscients de la complexité de l’automatisation des sous-titres, en dépit des avancées notables accomplies depuis plusieurs années. Il est vrai que sur YouTube, les contenus sont extrêmement variés. Qui plus est, la reconnaissance automatique de la parole se base sur une composante acoustique pour les sons basiques, une analyse lexicale ainsi qu’une statistique servant de référence pour mesurer l’ensemble des phrases qui sont prononcées dans une langue. Ce processus est tributaire de la qualité audio du contenu. En tout cas, il est toujours possible pour chaque créateur de vérifier ou éventuellement modifier, voire annuler, ces contenus si des incohérences apparaissent dans les sous-titres automatiques.

Que pensez-vous de la viabilité de cette avancée sur YouTube ?

Laisser un commentaire

Please enter your comment!
Please enter your name here