YouTube навчився автоматично підписувати навколишні звуки у відео
У YouTube з'явилася функція, яка автоматично підписує у відеороликах навколишні звуки - оплески, музику і сміх. Це допоможе краще розуміти те, що відбувається на екрані тим, у кого є проблеми зі слухом.
Можливості системи поки обмежені трьома перерахованими категоріями. YouTube використовує машинне навчання, щоб визначати звуки і показувати їх текстові описи.
Компанія розробила нейронну мережу і натренувала її, використавши тисячі годин відео. За словами розробників, найскладніше було навчити систему відрізняти елементи, які звучать одночасно - наприклад, сміх і рукоплескання.
У результаті опису навколишніх звуків стали відображатися разом зі стандартними автоматичними субтитрами. Як приклад роботи технології нижче представлено виступ з телепроекту «В Америці є таланти».
Команда розробників YouTube визнає, що підписи примітивні. Але тепер технологію буде простіше вдосконалити, тому що основа, тобто нейронна мережа, вже створена. У майбутньому компанія хоче додати підтримку таких звуків, як гавкіт, стукіт і дзвін. Для цього штучному інтелекту доведеться навчитися розрізняти джерела звуків: дзвін, наприклад, можуть видавати телефон, будильник або дверний дзвінок.
Це коштує зусиль розробників: вони провели дослідження, дві третини учасників якого сказали, що з підписами відео дивитися комфортніше.
Автоматичні субтитри з'явилися в YouTube у листопаді 2009 року. Алгоритми компанії поки далекі від ідеалу і їх доводиться допрацьовувати - через неправильну вимову, діалекти, акценти і фонові шуми. Тим не менш, функція дуже популярна: понад 15 мільйонів роликів з автоматичними субтитрами люди дивляться щодня, а всього таких відео в сервісі
- понад мільярд.