Технология работает даже если человек произносит слова про себя.
Ученые из Калифорнийского университета в Сан-Франциско обучили цепочку нейросетей анализировать активность мозга во время произнесения слов и выдавать исходный текст.
Алгоритм Brain2Char работает с данными электрокортикографии. В его основе лежат нейросети с архитектурой долгой краткосрочной памяти и открытый декодер. На сайте arXiv.org можно прочитать препринт статьи.
Работа Brain2Char начинается с анализа сигналов, полученных с помощью электрокортигораммы: компьютер создает модель речи по характерным особенностям изменения потенциалов по времени и частоте. Полученную модель обрабатывает алгоритм DeepSpeech, который работает на основе сверточных нейросетей, и собственно переводит цифровой сигнал в письменный текст. Также в системе есть дополнительная регуляционная нейросеть, которая «чистит» полученный текст, учитывая, в частности, особенности артикуляции человека.
Обучение проходило на данных мозговой активности четырех пациентов со вживленными в мозг электрокортикографами. Двум пациентам ученые предоставили текст из 450 предложений, для которого использовали словарь из 1900 слов. Другие пациенты читали описания изображений, составленные из двух наборов — по 400 и 1200 слов.
Важная особенность разработки в том, что компьютер распознает даже речь произнесенную про себя. В будущем алгоритм может помочь в построении интерфейсов мозг-компьютер для немых людей.
Поделитесь этим с друзьями!
Будьте первым, кто оставит комментарий
Пожалуйста, авторизируйтесь для возможности комментировать