Современные информационные технологии/3. Программное обеспечение

 

Лобанок И.П.

Национальный Горный Университет, Украина

Голосовое управление компьютером в операционной системе Linux

 

Последние годы развития компьютерных технологий были направлены не столько на технологические новшества, сколько на упрощение интерфейсов, то есть способов общения пользователя и компьютера.

В целом речевые технологии сегодня развиваются по двум главным направлениям — это компьютерный анализ и синтез речи.

Что касается синтеза, продвижения довольно заметные, в том числе и в области русского языка. Примеры такого синтеза можно услышать при объявлениях в аэропорту или телекоммуникационных компаниях. Кроме того, представлены программы, которые могут, читать напечатанный текст (так называемые системы speech-to-text) - хотя произношение и интонация оставляет желать лучшего, в целом речь компьютера возможно понять.

Сложнее дела обстоят с анализом, который, напротив, направлен на то, чтобы компьютер смог понять нас. Как оказалось, научить компьютер безошибочно понимать человеческую речь — довольно сложная задача, над которой разработчики и ученые работают последние пару десятков лет.

С помощью средств распознавания речи пользователи могут:

o       Значительно сократить использование клавиатуры и мыши, выполняя задачи с помощью голосовых команд.

o       Полностью создавать документы, пользуясь только речью.

o       Управлять компьютером: запускать и переключаться между приложениями, осуществлять выбор пунктов меню и нажатие кнопок.

Рассмотрим две программы для голосового управления компьютером в операционной системе Linux: Perlbox Voice и CvoiceControl.

Perlbox Voice – это приложение, которое позволяет управлять рабочим столом посредством голосовых команд. Произнесением одного слова можно открыть web-браузер, текстовый редактор или какую-либо другую программу, также можно переключаться между виртуальными рабочими столами, вызывать меню рабочего стола, менять обои и заставки или блокировать экран.

Библиотеки Perlbox Voice позволяет формировать словари, которые состоят из "команд" и "реакций". Тогда при произнесении "команды" (например, "web"), компьютер реагирует "ответом" (например, "mozilla").

Компьютер может выполнять не только команды, но и отвечать пользователю словесно. Например, если написать в поле «When You Say» команду «morning», а в поле «Computer Does» реакцию «say and good morning to you» - то компьютер поприветствует пользователя при произнесении им фразы «morning» (say – оператор для  команд, которые должны быть переданы синтезатору речи для воспроизведения ответа).

Речевые команды могут быть любой комбинацией 127 000 слов, перечисленных в Perlbox Voice словарях произношений. Этот словарь содержит большинство существительных, глаголов, прилагательных, наречий и даже наиболее распространенные имена собственные, но пока что только на английском языке.

CVoiceControl – превосходная программа, которая включает в себя утилиту конфигураций уровня микрофона, моделируемый словарь (для добавления новых команд) и систему распознавания речи. Программа запускается под любой графической оболочкой и просто из консоли, что важно для опытных пользователей, которые обычно отказываются от громоздкого интерфейса в пользу повышенной функциональности.

После установки программы, нужно настроить микрофон так, чтобы программа создала модель перманентного шума и в дальнейшем могла отличить его от голоса пользователя. Далее необходимо создать голосовую модель (Speaker Model), которую будет использовать анализатор. Аналогично программе Perlbox Voice словарь заполняется командами (Label) и реакциями (Command), но кроме этого необходимо создать несколько сэмплов (Samples), фиксирующих произношение каждой команды, чтобы увеличить вероятность её распознания компьютером.

Существуют общие советы по использованию программ голосового управления.

o       Команды должны быть короткими и четкими во избежание лишних ошибок;

o       Во время работы синтезатора не должны быть запущены другие звуковые приложения, если звуковая карта не поддерживает двойных режимов;

o       Большое количество сэмплов и правильная настройка уровня микрофона существенно увеличит работоспособность программ голосового управления.

За голосовым управлением - будущее. Эта технология, кроме экономии времени и удобства, поможет обеспечить полноценную работу на компьютере для людей с ограниченной подвижностью и проблемами со зрением.

 

Литература:

1.     «100% самоучитель Linux» Дж.Валади, 2005

2.     ссылка в интернете - http://www.mycomp.com.ua/text/7732

3.     ссылка в интернете - www.perlbox.org