Кульков Я.Ю., к.т.н., проф. Кропотов Ю.А.

Муромский Институт Владимирского государственного университета

602264, г. Муром Владимирской обл., ул. Орловская, 23, тел.:(49234)2-15-72

Разработка системы громкоговорящей связи с высоким уровнем разборчивости речи

Системы громкого оповещения ‑ это отдельный специализированный вид оборудования, в первую очередь предназначенный для решения задач информационного звукового обеспечения на объекте. Такие системы применяются как на промышленных, так и на военных объектах. Так же, по требованиям международных стандартов подобные системы должны размещаться везде, где присутствует большое количество людей. Требования к системам оповещения отличаются от требований к бытовому или профессиональному звуковому оборудованию.

Основными задачами систем громкоговорящей связи являются: обеспечение хорошей слышимости в различных производственных административных и бытовых помещениях, обеспечение разборчивости речи. Из этого вытекает основное требования, предъявляемое к системам громкоговорящей связи. Это высокое качество звучания речевых программ, в первую очередь с точки зрения разборчивости, отношения «сигнал—шум».

Для речи существует один субъективный критерий качества звучания — хорошая разборчивость. В общем случае, разборчивость является интегральной оценкой речевого сигнала и в соответствии с международным стандартом ISO/TR 4870 определяется как «степень, с которой речь может быть понята (расшифрована) слушателями». Под этим понимается степень, с которой слушатели могут понять смысл фразы, идентифицировать слова, слоги и фонемы. В соответствии с этим различают различные виды разборчивости: фонемная, слоговая, словесная и фразовая, которые, все связаны друг с другом и могут быть пересчитаны одна в другую.

Разборчивость речи снижается при очень высоких уровнях громкости, поэтому, если задача системы звукоусиления сводится только к тому, чтобы уровень полезного сигнала превышал уровень шума, желательно ограничиться возможно меньшим уровнем громкости.

Существующие методики расчета разборчивости речи или оценки качества системы, например метод PESQ очень часто дают результаты значительно расходящиеся с реальной картиной. Это связано с тем, что разборчивость речи является результатом взаимодействия системы звукоусиления с акустическими условиями озвучиваемого объекта. Применение различных алгоритмов шумоочистки и постобработки сигналов в подобных случаях малоэффективны так как в разных зонах оповещения на сигнал действуют различные акустические искажения.

Акустические шумы - это шумы в пределах озвучиваемой поверхности, создаваемые публикой, различными агрегатами и т. п., и шумы, попадающие извне, например от транспорта.

По уровню акустические шумы в непроизводственных помещениях имеют диапазон от 55 до 80 дБ. Уровни в производственных помещениях имеют широкий диапазон – от 65 до 95 дБ и более.

Негативное влияние акустических шумов проявляется в виде эффекта маскирования. Маскирование другими звуками, в том числе шумами в реверберирующем помещении и др. Шумы могут создаваться вентиляцией, внешними проникновениями, шумами аппаратуры, публикой, электронной аппаратурой и др.

Причем простое повышение мощности, то есть увеличение максимальной амплитуды не приведет к улучшению разборчивости. Увеличение громкости выше некоторого порога приводит наоборот к снижению разборчивости речи, так как порождает сдвиг кривой чувствительности в сторону уменьшения. Это связано с ограничениями разрешающей способности человеческого слуха, то есть к ограниченному динамическому диапазону. Очевидно, что для того, чтобы уменьшить динамический диапазон сигнала, необходимо понизить максимальную амплитуду сигнала. Можно произвести эту операцию простым ограничением, то есть понизить амплитуду тех выборок, уровень которых выше определенного уровня в соответствии с.

Однако это приведет не только к уменьшению информационной ёмкости сигнала, но и к появлению комбинационных и гармонических спектральных составляющих достаточно высокого уровня, которые в значительной мере искажают форму сигнала и, соответственно, приводят к потере информации.

Поэтому желательно применять методы компрессии динамического диапазона, которые нелинейно уменьшают амплитуду сигналов высоких уровней.

Одна из функций, которая осуществляет необходимое сжатие динамического диапазона, показана на рисунке 1.

Рисунок 1 – функция компрессии динамического диапазона и его передаточная характеристика.

Данная функция представляется функцией вида 1/x, определяемая выражением

                                                    (1)

где ,

При реализации сжатия динамического диапазона с использованием сигнальных процессоров, необходимо аппроксимировать данную функцию в виде полинома. Это связано с тем, что в сигнальных процессорах не предусмотрена операция деления. Функцию (1) можно представить в виде полином седьмой степени, полученный методом наименьших квадратов.

y(x)=0.0162+1.5989x-0.0788x2+1.8021x3+0.4503x4+1.1178x5+0.9928x6    (2)

Результатом работы данной функции (2) является повышение относительной средней мощности излучаемого громкоговорителями сигнала, и как следствие, снижение маскирующего влияния акустических шумов на разборчивость речевого сигнала.

Предварительно подготовленный таким образом речевой сигнал при той же выходной мощности даст эффект увеличения громкости, в следствии повышения относительной средней мощности сигнала при сохранении максимального значения амплитуды на исходном уровне.

Были проведены экспериментальные исследования с привлечением 50 слушателей. Анализ результатов показал увеличение разборчивости по показателю RASTI на 0.3 пункта. Что соотноситься с субъективной оценкой «отлично» для речевого сигнала, искаженного аддитивным акустическим шумом.

В результате применения компрессии динамического диапазона по разработанной функции повышается относительная средняя мощность сигнала. Это ведет к субъективному увеличению громкости сигнала без сдвига порога чувствительности слуха. Для человека это ведет к улучшению разборчивости информации, передаваемой речевым сигналом на фоне внешних акустических шумов.