Заметил интересное движение в области распознавания речи. Sierra выложила в открытый доступ μ-Bench — многоязычный датасет для оценки ASR систем, и это выглядит довольно серьёзным шагом.



В чём суть: набор включает 250 реальных записей из customer service и 4270 аннотированных аудиоклипов. Главное отличие от существующих бенчмарков в том, что здесь не только английский язык. Поддерживают пять языков — английский, испанский, турецкий, вьетнамский и мандарин.

Особенно любопытна новая метрика UER (Utterance Error Rate). Она различает ошибки, которые меняют смысл высказывания, от тех, что смысл не портят. Это намного тоньше, чем классическая WER метрика, где все ошибки считаются одинаково.

По результатам тестирования: Google Chirp-3 лидирует по точности, Deepgram Nova-3 быстрее всех, но в многоязычности отстаёт. Интересно, как это будет развиваться дальше.

Датасет и таблица результатов уже доступны на Hugging Face, так что другие разработчики могут присоединиться к оценке. Похоже, μ-Bench становится новым стандартом для серьёзной оценки ASR в customer service среде.
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить