SignLab: Система распознавания жестов

Наш исследовательский проект по распознаванию жестового языка. Не распространяется как готовое решение. Мы используем его как основу для разработки кастомных систем под задачи клиентов.

2d-graphic-wallpaper-with-colorful-grainy-gradients_23-2151001513.png

распознавание жестов с помощью computer vision

ИндустрияИТ

Тип бизнесаВнутренний проект

РегионРоссия

ИндустрияИТ

Тип бизнесаВнутренний проект

РегионРоссия

Клиент

SignLab – онлайн-сурдопереводчик, в его основе – искусственный интеллект. Это внутренний проект. В нашем Data Science-отделе давно устоялась практика: чтобы развивать и совершенствовать направление, постоянно берем в разработку что-нибудь интересное и неординарное. В 2022 году мы решили создать SignLab – проверить, будет ли работать такая концепция, и если да, то насколько хорошо.

Мы много знали об искусственном интеллекте, когда приступали к работе, но совсем ничего не знали о языке жестов.

Столкнулись с похожей бизнес-задачей?Давайте ее обсудим

Нажимая кнопку, вы перейдете на сервис «Фасти»

Столкнулись с похожей бизнес-задачей?Давайте ее обсудим

Нажимая кнопку, вы перейдете на сервис «Фасти»

Вызовы

Жестовый язык – полноценная лингвистическая система со своей структурой и логикой. Но устроен он иначе, чем привычные текстовые языки: он опирается не на грамматику и синтаксис, а на визуальные образы, движение и контекст.

У него нет привычных языковых маркеров – окончаний, падежей, предлогов или пунктуации. Смысл формируется иначе, и это усложняет задачу: модели недостаточно распознавать отдельные жесты, нужно уметь интерпретировать высказывание целиком.

Например, временные конструкции могут выражаться не через формы глаголов, а через отдельные смысловые маркеры внутри высказывания. Фраза при этом может строиться иначе, чем в привычной речи – например: «встреча было» вместо «я встретился» .

Дополнительно усложняет задачу трехмерность: один и тот же жест может выполняться по-разному в зависимости от положения рук, скорости и амплитуды движения.

1. Обучение ИИ

Где искать наборы данных для обучения модели? На платформах с датасетами есть библиотеки видеоданных, но под нашу задачу они не подходили: в основном они ориентированы на обнаружение и классификацию объектов, а не на распознавание жестов в динамике.

Попытка очистить и адаптировать такие датасеты потребовала бы значительных затрат времени и не гарантировала нужного качества. Поэтому мы решили собрать и разметить данные самостоятельно.

2. Важные тонкости

Жестовые языки в разных странах совершенно разные: это не единый язык, и носители разных систем могут не понимать друг друга. Есть индивидуальные особенности: кто-то «не договаривает» жест, кто-то «съедает» начало.

А еще важны мимика, ритм рук, скорость подачи и артикуляция. А еще есть пальцевая азбука – дактиль – когда слово показывается «по буквам» (для аббревиатур или научных терминов, например). Как это учесть?

Процесс разработки

Чтобы ИИ смог правильно переводить жестовый язык, он должен научиться анализировать смысл «сказанного».

Как получать информацию о пространственном положении тела и рук? Как правильно ее интерпретировать? Как научиться определять окончание одного слова и начало нового? Как расширять словарный запас абстрактными понятиями?

1/4

Модели распознавания

Проект разработан на Python с применением open source-инструментов.

2/4

MediaPipe

Технологию MediaPipe от Google мы использовали для извлечения координат рук и тела.

3/4

Обучение ИИ

Для обучения модели мы сами записывали и размечали видео и описали жесты как последовательности состояний.

4/4

Скользящее окно

Разработали алгоритм скользящего окна, который учитывает последовательность жестов во времени и использует этот контекст для интерпретации текущего жеста.

Вот так работает SignLab:

Шаг 1

MediaPipe Holistic получает первичное изображение. Ищет людей на этом изображении и строит модель скелета по точкам в трехмерном пространстве.

Шаг 2

Затем модель преобразует первичную информацию. Результатом становится векторное представление, сжимающее ключевые параметры движения и положения.

Шаг 3

Один вектор характеризует положение частей скелета и рук на одном кадре видео. Модель собирает наборы таких векторов, после чего может распознавать слова.

Шаг 4

Технологии text-to-speech осуществляют перевод жестового языка в текст и голос, добавляя окончания и расставляя знаки препинания.

Результат

Мы реализовали рабочий прототип, который распознает жесты в видеопотоке и преобразует их в текст с учетом контекста. SignLab стал для нас практической задачей, в которой мы работали на стыке computer vision и sequence modeling – в условиях, где классические подходы к обработке языка не применяются напрямую.

Проект позволил нам пройти весь процесс – от сбора и разметки данных до обучения и тестирования модели – и отработать подходы к интерпретации сложных визуальных паттернов в динамике.

Вопросы

Задайте нам любой вопрос о проекте SignLab, и мы поможем доработать его под нужды вашего бизнеса: ask@zuzex.com.

SignLab – внутренний проект. Мы не распространяем его как готовое решение, но можем адаптировать и развить подобные системы под конкретные задачи – от распознавания жестов до сценариев, где требуется анализ движения, поведения и визуального контекста.

— команда Zuzex.

Что происходит дальше:

Мы получаем запрос, обрабатываем его в течение 24 часов и связываемся по указанным вами e‑mail или телефону для уточнения деталей.
Подключаем аналитиков и разработчиков. Совместно они составляют проектное предложение с указанием объемов работ, сроков, стоимости и размера команды.
Договариваемся с вами о следующей встрече, чтобы согласовать предложение.
Когда все детали улажены, мы подписываем договор и сразу же приступаем к работе.