El artículo de investigación, publicado el 21 de marzo de 2025 en la revista Cyborg and Bionic Systems, aprovecha una red neuronal convolucional (CNN) personalizada para extraer características locales y globales para clasificar los gestos de las manos, al descomponer señales EMG de superficie de alta densidad (HD-sEMG) en trenes de picos acumulativos por canal (cw-CST) y reconstruirlos en imágenes bidimensionales basadas en la disposición espacial de los electrodos.
Los métodos de análisis de señales de electromiografía de superficie (sEMG) comúnmente utilizados, como los basados en características del dominio tiempo-frecuencia (como RMS), a menudo solo capturan información aproximada del control neuronal, son susceptibles a la interferencia de ruido e ignoran las características inherentes de la distribución espacial del movimiento muscular. «Con el desarrollo de la tecnología de electromiografía de superficie de alta densidad (HD sEMG), las secuencias de descarga (trenes de picos) de las unidades motoras (UM) obtenidas mediante descomposición pueden reflejar más directamente el control del sistema neuronal sobre los músculos, proporcionando información de control neuronal de baja dimensión más representativa para el reconocimiento de gestos», afirmó el autor Yang Yu, investigador de la Universidad Jiao Tong de Shanghai.
El proceso de investigación del artículo que abordamos aquí, se divide en los siguientes pasos: Primero, se utiliza el conjunto de electrodos HD-sEMG para recopilar las señales eléctricas de los músculos del antebrazo, las cuales se filtran, se eliminan de ruido y se eliminan los canales anormales. Luego, mediante un algoritmo basado en características de propagación espacial, la secuencia de descarga acumulada de cada canal (cw-CST) se descompone a partir de la señal HD-sEMG para reflejar la actividad de las unidades de movimiento adyacentes. A continuación, los datos cw-CST de cada canal se reconstruyen en una imagen bidimensional (imagen cw-CST) basada en la distribución espacial de los electrodos para capturar los patrones de activación espacial del control neuronal. Finalmente, se diseña y entrena una red neuronal convolucional personalizada para el reconocimiento de gestos manuales.
Los resultados experimentales muestran que el método cwCST-CNN propuesto alcanza una precisión de clasificación del 96,92 ± 1,77 % en el reconocimiento de 10 gestos, significativamente mejor que otros métodos comparativos. El análisis comparativo muestra que las características construidas con cw-CST presentan una mejor separabilidad entre diferentes gestos (mayor índice de separabilidad) y consistencia entre los datos de entrenamiento y de prueba (menor índice de repetibilidad), lo que respalda considerablemente la mejora de la precisión del reconocimiento. «Nuestro estudio proporciona una solución novedosa y eficaz para el reconocimiento de gestos de alta precisión, con potencial de amplia aplicación en campos de interacción persona-computadora, como el control de prótesis y la formación en rehabilitación», afirmó Yang Yu.
Los autores del artículo incluyen a Yang Yu, Zeyu Zhou, Yang Xu, Chen Chen, Weichao Guo y Xinjun Sheng.
Este trabajo fue financiado en parte por la Fundación Nacional de Ciencias Naturales de China mediante las subvenciones 52205025, 52175021, 52205024.
- El artículo, “Towards Hand Gesture Recognition Using a Channel-Wise Cumulative Spike Train Image-Driven Model” se publicó en la revista Cyborg and Bionic Systems el 21 de marzo de 2025, en DOI: 10.34133/cbsystems.0219.
Cita #
Toward Hand Gesture Recognition Using a Channel-Wise Cumulative Spike Train Image-Driven Model
Yang Yu, Zeyu Zhou, Yang Xu, Chen Chen, Weichao Guo, and Xinjun Sheng Authors Info & Affiliations
Cyborg and Bionic Systems
21 Mar 2025
Vol 6
Article ID: 0219
DOI: 10.34133/cbsystems.0219
Notas al pie #
El reconocimiento de gestos de la mano es un área de investigación en visión por computadora y aprendizaje automático que se ha vuelto cada vez más relevante, especialmente con el auge de las interfaces de usuario basadas en gestos. Un enfoque que se ha explorado es el uso de modelos impulsados por imágenes de tren de picos acumulativos por canal (Cumulative Peak Channel Training, en inglés). Algunos conceptos relevantes: 1. Reconocimiento de Gestos: Se refiere a la capacidad de un sistema para identificar y clasificar gestos realizados por las manos. Esto puede incluir movimientos como señalar, abrir la mano, cerrar la mano, entre otros. 2. Imágenes de Tren de Picos Acumulativos: Este enfoque implica el uso de imágenes que capturan los picos de actividad en diferentes canales (por ejemplo, RGB, profundidad, etc.) para entrenar un modelo. La idea es acumular información de diferentes instantes o posiciones para mejorar la precisión del reconocimiento. 3. Modelos de Aprendizaje Profundo: Generalmente, se utilizan redes neuronales convolucionales (CNN) para procesar las imágenes y extraer características relevantes que permitan clasificar los gestos. Estos modelos pueden ser entrenados con grandes conjuntos de datos que contienen ejemplos de diferentes gestos. 4. Canales Acumulativos: En este contexto, los canales acumulativos pueden referirse a la combinación de diferentes tipos de datos (como imágenes de diferentes ángulos o condiciones de iluminación) para crear un modelo más robusto. Esto puede ayudar a mejorar la generalización del modelo a nuevas situaciones. Así, al acumular información de múltiples canales, el modelo puede ser más resistente a variaciones en la iluminación, el fondo y otros factores ambientales. Así, la combinación de datos de diferentes fuentes puede mejorar la precisión del reconocimiento de gestos. Además, el enfoque propuesto puede adaptarse a diferentes tipos de gestos y contextos de uso. ¿Qué falta? Los científicos involucrados en esta área investigativa dirían que mucho. Fuera de broma, entre los desafíos se halla 1) la necesidad de grandes conjuntos de datos etiquetados y esto puede constituir un obstáculo, especialmente para los gestos menos comunes, o más sutiles. 2) los modelos que utilizan múltiples canales y picos acumulativos pueden requerir más recursos computacionales para entrenar y ejecutar. 3) Vieron que parece que los humanos somos bastante comunes, pero las diferencias en las formas en que gesticulamos pueden complicar el entrenamiento del modelo. ¿Para qué queremos esto? Podría decir que somos curiosos, que es un término que abarca posibilidades inimaginables. Ustedes y yo interactuamos con las máquinas desde hace siglos, ahora con tecnologías que parecen no tener límite. Aplicaciones: Interacción Hombre-Máquina: Mejora de interfaces de usuario en dispositivos móviles, computadoras y sistemas de realidad aumentada. Robótica: Permitir que los robots interpreten comandos gestuales (¿necesito abundar sobre esto?). Accesibilidad: Facilitar la comunicación a personas con discapacidades.