Diseño de un prototipo electrónico basado en algoritmos de visión artificial para asistir a personas con discapacidad visual total en entornos urbanos
Abstract
La discapacidad visual total representa un desafío significativo para la movilidad urbana en Colombia, donde aproximadamente 1.948.332 personas (4.41% de la población) presentan dificultades visuales y aproximadamente 236.076 tienen ceguera total (Dabian & Peña, 2020). Las herramientas tradicionales como el bastón blanco presentan limitaciones al no proporcionar información detallada sobre el entorno, problemática agravada por la escasa cobertura de infraestructura de accesibilidad en ciudades colombianas. Ante esto, el presente trabajo se enfocó en el diseño y desarrollo de un prototipo de dispositivo electrónico portátil de montaje corporal que utiliza detección de objetos basada en redes neuronales convolucionales para brindar asistencia mediante retroalimentación multimodal (audio y háptica). La metodología se fundamentó en la Metodología en V, iniciando con el análisis de requisitos de personas con discapacidad visual total y la definición de cuatro clases de objetos prioritarios (semáforos peatonales, cruces peatonales, vehículos y peatones), seguido por el diseño, implementación y validación del prototipo mediante pruebas unitarias, de integración, de sistema y de aceptación con usuarios. Se propuso una arquitectura de dos etapas compuesta por un modelo detector YOLOv5 nano, encargado de localizar y clasificar los objetos en escena, y un clasificador CNN binario que determina el estado del semáforo peatonal (rojo/verde) a partir de la región detectada; ambos modelos fueron implementados en Raspberry Pi Zero 2W con un dataset de más de 15.000 imágenes urbanas del municipio de Tuluá (Valle del Cauca) y optimizados mediante cuantificación post-entrenamiento (PTQ) de FP32 a INT8. El comportamiento del sistema es gestionado por un algoritmo especializado basado en una Máquina de Estados Finitos (FSM), que coordina las inferencias, la síntesis de voz y el control de vibración háptica según la prioridad de los objetos detectados. Los resultados demostraron un mAP@0.5 de 0.983 para el detector, un F1-Score de 0.9989 para el clasificador de estado y una velocidad de 14.18 FPS con tiempos de inferencia de 53.46 ms sobre el hardware embebido.
Descripción
ilustraciones, gráficos, tablas


