Mc'Xanza Scientific Publications

Road Sign Recognition Under Weather Distortion Using Domain-Robust Vision Transformers and Multi-Scale Visual Cues

This study proposes a sign recognition system that withstands weather distortion. Using domain-robust transformers and multi-scale visual modeling, it ensures classification accuracy under blur, occlusion, and lighting variability in real-world conditions.

Chen Min Zhi, Xu Zhi Lin, Liu Hao Jie, Zhang Wen Rong, Gao Ping Fang

December 30, 2021

Paper ID: 32119601

✅ Access Request

Hierarchical Visual Reasoning for Autonomous Agents Using Context-Aware Object Graphs and Attention-Driven Scene Composition Modules

This paper introduces a hierarchical visual reasoning framework. It leverages object-level graphs and attention-based scene reconstruction to enable autonomous agents to interpret complex environments, supporting decision-making in unstructured and semantically rich autonomous navigation and robotic manipulation scenarios.

Akash Deepan Menon, Leonardo Marco Vargas, Haruto Jinsei Kobayashi, Ella Rose Whitman, Omar Jalil Farouq

December 27, 2021

Paper ID: 32119602

✅ Access Request

Cross-Modal Interaction Modeling for Scene Navigation Using Language-Guided Visual Feature Alignment and Temporal Attention Mechanisms

This research presents a model that aligns language commands with visual inputs to guide autonomous scene exploration. Temporal attention layers enhance reasoning over multiple frames, allowing agents to navigate based on natural instructions in real-world settings.

Siddharth Varun Iyer, Tobias Alan McAllister, Mei Lin Fang, Juliana Hope Simmons, Victor Enrique D’Souza

December 24, 2021

Paper ID: 32119603

✅ Access Request

Optimizing Visual Place Recognition in Long-Term Autonomy Using Multi-Weather Feature Adaptation and Cyclic Temporal Encoding

This paper introduces a long-term visual place recognition framework. The model adapts to seasonal and lighting changes using weather-invariant feature encoding and cyclic temporal memory, enabling robust localization for lifelong autonomous navigation tasks.

Tanmay Rajesh Kulkarni, Chloe Frances Morgan, Hiroki Renji Nakamura, Matteo Javier de Luca, Nora Isabelle Hoffman

December 24, 2021

Paper ID: 32119604

✅ Access Request

Monocular 3D Human Pose Estimation in Real-Time Using Attention Cascades and Inverse Kinematic Reconstruction Networks

This study proposes a real-time monocular pose estimation system. Attention cascades refine keypoint localization while inverse kinematic networks reconstruct 3D human skeletons, supporting responsive human-robot collaboration and interaction in service robotics.

Kiran Dileep Natarajan, Isabelle Renee Winters, Yuki Shoji Tanaka, Patrick Elias Armstrong, Marta Sofia Jimenez

December 20, 2021

Paper ID: 32119605

✅ Access Request

Multi-Agent Traffic Scene Understanding Using Graph-Based Vehicle Interaction Models and Spatio-Temporal Motion Aggregation

This work introduces a traffic scene reasoning framework using interaction graphs. Vehicles are modeled as nodes with motion features propagated across time, enabling agents to understand dynamic road environments for coordinated behavior prediction.

Devansh Arvind Pillai, Emilia Kate Reynolds, Sho Wen Matsuda, Lucien Thomas Walker, Aisha Carmen Mendes

December 18, 2021

Paper ID: 32119606

✅ Access Request

Depth-Aware Visual Sensing for Low-Power Embedded Agents Using Lightweight Disparity Estimation and Motion-Aligned Attention Maps

This paper introduces a power-efficient depth perception system for embedded agents. Disparity maps are computed using optimized convolutional kernels, while motion-aligned attention enhances 3D consistency, enabling real-time awareness in wearable or mobile vision systems.

Parthasarathi Vikram Shenoy, Helena Alice Browne, Zhang Li Hao, Cheng Rui Wen, Koji Masaki Fujita

December 18, 2021

Paper ID: 32119607

✅ Access Request

Domain-Invariant Driver Behavior Prediction Using Scene-Aware Feature Adaptation and Sequential State Modeling

This study proposes a behavior prediction model for drivers. Scene context is used to adapt cross-domain features, and recurrent encoders track action states, improving anticipation of lane changes, braking, or acceleration in diverse traffic conditions.

Bhavik Ramesh Kanade, Emilie Jane Barrington, Yuhao Zhen Ming, Tomas Julian Frost, Carla Beatriz Mendez

December 15, 2021

Paper ID: 32119608

✅ Access Request

Back

Articles