Новый алгоритм «зрения» поможет роботам ориентироваться при плохой видимости
Ученые Московского физико-технического института (МФТИ) совместно с иностранными исследователями представили инновационную разработку в области компьютерного зрения — систему Un-ViTAStereo. Эта технология позволяет точно определять дистанцию до объектов, не прибегая к использованию дорогостоящих лидаров и трудоемкой ручной разметки снимков.Новая нейросеть показывает высокую эффективность в сложных сценах, где традиционные аналоги ошибаются: в условиях тумана, при анализе густой листвы или однородных поверхностей вроде гладких стен. Подход может быть внедрен в системы автопилотирования автомобилей и навигации автономных роботов.
Разработчики использовали в технологии специального «учителя» для нейросети — Depth Anything V2. Анализируя картинку с камеры, он не вычислял расстояние в абсолютных величинах, но с высокой долей уверенности определял их взаимное расположение, учитывая при этом особенности освещения и геометрии сцены. Механизм обучения брал в расчет только те данные, которые совпадали с «мнением» наставника, что заметно повысило точность работы нейросети.
«Модель Depth Anything V2 постоянно передает подсказки стереосистеме. Например, «я не знаю, на сколько метров эта машина ближе дерева, но она точно ближе, и граница между ними должна быть резкой» или «на этой стене, где нет контраста, глубина должна меняться плавно», — пояснил руководитель проекта Научно-технического центра телекоммуникаций МФТИ Александр Дворкович.
В основе работы подобных систем лежит принцип зрения человека: две камеры имитируют глаза, а нейросети выступают в роли мозга, строящего трехмерную модель пространства. Однако ранее этот процесс давал сбой при работе со сложными участками — однотонными стенами или областями с часто повторяющимся рисунком. Традиционным методом борьбы с такими проблемами была ручная разметка, требовавшая указания точной дистанции до каждого объекта. Однако ее применение не всегда возможно и экономически оправдано.
Новая технология, по словам разработчиков, позволяет обойти эти ограничения, обеспечивая надежную работу технического зрения в самых разнообразных условиях.







Оставить комментарий