Сравнительный анализ архитектур сверточных нейронных сетей в задаче регрессии
Зарегистрируйся в два клика и получи неограниченный доступ к материалам,а также промокод на новый заказ в Автор24. Это бесплатно.
В этом разделе рассматривается применение нескольких архитектур сверточных нейронных сетей к задаче категоризации и оценки позы объектов.
За последнее десятилетие был достигнут впечатляющий прогресс в решении проблем локализации объектов и их категоризации. Желательно, чтобы система технического зрения решала две задачи при общем распознавании объектов – категоризация объекта и оценка позы объекта (относительно камеры). Оценка позы имеет ключевое значение во многих приложениях.
Эти две широкие задачи противоречат друг другу по своей природе. Оптимальная система категоризации объекта должна быть способна распознавать категорию объекта, независимо от ее материалов. Напротив, система оценки позы требует представления, которое сохраняет геометрические и визуальные особенности объектов, чтобы различать их позу. Это порождает фундаментальный вопрос: должны ли задачи категоризации и оценки позы решаться одновременно, и если да, может ли одна помочь другой? Традиционные подходы на основе оценки позы на основе обучающих примеров одновременно решают проблемы категоризации и оценки позы, учитывая базовые модели экземпляров в 2D или 3D. Самые последние подходы к оценке позы объекта решают проблему в процессе обнаружения, где обучаются детекторы объектов для конкретной категории, которые кодируют геометрию детали. Поскольку геометрия детали является функцией позы, эти подходы могут обеспечить грубую оценку позы объекта при обнаружении. Однако основополагающее предположение здесь состоит в том, что категоризация выполняется априори, и представление является вариативным.
Оценка позы – пример задачи, которая по своей природе страдает от недостатка данных. Фактически самый большой доступный набор данных для распознавания разноплановых изображений и оценки поз имеет 51 класс объектов с общим количеством около 300 экземпляров
Зарегистрируйся, чтобы продолжить изучение работы
. Трудно представить доступ к набору данных из тысяч объектов, где по каждому объекту отбираются различные виды, чтобы можно было обучить сверточную нейронную сеть с миллионами параметров. Поэтому трансферное обучение имеет ключевое значение для этой задачи. Однако проблема заключается в противоречивой цели, которая была описана в предыдущем абзаце. Текущие модели сверточных нейронных сетей оптимизированы для классификации, и поэтому ожидается, что они достигнут инвариантного представления. Однако представление признаков в первых сверточных слоях имеет тенденцию быть более общим и менее специфичным для класса и, таким образом, может содержать достаточно информации для того, чтобы различать различные позы. Это ключевая гипотеза, которая рассматривается в этой задаче.
Для того, чтобы ответить на вопрос, насколько хороши предварительно обученные представления различных слоев сверточной сети без тонкой настройки для задачи оценки позы, была проанализирована современная сверточная сеть ImageNet , обученная на изображениях из набора данных RGBD . Эта сеть состоит из 8 слоев: Conv1, Pool1, Conv2, Pool2, Conv3, Conv4, Conv5, Pool5, FC6, FC7, FC8. Pool указывает на слои пулинга, Conv обозначает сверточные, а FC – полносвязные слои. Чтобы количественно оценить представления позы, был обучен как регрессор позы (с использованием ядерной грибневой регрессии), так и классификатор (метод опорных векторов) для категоризации с признаками, извлеченными на каждом из слоев. На рисунке 13 слева хорошо виден конфликт в представлении предварительно обученной сети. Для оценки позы производительность увеличивается примерно до слоя Pool5, а затем уменьшается
50% курсовой работы недоступно для прочтения
Закажи написание курсовой работы по выбранной теме всего за пару кликов. Персональная работа в кратчайшее время!