Применение нейронных сетей для распознавания образов на изображениях. Автор: Эйнетегин Максим. Работа №446648
Государственное автономное общеобразовательное учреждение
Чукотского автономного округа «Чукотский окружной профильный лицей»
ПРИМЕНЕНИЕ НЕЙРОННЫХ СЕТЕЙ ДЛЯ РАСПОЗНАВАНИЯ ОБРАЗОВ НА ИЗОБРАЖЕНИЯХ
Научно исследовательская работа
Выполнил:
Эйнетегин Максим Метинович, ученик 11 «Б» класса.
Руководитель:
Косов Георгий Александрович, учитель информатики
Анадырь, 2024
ВВЕДЕНИЕ
Современные технологии искусственного интеллекта, такие как нейронные сети, играют все более важную роль в решении задач компьютерного зрения, включая распознавание образов на изображениях. Актуальность данной темы обусловлена необходимостью создания более эффективных и точных систем распознавания, которые могут быть применены в различных областях, включая медицину, транспорт, безопасность и многие другие.
Цель исследования – изучение применения нейронных сетей для распознавания образов на изображениях.
Объектом исследования являются нейронные сети, а предметом – их применение для распознавания образов на изображениях.
Для достижения данной цели нами были сформулированы следующие задачи:
рассмотреть сущность процесса распознания изображения;
проанализи
ровать процесс изображения распознавания изображения;
выявить сферы
применения распознавания
изображений нейросетью;
составить, провести и проанализировать анкетирование с целью выявить отношение к применению технология распознания изображений;
Провести сравнение нейросетей для распознавания образов на изображениях.
Методы исследования:
1) Теоретический
анализ теоретического материала по данной теме
синтез: систематизация полученной информации
обобщение сведений
2) Эмпирический
проведение и
анализ анкетирования
анализ полученных данных
3) Математический
построение диаграмм
формализация результатов
Гипотеза: мы предполагаем, что применение нейронных сетей позволит достичь высокой точности в распознавании образов на изображениях и станет основой для разработки более продвинутых систем компьютерного зрения.
ГЛАВА 1. ТЕОРЕТИЧЕСКИЕ ОСНОВЫ ИЗУЧЕНИЯ ПРИМЕНЕНИЯ ТЕХНОЛОГИИ РАСПОЗНАНИЯ ИЗОБРАЖЕНИЙ
1.1. Сущность технологии распознания
Распознавание изображений (или классификация изображений) — это задача идентификации изображений и отнесения их к одному из нескольких заранее определенных классов. Таким образом, программное обеспечение и приложения для распознавания изображений могут определить, что находится на изображении, и отличить один объект от другого.
Существует несколько основных методов:
Метод гибкого сравнения на графах — это алгоритм в области компьютерного зрения для распознавания объектов или классов объектов на изображении на основе графика, извлеченного из других изображений. Данный
метод широко используется для распознавания и анализа лиц, а также для жестов и других классов объектов.
Нейронные сети (НС). В сфере распознавания лиц самыми распространенными архитектурами нейронных сетей являются сверточная сеть (CNN) и генеративно-со
стязательная сеть (GAN).
Нейронные сети — это вычислительные системы с взаимосвязанными узлами, которые работают во многом подобно нейронам в человеческом мозге. Используя алгоритмы, они могут распознавать скрытые закономерности и корреляции в необработанных данных, группировать и классифицировать их, а также – со временем – постоянно учиться и совершенствоваться. (Приложение 1, таблица 1)
На основе данных таблицы 1 можно сделать вывод, что нейронные сети имеют ряд преимуществ над методом гибкого сравнения на графах.
Принцип работы нейронных сетей – обучение на примерах. Пользователь нейросети подбирает определенную выборку данных (датасет), а затем запускает некоторый алгоритм обучения, который автоматически воспринимает структуру данных и запоминает информацию и в последующем, может успешно распознать данные в будущем. Несомненно, для этого от пользователя требуется определенный набор эвристических знаний о том, как необходимо подготавливать и подбирать данные, выбирать подходящую архитектуру сети и трактовать результаты, однако уровень знаний, который необходим для успешного применения в деятельности нейронных сетей, гораздо скуднее, чем, например, при использовании традиционных методов получения статистики [1]
Определение искусственного нейрона выглядит следующим образом. Нейрон получает входные сигналы (исходные данные и выходные сигналы других нейронов сети) через несколько входных сигналов каналов.
Каждый входной сигнал проходит через соединение, которое имеет определенный вес. Данный вес соответствует синаптической активности, как и «живой» нейрон. С каждым нейроном связано определенное (пороговое) значение и в результате получается величина активации нейрона (или постсинаптический потенциал нейрона – PSP).
Сигнал активации преобразуется с помощью функции передаточной функции и в результате получается выходной сигнал нейрона.Итак, для решения задачи с применением искусственной нейросети (ИНС) следует: спроектировать структуру сети, адекватную поставленной задаче. Выделяют два основных этапа при строении нейронной сети: выбор архитектуры нейронной сети (НС); тренировка НС. При выборе типа нейросети необходимо выбрать следующие параметры: количество входов, передаточные функции; соединения между собой; входы и выходы сети. Выбор структуры нейросети происходит в соответствии с особенностями и сложностью сформулированной задачи. Также необходимо помнить, что при увеличении количества слоев сети и нейронов в них, возможности сетей возрастают; сложность алгоритмов функционирования сети так же способствуют усилению мощности нейросетей.
1.2. Процесс изображения распознавания изображения
Распознавание изображений - одна из задач глубоких нейронных сетей. Они состоят из трех типов слоёв: входных, скрытых и выходных. Входной уровень получает сигнал, скрытый уровень обрабатывает его, а выходной уровень принимает решение или прогноз относительно входных данных. Каждый сетевой уровень состоит из взаимосвязанных узлов (искусственных нейронов), которые выполняют вычисления. Количество скрытых слоёв делает нейронную сеть глубокой. В то время как традиционные нейронные сети имеют до трех скрытых слоев, глубокие сети могут содержать сотни из них. Для примера, на рис. 1 представлена схема глубокой нейронной сети для распознавания изображения собаки [3]. (Приложение 1, рис. 1)
Рис. 1. Пример глубокой нейронной сети
Распознаваемые образы представляют собой различные объекты, включая фотографии, рукописный или печатный текст, звуки и другое. Когда сеть обучают, ей предъявляют различные образцы, каждый из которых имеет метку, указывающую, с каким типом он может быть связан. В качестве шаблона используют значения признаков и набор признаков в этих условиях, которые должны разрешить нейронной сети четко определить, с каким набором признаков она имеет дело.
Важным аспектом в обучении нейронной сети является определение не только достаточного количества и значения характеристик для получения хорошей точности на новых изображениях, но и не переобучиться, то есть излишне не «подстроиться» под обучающую выборку из изображений. После завершения правильного обучения сеть должна иметь возможность идентифицировать изображения (из тех же классов), с которыми она не сталкивалась в процессе обучения.
Создание нейронной сети для распознавания изображений включает в себя следующие элементы, которые соответствуют рисунку в Приложении 2.
1.3. Сферы применения распознавания изображений нейросетью
Рассмотрим, сферы применения нейросетей для распознавания изображений:
Медицина: Использование нейросетей для распознавания симптомов на медицинских изображениях, таких как рентгеновские снимки, магнитно-резонансная томография (МРТ) и компьютерная томография (КТ), для диагностики различных заболеваний и состояний.
Автомобильная промышленность: Применение нейросетей для распознавания объектов на дороге, обнаружения пешеходов, определения дорожных знаков и сигналов, а также для автоматической парковки и беспилотного вождения.
Безопасность: Использование нейросетей для распознавания лиц, объектов и действий на видеокамерах для обеспечения безопасности в общественных местах, банках, аэропортах и т.д.
Робототехника: нейросети могут быть использованы для распознавания объектов и среды, что помогает роботам ориентироваться в пространстве.
Розничная торговля: Применение нейросетей для распознавания товаров и клиентов, анализа поведения покупателей и улучшения обслуживания.
Сельское хозяйство: Использование нейросетей для распознавания сорняков, болезней и состояния почвы на фермах и полях, а также для автоматизации процесса ухода за растениями.
Астрономия: нейросети могут использоваться для анализа и обработки астрономических изображений, например, для автоматического нахождения и классификации галактик или других космических объектов.
Реклама и маркетинг: Применение нейросетей для анализа и распознавания эмоций потребителей на изображениях и видео, а также для персонализации рекламных кампаний.
Туризм и гостиничный бизнес: Нейросети могут быть использованы для распознавания ландшафтов на фотографиях туристических достопримечательностей, автоматического анализа отзывов туристов и персонализированных рекомендаций туристических маршрутов.
Производство: В производственных процессах нейросети могут применяться для контроля качества продукции, распознавания дефектов на изделиях и автоматической сортировки продукции.
Игровая индустрия: Нейросети могут быть использованы для распознавания жестов и эмоций игрока, автоматического анализа игровых сценариев и подбора персонализированных игровых рекомендаций.
Это лишь небольшой список сфер, в которых нейросети могут быть применены для распознавания изображений. С развитием технологий и исследований выявляются новые возможности применения нейросетей.
ГЛАВА 2. ИССЛЕДОВАНИЕ МНЕНИЯ О ПРИМЕНЕНИИ ТЕХНОЛОГИИ РАСПОЗНАВАНИЯ ИЗОБРАЖЕНИЙ В СОВРЕМЕННОМ МИРЕ
2.1. Изучение мнения респондентов
Одной из сфер применения является распознавание лиц на изображениях. Нами было проведено исследование мнения о применении технологии распознания лица с помощью нейросетей.
Объект: две группы респондентов разной возрастной категории
1. респонденты, возраст которых составляет 15-17 лет (12 чел.) – группа 1
2. респонденты, возраст которых составляет 36-45 лет (12 чел.) – группа 2
Предмет: отношение к применению технологии распознавания лиц в современном мире нейросетью.
Методы и методика: нами была создана анкета. Она представлена в приложении 1. Респондентам предлагалось в течение получаса ответить на вопросы анкета. Затем нами были обработаны результаты и обобщены. Для этого с помощью математических методов мы произвели подсчёт ответов. Результаты исследования представлены в виде диаграмм.
Рассмотрим результаты:
Первый вопрос «Пользовались ли вы технологией распознавания лица?» показал, что респонденты группы 2 больше пользовались распознаванием лиц, чем учащиеся. Это обусловлено тем, что взрослое население чаще всего совершает банковские операции и обращается в государственные органы, где применяется данная технология.
Ответ на вопрос «Где вы встречали использование распознавания лиц?» показал, что респонденты из 2 группы чаще всего встречают данную технологию в банках, а в 1 группе - камера телефона. Так, молодое поколение пользуется данной технологией для развлечения либо при разблокировке телефона. (Приложение 3, рис 1)
Ответ на вопрос «Знаете ли, как работает система распознавания лиц?» показал, что подростки в большей степени осведомлены о работе данной технологии. (Приложение 3, рис.2)
Большинство респондентов из 2 группы относятся к установке видеокамер распознаванием лиц в публичных местах положительно, считая, что это повысит порядок и безопасность. Мнение подростков разделилось: часть выступают «за», но считают, что распознавание личности должно происходить с согласия человека и полностью против, так как это нарушение Конституции и права на частную жизнь. (Приложение 3, рис 3, 4)
Таким образом, на основе анкетирования можно прийти к следующим выводам:
1. О технологии применения распознавания лиц знают большинство респондентов, что свидетельствует о распространенности данной технологии.
2. Чем моложе респонденты и, тем лучше они разбираются в технике, тем меньше им нравится идея об установке видеокамер распознаванием лиц в публичных местах.
2.2. Сравнение нейросетей для распознавания образов на изображениях
Нами были проанализированы нейросети для распознавания образов на изображениях.
VGG (Visual Geometry Group) - VGG нейросеть имеет простую структуру и состоит из глубоких сверточных слоев, которые делают ее хорошо подходящей для классификации изображений. Однако из-за большого количе
ства параметров, требуется много вычислительных ресурсов для обучения и выполнения.
ResNet (Residual Network) - ResNet использует блоки с пропусками (residual blocks), что облегчает обучение глубоких нейросетей и предотвращает
проблему затухания градиентов
. Она обычно имеет более высокую точность, чем VGG, но может быть более требовательна к вычислительным ресурсам.
Inception - Нейросеть Inception использует различные размеры ядер сверточных фильтров и объединяет их результаты для улучшения точности распозн
авания изображений. Она имеет хорошую точность и может быть эффективной в использовании ресурсов.
MobileNet - MobileNet оптимизирована для использования на мобильных устройствах и имеет меньшее количество параметров, что делает ее более легкой для выполнен
ия на устройствах с ограниченными вычислительными ресурсами. Точность MobileNet обычно ниже, чем у более сложных моделей, но она отлично подходит для приложений на мобильных устройствах.
EfficientNet - EfficientNet использует методы оптимизации для создани
я нейросети с высокой точностью и небольшим количеством параметров. Она показывает хорошую точность при распознавании изображений и может быть более эффективной в использовании ресурсов по сравнению с другими моделями.
Для сравнения составлена таблица. (Приложение 4)
В целом, выбор нейросети для распознавания изображений зависит от требований к точности и доступных вычислительных ресурсов. VGG и ResNet обычно обеспечивают высокую точность, но требуют большого объема вычислительных ресурсов, в то время как Inception, MobileNet и EfficientNet могут быть более эффективными в использовании ресурсов при достаточно высокой точности.
ЗАКЛЮЧЕНИЕ
В результате работы были сделаны следующие выводы:
Создание системы распознавания включает три основных этапа: получение изображения лица, извлечение основных признаков и распознавание. На первом этапе системе необходимо получить изображение. На этапе извлечения признаков происходит создание вектора признаков для конкретного объекта, обнаруженного на предыдущем этапе. В завершение необходимо сравнить полученный вектор признаков с другими объектами, имеющимися в базе данных. В случае успешного нахождения пользователя можно сказать, что идентификация прошла успешно.
Нейронные сети широко применяются для распознавания образов на изображениях благодаря своей способности извлекать признаки из данных. Это позволяет им успешно решать задачи классификации и сегментации объектов на изображениях. Например, нейронные сети могут быть использованы для распознавания лиц, автомобилей, животных, цифр и букв на изображениях. Они также могут быть применены для анализа медицинских изображений, обнаружения дефектов на производственных линиях, анализа снимков со спутников и многих других задач. Для обучения нейронных сетей для распознавания образов на изображениях используется большой объем размеченных данных. После обучения сеть может использоваться для автоматического распознавания объектов на новых изображениях.
Таким образом, применение нейронных сетей для распознавания образов на изображениях широко применяется в различных областях, включая компьютерное зрение, робототехнику, медицину, производство и многие другие.
В результате анкетирования было выявлено, что большинство респондентов участвовали в распознавании лица, но о сущности данной технологии в большей степени осведомлены подростки. Также большинство подростков обеспокоены нарушением законов при использовании технологии распознавания лиц. Гипотеза подтвердилась частично. Только подростки выражают недоверие из-за проблем с безопасностью при применении технологии распознавания лиц. Нами был проведен сравнительный анализ программ, что позволило выявить преимущества и недостатки.
Результаты работы будут полезны учащимся, а также интересующимся данной темой. Результаты исследования можно использовать на уроках информатики, во внеурочной деятельности с целью формирования информационной безопасности.
Таким образом, цель и задачи достигнуты.
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ
Волокитина, Т. С. Нейросеть для распознавания изображений / Т. С. Волокитин
а // Современные научные исследования и инновации. – 2021. – № 3(119). – С. 9.
Кузьмин, А. А. Исследование применения технологии распознавания лиц в платежном сегменте / А. А. Кузьмин, Ю. В. Бруттан // Вестник Псковского государственного университета. Сери
я: Технические науки. – 2021. – № 12. – С. 17-23.
Назарова, Т. И. Применение нейросетей в распознавании изображений / Т. И. Назарова // Актуальные проблемы авиации и
космонавтики:
Сборник материалов IX Международной научно-практической конференции, посвящ
енной Дню космонавтики. В 3-х томах, Красноярск, 10–14 апреля 2023 года. – Красноярск: Сибирский государственный университет науки и технологий имени академика М.Ф. Решетнева, 2023. – С. 563-565.
Никитин, А. А. Процесс распознавания изображения нейронной
сетью / А. А. Никитин, Н. И. Лиманова. // Молодой ученый. — 2020. — № 47 (337). — С. 23-25. — URL: https://moluch.ru/archive/337/75420/ (дата обращения: 06.03.2024).
Приложение 1
Таблица 1. Сравнительный анализ методов распознавания
Нейронные сети
Метод гибкого сравнения на графах
Точность распознавания
> 90 %
~ 90 %
Устойчивость к различным помехам
Высокая
Высокая
Вычислительная сложность
Средняя
Высокая
Время распознавания
Среднее
Большое
Рис 1.
Приложение 2
Рис 1.
Приложение 3
Рис 1 Рис 2
Рис 3 Рис 4
Приложение 4
Нейросеть
VGG
ResNet
Inception
MobileNet
EfficientNet
Скорость распознавания
Средняя
Средняя
Быстрая
Очень быстрая
Средняя
Точность распознавания
Высокая
Очень высокая
Высокая
Высокая
Очень высокая
Вариативность архитектуры
Нет
Да
Да
Да
Да
Обучение на больших или маленьких датасетах
Маленькие
Большие
Маленькие
Маленькие
Большие
Работа на малом объеме памяти
Нет
Нет
Нет
Да
Нет
Количество параметров
138M
25M
11M
4.2M
66M
Гибкость в развертывании
Нет
Нет
Нет
Да
Нет
Размер и сложность модели
Большой и сложный
Средний
Средний
Маленький и простой
Большой и сложный