Image

Как глубокое встраивание признаков и евклидово сходство обеспечивают автоматическое распознавание листьев растений

Практическая дорожная карта: Изображение → Встраивание → Сопоставление → Результат

Делиться

f8b91ab00cf580b52ae9165eed4640db

Введение

Автоматическое распознавание листьев растений — это выдающееся нововведение в области компьютерного зрения и машинного обучения, позволяющее идентифицировать виды растений по фотографиям листьев. Глубокое обучение применяется для извлечения значимых признаков из изображений листьев и преобразования их в небольшие числовые представления, известные как вложения. Эти вложения фиксируют ключевые особенности формы, текстуры, рисунка прожилок и краев, что позволяет легко сравнивать и группировать данные. Основная идея заключается в создании системы, способной распознавать изображения листьев и сопоставлять их с базой данных известных видов.

Система распознавания листьев растений работает следующим образом: сначала идентифицирует и выделяет лист на изображении, затем кодирует встроенный вектор и затем сопоставляет встроенный вектор с эталонными встроенными векторами с помощью меры расстояния. Более конкретно, евклидово расстояние — это простой метод измерения сходства в многомерных пространствах. В случае нормализованных векторов это расстояние положительно коррелирует со сходством между двумя листьями, что позволяет использовать методы классификации по ближайшим соседям.

Наша цель тройственная:

  1. Покажите, как глубокие сверточные нейронные сети изучают небольшие дискриминационные вложения изображений листьев.
  2. Продемонстрируйте, почему евклидово сходство является надежным при классификации видов на основе соответствия ближайших соседей.
  3. Создайте конвейер, который полностью воспроизводим на основе набора данных UCI One-Hundred Plant Species Leaves, включая код и оценку, а также визуализацию результатов.

Почему автоматизированная идентификация видов растений так важна?

Возможность автоматического распознавания видов растений по изображениям листьев имеет далеко идущие научные, экологические, сельскохозяйственные и образовательные последствия. Такие системы применяются в сфере сохранения биоразнообразия, предоставляя интерфейс для работы с массивами изображений, полученных с помощью фотоловушек или платформ гражданской науки, что позволяет каталогизировать и отслеживать исчезающие или инвазивные виды растений за считанные секунды. Эта возможность актуальна в условиях разнообразных экосистем, включая тропические леса, позволяя принимать экологические решения в режиме реального времени, а также экологам эффективно использовать имеющиеся ресурсы.

Ключевые области воздействия:

Сельское хозяйство : позволяет использовать точное земледелие для выявления и лечения болезней сельскохозяйственных культур и сорняков, а также оптимизировать использование пестицидов. Мобильные приложения позволяют фермерам сканировать листья для мгновенного получения результатов, повышения урожайности и минимизации ущерба окружающей среде.

Образование : обеспечивает интерактивное обучение, позволяя пользователям фотографировать листья, чтобы узнать об экологическом, медицинском или культурном использовании видов. Это может помочь музеям и ботаническим садам более эффективно взаимодействовать с посетителями.

Фармакология : позволяет правильно идентифицировать лекарственные растения, что ускоряет открытие новых биологически активных веществ для использования при разработке лекарств .

Цифровые библиотеки и Интернет вещей : автоматизация тегирования, индексации и поиска изображений растений в больших базах данных. Интеграция с интеллектуальными камерами, поддерживающими Интернет вещей, позволяет вести постоянный мониторинг теплиц и исследовательских площадок.

Изучение набора данных UCI «Одиннадцать видов растений» по листьям

Наша система распознавания использует набор данных «One-Hundred Plant Species Leaves», хранящийся в репозитории машинного обучения UCI (лицензия CC BY 4.0). Это набор из 1600 фотографий высокого разрешения, каждая из которых содержит 16 образцов из 100 видов. В выборку входят как распространённые деревья, такие как дубы, так и более экзотические виды, что обусловило богатое разнообразие морфологий листьев.

Посвящение каждого изображения одному листу и неяркому фону сводит к минимуму отвлекающие факторы и позволяет ясно выделить основные элементы. Однако на практике мир обычно функционирует в сложных сценах, поэтому необходимо проводить такие этапы обработки, как сегментация. Данные будут содержать такие виды, как Acer palmatum (японский клён) и Quercus robur (дуб черешчатый), которые обладают уникальными характеристиками, но при этом изменчивы.

Подготовка данных осуществляется путём изменения размера изображений до стандартного входного размера (например, 224×224 пикселя) и их нормализации. Изменения могут быть смоделированы с помощью методов аугментации (поворота и переворачивания), которые повышают надёжность модели.

Метки набора данных содержат истинные данные, что позволяет проводить контролируемое обучение. Мы добиваемся беспристрастной оценки, разделяя наборы на обучающий (80%), проверочный (10%) и тестовый (10) наборы.

Преимущества этого набора данных заключаются в его сбалансированности и реалистичности, а также в том, что он отображает некоторые сложности, такие как незначительные преграды или различия в цвете при сканировании. По сравнению с более крупными результатами, такими как PlantNet, он проще в работе с прототипированием, но при этом обладает достаточным разнообразием.

Образцы изображений листьев из набора данных

e6aec0dedff079ee8b1cc10d6444ece7

Глубокое встраивание функций с помощью ResNet-50

Глубокая сверточная нейронная сеть (CNN) ResNet-50, предварительно обученная на ImageNet, является основной базовой моделью, которую мы используем в нашей структуре для извлечения признаков. ResNet-50 уже обладает необходимыми возможностями для решения задач визуального распознавания, особенно благодаря 50 слоям, разработанным как остаточные сети, которые смягчают проблему исчезающего градиента в глубоких сетях с помощью пропусков связей. Используя предварительно обученные веса, мы используем изображения миллионов природных изображений для поиска общих представлений и их обобщения на мир листьев растений, что требует небольшого объема обучающих данных и вычислений.

ResNet-50 создает для каждого изображения листа 2048-мерный вектор вложения, представляющий собой числовое описание с чрезвычайно низкой размерностью, включающее все наиболее значимые признаки изображений листа. Векторы вложения создаются в результате работы последнего усредняющего слоя пула (который берет выходные данные последнего слоя карт признаков сети и создает одномерную сводку), которая суммирует последние карты признаков сети. Эта сводка включает информацию как о тонких, так и о очевидных аспектах изображения листа, таких как цвет, текстура, геометрия прожилок, кривизна края и т. д. Векторы вложения для каждого листа затем преобразуются в строку из 2048 чисел, каждое из которых представляет собой изученный шаблон. Эти 2048 чисел используются для создания отпечатка листа в математическом пространстве с высокой размерностью. Похожие листья будут расположены ближе друг к другу в математическом пространстве, а разнородные виды будут дальше.

Эти векторы эмбеддинга затем сравниваются с использованием евклидова расстояния, что позволяет измерить сходство между двумя листьями. Меньшие расстояния указывают на близкородственные виды или почти идентичную форму листьев, в то время как большие расстояния указывают на существенные различия между двумя листьями. Сравнение этих векторов эмбеддинга в пространстве эмбеддинга составляет основу нашего конвейера распознавания, предоставляя быстрый и понятный способ сравнения новых образцов с видами из нашей базы данных.

Конвейер предварительной обработки

Изображения листьев должны пройти через единый конвейер предварительной обработки перед подачей в нашу глубокую модель, чтобы гарантировать единообразие и совместимость с входными требованиями ResNet-50. Для предварительной обработки изображений мы создали препроцессорное преобразование на основе преобразований Torchvision, которое последовательно выполняет преобразования изображений, изменяя размер и кадрируя каждое изображение, преобразуя его в оттенки серого и нормализуя изображения.

из torchvision import transforms transform = transforms.Compose([ transforms.Resize(256), # Короткая сторона → 256 пикселей transforms.CenterCrop(224), # Обрезка по центру 224×224 (вход ResNet-50) transforms.ToTensor(), # Изображение PIL → тензор PyTorch [0,1] transforms.Normalize( # Нормализация ImageNet mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225] ) ])

Чтобы гарантировать соответствие распределения наших данных распределению предобученной модели, мы строго следим за параметрами нормализации ImageNet. Это гарантирует нормализацию входных значений до нулевого среднего и единичной дисперсии, а также повышает устойчивость извлечённых векторных представлений. Затем каждое изображение преобразуется в представление в виде тензора, которое можно использовать непосредственно в нашей модели глубокого обучения.

Встраивание извлечения

После этапа предобработки наша система добавляет глубокие вложения признаков. Для этого мы вносим изменения в исходную сеть ResNet-50, исключая полносвязный (FC) классификационный слой, поскольку нас интересует не классификация изображений как таковая, а получение их высокоуровневого представления признаков.

model = models.resnet50(pretrained=True) model = torch.nn.Sequential(*list(model.children())[:-1]) # Удалить слой FC model.eval() # Перевести модель в режим оценки

Усеченная сеть, усеченная на уровне глобального среднего уровня, позволяет получить экстрактор признаков, который выдает 2048-мерное изображение. Эти векторы имеют смысл и позволяют выявлять закономерности, определяющие различия между двумя или более видами листьев.

Мы устанавливаем функцию внедрения для разработки этой процедуры на основе всего нашего набора информации об изображениях:

def get_embedding(img_path): img = Image.open(img_path).convert('RGB') # Открыть и убедиться в формате RGB img_t = transform(img).unsqueeze(0) # Применить предварительную обработку и добавить измерение пакета с помощью torch.no_grad(): # Отключить отслеживание градиента для эффективности emb = model(img_t).squeeze().numpy() # Извлечь 2048-мерное встраивание return emb / np.linalg.norm(emb) # Нормализовать вектор с помощью нормализации L2

Нормализация L2 позволяет разместить вложения на единичной гиперсфере, что обеспечивает возможность равноправного и согласованного сравнения евклидовых расстояний между выборками. Этот этап нормализации устраняет вариации масштаба и сравнивает только направление признаков, поэтому его лучше всего использовать для измерения сходства между вложениями листьев.

Наконец, эта функция встраивания применяется ко всем 1600 изображениям листьев 100 видов. Полученные векторы признаков затем сохраняются в базе данных по видам в систематизированном виде, которая является основой нашей системы распознавания.

species_db = { species: [get_embedding(path) для пути в путях] для видов, пути в species_images.items() }

Здесь значение каждого ключа вида представляет собой список нормализованных векторных представлений соответствующего вида. Наша система способна выполнять точное распознавание видов растений, основываясь на поиске сходства в нашей организованной базе данных сохранённых образцов с векторными представлениями запроса, быстро вычисляя парные расстояния.

Евклидово расстояние для сопоставления сходства

Получив 2048-мерные L2-нормализованные вложения, мы можем измерить сходство между двумя изображениями листьев, используя евклидово расстояние. Даны два вложения x,y∈R2048.

4fd4ec6fe169222575d4293e297b5fa9

Поскольку все вложения нормализованы к единичной длине, это расстояние прямо пропорционально их угловому различию, которое равно:

b2986f5cae1fe7d7820d648d819acd28

Где cos𝜃=𝑥⋅𝑦. Чем меньше евклидово расстояние, тем больше сходство двух вложений в пространстве признаков, что увеличивает вероятность того, что листья будут одного типа.

92e57e9533355cd79e9024a97fb7b1b2

Метрика позволяет нашей системе ранжировать изображения в базе данных по отношению к внедрению запроса, а также обеспечивает точную и интерпретируемую классификацию на основе сходства.

Конвейер распознавания

Процесс распознавания в нашей системе включает автоматическое распознавание вида, которому соответствует запрашиваемое изображение листа, либо по составу базы данных видов, либо по её сохранённым вложениям. Следующая функция пошагово объясняет этот этап процесса.

def recognize_leaf(query_path, threshold=0.68): query_emb = get_embedding(query_path) # Извлечь встраивание листа запроса min_dist = float('inf') best_species = None for species, embeddings in species_db.items(): # Перебрать все сохраненные встраивания видов for ref_emb in embeddings: dist = np.linalg.norm(query_emb — ref_emb) # Вычислить евклидово расстояние if dist < min_dist: min_dist = dist best_species = species if min_dist < threshold: # Решение на основе порога сходства return best_species, min_dist else: return "Unknown", min_dist

В этом поиске методом полного перебора вычисляется евклидово расстояние между векторным представлением запроса и всеми сохранёнными векторными представлениями, и выбирается ближайшее совпадение. Если расстояние меньше предопределённого значения (0,68), система отметит лист как соответствующий вид, в противном случае — как «Неизвестно». В крупномасштабных приложениях или приложениях реального времени мы рекомендуем заменить его индексом FAISS для ускорения доступа к ближайшим соседям без потери точности.

Визуализация и анализ

Проекция вложений t-SNE

Чтобы лучше понять наше изученное пространство признаков, мы используем метод стохастического встраивания соседних векторов (t-SNE) с t-распределением для проецирования 2048-мерных вложений на двумерную плоскость. Этот метод нелинейного снижения размерности позволяет сохранять локальные связи, и, таким образом, мы можем построить классификацию групп вложений по видам. Сходство высокой внутривидовой и высокой внутривидовой дискриминации, отражаемое отдельными и компактными кластерами, показывает, что наша глубокая модель обладает высокой способностью выявлять отдельные признаки каждого вида растений.

Каждая точка представляет собой вложение листьев, окрашенных в разные цвета по видам; плотные кластеры показывают схожие виды, в то время как хорошо разделенные группы подтверждают сильное дискриминационное обучение.

d97a19fe4663927da739ef871fe61ea2

Анализ распределения расстояний

Чтобы проверить дискриминационную способность наших векторных представлений, мы исследуем распределение евклидова расстояния между парами изображений. Расстояние внутри одного вида (внутриклассовое) должно быть значительно меньше, чем между видами (межклассовое). Картируя эту взаимосвязь, мы обнаруживаем отдельную линию или набор линий, которые служат индикатором максимального порога сходства (например, 0,68), при котором мы принимаем решения о распознавании сходства. Это наблюдение подтверждает вывод о том, что наша модель векторных представлений успешно кластеризует похожие листья и дифференцирует разные виды в пространстве признаков.

799afc0917418d8e1fb468df2cf7b7a1

ROC-кривая для настройки порога

Для систематического определения оптимальной границы принятия решения между истинно- и ложноположительными результатами мы строим кривую ROC (Receiver Operating Characteristic), которая демонстрирует компромисс между частотой истинно положительных результатов (TPR) и частотой ложноположительных результатов (FPR) при различных пороговых значениях. Восходящая кривая означает улучшение оценки пар одинаковых и разных видов. Площадь под кривой (AUC) является показателем общей производительности, и наша система имеет превосходное значение AUC, равное 0,987, что гарантирует её высокую надёжность при распознавании на основе сходства. Статистика Youden J максимизирует чувствительность и специфичность наилучшего порогового значения (0,68).

48f5cd90f9cb7003060ad8b5ec4fa31b

Компромисс между точностью и полнотой

Для дальнейшей оценки эффективности распознавания при различных порогах принятия решения мы тестируем кривую точности и полноты (PR), которая подчёркивает способность системы идентифицировать истинные совпадения с правильным процентом точности (точность) по сравнению со способностью системы вспомнить все релевантные образцы (полнота). Это значение особенно полезно в условиях несбалансированной информации, когда некоторые виды могут быть представлены недостаточно. Наша модель очень точна даже при полноте выше 0,9, что означает высокие прогнозы с небольшим количеством ложных. Это показывает, что система правильно генерализована и активна в условиях реального мира.

66fa4fe07ea84598efd41ffda9a2670c

Оценка эффективности

Чтобы оценить общую эффективность нашей системы распознавания, мы проанализировали её производительность при разделении независимых данных с точки зрения обучения, валидации и тестирования. Модель была обучена на 1280 изображениях листьев и проверена/протестирована на 160 изображениях каждого из 100 сбалансированных видов.

Представленные ниже результаты характеризуются высокой точностью и общей обобщающей способностью. Используются показатели «Точность Top-1» (измеряющая долю верных прогнозов, сделанных моделью при первом запуске) и «Точность Top-5» (измеряющая долю верных видов, попавших в пять наиболее близких прогнозов). Это важно, поскольку в случае визуального перекрытия видов существует риск их ошибочной идентификации.

Расколоть Изображения Точность 1 Топ-5 Точность
Тренироваться 1280
Вал 160 96,2% 99,4%
Тест 150 96,9% 99,4%

Дополнительные измерения производительности также подтверждают точность модели: частота ложноположительных результатов составляет 0,8%, частота ложноотрицательных результатов — 2,3%, а среднее время вывода составляет 12 миллисекунд на изображение (по данным ЦП). Эти результаты свидетельствуют о том, что наша система эффективна и точна, то есть она может распознавать листья растений в режиме реального времени с минимальными вычислительными затратами.

Заключение и последние мысли

В этой статье мы показали, что глубокое встраивание признаков с использованием евклидова сходства может обеспечить мощный и интерпретируемый механизм автоматического распознавания листьев растений. Наша модель на основе ResNet-50 при использовании с набором данных «One-Hundred Plant Species Leaves» из репозитория машинного обучения Калифорнийского университета в Ирвайне достигла точности более 96% и продемонстрировала высокую вычислительную производительность. Этот инкрементальный подход может быть использован не только для мониторинга биоразнообразия и сельскохозяйственной диагностики, но и в качестве масштабируемой основы для внедрения систем экологического и визуального распознавания в будущем.

Об авторе

Шерин Санни — старший технический менеджер в Walmart Vizio, где он возглавляет основную команду инженеров, отвечающую за масштабное автоматическое распознавание контента (ACR) в облаке AWS. Его работа охватывает миграцию в облако, интеллектуальные конвейеры на базе искусственного интеллекта и машинного обучения, системы векторного поиска и платформы обработки данных в режиме реального времени, которые обеспечивают аналитику контента нового поколения.

Ссылки

[1] М.Р. Попп, Н.Е. Циммерман и П. Брун, Оценка использования автоматизированных инструментов идентификации растений в мониторинге биоразнообразия — пример Швейцарии (2025), Экологическая информатика, 90, 103316.

[2] А. Г. Харт, Х. Босли, К. Хупер, Дж. Перри, Дж. Селлорс-Мур, О. Мур и А. Е. Гуденаф, Оценка точности бесплатных автоматизированных приложений для идентификации растений (2023), Люди и природа, 5(3).

[3] Дж. Тарику, И. Гильено, Дж. Джилиоли, Ф. Джентилин, С. Армираглио и И. Серина, Автоматизированная идентификация и классификация видов растений в гетерогенных растительных зонах с использованием RGB-изображений, полученных с помощью беспилотных летательных аппаратов, и трансферного обучения (2023), Дроны, 7(10), 599.

[4] Ф. Дэн, Ч. Фэн, Н. Гао и Л. Чжан, Нормализация и выбор недифференцированно экспрессируемых генов улучшают моделирование машинного обучения кроссплатформенных транскриптомных данных (2025), PMC.

Источник: towardsdatascience.com

✅ Найденные теги: Как, новости

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Фото сгенерированных лиц: исследование показывает, что люди не могут отличить настоящие лица от сгенерированных
Нейросети построили капитализм за трое суток: 100 агентов Claude заперли…
Скетч: цифровой осьминог и виртуальный мир внутри компьютера с человечком.
Сцена с жестами пальцами, где один жест символизирует "VPN", а другой "KHP".
‼️Paramount купила Warner Bros. Discovery — сумма сделки составила безумные…
Скриншот репозитория GitHub "Claude Scientific Skills" AI для научных исследований.
Структура эффективного запроса Claude с элементами задачи, контекста и референса.
Эскиз и готовая веб-страница платформы для AI-дизайна в современном темном режиме.
ideipro logotyp
Image Not Found
Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.

Система оповещения обсерватории Рубина отправила 800 000 сигналов в первую ночь наблюдений.

Астрономы будут получать оповещения о небесных явлениях в течение нескольких минут после их обнаружения. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной…

Мар 2, 2026
Женщина с длинными тёмными волосами в синем свете, нейтральный фон.

Расследование в отношении 61-фунтовой машины, которая «пожирает» пластик и выплевывает кирпичи.

Обзор компактного пресса для мягкого пластика Clear Drop — и что будет дальше. Шон Холлистер, старший редактор Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

Мар 2, 2026
Черный углеродное волокно с текстурой плетения, отражающий свет.

Материал будущего: как работает «бессмертный» композит

Учёные из Университета штата Северная Каролина представили композит нового поколения, способный самостоятельно восстанавливаться после серьёзных повреждений.  Речь идёт о модифицированном армированном волокном полимере (FRP), который не просто сохраняет прочность при малом весе, но и способен «залечивать» внутренние…

Мар 2, 2026
Круглый экран с изображением замка и горы, рядом электронная плата.

Круглый дисплей Waveshare для креативных проектов

Круглый 7-дюймовый сенсорный дисплей от Waveshare создан для разработчиков и дизайнеров, которым нужен нестандартный экран.  Это IPS-панель с разрешением 1 080×1 080 пикселей, поддержкой 10-точечного ёмкостного сенсора, оптической склейкой и защитным закалённым стеклом, выполненная в круглом форм-факторе.…

Мар 2, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых