Компания Xerox разрабатывает компьютерную систему, позволяющую определить, насколько удачным оказался тот или иной снимок. В ее основе лежат методы компьютерного распознавания образов – одна из наиболее динамичных областей современных вычислительных технологий. О них в целом и новом приложении Xerox – речь в сегодняшней Техносреде.
Предлагаемая система работает следующим образом: на ее вход загружается графический файл, а на выходе появляется оценка качества фотографии. Эта оценка хорошо коррелирует с человеческим восприятием: фотографии, которые кажутся красивыми большинству людей, определяются программой как «удачные» и наоборот – менее привлекательные фотографии программа классифицирует как неудачные. Тут нелишне напомнить, что люди обычно воспринимают как красоту на снимке. Именно это сделали исследователи Центра Xerox в Гренобле, и это же, вслед за ними, делает созданная компьютерная программа всякий раз, когда анализирует фото.
В качестве обучающего массива данных система использовала фото на Facebook и Flickr, отмеченные большим числом положительных тэгов. Многое из того, что показал анализ этих предпочтений на уровне графических элементов, было известно и ранее. Прежде всего, это правило «трех зон», распределяющее предметы на фотографии удобным для восприятия образом. Для портретов оказалось, что они лучше всего смотрятся на однотонном недетализированном фоне, например, белом полотне, на котором фотографы обычно делают студийные портреты. Система определила и другие закономерности, касающиеся ландшафтных и других видов снимков.
Классификация снимков по жанрам основана на предметах, которые фигурируют на снимке. Чтобы оценить сложность такой классификации машинным способом, достаточно вспомнить, что компьютер получает лишь точки (пиксели) с соответствующей интенсивностью света и цветами в данной точке. По соотношению элементов в этих больших цифровых таблицах программа и определяет предметы и, соответственно, жанр снимка. В случае системы Xerox используется визуальный словарь, состоящий из элементарных единиц: углов, краев, прямых и округлых линий и т.д. Наличие этих единиц словаря и их взаимное расположение программа использует для «понимания» изображения на снимке.
С работой алгоритма можно ознакомиться уже сейчас в бета-версии приложения под названием Catepix для Facebook. Область применения этой технологии оценивается как довольно широкая. Любительская фотография станет проще: из многих снимков система может выбрать наиболее удачный с точки зрения общих вкусов. Фотостоки (веб-сайты, предоставляющие за плату изображения на заданную тему) смогут оценить качество своих продуктов в машинном режиме. Сходные технологии сейчас позволяют одной из компаний группы Xerox создавать приложения для машинной обработки офисных документов.
Эти и другие применения технологии пока ограничиваются вычислительной эффективностью алгоритмов. Программы обрабатывают большие объемы данных, и их вычислительная составляющая так же значительна. По этой причине, в частности, предлагаемая Xerox система будет работать на облачных технологиях вычисления. Позволит ли увеличение эффективности этого и подобных алгоритмов в конечном счете применять их в индивидуальных камерах, пока неясно.
На примере системы Xerox видно, как в общем устроены системы распознавания образов. Исходной точкой для них выступают помеченные тэгами (классифицированные) изображения. На них нейронная сеть или другие классифицирующие алгоритмы обучаются и затем обсчитывают новые данные. Классический пример алгоритмов распознавания образов – чтение рукописных почтовых кодов на письмах. Более сложная задача – OCR, позволяющая преобразовывать графические сканы в текстовые файлы.
Американское общество технологично. Лучшие умы со всего света создали в США критическую интеллектуальную массу во многих областях науки и техники. В «Технологиях» пойдет речь о них, но не только. Само понятие "технология" в Америке применимо буквально ко всему, в том числе к обществу. Новые материалы в рубрике «Технологии с Крыловым» каждую неделю по средам