В Google компьютер научили описывать сцены на фотографиях
Исследователи из Google и Стэнфордского университета создали алгоритм «компьютерного видения», который умеет описывать сцены на фотографиях.
Его принцип основывается на переводе информации из свёрхточной в рекуррентную нейронную сеть. При этом компьютер будет описывать сцену на изображении с помощью естественного языка. Например, “Two pizzas sitting on top of a stove top oven” («Две пиццы на плите») или “A group of people shopping at an outdoor market” («Группа людей делает покупки на рынке»).
В Google предоставили результаты работы алгоритма на изображениях, которые исследователи нашли в Сети. Они поделены на четыре группы: описанные без ошибок, описанные с незначительными ошибками, описанные частично правильно и описанные неверно. Например, фотографию женщины с собакой алгоритм описал как «собаку, которая прыгает за фрисби», а жёлтую машину как «школьный автобус на парковке».
Авторы алгоритма считают, что он поможет улучшить поиск по картинкам, у которых нет подписей, и поможет слабовидящим людям читать (или слушать) «автоматические» описания изображений. В будущем этот алгоритм может быть развит для использования роботами или слепыми для ориентирования в реальной среде.
Комментарии
Подписаться