Японцы научили программу создавать картинку по описанию
Исследователи из Токийского университета Хирохару Като и Тацуя Харада создали алгоритм, который умеет грубо воспроизводить картинку по её описанию. Об этом рассказывает MIT Technology Review.
Картинки, воспроизведённые из базы
Для этого они собрали базу из 101 изображения размером 128 × 128. С помощью алгоритма они проанализировали их на выявление визуальных слов (visual word). Это понятие в компьютерном зрении, которое даёт программам представление о том, что изображено на картинке (например, так можно отличить небо от горизонта). Одно визуальное слово представляет короткую последовательность пикселей. В эксперименте Като и Харады она составляла 13 × 13 пикселей.
Исследователи взяли этот метод и использовали для него два способа. Во-первых, решили считывать визуальные слова вместе с теми, которые находятся рядом с ними. Например, несколько слов о линии горизонта дадут программе представление о непрерывной линии. Таким образом они выявили пары визуальных слов, которые находятся друг с другом в их базе изображений (приняли, что 3/4 всех слов «перекрывают» друг друга). Во-вторых, учёные учитывали положение визуального слова на картинке. Например, вероятность получить визуальное слово с небом в верху изображения больше, чем внизу.
С полученным алгоритмом они провели эксперименты. Сначала воссоздали изображения по тем визуальным словам, которые получили с них. Потом использовали программу для компьютерного зрения на 10 тысячах случайных картинках, чтобы извлечь из них визуальные слова и восстановить по ним изображения. Кроме того, они попробовали с нуля создать графические файлы по описанию на естественном языке. Для этого они перевели все слова из описания набор визуальных слов и отдали их в обработку. В этом случае алгоритм воспроизвёл абстрактные изображения, которые имели мало общего с исходным запросом.
Комментарии
Подписаться