Японцы научили программу создавать картинку по описанию
Исследователи из Токийского университета Хирохару Като и Тацуя Харада создали алгоритм, который умеет грубо воспроизводить картинку по её описанию. Об этом рассказывает MIT Technology Review.
Для этого они собрали базу из 101 изображения размером 128 × 128. С помощью алгоритма они проанализировали их на выявление визуальных слов (visual word). Это понятие в компьютерном зрении, которое даёт программам представление о том, что изображено на картинке (например, так можно отличить небо от горизонта). Одно визуальное слово представляет короткую последовательность пикселей. В эксперименте Като и Харады она составляла 13 × 13 пикселей.
Исследователи взяли этот метод и использовали для него два способа. Во-первых, решили считывать визуальные слова вместе с теми, которые находятся рядом с ними. Например, несколько слов о линии горизонта дадут программе представление о непрерывной линии. Таким образом они выявили пары визуальных слов, которые находятся друг с другом в их базе изображений (приняли, что 3/4 всех слов «перекрывают» друг друга). Во-вторых, учёные учитывали положение визуального слова на картинке. Например, вероятность получить визуальное слово с небом в верху изображения больше, чем внизу.
С полученным алгоритмом они провели эксперименты. Сначала воссоздали изображения по тем визуальным словам, которые получили с них. Потом использовали программу для компьютерного зрения на 10 тысячах случайных картинках, чтобы извлечь из них визуальные слова и восстановить по ним изображения. Кроме того, они попробовали с нуля создать графические файлы по описанию на естественном языке. Для этого они перевели все слова из описания набор визуальных слов и отдали их в обработку. В этом случае алгоритм воспроизвёл абстрактные изображения, которые имели мало общего с исходным запросом.
Комментарии
Подписаться