Приложение AIQ позволяет распознавать любые предметы и изображения, от билбордов до товаров на полках магазинов, автоматически открывая в смартфоне сайты производителей. О перспективах проекта РБК рассказал CEO компании Маркус Тан
Сканировать QR-коды — это прошлое, уверяет гендиректор сингапурской компании AIQ Маркус Тан. Разработанная программистами AIQ нейросеть позволяет сканировать любые объекты — одежду, продукты на полках магазинов, изображения на плакатах, видео на экранах телевизоров, автоматически переходя по ссылкам на сайты производителей и интернет-магазинов. Ретейлеры могут использовать технологию для привлечения клиентов в онлайн- и офлайн-магазины, медиа — чтобы сделать интерактивными бумажные журналы и телепередачи, организаторы мероприятий — чтобы научить стенды общаться с посетителями, считает Тан. Среди клиентов AIQ — Elle, Clear Shampoo и ряд компаний из Сингапура, Индонезии, Таиланда и Малайзии. Перспективным основатели считают и российский рынок: технологией уже заинтересовалась Mail.Ru Group. На конференции The Power of Video, организованной Publicis Media, CEO и сооснователь AIQ рассказал РБК о перспективах проекта
Говорящие картины
52-летний Тан родился в Сингапуре, но за образованием решил отправиться за рубеж — в Университет Оклахомы в США. Вернувшись на родину, он начал работать в рекламной индустрии: сначала продавал рекламу на радио в сингапурском медиахолдинге Mediacorp., затем был руководителем направления в местном отделении американской онлайн-туристической компании Travelocity. Прежде чем запустить свое дело, он успел поработать в Nokia и BlackBerry, где развивал направление мобильной рекламы и рекламы в мессенджерах, а также в компаниях, занимающихся интернет-маркетингом, Smaato, PubMatic и SpotX.
«Я всю жизнь строил карьеру в рекламной индустрии, изучил ее вдоль и поперек и по части традиционной рекламы в медиа, и по части рекламы в мессенджерах, и со стороны рекламодателя, и со стороны продавца, — говорит Тан. — В середине 2010-х у меня появилась мечта воплотить в жизнь деталь из фильмов про Гарри Поттера. Помните, там картины, висящие на стенах, могли разговаривать с людьми? Я подумал: будет здорово, если, например, рекламные баннеры и видеоролики смогут общаться с потенциальными покупателями посредством мобильников». Идея была в том, чтобы пользователи могли попадать на сайты компаний, просто наведя камеру смартфона на выпущенную ими кофточку, коробку с чаем или велосипед. Это позволило бы превратить любой физический предмет в активную ссылку.
Поверить в успех своей идеи Тану помог тот факт, что в Азии быстро распространялась мода на использование QR-кодов. Привычка сканировать их возникла в том числе благодаря китайскому аналогу WhatsApp — появившемуся в 2011 году мессенджеру WeChat. Этот мессенджер оснащен встроенным сканером QR-кодов, который пользователи применяют не только для того, чтобы войти в свой аккаунт или добавить человека в друзья: наведя камеру на обложку книги или висящий на стене плакат, можно, например, перевести английские надписи на китайский.
Сегодня китайские и японские компании активно используют QR-коды, чтобы пользователи могли перейти по ссылке на их сайт, открыть описание промоакции или страничку для бесконтактного платежа. По некоторым оценкам, только в 2016 году объем мобильных платежей, активированных с помощью QR-кодов, в Китае и Японии составил $1,65 трлн. Если сканирование QR-кодов для получения информации так популярно, то взлетит и технология сканирования изображений, и видео в обход QR-кодов, решил Тан. «Сканировать визуальные объекты напрямую — это ведь то же самое, но намного удобнее», — заключил он.
Предприниматель был уверен, что спрос на подобную технологию будет еще и потому, что с каждым годом миллениалы — люди, родившиеся между 1981 и 2000 годом, становятся экономически значимой частью общества. Считается, что именно они чаще других поколений отдают предпочтение визуальному контенту по сравнению с текстовым и больше других ценят потребительский опыт — персонализированный сервис, удобство совершения покупки и т.д. «Если раньше люди хранили свои фотографии в личных дневниках под замками, то сейчас все они публикуются в Instagram, — замечает Тан. — Миллениалы хотят взаимодействовать со всем, что видят, и бизнесу надо к этому как-то адаптироваться».
Программу, которая отвечала бы визуальным запросам миллениалов, можно было бы монетизировать с помощью сотрудничества с производителями и интернет-магазинами, которым она помогала бы в привлечении клиентов. В 2016 году Тан наконец занялся воплощением своей мечты. Общаясь с разработчиками, он узнал, что технологическая база для ее создания уже существует. Еще в 2014 году два предпринимателя (их имена Тан не называет) создали компанию AIQ, где с командой ученых из Индии, Китая и других стран разработали «визуальный Google» — нейросеть для поиска изображений и видео. Спустя два года проект переживал непростые времена: помимо развивавших собственные сервисы распознавания изображений Amazon, Google и Microsoft на рынок вышло множество новых игроков — Clarifai, Logograb и другие.
«Я с Лесли (Лесли Гох, партнер Тана. — РБК) пришел в AIQ, когда она нуждалась в инвестициях и принципиальной смене направления, — вспоминает Тан. — Прежняя команда предложила отличное решение для поиска изображений, но конкурировать с такими компаниями, как Google, она не могла. К тому же тогда не было самого продукта — платформы и интерфейса для широкого пользования технологией визуального распознавания». Решив довести дело до ума, Тан и Гох выкупили технологию вместе с командой разработчиков, которых, впрочем, частично заменили местными специалистами в области компьютерного зрения. Два года партнеры потратили на то, чтобы превратить технологию в коммерческий продукт.
Как это работает?
Приложение AIQ умеет распознавать предметы в реальном мире, на фото и видео: наведя камеру смартфона на любой товар, экран телевизора или монитора, на котором присутствует заинтересовавшая его вещь, пользователь попадает на сайт интернет-магазина или производителя. Чтобы предмет можно было отсканировать, его изображения должны быть залиты в базу изображений AIQ, которую компания активно пополняет. Для этого специалистам компании не обязательно фотографировать каждую вещь или продукт. «Например, у всех крупных ретейлеров есть интернет-магазины, для которых они сами делают все фото продуктов. В этом случае в систему просто загружается база изображений интернет-магазина», — объясняет Маркус Тан. Нейросеть, благодаря которой работает приложение, позволяет, например, узнать марку джинсов, в которые одет прохожий на улице, или производителя пакета с молоком на магазинной полке. Технологию AIQ можно встраивать и в приложения, разработанные самими компаниями-клиентами.
Больница, шоу и туфли
Тестируя и дорабатывая систему AIQ, Тан и Гох за два года провели большое количество пилотных интеграций с медийными, торговыми и даже медицинскими компаниями. Технологию распознавания, например, испытывали вместе с одним из сингапурских медицинских институтов. Люди, у которых возникла экзема, с помощью камеры на мобильном телефоне могли определить, насколько серьезно их заболевание, и получить готовый план лечения, — и все это не выходя из дома. По словам Тана, эта возможность пользуется спросом до сих пор.
Другой интересный опыт взаимодействия AIQ получила, делая проект для азиатских зрителей телешоу America’s Got Talent. Наводя камеру смартфона на экран, телезрители могли узнать, во что одеты участники, и купить понравившиеся вещи. Виджет для сканирования был встроен в специальное приложение шоу, которое предлагалось загрузить для получения дополнительной информации об участниках и участия в конкурсах с призами. В результате 44% всех сканирований было сделано с целью узнать стоимость образа звезды.
Участники телешоу America’s Got Talent (Фото: Willy Sanjuan / Invision / AP)
Еще одну интерактивную акцию AIQ сделала совместно с сингапурским обувным брендом Charles and Keith: посетители магазина сканировали дисплеи, показывающие рекламные ролики, чтобы попасть на страницу с луками поклонников бренда. Всем пользователям предоставлялась возможность поделиться страницей в соцсети Facebook и получить электронный купон на скидку. По итогам недельной акции 11,9 тыс. посетителей просканировали дисплеи, 2,9 тыс. из которых поделились образом из осенне-зимней коллекции в Facebook.
Похожие тестовые взаимодействия AIQ провела еще с несколькими крупными компаниями. Технология позволила оснастить «гиперссылками» бумажный журнал Elle: наводя камеру на фото, читатели переходили на сайты производителей одежды. А просканировав собственные волосы, пользователи приложения могли получить рекомендацию конкретного шампуня от Clear Shampoo. Вооруженные приложением AIQ посетители History CON 2018 (конкурс на историческую тему, организованный американским History Channel и проходивший летом в Маниле) искали сокровища в ходе квеста. Благодаря пилотным проектам нейросеть AIQ улучшила точность визуального распознавания, а Тан и Гох поняли, как коммерциализировать продукт.
С мая 2018 года проект работает по модели SaaS (Service as a Software): компания берет небольшую плату за установку и ежемесячную комиссию в зависимости от количества совершенных сканирований. Сейчас у AIQ есть несколько соглашений с компаниями из Сингапура, Индонезии, Таиланда и Малайзии. Средний ежемесячный оборот, по словам Тана, доходит до $50 тыс.
Попробуй распознай
Сегодня на визуальном распознавании зарабатывают десятки компаний по всему миру. Значительная часть из них сфокусирована на поиске одежды по картинкам: этим занимаются и сингапурская Visenze, и американская ASAP54, и британская SnapFashion. В России тоже есть своя нейросеть для распознавания одежды на фото и подбора аналогов — сервис Sarafan, привлекший в 2017 году более 13 млн руб. инвестиций.
А вот успешных универсальных решений, способных распознавать не только одежду, а вообще любые предметы, на рынке пока не так много. За рубежом этим занимается компания Catchoom, в России — компания Kuznech. Но обе технологии не умеют распознавать товары на видео. «Технологии, когда вы запускаете приложение, а оно распознает любой объект и дальше что-то происходит, раньше не было, — говорит Михаил Погребняк, сооснователь компании Kuznech. — Если у AIQ получилось это сделать, да еще и в форме сканирования и распознавания в режиме реального времени, они молодцы».
Впрочем, попытку охватить всё сразу одобряют далеко не все. «Техническое решение, которое способно распознавать вообще все на свете, — неудачный компромисс: распознается многое, но все посредственно», — считает Андрей Корхов, сооснователь сервиса визуального распознавания Sarafan.
Сингапурская сингулярность
Несмотря на рост числа клиентов, операционной прибыли у проекта пока нет. Тан рассчитывает, что выйти в плюс поможет в том числе российский рынок. Его разработкой уже заинтересовалась Mail.Ru Group. В планах отечественной компании — внедрить инструмент AIQ в интерактивное приложение-викторину «Клевер», запущенное командой социальной сети «ВКонтакте».
Иван Ургант (Фото: Клевер / VK)
Участники викторины могут ежедневно выигрывать денежные призы, отвечая на 12 вопросов. «ВКонтакте» создает разные инструменты для рекламодателей, которые соединяют онлайн и офлайн, например Performance Retail (платформа для оценки эффективности рекламных кампаний. — РБК), — говорит Ирина Румянцева, директор по рекламному продукту и рекламной монетизации «ВКонтакте». — Сейчас вместе со стартапом AIQ мы работаем над новой интерактивной механикой для спонсоров и партнеров крупнейшего интерактивного мобильного шоу «Клевер». В рамках спецпроектов пользователи смогут распознавать товары и/или акции брендов на рекламных материалах и в магазинах с помощью смартфонов и получать бонусы. Это поможет рекламодателям создавать нестандартные мероприятия, которые вовлекают клиентов и во время игры в «Клевер», и во время похода в магазин».
Маркус Тан считает этот проект первым шагом к тому, чтобы сделать технологию доступной миллионам россиян, в том числе для совершения покупок с помощью распознавания товаров. «Для начала надо сформировать привычку сканирования, которая уже есть на азиатском рынке, но пока не прижилась здесь, — говорит предприниматель. — И лучший способ для этого — как раз игровая форма, которую мы реализуем с Mail.Ru Group. Когда люди оценят виртуальную дверь в онлайн, мы сможем двигаться дальше».
Перспективное направление для развития — ретейл, считает Тан. «Ретейлеры физически не видят свою онлайн-аудиторию, поэтому стремятся перевести ее в офлайн, чтобы знать о ней больше и поддерживать проходимость своих магазинов, — рассуждает он. — С другой стороны, в онлайне клиенты совершают больше импульсивных покупок, поэтому ретейлеры не упускают возможности оцифровать процесс покупки. Наше решение как раз помогает и с тем, и с другим. Так, если в магазинах появится возможность сканировать товары и получать информацию о рецептах приготовления блюд из этих продуктов, можно будет увеличить потребительскую корзину сопутствующими рекомендованными товарами». А если сделать доступным сканирование ролика YouTube-блогера, можно будет привлечь аудиторию в физический магазин краткосрочными скидками.
Тан прогнозирует, что технологии визуального распознавания изменят привычный вид магазинных полок — на них станет меньше товаров, зато на стенах появятся плакаты, сканируя которые покупатели будут выбирать, что им нужно. Трансформируется и брендинг: ставка будет делаться на визуальные отличия упаковки, элементы, которые могут быть распознаны машинами. «Мы будем обучаться заново, как брендировать продукцию, — говорит предприниматель.
Взгляд со стороны
«То, что работает в Сингапуре, не всегда работает у нас»
С точки зрения технологии потоковое распознавание видео — задача сложная. Но точечно эта задача уже решается: например, можно распознавать номера нарушителей ПДД. Все подобные технологии нельзя назвать универсальными. Если компания фокусируется на распознавании чеков, она хорошо распознает чеки, если фокусируется на чае — хорошо распознает эмблемы на коробках с чаем. Если говорят, что на базе одного технического решения хорошо распознается все с максимальным качеством, — это лукавство. Подобное решение предлагала российская компания Kuznech, но, насколько я понимаю, ее рыночную востребованность нельзя назвать феноменальной. Они работали с онлайн-ретейлерами, но так и не стали миллиардной компанией. Поэтому по поводу спроса ретейлеров на технологию распознавания всего у меня есть определенный скепсис.
То, что работает в Сингапуре, не всегда работает у нас. Например, чтобы формат сканирования работал эффективно, должен быть паттерн подобного применения. Мы с вами пользуемся приложением Shazam для распознавания песен. При этом сканирование, например манекенов в магазинах или тех же QR-кодов, — не самый популярный паттерн. Формирование этой привычки — дорогой и долгий процесс.
«Сделать одну нейросеть, которая будет распознавать еду, одежду, котов, этикетки, памятники, аудиотехнику, — это задача, которая не под силу пока даже Microsoft и Google»
Мы начинали в 2014 году с приложения, которое по фотографии находит что-то похожее. Эта возможность оказалась не нужна пользователям. После нас такое делал «Яндекс»: с помощью сервиса «Снимите одежду» они вели трафик с главных страниц сайтов в приложении. Но вскоре они тоже поняли, что это никому не нужно. Такое приложение обычно живет у пользователя в папке «пригодится» и никогда не пригождается. Сейчас AIQ пытается расширить функции приложения с помощью возможности сканирования кодов. Мало того что этот кейс не нужен пользователем, у них, скорее всего, еще и очень плохое качество распознавания. Сделать одну нейросеть, которая будет распознавать еду, одежду, котов, этикетки, памятники, аудиотехнику, — это задача, которая не под силу пока даже Microsoft и Google.