Разработчики Массачусетского технологического института (МТИ) вычислительной техники и лаборатории искусственного интеллекта и Университета Джорджии создали программное обеспечение (ПО), способное определять направление взора человека с точностью до 1 см, при использовании смартфона, и 1,7 сантиметра — при работе на планшете. Новая система, которая получила название GazeCapture, по сообщению MIT Niews, была продемонстрирована 28 нюня текущего года в Сиетле (США) на конференции компьютерного зрения и распознавания образов IEEE.
Одновременно с приложением зрительного отслеживания, ставшим более доступным, система может включать новые компьютерные интерфейсы, или помочь обнаружить признаки начинающегося неврологического или психического заболеваний.
По словам одного из соавторов разработки, выпускника МТИ Адитьи Косла, разработчики построили свою систему GazeCapture с помощью технологии машинного обучения, при которой компьютеры учатся выполнять поставленные перед ними задачи путем поиска моделей в больших объёмах обучающих примеров. По его мнению, точность системы GazeCapture будет совершенствоваться по мере увеличения количества используемых данных.
Косла и его соавторы считают, что «преимуществом по сравнению с предыдущими исследованиями было количество данных, с которыми они работали». В настоящее время используемый ими набор данных включает в себя образцы взглядов от 1500 пользователей мобильных устройств. Ранее самыми крупными наборами данных, используемых для создания технологии слежения взглядом, были образцы взглядов от чуть более 50 пользователей.
Чтобы собрать наборы данных, как утверждает Косла, «большинство других разработчиков, как правило, вызывают людей в лабораторию. А вызов 50 человек сам по себе уже является довольно трудоемким процессом. И поэтому мы поняли, что мы могли бы сделать это с помощью краудсорсинга».
В работе над своей системой, разработчики на начальном этапе экспериментов, использовали обучающие данные, полученные от пользователей 800 мобильных устройств. Основываясь на этих данных, они получили погрешность системы до 1,5 сантиметров, что стало двукратным улучшением по сравнению с предыдущими экспериментальными системами. На следующем этапе они получили данные ещё от 700 человек, что позволило уменьшить погрешность до 1 сантиметра.
Проведенные эксперименты показывают, что около 10 000 обучающих примеров должно быть достаточно, чтобы понизить предел погрешности до половины сантиметра. По утверждению Адитьи Косла, такая погрешность будет достаточно хорошей, чтобы сделать систему коммерчески жизнеспособной.
Для того, чтобы собрать свои примеры обучения, исследователи разработали простое приложение для устройств, использующих операционную систему ОС IOS от Apple. Приложение мигает маленькой точку где-то на экране устройства, привлекая внимание пользователя, а затем на короткое время заменяет его либо на «R» или «L», уведомляя пользователя о том, что бы он перевёл взгляд на правую или левую сторону экрана. Во время этого процесса, камера устройства непрерывно считывает изображение лица пользователя.