Стартап OpenAI представил собственного ИИ-агента «Оператор». Он способен выполнять задачи в интернете вместо пользователя.
Новый инструмент может просматривать веб-страницы и взаимодействовать с ними, набирать текст, листать и нажимать на кнопки.
«Оператора» можно попросить выполнить множество повторяющихся базовых задач вроде заполнения форм, заказа продуктов или бронирования отелей.
«Возможность использовать те же интерфейсы и инструменты, с которыми люди взаимодействуют ежедневно, расширяет сферу применения ИИ, помогая экономить время на выполнении повседневных задач и открывая новые возможности для взаимодействия с бизнесом», - говорится в анонсе OpenAI.
«Оператор» работает на базе новой ИИ-модели Computer-Using Agent (CUA). Она сочетает возможность GPT-4o видеть экран с расширенным мышлением благодаря обучению с подкреплением. Агент воспринимает информацию с помощью скриншотов и способен осуществлять те же действия, что и человек с применением мыши и клавиатуры.
Модель обучена запрашивать подтверждение перед завершением задачи вроде бронирования отеля или отправки электронного письма.
В настоящий момент функционирует предварительная исследовательская версия, она будет развиваться на базе отзывов пользователей. ИИ-агент доступен подписчикам ChatGPT Pro за $200 в США на специальном ресурсе. В будущем планируется расширение доступа для большего количества людей.
На данном этапе агент работает не идеально, а если столкнется с трудностями, он попросит пользователя закончить задание.
В октябре 2024 года ИИ-стартап Anthropic выпустил обновленную версию модели Claude 3.5 Sonnet, которая может взаимодействовать с компьютером как человек — водить курсором, нажимать на кнопки и печатать текст.