В основе системы лежат обучающиеся языковые модели, которые помогают машине понимать абстрактные запросы. Например, на фразу: «Принести мне что-нибудь перекусить?» — робот отправится на кухню и выберет снэк.
Во время первых тестов языковые модели понимали запрос, но решение чаще всего выдавали бесполезное. Нейросеть GPT-3 на жалобу о пролитом напитке предлагала пропылесосить жидкость, а FLAN начинала извиняться перед пользователем. Чтобы повысить качественно результаты, разработчики объединили модель PaLM с уже подготовленным для роботов ПО, который распознает задачу и действие, создав систему PaLM-SayCan. Сначала она воспринимает запрос, затем разбивает его на набор задач, которые лучше всего подходят с учетом контекста.
Роботов научили анализировать окружающее пространство, находить определенные предметы и обучаться на получаемом опыте. Результаты теста показали, что система в 84% случаев верно выбирает последовательность действий. А в 74% случаев успешно справляется с задачей.