Google відкрила публічну бета-версію Interactions API – інструменту, який змінює сам принцип роботи з великими мовними моделями. Для розробників це означає відхід від коротких ізольованих запитів і перехід до довготривалих AI-систем зі станом, пам’яттю та фоновим виконанням.
- #Новини
- #DevOps
- #API
- #AI agents
- #LLM
- #Gemini
- #Google AI Studio
Упродовж останніх років стандартом для генеративного ШІ залишалася модель completion: запит – відповідь – кінець взаємодії. Якщо сценарій вимагав продовження діалогу або складнішої логіки, розробнику доводилося щоразу передавати весь попередній контекст разом із новим запитом.
Цей підхід був достатнім для чат-ботів, але став серйозним обмеженням у момент, коли індустрія почала активно будувати агентів – системи, здатні виконувати багатокрокові дії, користуватися інструментами та працювати у тривалих часових межах.
Interactions API змінює архітектуру на рівні інфраструктури. Ключова ідея – серверний стан за замовчуванням. Замість передачі великих обсягів JSON із повною історією взаємодії розробник оперує ідентифікатором previous_interaction_id.
Уся історія діалогу, виклики інструментів і проміжні міркування зберігаються на стороні Google. У результаті LLM перестає бути просто функцією «текст – текст» і поводиться як віддалена обчислювальна система з власною пам’яттю.
Такий підхід відкриває доступ до фонового виконання – критично важливої можливості для агентних сценаріїв. Завдання на кшталт глибокого дослідження теми, аналізу великої кількості джерел або складного планування більше не обмежуються HTTP-таймаутами. Агент можна запустити з параметром background=true, а результат отримати пізніше, опитавши API. Фактично Interactions API перетворюється на чергу завдань для обчислювального інтелекту.
На цій самій інфраструктурі Google запускає вбудованого агента Gemini Deep Research. Він працює не як класична модель, що передбачає наступний токен, а як цикл дій: пошук інформації, читання джерел, синтез висновків і лише потім формування відповіді. Це вже не чат, а автономний дослідник, здатний працювати тривалий час без участі користувача.
Важливим сигналом для розробницької екосистеми стала підтримка Model Context Protocol (MCP). Завдяки цьому Gemini може безпосередньо викликати зовнішні сервіси та інструменти, розміщені на віддалених серверах, без необхідності створювати проміжний код. Google фактично рухається в бік відкритої агентної екосистеми, де моделі напряму інтегруються з реальними системами – базами даних, API та сервісами.
У глобальному контексті Google наздоганяє OpenAI, яка ще навесні 2025 року запустила Responses API і першою відійшла від stateless-підходу. Водночас підходи компаній різняться. OpenAI робить ставку на агресивну компресію контексту, стискаючи історію взаємодій у непрозорі compaction items. Це знижує витрати на токени, але перетворює минулі міркування моделі на «чорну скриньку». Google, навпаки, зберігає повну історію взаємодії та дозволяє її аналізувати й налагоджувати, жертвуючи частиною оптимізації заради прозорості.
Interactions API вже доступний у Google AI Studio та підтримує актуальні моделі Gemini, зокрема Gemini 3 Pro Preview, Gemini 2.5 Flash і Pro. Оплата залишається токенною, але серверний стан створює ефект неявного кешування. Оскільки контекст зберігається у Google, розробники не платять за повторне надсилання великих історій взаємодії, що може суттєво зменшити витрати у production-системах.
Водночас новий підхід має й ризики. Дані взаємодій зберігаються на серверах Google: для безкоштовного рівня – до одного дня, для платного – до 55 днів. Це підвищує продуктивність і знижує вартість, але створює виклики з точки зору комплаєнсу, управління даними та політик конфіденційності. На відміну від Zero Data Retention у корпоративних пропозиціях OpenAI, тут розробникам доведеться самостійно оцінювати допустимість такого компромісу.
Фахівці також звертають увагу на недопрацьовані деталі. Зокрема, у Deep Research джерела нерідко повертаються у вигляді внутрішніх Google-редиректів замість прямих URL, що ускладнює використання цитат у звітах. Це не критично на тлі архітектурних змін, але важливо для практичного застосування.
У підсумку Interactions API – це не просто ще один endpoint. Це чіткий сигнал, що великі мовні моделі остаточно виходять за межі чатів і перетворюються на довготривалі автономні системи з пам’яттю, інструментами та фоновим виконанням. Для команд, які створюють AI-агентів, це означає простішу архітектуру, нижчі витрати й водночас новий рівень складності та відповідальності.







Коментарі