Meta і Гарвард показали агента, який “тягне” великі репозиторії

Meta разом із дослідниками Гарвардського університету представили Confucius Code Agent (CCA) – експериментального AI-агента для роботи з великими кодовими базами. У бенчмарку SWE-Bench-Pro система продемонструвала 54,3% розв’язання задач, наблизившись до рівня провідних комерційних рішень.

Утім, у Meta наголошують: ключова новина не стільки в цифрах. CCA побудований на новій платформі Confucius SDK, яку розробляли з прицілом на production-сценарії, а не на дослідницькі демо.

Дослідження підсвічує тенденцію, яку все частіше обговорюють у розробці ПЗ: результативність AI-асистентів визначає не лише мовна модель, а “обв’язка” навколо неї. Автори називають це agent scaffolding – інфраструктурою, що задає правила роботи з кодом, контекстом і інструментами.

Показовий приклад – тестування однієї й тієї самої моделі Claude 4 Sonnet у різних агентних фреймворках. У конфігурації Confucius Code Agent вона отримала 45,5%, тоді як базовий SWE-Agent – 42,7%. Різницю забезпечила саме архітектура агента, а не заміна моделі.

“Confucius Code Agent показує, що обмеженням AI у розробці ПЗ більше не є модель. Різниця в результатах виникає через те, як агенти структуровані для роботи з кодом, контекстом і відокремлення машинних сигналів від інформації для людей”, – зазначив Мітч Ешлі, віцепрезидент і керівник практики Software Lifecycle Engineering у Futurum.

За його словами, для команд розробки це зсуває фокус: модель стає базовою вимогою, а конкурентна перевага переходить до агентної архітектури – здатної підтримувати довготривалу роботу, постійну пам’ять і контрольоване використання інструментів.

Три рівні дизайну агента

Confucius SDK розділяє дизайн системи на три незалежні складові, щоб контекст моделі не “забивався” людьми зрозумілими деталями, які шкодять міркуванням.

Agent Experience (AX) – як інформація подається самій AI-моделі. Система стискає надлишкові логи в структуровані резюме, зберігаючи важливі рішення та помилки.
User Experience (UX) – взаємодія людини з агентом. Користувачі бачать детальні трасування виконання, але ці дані не передаються безпосередньо моделі.
Developer Experience (DX) – інструменти для побудови, тестування й оптимізації агентів, включно з модульними інтерфейсами для пам’яті, промптів і тулінгу.

Такий поділ має прибрати типову для агентів проблему: коли людиночитні логи засмічують контекст, і модель починає витрачати “увагу” не на те, що допомагає розв’язувати задачу.

Для роботи з великими кодовими базами Confucius Code Agent використовує чотири механізми – від пам’яті до автоматизованого циклу поліпшень.

Ієрархічна робоча пам’ять – окремий Architect-агент стискає довгі сесії в структуровані плани, щоб не переповнювати контекст.
Постійні нотатки – агент автоматично формує Markdown-записи з рішень і помилок, створюючи довготривалу базу знань.
Модульна система розширень – інструменти викликаються через окремі компоненти, що полегшує тестування та повторне використання.
Мета-агент для оптимізації – автоматизує цикл build – test – improve, генеруючи конфігурації агентів і покращуючи їх за результатами тестів.

Автори окремо відзначають ефект від постійних нотаток. Під час повторного запуску 151 задачі цей механізм зменшив середню кількість токенів зі 104 тисяч до 93 тисяч і водночас підняв успішність із 53% до 54,4%.

Результати тестування

На SWE-Bench-Pro Confucius Code Agent із Claude 4.5 Opus досяг 54,3% і перевищив 52,0%, заявлені Anthropic для власної системи. У конфігурації з Claude 4.5 Sonnet результат становив 52,7% – це помітно вище за базовий Live-SWE-Agent із 45,8%.

Окремі експерименти підкреслили, наскільки критичним є керування контекстом. Видалення цього компонента знижувало результативність із 51,6% до 44,0% – і це, за логікою авторів, прямий доказ ваги архітектурних рішень.

Що це означає для команд розробки

Спільне дослідження Meta та Гарвардського університету підводить до практичного висновку: production-ready агенти для програмування оцінюватимуть не лише за “чистими” бенчмарками моделей. Вирішальними стають здатність стабільно працювати з реальними кодовими базами, архітектура пам’яті, контроль контексту та керування інструментами.

Confucius SDK у цьому сенсі подають як приклад того, як саме варто “обгортати” мовні моделі, щоб вони поводилися не як демонстраційні помічники, а як інженерні інструменти в щоденній розробці.

Meta і Гарвард показали агента, який “тягне” великі репозиторії – і робить ставку не на модель

Три рівні дизайну агента

Результати тестування

Що це означає для команд розробки

Конопля на валізах: захисника “Шахтаря” ведуть одразу кілька клубів Європи

Українські “Сліди” вперше покажуть у Берліні: прем’єра документального фільму на Берлінале-2026

Apple активізувала тиск на OpenAI через звинувачення у крадіжці інтелектуальної власності

GPT-5.6 Sol від OpenAI опинилася в епіцентрі скандалу через знищення даних користувачів

Штучний інтелект для всіх поколінь: OpenAI розширює коло користувачів

Nubia готує до запуску перший у світі повноцінний AI-смартфон

Коментарі

Залишити відповідь Скасувати коментар

Читайте також

Як зрозуміти, що потрібно міняти дисплей iPhone 11

Константин Круглов задержан, его этапируют в одну из самых закрытых тюрем мира

Місцеві громади отримали рекордні надходження від ПДФО за пів року

Вашингтон та Тегеран опинилися на порозі масштабної війни

Родрі став MVP чемпіонату світу з футболу: хто ще отримав індивідуальні нагороди

Останні новини

Як зрозуміти, що потрібно міняти дисплей iPhone 11

Константин Круглов задержан, его этапируют в одну из самых закрытых тюрем мира

Місцеві громади отримали рекордні надходження від ПДФО за пів року

Три рівні дизайну агента

Результати тестування

Що це означає для команд розробки

Конопля на валізах: захисника “Шахтаря” ведуть одразу кілька клубів Європи

Українські “Сліди” вперше покажуть у Берліні: прем’єра документального фільму на Берлінале-2026

Вам також може сподобатися

Коментарі

Залишити відповідь Скасувати коментар

Читайте також

Останні новини