Технології

Meta і Гарвард показали агента, який “тягне” великі репозиторії – і робить ставку не на модель

0
Meta і Гарвард показали агента, який “тягне” великі репозиторії – і робить ставку не на модель

Meta разом із дослідниками Гарвардського університету представили Confucius Code Agent (CCA) – експериментального AI-агента для роботи з великими кодовими базами. У бенчмарку SWE-Bench-Pro система продемонструвала 54,3% розв’язання задач, наблизившись до рівня провідних комерційних рішень.

Утім, у Meta наголошують: ключова новина не стільки в цифрах. CCA побудований на новій платформі Confucius SDK, яку розробляли з прицілом на production-сценарії, а не на дослідницькі демо.

Дослідження підсвічує тенденцію, яку все частіше обговорюють у розробці ПЗ: результативність AI-асистентів визначає не лише мовна модель, а “обв’язка” навколо неї. Автори називають це agent scaffolding – інфраструктурою, що задає правила роботи з кодом, контекстом і інструментами.

Показовий приклад – тестування однієї й тієї самої моделі Claude 4 Sonnet у різних агентних фреймворках. У конфігурації Confucius Code Agent вона отримала 45,5%, тоді як базовий SWE-Agent – 42,7%. Різницю забезпечила саме архітектура агента, а не заміна моделі.

“Confucius Code Agent показує, що обмеженням AI у розробці ПЗ більше не є модель. Різниця в результатах виникає через те, як агенти структуровані для роботи з кодом, контекстом і відокремлення машинних сигналів від інформації для людей”, – зазначив Мітч Ешлі, віцепрезидент і керівник практики Software Lifecycle Engineering у Futurum.

За його словами, для команд розробки це зсуває фокус: модель стає базовою вимогою, а конкурентна перевага переходить до агентної архітектури – здатної підтримувати довготривалу роботу, постійну пам’ять і контрольоване використання інструментів.

Три рівні дизайну агента

Confucius SDK розділяє дизайн системи на три незалежні складові, щоб контекст моделі не “забивався” людьми зрозумілими деталями, які шкодять міркуванням.

  • Agent Experience (AX) – як інформація подається самій AI-моделі. Система стискає надлишкові логи в структуровані резюме, зберігаючи важливі рішення та помилки.
  • User Experience (UX) – взаємодія людини з агентом. Користувачі бачать детальні трасування виконання, але ці дані не передаються безпосередньо моделі.
  • Developer Experience (DX) – інструменти для побудови, тестування й оптимізації агентів, включно з модульними інтерфейсами для пам’яті, промптів і тулінгу.

Такий поділ має прибрати типову для агентів проблему: коли людиночитні логи засмічують контекст, і модель починає витрачати “увагу” не на те, що допомагає розв’язувати задачу.

Для роботи з великими кодовими базами Confucius Code Agent використовує чотири механізми – від пам’яті до автоматизованого циклу поліпшень.

  • Ієрархічна робоча пам’ять – окремий Architect-агент стискає довгі сесії в структуровані плани, щоб не переповнювати контекст.
  • Постійні нотатки – агент автоматично формує Markdown-записи з рішень і помилок, створюючи довготривалу базу знань.
  • Модульна система розширень – інструменти викликаються через окремі компоненти, що полегшує тестування та повторне використання.
  • Мета-агент для оптимізації – автоматизує цикл build – test – improve, генеруючи конфігурації агентів і покращуючи їх за результатами тестів.

Автори окремо відзначають ефект від постійних нотаток. Під час повторного запуску 151 задачі цей механізм зменшив середню кількість токенів зі 104 тисяч до 93 тисяч і водночас підняв успішність із 53% до 54,4%.

Результати тестування

На SWE-Bench-Pro Confucius Code Agent із Claude 4.5 Opus досяг 54,3% і перевищив 52,0%, заявлені Anthropic для власної системи. У конфігурації з Claude 4.5 Sonnet результат становив 52,7% – це помітно вище за базовий Live-SWE-Agent із 45,8%.

Окремі експерименти підкреслили, наскільки критичним є керування контекстом. Видалення цього компонента знижувало результативність із 51,6% до 44,0% – і це, за логікою авторів, прямий доказ ваги архітектурних рішень.

Що це означає для команд розробки

Спільне дослідження Meta та Гарвардського університету підводить до практичного висновку: production-ready агенти для програмування оцінюватимуть не лише за “чистими” бенчмарками моделей. Вирішальними стають здатність стабільно працювати з реальними кодовими базами, архітектура пам’яті, контроль контексту та керування інструментами.

Confucius SDK у цьому сенсі подають як приклад того, як саме варто “обгортати” мовні моделі, щоб вони поводилися не як демонстраційні помічники, а як інженерні інструменти в щоденній розробці.

Конопля на валізах: захисника “Шахтаря” ведуть одразу кілька клубів Європи

Попередня стаття

Українські “Сліди” вперше покажуть у Берліні: прем’єра документального фільму на Берлінале-2026

Наступна стаття

Вам також може сподобатися

Коментарі

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *