Опубликовано: суббота, 26 апреля 2025 г.

Научные статьи → рабочий код

Автор

Имя
Нейрократия
Telegram
telegram

Нейрократия

582 подписчика

235 постов

Про технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev

Научные статьи → рабочий код

Вот буквально вчера вышел свежий paper (научная статья) про автоматизированный перевод этих самых papers в работающий код. Тема недостатка практической имплементации теоретических работ и сложность разрешения этой проблемы постоянно всплывает в тематических обсуждениях про машинное обучение.

Авторы “Paper2Code: Automating Code Generation from Scientific Papers in Machine Learning” отмечают, что лишь ~21% статей на ведущих ML-конференциях в 2024 году снабжены исходным кодом, что затрудняет воспроизводимость и развитие идей. В то же время современные LLM демонстрируют умеренно хорошие способности «понимать» научные тексты и генерировать код, что вдохновило авторов на создание системы, способной автоматически конвертировать научную статью в работоспособный репозиторий.

Система эта — PaperCoder — доступна в виде готового кода на Github. Я еще не успел попробовать, если у кого-то будет время, поделитесь результатами.

Архитектура PaperCoder

Решение представляет собой мультиагентный фреймворк на базе LLM, последовательно выполняющий три этапа:

1. Планирование

— Общий план — выделение ключевых компонентов и структурных блоков репозитория.

— Проектирование архитектуры — UML-диаграммы классов и последовательностей, список файлов.

— Логическое проектирование — анализ зависимостей между файлами и определение порядка их генерации.

— Генерация конфигурации — сбор всех гиперпараметров и путей в единый файл config.yaml для минимизации «галлюцинаций» путей и названий ресурсов.

2. Анализ

Детальный анализ на уровне файлов: для каждого файла система формулирует его назначение, входы-выходы, связи с другими модулями и алгоритмические требования.

3. Генерация кода

Последовательное синтезирование исходного кода каждого файла, с учётом артефактов предыдущих этапов и при необходимости последующей отладки.

Экспериментальная оценка

Paper2Code Benchmark (90 статей ICML/NeurIPS/ICLR 2024):

— Reference-based оценки (1–5): PaperCoder получает в среднем 3.72–3.83, превосходя ChatDev и MetaGPT. — Reference-free оценки: 4.73–4.77 против 4.01–4.30 у конкурентов. — 77% авторов (из 13) выбирают реализацию PaperCoder как лучшую, 85% признают её полезной для воспроизведения работы.

PaperBench Code-Dev (20 статей ICML 2024):

PaperCoder достигает 44.26% успешной «репликации», значительно опережая базовые и итеративные агенты (5.1% и 16.4% соответственно).

Практическая исполняемость

В полуавтоматическом анализе 5 репозиториев в среднем требовалось изменить лишь 0.48% строк (например, обновление устаревших API-вызовов), чтобы код корректно запустился. Тут сложно точно сказать, насколько это хорошо, но предположу, что код из paper — это не одна строка, то есть эффективность достаточно высокая.

В любом случае, PaperCoder значительно опережает существующие фреймворки на бенчмарках.

Ограничения

Пока система проверена только на задачах машинного обучения; для полного промышленного применения требуется масштабируемая автоматизированная отладка и тестирование.

Что это значит на практике?

Барьер между научными статьями и практическими имплементациями становится всё ниже, а значит, хорошие идеи будут быстрее попадать в реальный мир. А в качестве приятного бонуса сообщество получит мощный инструмент борьбы с кризисом репликации, острой проблемой современной науки. Ну и разработчики смогут быстрее и эффективнее внедрять последние научные изыскания в практические решения и продукты.

/ Не запрещена в РФ

Обсудить в Telegram

Нейрократия

582 подписчика

235 постов

Про технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev