Подписаться
Опубликовано

Научные статьи → рабочий код

Автор
  • Имя
    Нейрократия
    Telegram

Научные статьи → рабочий код

Вот буквально вчера вышел свежий paper (научная статья) про автоматизированный перевод этих самых papers в работающий код. Тема недостатка практической имплементации теоретических работ и сложность разрешения этой проблемы постоянно всплывает в тематических обсуждениях про машинное обучение.

Авторы “Paper2Code: Automating Code Generation from Scientific Papers in Machine Learning” отмечают, что лишь ~21% статей на ведущих ML-конференциях в 2024 году снабжены исходным кодом, что затрудняет воспроизводимость и развитие идей. В то же время современные LLM демонстрируют умеренно хорошие способности «понимать» научные тексты и генерировать код, что вдохновило авторов на создание системы, способной автоматически конвертировать научную статью в работоспособный репозиторий.

Система эта — PaperCoder — доступна в виде готового кода на Github. Я еще не успел попробовать, если у кого-то будет время, поделитесь результатами.

Архитектура PaperCoder

Решение представляет собой мультиагентный фреймворк на базе LLM, последовательно выполняющий три этапа:

1. Планирование

Общий план — выделение ключевых компонентов и структурных блоков репозитория.

Проектирование архитектуры — UML-диаграммы классов и последовательностей, список файлов.

Логическое проектирование — анализ зависимостей между файлами и определение порядка их генерации.

Генерация конфигурации — сбор всех гиперпараметров и путей в единый файл config.yaml для минимизации «галлюцинаций» путей и названий ресурсов.

2. Анализ

Детальный анализ на уровне файлов: для каждого файла система формулирует его назначение, входы-выходы, связи с другими модулями и алгоритмические требования.

3. Генерация кода

Последовательное синтезирование исходного кода каждого файла, с учётом артефактов предыдущих этапов и при необходимости последующей отладки.

Экспериментальная оценка

Paper2Code Benchmark (90 статей ICML/NeurIPS/ICLR 2024):

Reference-based оценки (1–5): PaperCoder получает в среднем 3.72–3.83, превосходя ChatDev и MetaGPT. — Reference-free оценки: 4.73–4.77 против 4.01–4.30 у конкурентов. — 77% авторов (из 13) выбирают реализацию PaperCoder как лучшую, 85% признают её полезной для воспроизведения работы​.

PaperBench Code-Dev (20 статей ICML 2024):

PaperCoder достигает 44.26% успешной «репликации», значительно опережая базовые и итеративные агенты (5.1% и 16.4% соответственно).

Практическая исполняемость

В полуавтоматическом анализе 5 репозиториев в среднем требовалось изменить лишь 0.48% строк (например, обновление устаревших API-вызовов), чтобы код корректно запустился​. Тут сложно точно сказать, насколько это хорошо, но предположу, что код из paper — это не одна строка, то есть эффективность достаточно высокая.

В любом случае, PaperCoder значительно опережает существующие фреймворки на бенчмарках.

Ограничения

Пока система проверена только на задачах машинного обучения; для полного промышленного применения требуется масштабируемая автоматизированная отладка и тестирование.

Что это значит на практике?

Барьер между научными статьями и практическими имплементациями становится всё ниже, а значит, хорошие идеи будут быстрее попадать в реальный мир. А в качестве приятного бонуса сообщество получит мощный инструмент борьбы с кризисом репликации, острой проблемой современной науки. Ну и разработчики смогут быстрее и эффективнее внедрять последние научные изыскания в практические решения и продукты.

/ Не запрещена в РФ

Нейрократия
582 подписчика
231 пост
Про технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev

Из подборки #практика

Опубликовано

Как меняется устройство мысли

Умственное устройство меняется, когда внешнее ИИ‑рассуждение становится инфраструктурой, заменяя часть мышления и вызывая когнитивную капитуляцию.
Опубликовано

Архив, эпизоды и граф: память агента изнутри

Память AI‑агента «Волна» состоит из постоянных блоков, архивной, эпизодического лога и графа связей, обеспечивая быстрый доступ к фактам и структурам.
Опубликовано

Как создавать инструменты для агентов

Как создавать инструменты для ИИ‑агентов: рекомендации Anthropic
Опубликовано

Практика: агенты Claude Code — вне кода

Практика использования суб‑агентов Claude Code без программирования

Свежие посты

Опубликовано

Внутренности Клода

Подробный разбор архитектуры Claude Code: входные точки, поток данных, модули, инструменты и интеграция, основанный на анализе 1 884 файлов TypeScript.
Опубликовано

Как меняется устройство мысли

Умственное устройство меняется, когда внешнее ИИ‑рассуждение становится инфраструктурой, заменяя часть мышления и вызывая когнитивную капитуляцию.
Опубликовано

Google ускоряет LLM в 8 раз

TurboQuant — метод Google, ускоряющий LLM‑ы в 8 раз за счёт экстремального сжатия KV‑cache и векторного поиска без потери качества.
Опубликовано

Архив, эпизоды и граф: память агента изнутри

Память AI‑агента «Волна» состоит из постоянных блоков, архивной, эпизодического лога и графа связей, обеспечивая быстрый доступ к фактам и структурам.
Опубликовано

Я делаю personal-first ассистента. Вот зачем

Как работает personal-first AI ассистент Volna: память, тайминг, интеграции и health‑трекинг
Опубликовано

Нейросети будут платить налоги

как нейросети будут платить налоги и какие правила регулирования ИИ
Опубликовано

AI 2025: агенты, ролплей, китайская экспансия

Отчет OpenRouter о трендах AI 2025: рольплей, китайские модели, AI‑агенты, рост reasoning и изменение рынка