Подписаться
Опубликовано

LLM, MLM, SAM модели ИИ: что нужно знать к 2025

Автор
  • Имя
    Нейрократия
    Telegram

НЕ ВСЁ ИИ — ЭТО LLM: 8 типовых моделей, которые стоит знать в 2025

Часть 3: MLM и SAM

Завершаем наш ликбез по зоопарку AI-моделей. В предыдущих частях мы разобрали 1) флагманские LLM, быстрые LCM, агентные LAM, 2) экономичные MoE, мультимодальные VLM и компактные SLM. Сегодня на очереди два «невоспетых героя» — фундаментальные технологии, которые, оставаясь в тени, приводят в движение огромную часть современной AI-инфраструктуры. Поехали.

7️⃣ MLM — Masked Language Model (Маскированная языковая модель)

Если LLM — это блистательный солист на сцене, то MLM — это гениальный дирижер в оркестровой яме. Вы его не видите, но именно он заставляет музыку звучать осмысленно. До появления ChatGPT миром правил BERT, и его суперсила — это как раз технология MLM.

📌 В чём суть: В отличие от LLM, которые как автозаполнение предсказывают следующее слово, MLM играет в «заполни пропуски». Модель берёт предложение, «маскирует» (прячет) случайное слово и пытается его восстановить, анализируя контекст с обеих сторон — и слева, и справа.

«Эйфелева башня находится в [MASK]». Чтобы вставить «Париже», нужно понять всё предложение целиком.

Такой двунаправленный подход даёт модели глубокое, почти интуитивное понимание синтаксиса, семантики и скрытых связей в языке. Это не генерация, это репрезентация.

📍 Сильные стороны: — Глубочайшее понимание контекста. — Идеальны для классификации, семантического поиска и анализа текста. — Менее требовательны к ресурсам для обучения, чем гигантские LLM.

⚠️ Недостатки: — Не созданы для генерации длинных, связных текстов (эссе или кода). Их задача — анализ и представление данных.

⚙️ Где применяют: Это «рабочая лошадка» для множества систем, которыми мы пользуемся каждый день: — Поисковые движки (когда Google «понимает» ваш сложный запрос, спасибо MLM). — Классификация текстов (фильтры спама, анализ тональности отзывов). — Named Entity Recognition (извлечение имён, дат, организаций из документов). — Создание векторных представлений (embeddings) для баз данных.

8️⃣ SAM — Segment Anything Model (Модель сегментации чего угодно)

Революция в компьютерном зрении от Meta (запрещена в РФ). Представьте, что вы загружаете любое изображение, а ИИ мгновенно и с хирургической точностью обводит контуром каждый объект на нём. Не просто находит «кота», а выделяет его форму до последнего пикселя. SAM — это как подарить машине сверхчеловеческое зрение.

📌 В чём суть: В основе лежит «сегментация по запросу» (promptable segmentation). Вы просто указываете на объект точкой или рамкой, и SAM мгновенно его вырезает. Главный прорыв — zero-shot generalization. Модель сегментирует объекты, которые никогда раньше не видела и не знает, что это. Она не «знает», что такое лампа, она «видит» её границы и форму в визуальном пространстве.

Это как LEGO-кирпичик для компьютерного зрения: универсальный, быстрый и совместимый с чем угодно.

📍 Сильные стороны: — Сегментирует абсолютно любые, даже незнакомые объекты. — Невероятная точность и скорость. — Интерактивность и модульность: легко встраивается в другие, более сложные системы.

⚠️ Недостатки: — SAM не знает, что именно он сегментирует. Он видит контуры, но не смысл. Для понимания («это кот породы мейн-кун») его нужно объединять с VLM-моделями.

⚙️ Где применяют: Потенциал огромен и уже меняет целые отрасли: — Медицинская диагностика (выделение опухолей и органов на МРТ/КТ снимках). — Робототехника (помогает роботам понимать форму объектов для захвата). — AR/VR (мгновенное взаимодействие с объектами реального мира). — Видео- и фоторедакторы (удаление фона или изоляция объектов одним кликом). — Научные исследования (анализ спутниковых снимков или клеток под микроскопом).

Мы использовали примерно это в системе для AR навигации Vision в Mapbox. Одна из первых презентаций от моего бывшего коллеги Тори Смита (он сейчас в Niantic возглавляет AI карты, про это напишу отдельно) — раз
, видео работы — два
(да, это Минск).
🏁 На этом всё!

/ Не запрещена в РФ

Нейрократия
582 подписчика
231 пост
Про технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev

Из подборки #обзор

Опубликовано

AI 2025: агенты, ролплей, китайская экспансия

Отчет OpenRouter о трендах AI 2025: рольплей, китайские модели, AI‑агенты, рост reasoning и изменение рынка
Опубликовано

Чем больше LLM, тем легче её взломать

Сколько отравленных примеров нужно для взлома больших LLM и как это влияет на безопасность?
Опубликовано

Как ИИ создаёт видео: разбираем технологию

Как ИИ создает видео: технология генерации видео из текста, диффузионные трансформеры и латентное пространство

Свежие посты

Опубликовано

Внутренности Клода

Подробный разбор архитектуры Claude Code: входные точки, поток данных, модули, инструменты и интеграция, основанный на анализе 1 884 файлов TypeScript.
Опубликовано

Как меняется устройство мысли

Умственное устройство меняется, когда внешнее ИИ‑рассуждение становится инфраструктурой, заменяя часть мышления и вызывая когнитивную капитуляцию.
Опубликовано

Google ускоряет LLM в 8 раз

TurboQuant — метод Google, ускоряющий LLM‑ы в 8 раз за счёт экстремального сжатия KV‑cache и векторного поиска без потери качества.
Опубликовано

Архив, эпизоды и граф: память агента изнутри

Память AI‑агента «Волна» состоит из постоянных блоков, архивной, эпизодического лога и графа связей, обеспечивая быстрый доступ к фактам и структурам.
Опубликовано

Я делаю personal-first ассистента. Вот зачем

Как работает personal-first AI ассистент Volna: память, тайминг, интеграции и health‑трекинг
Опубликовано

Нейросети будут платить налоги

как нейросети будут платить налоги и какие правила регулирования ИИ
Опубликовано

AI 2025: агенты, ролплей, китайская экспансия

Отчет OpenRouter о трендах AI 2025: рольплей, китайские модели, AI‑агенты, рост reasoning и изменение рынка