От YandexGPT до Kandinsky: Полный гид по экосистеме отечественного искусственного интеллекта
Еще пару лет назад фраза «российская нейросеть» вызывала у IT-сообщества снисходительную улыбку и неизбежные ассоциации с мемом «у нас есть ИИ дома». Рынок безраздельно принадлежал продуктам OpenAI, Midjourney, ailist.ru и Google. Однако глобальные сдвиги 2022 года, блокировки западных сервисов, проблемы с оплатой иностранными картами и банальная необходимость в суверенных технологиях запустили на отечественном рынке процесс, похожий на взрыв сверхновой.
Сегодня российский сегмент AI (Artificial Intelligence) — это не просто попытки догнать ушедший поезд. Это масштабная война экосистем, в которой корпорации вливают миллиарды рублей в вычислительные кластеры, а независимые стартапы находят узкие ниши, до которых не дотягиваются руки IT-гигантов.
Давайте забудем про танцы с бубном вокруг зарубежных VPN и виртуальных номеров. Посмотрим, из чего реально состоит ландшафт российского искусственного интеллекта прямо сейчас.
Битва больших языковых моделей (LLM)

Генерация текста — это ядро современного ИИ. В России на этом поле развернулась классическая дуэль двух корпораций, к которой постепенно пытаются присоединиться другие игроки.
- YandexGPT (YaLM)
Яндекс пошел по пути максимальной интеграции в быт пользователя. Их языковая модель не просто живет на отдельном сайте — она зашита в «Алису», работает в Яндекс Браузере (где умеет делать краткие пересказы огромных статей и YouTube-видео), помогает продавцам на Маркете писать карточки товаров. Главное преимущество YandexGPT — феноменальное понимание культурного контекста и нюансов русского языка. Если западные модели иногда переводят английские идиомы калькой, то продукт Яндекса шутит, ругается и мыслит нативнее. - GigaChat от Сбера
Сбербанк подошел к задаче с размахом, присущим главной финтех-корпорации страны. GigaChat изначально позиционировался как мультимодальная система: он не только пишет код, сочиняет сказки и анализирует договоры, но и генерирует картинки прямо в диалоговом окне. Сбер активно пушит GigaChat в B2B-сегмент через удобный API, позволяя бизнесу встраивать ИИ в свои CRM-системы и боты поддержки. - T-Bank AI (экс-Тинькофф)
Модели Т-Банка реже мелькают в новостях для широкой публики, потому что они заточены под прагматичные задачи. Их LLM работают под капотом колл-центров, анализируют тональность разговоров операторов, борются с телефонными мошенниками и отвечают в чатах поддержки. Это пример невидимого, но крайне эффективного ИИ.
Визуальный фронт: генерация изображений

Заставить нейросеть рисовать — задача, требующая огромных мощностей. Здесь российские разработчики создали продукты, которые реально конкурируют с западными аналогами на мировом уровне (и это не преувеличение).
- Kandinsky (Сбер)
Настоящий флагман отечественного AI-арта. Kandinsky бесплатен, не требует регистраций через почты Зимбабве и понимает промпты на русском языке. Модель отлично справляется с фотореализмом, умеет дорисовывать края изображений (outpainting), смешивать несколько картинок в одну и переносить стиль. Более того, исходный код модели открыт, что позволяет энтузиастам дообучать ее под свои нужды. - YandexART (Шедеврум)
Яндекс выбрал другой путь. Их генератор картинок родился внутри социальной сети «Шедеврум», где пользователи соревнуются в креативности промптов. YandexART обучался на тщательно отобранном датасете, поэтому он выдает очень красивые, «прилизанные» и эстетичные результаты с первого раза. Модель отлично справляется с освещением и детализацией лиц, но чуть менее гибкая в настройках, чем Kandinsky.
Голосовые технологии и синтез речи

Если в текстах мы еще догоняем GPT-4, то в распознавании и синтезе русской речи (Speech-to-Text и Text-to-Speech) отечественные разработки исторически занимают лидирующие позиции в мире.
- Silero TTS
Это независимый проект, который стал настоящей легендой в open-source сообществе. Silero предоставляет компактные, быстрые и потрясающе реалистичные голоса для синтеза речи. Их модели можно запустить даже на слабом железе, они не требуют подключения к интернету. Именно движки Silero часто используют разработчики инди-игр, создатели аудиокниг и мододелы. - SpeechKit (Яндекс) и SaluteSpeech (Сбер)
Корпоративные монстры синтеза и распознавания. Когда вы звоните в курьерскую службу и с вами разговаривает робот, не отличимый от уставшей девушки-оператора — с вероятностью 90% это работает одна из этих технологий. Они умеют расставлять паузы, дышать в трубку, менять интонации от деловой до дружеской. - SteosVoice (бывший Cybervoice)
Уникальный сервис, сфокусированный на геймерах и создателях контента. Они лицензируют голоса реальных актеров дубляжа (например, голос Геральта из «Ведьмака») и позволяют озвучивать ими любой текст. Сервис совершил революцию в любительском дубляже и создании машинных озвучек для сериалов.
Нишевые ИИ-сервисы и инструменты для бизнеса
Помимо красивых картинок и бесед о смысле жизни, искусственный интеллект должен приносить деньги и экономить время. Российский рынок B2B-решений сейчас переживает золотую лихорадку.
Вот 5 направлений, где отечественные AI-сервисы уже стали стандартом:
- Копирайтинг и маркетинг (Gerwin AI, CopyMonkey). Платформы, заточенные специально под создание SEO-статей, постов для Telegram-каналов и карточек для Wildberries/Ozon. Они избавляют SMM-щиков от страха чистого листа, генерируя контент-планы за секунды.
- Распознавание документов (Smart Engines). Невидимый герой российского финтеха. Когда вы наводите камеру на паспорт в приложении банка, и данные моментально заполняются в поля — это работает ИИ от Smart Engines. Их фишка в том, что данные распознаются на самом устройстве, не улетая на сторонние сервера (что критично для безопасности).
- Помощники программиста (GigaCode, Yandex Code Assistant). Российские аналоги GitHub Copilot. Встраиваются прямо в среду разработки (IDE), анализируют контекст проекта и дописывают куски кода за программиста, экономя до 30% времени на рутине.
- Аналитика маркетплейсов (MPSTATS, Маяк). ИИ здесь используется для предсказания спроса. Нейросети анализируют миллионы покупок на Ozon и WB, подсказывая селлерам, какой товар выстрелит в следующем сезоне и какую цену поставить для максимальной маржи.
- Видеогенерация и цифровые аватары (Visper). Сервис от Сбера, который позволяет создать виртуального диктора. Вы просто загружаете текст презентации, выбираете внешность аватара (или загружаете свою), и нейросеть генерирует видео, где человек с правильной артикуляцией зачитывает ваш текст. Идеально для обучающих курсов и новостных дайджестов.
Что со всем этим не так?
Было бы лукавством сказать, что отечественный ИИ-рынок безупречен. У нас есть свои «болезни роста».
Во-первых, это жесточайший дефицит «железа» — видеокарт уровня Nvidia H100, на которых тренируются модели мирового класса. Из-за санкций закупать вычислительные мощности стало экспоненциально дороже. Во-вторых, есть проблема «галлюцинаций» и цензуры: российские LLM зачастую перестраховываются и отказываются отвечать на безобидные вопросы, боясь нарушить законодательство или задеть чьи-то чувства (так называемая проблема alignment).
Однако динамика поражает. То, на что у западных компаний уходили годы размеренных исследований, российские инженеры собирают за месяцы в режиме аврала. Отечественные AI-сервисы перестали быть просто забавными игрушками. Они превратились в рабочие инструменты, на которых прямо сейчас строится экономика, автоматизируются бизнес-процессы и создается контент, который вы потребляете каждый день. И судя по темпам релизов Яндекса и Сбера, настоящая гонка нейросетей только началась.