русский язык.

Наш синтез для экранных читалок (SAPI5) для 20 языков России стал лучше

Ультанул башем в 2012 годуМы не так давно опубликовали SAPI5-обёртку для нашего синтеза

продолжить чтение

___, или «Заголовок намеренно оставлен пустым»

Статья 3 из цикла «Слова, которых нет»Начало здесь >>> и здесь >>>Возвращаюсь к случаю, с которого этот цикл начался.

продолжить чтение

Как я обучил GPT с нуля на русском языке — и что из этого получилось

Всё началось с наивной мысли: зачем платить за API или тащить 7B-модель, если мне нужна маленькая модель для простых разговоров на одном языке? Логика казалась железной — большие модели умеют всё и на всех языках сразу, но это же избыточно. 0.7B, заточенная под один язык и один стиль общения, должна справляться не хуже.Спойлер: это было наивно. Но путь оказался ценнее результата.В этой статье — как я прошёл путь от стандартного nanoGPT до кастомной архитектуры с RoPE/SwiGLU/GQA, собрал русскоязычный корпус с нуля, и придумал распределённое обучение на бесплатных Colab-воркерах через Google Drive.Почему не взять готовую модель?

продолжить чтение

Прогнал семь LLM через свой русский спортивный бенчмарк. Базовой моделью всё равно оставляю Gemma 4 31B

TL;DR — leaderboard за один взглядЗа последние 2 недели собрал открытый бенчмарк из 655 экспертных вопросов по 35 видам спорта на русском. Запустил семь моделей через ансамбль из трёх судей: Claude Opus 4.7, Gemini 3.1 Pro, GPT-5.5, DeepSeek V4 Flash, Qwen 3.5 27B, Gemma 4 31B, Qwen 3.6 27B.Frontier-closed (Opus / Gemini / GPT-5.5) — топ-3 по сырым цифрам. Открытый топ (DeepSeek V4 Flash) — четвёртая позиция, +0.58 от Gemma. И всё равно базой ЛИИ остаётся Gemma 4 31B. Защита позиции — три аргумента + разбор где конкретно живёт разрыв и почему он SFT-recoverable.РангМодельВесаnТочностьПолнота

продолжить чтение

Сломал руку, купил Pixel 10, возненавидел Gboard и написал свой офлайн-голосовой ввод для Android на GigaAM v3

Всё началось с того, что пару месяцев назад я сломал левую руку. Печатать одной правой оказалось той ещё пыткой, поэтому я начал искать альтернативы. Ради интереса попробовал встроенную диктовку на Маке, которой отродясь не пользовался. И внезапно обнаружил, что современный голосовой ввод в macOS — это пушка. Он отлично справляется с моим быстрым темпом речи и сложными словами. Я начал диктовать вообще всё: от сообщений в Telegram до рабочих промптов.А потом я попытался сделать то же самое на Android.

продолжить чтение

Почему Cluely и другие плохо слышат русских айтишников: разбор того, как Whisper ломается и что мы сделали с этим

фото с реального собеседования нашего клиента

продолжить чтение

Когда нужно длинное тире: почему правила русского языка стали главным маркером ИИ, а грамотность — ошибкой

продолжить чтение

Теперь silero-tts v5 на русском языке умеет задавать вопросы

Созрел вопросМы недавно писали про обновление нашего публичного синтеза, silero-tts. В прошлый раз мы существенно увеличили скорость, качество и добавили поддержку омографов.

продолжить чтение

Наш синтез для 20 языков теперь работает локально под Windows как экранная читалка (SAPI5) и в Балаболке

Всё шло к этому. Мы решили

продолжить чтение

В РАН обнаружили 90 новых слов и сочетаний в русском языке в 2025 году

Специалисты Института лингвистических исследований Российской академии наук проанализировали публикации в российских СМИ и обнаружили минимум 90 новых слов и словосочетаний, которые появились в 2025 году в русском языке.

продолжить чтение

12