Я задал очень простой вопрос, но 76% ИИ-моделей мне соврали
Один простой вопрос. Девять уверенных ответов. Восемь из них — ложьДва слова. Пустой системный промпт. Ноль контекста.Я отправил 29 крупнейшим языковым моделям одно сообщение: current date
Мы протестировали 22 нейросети на задачах для российских учителей. Ни одна не знает чувашский
Я живу в Чебоксарах и запускаю ИИ-пилот в местной школе. Когда понадобилось проверить, какие LLM действительно способны помочь российским учителям в их работе — оказалось, что бенчмарка для этого не существует. MERA тестирует, может ли модель решить задания ЕГЭ. EduBench — только английский и китайский. Российское образование — это ФГОС, технологические карты уроков, ОГЭ, чувашский язык — и ничего из этого ни один бенчмарк не покрывает.Мы сделали EduBench-RU — первый бенчмарк для оценки LLM на задачах российского образования в школах. 50 промптов, 22 модели, двойная оценка. И нашли кое-что неожиданное.Что внутри
OpenAI закрывает нейросеть Sora для генерации видео
OpenAI сообщила в социальной сети X о том, что закрывает нейросеть Sora. В ближайшее время компания более детально расскажет о том, когда прекратит работу официальное приложение и API.
Atlassian уволила 1 600 человек и сказала, что «дела идут хорошо». Кто выигрывает от замены людей на ИИ?
Думаю, можно уже сказать прямо: массовые увольнения в tech-секторе — это ужасная идея.Согласны? Да, знаю. Согласиться легко.
Топ-13 бесплатных нейросетей для генерации презентаций в 2026 году
Март не так часто балует нас громкими новинками, как хотелось бы, но индустрия не стоит на месте. В прошлой статье я рассказывал о ИИ-инструментах/агентах/сервисах для программистов, и в процессе размышлений у меня родилась идея для нового материала.В своих сравнительных статьях о топовых LLM я обычно делаю упор на рутинные задачи: генерацию текста, программирование и математику. Но спектр таких задач гораздо шире. Именно эта мысль привела меня к теме сегодняшней статьи.
Open-source персистентная память для LLM
Последние полгода я занимаюсь задачей, которая поначалу казалась тривиальной: научить LLM помнить, с кем она разговаривает.Задача звучит просто. На практике — нет.Если вы строили чат-бот или AI-агента, вы знаете ощущение: пользователь написал, что он вегетарианец, а через три сообщения модель предлагает ему стейк-хаус. Или пациент сообщил об аллергии на пенициллин, а ассистент через час забыл и порекомендовал амоксициллин. В рамках одного контекстного окна всё работает. Но стоит начать новую сессию — чистый лист, модель не помнит ничего.Написал NGT Memory
В России представили первую открытую методологию тестирования RAG‑систем
Исследователи из Сбера (команда SberAI), МТС Web Services (MWS AI) и ведущих российских и международных вузов разработали первую открытую динамическую методологию тестирования русскоязычных систем генеративного ИИ с поиском (RAG). Работу приняли на EACL 2026 — одну из крупнейших конференций по компьютерной лингвистике, которая проходит с 24 по 29 марта 2026 года в Рабате (Марокко), рассказали Хабру в МТС.
GigaChat-3.1: Большое обновление больших моделей
Салют, хабр!В ноябре мы выложили в open source preview-версии GigaChat-3-Ultra (702B MoE) и GigaChat-3-Lightning (10B MoE). С тех пор мы провели большую работу над нашими моделями, и сегодня выпускаем обновлённые GigaChat-3.1-Ultra и GigaChat-3.1-Lightning. По нашим замерам, Ultra обходит non-reasoning Qwen3-235B-A22B и DeepSeek-V3-0324 в математике и general reasoning, а Lightning на аренах с судьёй GPT-4.1 играет на уровне GPT-4o — при 1,8 млрд активных параметров. Модели, как и раньше, лежат на HuggingFace и GitVerse под MIT.

