Машинное обучение. - страница 101

Я задал очень простой вопрос, но 76% ИИ-моделей мне соврали

Один простой вопрос. Девять уверенных ответов. Восемь из них — ложьДва слова. Пустой системный промпт. Ноль контекста.Я отправил 29 крупнейшим языковым моделям одно сообщение: current date

продолжить чтение

Мы протестировали 22 нейросети на задачах для российских учителей. Ни одна не знает чувашский

Я живу в Чебоксарах и запускаю ИИ-пилот в местной школе. Когда понадобилось проверить, какие LLM действительно способны помочь российским учителям в их работе — оказалось, что бенчмарка для этого не существует. MERA тестирует, может ли модель решить задания ЕГЭ. EduBench — только английский и китайский. Российское образование — это ФГОС, технологические карты уроков, ОГЭ, чувашский язык — и ничего из этого ни один бенчмарк не покрывает.Мы сделали EduBench-RU — первый бенчмарк для оценки LLM на задачах российского образования в школах. 50 промптов, 22 модели, двойная оценка. И нашли кое-что неожиданное.Что внутри

продолжить чтение

OpenAI закрывает нейросеть Sora для генерации видео

OpenAI сообщила в социальной сети X о том, что закрывает нейросеть Sora. В ближайшее время компания более детально расскажет о том, когда прекратит работу официальное приложение и API.

продолжить чтение

Atlassian уволила 1 600 человек и сказала, что «дела идут хорошо». Кто выигрывает от замены людей на ИИ?

Думаю, можно уже сказать прямо: массовые увольнения в tech-секторе — это ужасная идея.Согласны? Да, знаю. Согласиться легко.

продолжить чтение

Топ-13 бесплатных нейросетей для генерации презентаций в 2026 году

Март не так часто балует нас громкими новинками, как хотелось бы, но индустрия не стоит на месте. В прошлой статье я рассказывал о ИИ-инструментах/агентах/сервисах для программистов, и в процессе размышлений у меня родилась идея для нового материала.В своих сравнительных статьях о топовых LLM я обычно делаю упор на рутинные задачи: генерацию текста, программирование и математику. Но спектр таких задач гораздо шире. Именно эта мысль привела меня к теме сегодняшней статьи.

продолжить чтение

Open-source персистентная память для LLM

Последние полгода я занимаюсь задачей, которая поначалу казалась тривиальной: научить LLM помнить, с кем она разговаривает.Задача звучит просто. На практике — нет.Если вы строили чат-бот или AI-агента, вы знаете ощущение: пользователь написал, что он вегетарианец, а через три сообщения модель предлагает ему стейк-хаус. Или пациент сообщил об аллергии на пенициллин, а ассистент через час забыл и порекомендовал амоксициллин. В рамках одного контекстного окна всё работает. Но стоит начать новую сессию — чистый лист, модель не помнит ничего.Написал NGT Memory

продолжить чтение

В России представили первую открытую методологию тестирования RAG‑систем

Исследователи из Сбера (команда SberAI), МТС Web Services (MWS AI) и ведущих российских и международных вузов разработали первую открытую динамическую методологию тестирования русскоязычных систем генеративного ИИ с поиском (RAG). Работу приняли на EACL 2026 — одну из крупнейших конференций по компьютерной лингвистике, которая проходит с 24 по 29 марта 2026 года в Рабате (Марокко), рассказали Хабру в МТС.

продолжить чтение

Как ML изменит бизнес в 2026 году: прогноз Selectel, GlowByte и Data Sapience

продолжить чтение

Mail запустил ИИ чат-бот для пользователей

продолжить чтение

GigaChat-3.1: Большое обновление больших моделей

Салют, хабр!В ноябре мы выложили в open source preview-версии GigaChat-3-Ultra (702B MoE) и GigaChat-3-Lightning (10B MoE). С тех пор мы провели большую работу над нашими моделями, и сегодня выпускаем обновлённые GigaChat-3.1-Ultra и GigaChat-3.1-Lightning. По нашим замерам, Ultra обходит non-reasoning Qwen3-235B-A22B и DeepSeek-V3-0324 в математике и general reasoning, а Lightning на аренах с судьёй GPT-4.1 играет на уровне GPT-4o — при 1,8 млрд активных параметров. Модели, как и раньше, лежат на HuggingFace и GitVerse под MIT.

продолжить чтение