Полезные агенты на платформе MWS GPT
Как выглядят полезные агенты по версии Nano BananaПривет, Хабр! В прошлом материале
Написание «браузера» с помощью «половины разработчика» и ИИ-агента ELIZA за минуты и в 76 строках кода на C
Разработчик HastingsGreer решил проверить
«Мы запороли качество письма в GPT-5.2»: Сэм Альтман раскаялся и пообещал всё исправить
На Town Hall для разработчиков глава OpenAI Сэм Альтман признал
Переобучение нейросети в машинном обучении: что такое переобучение и как его выявить
Доброго времени суток, Хабр!В предыдущей своей статье я рассматривал разные парадигмы обучения моделей. Однако не всегда при обучении все происходит гладко.Бывают ситуации, когда на обучающих данных модель работает идеально, но при проверке на новых данных точность резко снижается. Это явление называется переобучением.Сегодня в статье расскажу об переобучении моделей, как обнаружить это явление и избежать его. Примите стратегически удобное положения, а я приступаю к своему повествованию.
Доматчинг товаров с использованием LLM: от промптов до квантизации
Привет, Хабр! На связи команда продуктового матчинга ecom.tech. Наша команда решает задачи поиска, группировки и сопоставления товаров с помощью алгоритмов машинного обучения. Все это необходимо для развития и улучшения бизнес-процессов в компании, а именно быстрого заведения карточек товаров, мониторинга цен на товары и развития ML. В этой статье мы расскажем про доматчинг – сравнение сложных пар товаров, которые отобрали на предыдущем этапе пайплайна, с помощью LLM. Поехали!
Новый «момент DeepSeek»? Память важнее масштаба
В мире искусственного интеллекта есть исследования, где достаточно нескольких страниц, чтобы понять – это нечто особенное. Engram от DeepSeek – именно такое.С новой моделью на подходе
Я заставил 14 нейросетей врать: Большой аудит галлюцинаций 2026
Или как я потратил неделю, чтобы доказать: ИИ сегодня — это красноречивые лжецы в костюмах экспертов.В конце 2025 года я устал читать маркетинг в стиле «наша модель умнее ChatGPT на 15%». Умнее по какому бенчмарку? MMLU? Это всё равно что мерить интеллект человека по результатам ЕГЭ.Я решил проверить одну простую вещь: способна ли нейросеть сказать «я не знаю»?Потому что в реальном мире — в медицине, праве, финансах — ответ «я не уверен» стоит дороже любой красивой, но выдуманной истории.Ниже — результаты слепого тестирования 14 топовых LLM (включая Claude 4.5, GPT-5.2, Gemini 3, Qwen, YandexGPT и
Kimi K2.5: Как научить нейросеть не бояться параллельности
Moonshot AI выкатили K2.5. Пресс-релиз трубит про «самую мощную open-source модель», но я бы хотел поговорить о другом — о том, что они сделали с агентами.

