От GPT-2 к gpt-oss: анализ достижений архитектуры
И как они выглядят на фоне Qwen 3📌 Telegram @TheWeeklyBrief — краткие обзоры и подкасты 📌 GitHub Pages — углублённые разборы статей5 августа, 2025 года OpenAI выпустила новые модели LLM с открытым весом: gpt-oss-120b и gpt-oss-20b — первые полностью открытые модели с момента выхода GPT-2 в 2019 году. И да, благодаря некоторым умным оптимизациям, их можно запускать локально (но об этом чуть позже).
Запускаем Qwen3-VL-30B на 48GB VRAM
Недавно вышла коллекция моделей от Alibaba - Qwen3-VL:https://huggingface.co/collections/Qwen/qwen3-vl-68d2a7c1b8a8afce4ebd2dbeЭта модель не только "языковая", но ещё и "глазастая"В своём блоге они
GPT-5 победил в необычном бенчмарке Among AIs
Команда 4Wall AI представила Among AIs: бенчмарк, в котором разные ИИ соревнуются в Among Us. Это вдохновленная "Мафией" видеоигра, правила которой были слегка упрощены для бенчмарка: на космическом корабле есть пять мирных, которые выполняют задания, и один "самозванец" (Impostor), который может саботировать и даже убивать мирных. При обнаружении трупа оставшиеся собираются, чтобы обсуждением и голосованием определить самозванца, который будет выброшен в открытый космос. Нередко самозванцем оказывается один из мирных, его называют scapegoat (козел отпущения).
Хочу ИИ помощника. Как я к сайту настольных игр GigaChat и Ollama+OpenWebUI прикручивал
Так как мои настольные игры не совсем простые (а именно обучающие и научные), то вопросы по правилам у родителей возникают регулярно. И как хорошо правила не напиши, научная тематика делает свое «черное» дело и даже минимальное вкрапление методики ставит игроков в ступор по тем или иным моментам правил. Плюс читать правила, FAQ, дополнительные правила и т. п. не всегда оптимальный вариант.Поэтому захотелось мне прикрутить к сайту нейронку в виде чата с ИИ‑помощником, который бы для каждой игры свои правила объяснял и на вопросы пользователей отвечал.Хочу отечественное
Нейро-дайджест: ключевые события мира AI за 2 неделю сентября 2025
Привет! Это новый выпуск «Нейро-дайджеста» — коротких и полезных обзоров ключевых событий в мире искусственного интеллекта и технологий.Меня зовут Вандер
Как мы научили LLM отвечать на вопросы абитуриентов в крупнейшем вузе страны
Поступление в университет — это всегда стресс. Абитуриенты и их родители засыпают приёмные комиссии тысячами одинаковых вопросов: какие проходные баллы, как правильно заполнить заявление, что делать в случае ошибки. Летом нагрузка достигает пика: телефоны и почта разрываются, а сотрудники комиссии работают фактически в режиме «колл-центра».
Fine-tune Qwen3 Embeddings для классификации категорий товаров
Мы взяли размеченный корпус товаров из Web Data Commons, дообучили Qwen3 Embedding с помощью LoRA и получили лёгкий чекпойнт на ~615M параметров, который сопоставляет «сырые» названия товаров с 6 верхнеуровневыми категориями с результатом macro-F1 = 0.836, может работать в реальном времени на одной видеокарте. Код доступен в гитхабе так же английская версия этого поста. Почему именно Web Data Commons и зачем это e-commerce
Какого китайца выбрать? DeepSeek vs Qwen vs Baidu
Я протестировал 3 китайские LLM — теперь боюсь, что GPT в опасности.Отличительная особенность большинства китайских моделей, что они бесплатные. Сегодня я хочу провести субъективный обзор трёх главных китайских моделей и понять, что лучше использовать и в каких задачах. ⚠️ Это не научная статья, а честный отзыв пользователя

