GDPval: измерение производительности AI-моделей на реальных задачах
Мы представляем GDPval — новую метрику, которая оценивает производительность моделей на экономически значимых, прикладных задачах из 44 профессиональных областей.Статья | evals.openai.comНаша миссия — обеспечить то, чтобы искусственный общий интеллект (AGI) приносил пользу всему человечеству. В рамках этой миссии мы стремимся максимально прозрачно освещать прогресс того, как AI-модели учатся помогать людям в реальной жизни. Именно поэтому мы представляем GDPval
Оценка качества genAI-фичей, ML для кибербеза, MCP-серверы и оптимизация LLM – о чем расскажут на зимней Conversations?
Как Positive Technologies строит агента для кибербеза? Как Lamoda Tech обучает модель подбирать образы? Как в Raft оптимизируют экономику проектов с помощью MCP-серверов? Об этом и многом другом поговорим 5 декабря на Conversations, конференции по генеративному AI. В программе – экспертиза от 2ГИС, Авиасейлс, ecom.tech, Т-Банк, Data Light, Just AI и других. Промокод 10% на билеты – CVS25mRbH. А ниже – спойлеры докладов!
LLM в роли «судьи» vs. человеческая оценка: почему вместе — лучше
В гонке за следующей волной «умных» систем большие языковые модели берут на себя неожиданные роли. Одна из самых интересных — использовать такие модели как «судей» для оценки других моделей. Подход уже экономит командам массу ручной работы, но остаются вопросы: способен ли LLM уловить каждую тонкую ошибку? Что происходит в ситуациях, где критичны человеческая интуиция или глубокая предметная экспертиза?
Актуальные вопросы по ИИ и перспективным технологиям
Эксперты Gartner дают краткие ответы на свежие вопросы клиентов о перспективных технологиях.1. Как реагировать на запуск модели Anthropic Claude Sonnet 4.5?Claude Sonnet 4.5 сигнализирует о намерении Anthropic сместить фокус к доменной специализации на всё более конкурентном рынке генеративных моделей (GenAI). Рекомендации Gartner:Лидерам в области ИИ:
Обновления продуктов Selectel в сентябре
На Selectel Tech Day 2025 наша команда представила собственную материнскую плату на базе AMD, сервис для внедрения AI-моделей в бизнес, новые Bare Metal Cloud решения и SelectOS Manpages.
IT-лидеры видят большой бизнес-потенциал в малых моделях ИИ
ИТ-лидеры видят большой бизнес-потенциал в малых моделях ИИ благодаря гибкости, низкой стоимости и нацеленности на конкретные задачи малые языковые модели (SLM) лучше подходят для бизнес-специфичных приложений и вскоре могут обойти LLM по использованию в корпоративной среде.Малые языковые модели (SLM) дают CIO больше возможностей разрабатывать специализированные, отраслевые AI-приложения, эксплуатация которых дешевле, чем систем на базе универсальных больших языковых моделей (LLM).
Поздно пить Боржоми? Stack Overflow пробует в AI
Команда AI for Devs решила написать эту статью после выхода очередного продукта от Stack Overflow, в чьём имени красуется "AI". Когда-то платформа запрещала любой ИИ-контент, потом осторожно тестировала инструменты вроде OverflowAI и Question Assistant, а теперь явно строит стратегию вокруг искусственного интеллекта. Насколько это здорово для сообщества?
Как AI изменил рынок труда и почему у IT-джуниоров мало шансов найти работу
Искусственный интеллект сделал то, чего раньше не знал рынок труда. За короткое время он сократил сотни тысяч стартовых вакансий и оставил лишь узкий коридор для новичков с AI-скиллами. Теперь молодые специалисты могут быстро выйти на высокий доход, тогда как другим становится сложнее найти первый шаг в профессию.Поговорим о том, как AI изменил рынок для IT-новичков, и почему сегодня карьерные перспективы зависят от умения работать с нейросетями.
Humans-in-the-loop vs synthetic data: за что идёт борьба на рынке AaaS
Scale зарабатывает более $750 млн в год на продаже данных для RLHF. Кто собирается их потеснить?Scale AI — стартап, ранее известный своими контрактами на разметку данных для беспилотных автомобилей и военных проектов, приближается к годовому обороту в $1 млрд благодаря своим дата-сервисам, используемым в техниках вроде reinforcement learning from human feedback (RLHF). Я давно слышал слухи об их масштабах, о том, что они работают буквально со всеми крупными AI-лабораториями — от Meta до OpenAI, но увидеть подтверждение этого в публичных отчетах ощущается совсем иначе.Цитата из

