OpenAI, Anthropic и Google разделили лидерство в Intelligence Index 4.0
Платформа Artificial Analysis опубликовала четвертую версию Intelligence Index, одного из наиболее строгих рейтингов современных ИИ-моделей. В новой итерации отчет зафиксировал фактическое равенство сил между тремя крупнейшими игроками рынка. Формально первое место заняла GPT-5.2 в конфигурации X-High, однако Claude Opus 4.5 от Anthropic и Gemini 3 Pro от Google отстают на минимальную величину, которая укладывается в статистическую погрешность.
Торвальдс: проблема ИИ-шлака (AI Slop) не будет решена с помощью Документации
Линус Торвальдс заявил в рамках обсуждения ситуации с использованием ИИ для разработчиков кода Linux, что «проблема некачественного ИИ‑контента (ИИ‑шлака — AI Slop) не будет решена с помощью Документации». Разработчики ядра Linux уже несколько месяцев обсуждают предлагаемые рекомендации по отправке в ядро Linux программ, созданных с помощью различных инструментов. В рамках обсуждения
Как ИИ меняет работу системного аналитика: большой обзор на возможности моделей, советы для новичков и немного прогнозов
Заходишь на Хабр.Карьеру, открываешь вакансии системных аналитиков, а в требованиях всё как обычно: построение информационных систем, понимание архитектуры, ТЗ, BPMN, базовый SQL. Нигде ни слова о знании GPT или умении промптить. Формально профессия как будто не изменилась. Тем временем в свежем отчёте OpenAI о корпоративном применении ИИ опубликовали статистику: использование ChatGPT в корпоративной среде за год выросло в 8 раз, а объём запросов от одного человека — в среднем на 30%.
Делай Bench: мой опыт слепого human-eval бенчмарка нейросетей для юристов
Привет и с Новым годом, Хабр! Меня зовут Екатерина, я практикующий юрист, исследую эффективное применение нейросетей в юридических задачах. В декабре ушедшего года я провела необычный для себя и российского LegalTech-рынка эксперимент: с помощью одиннадцати коллег-оценщиков организовала небольшоенезависимое слепое сравнение пяти нейросетевых сервисов. В этой публикации хочу рассказать о вызовах human-eval бенчмарка в домене, где зачастую нет единственно правильных ответов, интересных выводах исследования, полученной мной обратной связи и дальнейших планах.Юристы и бенчмарки LLM
Лоботомия нейросети: удалил 7 слоёв из LLM — она стала на 30% быстрее
Эксперимент по хирургическому удалению слоёв из языковой моделиTL;DRЯ взял TinyLlama (1.1B параметров, 22 слоя) и начал удалять из неё слои, чтобы проверить гипотезу: современные LLM переобучены, и многие слои делают одно и то же.Результаты:Удалил 1 средний слой → +10% скорость, -4% качествоУдалил 7 слоёв (безопасных) → +30% скорость, -2.5% качествоУдалил первый слой → модель сломаласьНеожиданно: Layer 2 важнее Layer 0! (+6.67 vs +3.92 perplexity)Протестировал все 22 слоя по отдельности. Вот что нашёл.Зачем это нужно?
Нечеловек, который изменил всё: как эффективно работать с ИИ, на примере создания схем бизнес-процессов в BPMN
Отношение к ИИ, как к помощнику, у многих людей напоминает отношение суровых сибирских лесорубов к японской лесопилке из старого анекдота. Лесорубы совали в неё всё более толстые брёвна — и машина со всем справлялась. Тогда в неё засунули железный лом. Этого лесопилка уже не пережила. А лесорубы сделали вывод: ничего-то эта заморская техника не может.С ИИ часто происходит то же самое. Либо «сделай всё и сразу», либо «ну нет, слабоват ты пока для серьёзных задач». А что если ИИ способен решить вашу задачу пусть не полностью, но процентов так на 80–90? И вы сами в этой сфере тоже несовершенны? Но
