llm. - страница 55

llm.

Evals – гарантия качества и окупаемости ИИ

OpenAI опубликовали фреймворк, на который мало кто обратил внимание. Исследование OpenAI (да и не только их) показало: компании внедряют ИИ, но часть из них не получает ожидаемого эффекта. В этом фреймворке на мой взгляд обозначены принципы отделяющие посредственные решения от тех которые делают внедрение AI в бизнес эффективным.https://openai.com/index/evals-drive-next-chapter-of-ai/KPI и OKR остаются бизнес-целями. Evals — метрики, которые показывают, как AI помогает достигать целей. Либо evals становятся частью KPI, либо контролируют качество AI, который двигает показатели вверх.

продолжить чтение

«Закон уплотнения» LLM: плотность способностей удваивается каждые 3,5 месяца

TL;DRПредлагается «закон уплотнения» для больших языковых моделей: максимальная плотность способностей удваивается примерно каждые 3,5 месяца. То есть всё больше качества удаётся выжать из каждого параметра модели.Вводится метрика плотности способностей: считается, сколько параметров потребовалось бы референсной модели, чтобы показать такое же качество, и это число сравнивается с реальным количеством параметров. Так видно, какие модели обучены «экономно», а какие — расточительно.

продолжить чтение

Qwen3Guard: следующий шаг в модерации и контроле контента

продолжить чтение

Джун наоборот или разоблачение главного мифа вайб-кодинга

Вчера (27 ноября) Хабр устроил «Авторский огонёк». Было очень интересно, и меня задело одно утверждение докладчика. Оно заключалось в том, что ИИ может помочь писать простые куски кода, но не работает со сложными вещами. Таким образом, большие языковые модели уподобляются программисту-джуну. Решил с утра накатать об этом статью, опираясь на свои знания и опыт в вычислительной математике (в прошлом занимался моделированием, а последние несколько лет преподаю вычислительную математику в МФТИ), оцените, что получилось. Я думаю, что это главный миф вайб-кодинга

продолжить чтение

ИИ-ассистент в M42: как мы в Авито ускорили построение графиков и увеличили аудиторию в Trisigma

Привет! Меня зовут Андрей Старостин, я DS-инженер в аналитической платформе в Авито. В этой статье я расскажу об устройстве и внедрении сервиса-ассистента на основе искусственного интеллекта для упрощения работы с аналитическими данными в нашем продукте M42 внутри Trisigma. 

продолжить чтение

Лучшие нейросети для вайбкодинга на 1С 6 (финал)

В этой части добавил Claude Opus 4.5 и GPT 5.1-Codex-MaxПредыдущая часть: https://habr.com/ru/articles/967828/Для тех, кто не любит читать, результат сразу тут:И ссылка на рейтинг, который теперь переехал вот сюда:

продолжить чтение

Как не превратиться в «AI-first» компанию без реального использования ИИ. Перевод колонки CEO Runway

Помните тот момент, когда впервые услышали, что ваша компания переходит к модели AI-first?

продолжить чтение

3 главных инсайта о «взломах» LLM из исследования StrongREJECT

Всем привет!Погружаюсь в новую для себя область AI Security, в связи с чем решил написать несколько обзоров на самые обсуждаемые исследования и статьи по этой теме. Сегодня поговорим про взлом LLM и неожиданные результаты исследования StrongREJECT.TLDR: Не все джейлбрейки одинаково полезныПолный текст доклада (25 стр.) с NeurIPS. Если лень читать обзор, можете пролистать комиксы от нанобананы. Большинство джейлбрейков - иллюзия!

продолжить чтение

Как я автоматизировал поиск работы, и мой бот случайно откликнулся моему шефу

Поиск работы в IT превратился в какой-то сюр.С одной стороны - HR, которые не читают резюме и фильтруют кандидатов по ключевикам. С другой - кандидаты, которые бомбят веерной рассылкой "здравствуйте, рассмотрите меня".Чтобы найти нормальный оффер, нужно тратить 2-3 часа в день на скроллинг ленты и написание сопроводительных, которые никто не откроет.Меня это достало. Я разработчик, я хочу писать код, а не играть в бюрократию.Поэтому я решил написать AI-агента, который заберет эту рутину на себя. Спойлер: он сработал слишком хорошо и чуть не устроил одному из пользователей увольнение.

продолжить чтение

The Romantics at Anthropic: Why Researchers Talk About LLMs as if They Were Human

In my previous article, I showed how researchers confused being 'aware' (signal registration) with being 'conscious' (subjective awareness). But this is no accident — it is part of a narrative being constructed by AI labs. Anthropic is leading this trend. Let’s break down their latest paper, where a "learned pattern" has suddenly turned into "malicious intent."I recently analyzed an experiment by scientists from AE Studio in which they conflated "aware" (registering a signal) with "aware" (conscious realization). Yet, such anthropomorphization of LLMs is now ubiquitous — in no small part thanks to papers from Anthropic. It seems to me that it is largely through their influence that terms like deception, sabotage, and intent have entered the vocabulary of LLM researchers.

продолжить чтение

Rambler's Top100