llm. - страница 28

llm.

Протестировал 8 брендов LLM на честность, логику и креатив. Claude победил, но Алиса неожиданно в топ-3

Бенчмарки LLM множатся как грибы после дождя, но обычному пользователю от них мало толку. Оценки программирования, математики, этики — всё это важно для разработчиков, но что, если вы просто хотите получить помощь в повседневных задачах?Я решил проверить популярные модели на том, что действительно важно:- Креативность без потери здравого смысла - Логика без галлюцинаций - Внимание к деталям без педантизма Все промпты — в статье. Можете повторить и проверить мои выводы.

продолжить чтение

ИИ-ассистенты: как AI делит рынок разработки

Команда AI for Devs подготовила перевод статьи о том, как быстро растущие AI-ассистенты меняют саму природу разработки. Их код выглядит безупречно — но всё чаще решает не ту задачу, что стоит перед нами. Где проходит граница между ускорением и самообманом, и какую новую ответственность это накладывает на инженеров?В начале 1950-х Грейс Хоппер ввела термин «компилятор» и создала одну из первых его версий — систему A-0

продолжить чтение

Вайбкодинг — не Вайб и не Кодинг

Привет Хабр! Понимаю, что постов на эту тему появляется всё больше, вижу как их количество растёт. Все они подходят к проблеме с разных сторон — я хочу показать свою.Я фриланс-разработчик, 2 года опыта. В основном делаю телеграм-ботов и TG mini apps, иногда бывают заказы на лендинги, смарт-контракты и пентесты. Работаю на одной площадке — Кворк. Есть аккаунт на Fiverr, но там никто ни разу не писал, кроме мошенников...

продолжить чтение

Создание ИИ-персон и User Stories для улучшения UX

В течение нескол��ких месяцев я создаю себе воображаемых пользователей и провожу с ними глубинные интервью для улучшения сервиса контроля стройки домов в ИЖС “Пазл Дом”.

продолжить чтение

Почему ваше AI-решение не окупается. Фреймворк OpenAI, который все пропустили

OpenAI опубликовали фреймворк, на который мало кто обратил внимание. Исследование OpenAI (да и не только их) показало: компании внедряют ИИ, но часть из них не получает ожидаемого эффекта. В этом фреймворке на мой взгляд обозначены принципы отделяющие посредственные решения от тех которые делают внедрение AI в бизнес эффективным.https://openai.com/index/evals-drive-next-chapter-of-ai/KPI и OKR остаются бизнес-целями. Evals — метрики, которые показывают, как AI помогает достигать целей. Либо evals становятся частью KPI, либо контролируют качество AI, который двигает показатели вверх.

продолжить чтение

Evals – гарантия качества и окупаемости ИИ

OpenAI опубликовали фреймворк, на который мало кто обратил внимание. Исследование OpenAI (да и не только их) показало: компании внедряют ИИ, но часть из них не получает ожидаемого эффекта. В этом фреймворке на мой взгляд обозначены принципы отделяющие посредственные решения от тех которые делают внедрение AI в бизнес эффективным.https://openai.com/index/evals-drive-next-chapter-of-ai/KPI и OKR остаются бизнес-целями. Evals — метрики, которые показывают, как AI помогает достигать целей. Либо evals становятся частью KPI, либо контролируют качество AI, который двигает показатели вверх.

продолжить чтение

«Закон уплотнения» LLM: плотность способностей удваивается каждые 3,5 месяца

TL;DRПредлагается «закон уплотнения» для больших языковых моделей: максимальная плотность способностей удваивается примерно каждые 3,5 месяца. То есть всё больше качества удаётся выжать из каждого параметра модели.Вводится метрика плотности способностей: считается, сколько параметров потребовалось бы референсной модели, чтобы показать такое же качество, и это число сравнивается с реальным количеством параметров. Так видно, какие модели обучены «экономно», а какие — расточительно.

продолжить чтение

Qwen3Guard: следующий шаг в модерации и контроле контента

продолжить чтение

Джун наоборот или разоблачение главного мифа вайб-кодинга

Вчера (27 ноября) Хабр устроил «Авторский огонёк». Было очень интересно, и меня задело одно утверждение докладчика. Оно заключалось в том, что ИИ может помочь писать простые куски кода, но не работает со сложными вещами. Таким образом, большие языковые модели уподобляются программисту-джуну. Решил с утра накатать об этом статью, опираясь на свои знания и опыт в вычислительной математике (в прошлом занимался моделированием, а последние несколько лет преподаю вычислительную математику в МФТИ), оцените, что получилось. Я думаю, что это главный миф вайб-кодинга

продолжить чтение

ИИ-ассистент в M42: как мы в Авито ускорили построение графиков и увеличили аудиторию в Trisigma

Привет! Меня зовут Андрей Старостин, я DS-инженер в аналитической платформе в Авито. В этой статье я расскажу об устройстве и внедрении сервиса-ассистента на основе искусственного интеллекта для упрощения работы с аналитическими данными в нашем продукте M42 внутри Trisigma. 

продолжить чтение

Rambler's Top100