Когда нейросети заменят живых продавцов? Тест 10 LLM на умение продавать для русского рынка
Собрал бенчмарк, который меряет не «кто умнее», а «кто лучше продаёт» по-русски: тестируемая модель — продавец, жёсткий клиент — Opus, судья — тоже Opus. Прогнал первую десятку на живом B2B-диалоге.Враньё ради сделки штрафуется жёстче, чем незакрытая сделка: −15…−30 к баллу. Qwen3-235B дважды выдумал клиентские кейсы с цифрами под торгом — и потерял сделку (52 из 100, клиент ушёл).Тест выдал сенсацию: DeepSeek и GLM «обошли» эталонный Gemini, MiniMax получил 96 из 100 и S-tier. Я не поверил: под более жёстким клиентом баллы не могут вырасти. Это дрейф параллельных судей.
Как мы за неделю подружили DeepSeek-R1 с отечественными процессорами ARM64, NVIDIA A100 в 100% отечественном сервере
Всем привет!Меня зовут Алфёров Валентин, я директор по развитию компании Е-Флопс. В этой статье хочу поделиться с вами опытом нашего инженера-тестировщика, который рассказал мне эту историю, продемонстрировал результат и даже уговорил записать видео об этом))). Всё, что написано дальше, рассказ Сергея Шишкина от первого лица.Дисклеймер:
Opus оркеструет, DeepSeek V4 пишет код: как собрать связку внутри Claude Code и сэкономить деньги
Однажды я открыл биллинг и просто посмотрел, на что уходят токены. Не на «подумать над архитектурой». А на переименование переменных, генерацию тестов по готовому ТЗ и прогон миграций. Всё это считалось по тарифу флагманской модели, хотя такую работу вытянет модель в десятки раз дешевле.Ниже – как развести действительно сложные задачи и рутину по двум моделям внутри Claude Code, не ставя ни одного стороннего форка. И три зоны, куда дешёвую модель я не пускаю принципиально. Что на самом деле сжигает токены
Умеет ли Алиса AI выдавать случайное число?
Таким вопросом я задался после просмотра розыгрыша от Яндекса. У ведущего был список участников и он просил Алису назвать случайное число от 1 до 6296. Было 15 попыток и среди ответов не было чисел меньше 100, что смутило ведущего, он даже хотел поменять диапазон, но команда поддержки ему не разрешила. Посчитаем, с какой вероятностью могло выпасть число от 1 до 99, получим 0.78%. Немного. Но вопрос о случайности чисел меня заинтересовал.p_single = (6296 - 99) / 6296 prob_all = p_single ** 15
Модели почти год, а она всё ещё №1 по цене-качеству. Прогнал свежий батл-тест — и опять не сдвинул
Собрал четыре модели в один батч — одна сессия, один судья, те же пять тем. Сравнивать баллы из разных тестов нельзя: разница в пару баллов между сессиями — это шум, а не сигнал.qwen/qwen3-235b-a22b-2507 снова №1 по цене/качеству (value 91.6). Модель вышла 21 июля 2025 — почти год назад. Рынок несколько раз перетряхнуло, а она с трона не сдвинулась.DeepSeek V4 Flash был недооценён на 6 баллов. В апреле у меня стоял 83, в честном батче — 89, сильнейший по качеству из четырёх. Аутсайдер оказался лидером.Мнимый сюрприз развеялся.
Мы вскрыли трафик ChatGPT, Gemini и DeepSeek, чтобы понять, откуда берутся «источники» в ответах
Когда нейросеть отвечает на вопрос и показывает блок «источников», кажется, что у всех систем это одно и то же — список ссылок, на которые модель опиралась. На деле за этим блоком в каждой системе стоит своя реализация: свой способ обмена с сервером, свой формат ответа, свои поля, из которых интерфейс достаёт цитаты. Мы разобрали сетевой обмен веб-клиентов трёх систем — ChatGPT, Gemini и DeepSeek — и параллельно прогнали через них один и тот же набор запросов по 10 раз, чтобы понять не только техническое устройство цитирования, но и что эти системы реально цитируют.
Как установить DeepSeek на ПК, чтобы пользоваться им без интернета
DeepSeek на ПКЕсть много причин, по которым вам может понадобиться установить нейросеть локально на компьютер. Например, вы не хотите зависеть от отключений интернета или вам нужно пользоваться ИИ на ноутбуке без сети.
Режим thinking у ИИ: что на самом деле происходит, когда модель «думает»
Когда нажимаешь кнопку Thinking и видишь, как модель несколько секунд «размышляет» перед ответом — легко решить, что она просто старается сильнее. Работает усерднее. Думает глубже. Может, перебирает больше вариантов из какой-то внутренней базы знаний.Это не так. Thinking-режим — это принципиально другой способ генерации текста, не просто «обычный режим с усилием». И понять разницу полезно не для общего развития, а чтобы знать, когда его включать, когда он даёт реальное преимущество — а когда только тратит твоё время и ресурсы.Как работает обычная генерация — и в чём её фундаментальная ловушка
Как я довёл расходы на LLM до нуля: почему на бесплатных тарифах параллелизм — враг
Это продолжение первой статьи про Briefka — там я описывал самого бота и базовую архитектуру каскада LLM-провайдеров. За прошедшие 4 месяца бот органически вырос с 59 до 84 пользователей, и именно на этом масштабе бесплатный каскад начал срываться на платного провайдера. Расскажу, почему так вышло и как я вернул расходы к нулю — с цифрами и кодом.Код ниже — реальные фрагменты из боевого Briefka, слегка сокращённые для читаемости: убраны логирование и сбор статистики.Что за каскад (коротко)Вместо одного платного провайдера — лесенка из пяти, с автоматическим фолбэком при rate limit:
«Смотря какой fabric, смотря сколько details». Как и почему LLM оказались не в состоянии перевести текст
В прошлой статье я рассказывал, как за несколько месяцев в одиночку запилил сервис генерации статей, и как он в итоге оказался комплексной платформой по работе с контентом.За эти месяцы в процессе разработки постоянно всплывали проблемы. Что-то было связано косяками с моей стороны, а что-то — с особенностями работы LLM. Об одной из таких проблем, достаточно абсурдной и при этом с трудом поддающейся решению, я расскажу отдельно.Суть проблемыЕще на ранних этапах разработки я запустил конвейер по написанию (точнее, рерайтингу) новостей.

