Anything LLM для каждого [бизнеса]
Привет!Нужен LLM? Если для себя лично можно как-то извернуться и купить подписку на ChatGPT, Claude или Gemini, то для бизнеса это не так-то просто. И я сейчас говорю не про зарубежные карточки, а про разделение доступа и локальное хранение чувствительных данных компании.Передо мной встала задача обеспечить моим клиентам локальную LLM, в которую можно закидывать любые документы и получать по ним ответы. Как водится, бюджета на это не выделили. Нужна демоверсия в боевом режиме для нескольких сотрудников, чтобы оценить профит.
Пять ошибок в работе с ожиданиями в UI‑автотестах, из‑за которых тесты падают через раз
Знакомый сюжет в любом проекте с UI‑автотестами. Один и тот же тест на CI ведёт себя по‑разному: вчера прошёл, сегодня упал, завтра снова прошёл. Локально работает всегда. В логах непонятное «Element not interactable», в скриншоте на момент падения элемент вроде на месте. Команда списывает на «flaky test», добавляет ретрай через JUnit Extension, через месяц добавляет ещё один уровень ретраев на CI. Пайплайн билда растёт с трёх минут до двадцати, потому что ретраи теперь срабатывают на половине прогонов. Доверие к автотестам падает, через полгода менеджмент возвращает ручное тестирование на критичные релизы.
Evals для чайников. Как тестировать AI-агента, чтобы понимать, где именно он ломается
Большинство команд оценивают производительность AI-агентов через end-to-end метрики: success rate, количество токенов, tool usage, стоимость запроса, долю успешных задач. Это полезно для общего контроля ситуации, но почти бесполезно для реальной диагностики системы.
Нагрузочное тестирование: не просто скриптики и кнопка «Запуск»
ОглавлениеВведениеЧто такое нагрузка и почему она ломает всё подрядПримеры провалов системТипы нагрузочных тестовПодходы в нагрузке
«70% соответствия ТЗ — это уже хорошо»: три мифа заказной разработки
Привет, Хабр! Меня зовут Александр Сахаров, я директор по работе с партнерами компании "Диасофт".За двадцать с лишним лет в индустрии никто из нас не видел идеального ТЗ. Ни разу. При этом каждый новый проект начинается с уверенного «у нас всё прописано». Компании теряют сотни миллионов на выборе стека, который считают «деталью». А low-code продолжают высмеивать, не заметив, что инструмент за десять лет стал другим.
Контекст для LLM в тестировании: от калькулятора страховой премии до ТЗ на сотню страниц
Всем привет! Продолжаю цикл статей про применение ИИ в тестирование. Здесь можно прочитать первую статью "ИИ в тестировании: зачем мы пошли в пилот и почему начали с чата, а не с агентов”. Сегодня поговорим про тестирование требований, а именно про первый и самый важный этап — подготовку контекста. В своей статье под контекстом я буду подразумевать структурированную информацию о продукте:описания компонентов;бизнес-правила;сценарии использования;связи между сущностями.
Как я выиграла билет на Heisenbug и узнала про «биполярное тестирование»
ИИ и тут предложил свой вариант биполярки в тестировании
Cursor пишет вам unit‑тесты за минуту. 5 паттернов, на которых эти тесты пропустят любой баг
Cursor пишет тесты быстро. Открыл класс, нажал Ctrl+I, кинул промпт «напиши unit‑тесты» — через минуту в файле сорок строк с моками, ассертами и красивыми именами вроде shouldReturnUserWhenIdIsValid. Прогнал — зелёные. Закоммитил, замержил, побежал дальше. Покрытие в проекте растёт, скорость написания тестов раза в три‑четыре выше, чем руками.А потом замечаешь, что тесты есть, а толку от них всё меньше. Регрессия пролетает мимо них и падает в проде. Открываешь тот самый тест, который должен был это ловить, — формально зелёный, но если присмотреться, не проверяет вообще ничего.

