Тестирование IT-систем. - страница 17

15 минут — и у тебя свой LLM, который не утекает в облако и не стоит $20 в месяц

Недавно решил покопаться в локальных языковых моделях и наткнулся на новинку от Google DeepMind — Gemma 3 12B. Модель мощная, с открытой лицензией и, что особенно порадовало, спокойно запускается прямо на ноутбуке. Без серверов, клаудов и трат на аренду GPU.Чтобы всё это заработало без плясок с настройками, я взял LM Studio — простой и удобный интерфейс для работы с LLM, который буквально делает «запустил и поехали».Я написал этот материал для блога Minervasoft

продолжить чтение

15 минут — и у тебя бесплатная ИИ-модель для генерации кода, текста, чтения иллюстраций

Недавно решил покопаться в локальных языковых моделях и наткнулся на новинку от Google DeepMind — Gemma 3 12B. Модель мощная, с открытой лицензией и, что особенно порадовало, спокойно запускается прямо на ноутбуке. Без серверов, клаудов и трат на аренду GPU.Чтобы всё это заработало без плясок с настройками, я взял LM Studio — простой и удобный интерфейс для работы с LLM, который буквально делает «запустил и поехали».Я написал этот материал для блога Minervasoft

продолжить чтение

C каждой розетки про MCP, но давайте по-человечески

Предыстория: Последние месяцы Model Context Protocol (MCP) — буквально из каждого утюга. YouTube, Twitter, конференции, документации — все жужжат:«MCP это прорыв»,«Новый стандарт дебага»,«Интеграция AI в тесты нового поколения»...Звучит круто. Но, как часто бывает, всё сложно, перегружено и на птичьем языке. Я решил подойти с другой стороны. Это не мой, это ответ GPT, на понятном языке и с небольшими правками с моей стороны. Без заумных фраз, зато с примерами, мясом и аналогиями. Запрос был простым:Объясни по-пацански, что это вообще такое?Как это реально помогает, а не просто выглядит модно?

продолжить чтение

Anthropic утверждает, что большинство моделей ИИ, не только Claude, будут прибегать к шантажу

Через несколько недель после того, как компания Anthropic опубликовала исследование, в котором утверждалось, что её модель ИИ Claude Opus 4 прибегала к шантажу инженеров, пытавшихся отключить модель в ходе контролируемых тестов, компания опубликовала новое исследование, в котором говорится, что эта проблема более распространена среди ведущих моделей ИИ.

продолжить чтение

Мифический «стеклянный потолок» в карьере QA

продолжить чтение

Цифровой абьюз. Обзор практик от энтузиастов по поиску моральных пределов чат-ботов

Человек любознателен. Многие из нас с раннего возраста испытывали непреодолимое стремление разобрать на части или хотя бы применить не по назначению какое-нибудь устройство. Жертвами этой любознательности обычно становились бесчисленные механические игрушки, бытовая техника или какие-нибудь механизмы. Ну а сейчас, в эпоху технологий, у нас есть чат-боты на основе ИИ, и они не стали исключением. Забавно задавать им вопросы с подвохом, использовать противоречивые сценарии, пробовать ввести в логическую ловушку. Пользователи начали сознательно провоцировать или «сводить с ума» своих виртуальных собеседников. В этой статье посмотрим, как именно это происходит, разберем реальные случаи и обсудим, к каким последствиям может привести.

продолжить чтение

Исследование способности языковых моделей к логическим рассуждениям — тест RELIC

Исследователи из Нью-Йоркского университета представили RELIC (Recognition of Languages In-Context) — новый тест, разработанный для проверки того, насколько хорошо большие языковые модели могут понимать и выполнять сложные многоэтапные инструкции. Команда получила результаты, аналогичные тем, что были представлены в недавней статье Apple, но отметила, что есть ещё над чем поработать.

продолжить чтение

Тест CRMArena-Pro показывает, что ИИ-агенты испытывают трудности в реальных бизнес-задачах

Новый тест Salesforce CRMArena-Pro выявляет серьёзные проблемы, с которыми сталкиваются ИИ-агенты в бизнес-контексте. Даже у таких топовых моделей, как Gemini 2.5 Pro, успешный ответ при однократном обращении достигается лишь в 58% случаев. При более длительном диалоге производительность падает до 35%.

продолжить чтение

Новые тесты Apple показывают, что её ИИ-модели всё ещё отстают от лидеров рынка

Apple опубликовала новые данные о производительности двух своих моделей искусственного интеллекта и открыла доступ к меньшей по размеру системе для сторонних разработчиков. Тесты показывают, что технология LLM от Apple по-прежнему уступает конкурентам.

продолжить чтение

Как мы в Mentorpiece тестируем… стоимость AI-приложений

Третья статья цикла про работу AI-QA-инженера (но написана без использования AI)В предыдущих статьях:Как тестировать AI-приложения:

продолжить чтение

1...10...151617181920...23