llm. - страница 9

llm.

Ваш ИИ ошибался, ошибается и будет ошибаться

Ваш ИИ-агент только что выдал строчку. И она выглядит… подозрительно? Указатель без проверки на NULL, сериализация через pickle

продолжить чтение

Гонка ИИ-вооружений — как LLM вносят уязвимости в код и как другие LLM их находят

Ваш ИИ-агент только что выдал строчку. И она выглядит… подозрительно? Указатель без проверки на NULL, сериализация через pickle

продолжить чтение

Машинное обучение в реальных условиях: проверьте свои силы на Yandex ML Challenge

продолжить чтение

Представлена языковая модель с линейной сложностью вычислений и контекстом до 12 млн токенов

Кратко: стартап Subquadratic представил SubQ 1M-Preview — первую языковую модель с линейной сложностью вычислений относительно длины контекста. Заявлены контекст до 12 млн токенов, скорость в 52 раза выше FlashAttention и радикальное снижение стоимости. Независимых тестов пока нет (хотя стартап заявляет о сторонней верификации своих бенчмарков), доступ закрыт. Техническое сообщество реагирует сдержанно: пока это амбициозный пресс-релиз, а не готовый инструмент.

продолжить чтение

Как собрать пайплайн с LLM агентом использующим эмуляторы Android девайсов

Какую проблему решаемLLM пока не может хорошо обращаться с Е2Е автотестами потому что для этого нужно провести целый комплекс мероприятий. Сложность возникает уже на этапе запуска такого автотеста. В отличии от юнит автотестов, Е2Е автотесты почти всегда PageObject и целый проект со своей архитектурой на базе Selenium Appium Espresso и тд.Чем может быть полезна эта статьяВ данной статье я постараюсь описать подход с которым можно сделать агента использующего MCP инструменты для взаимодействия с эмуляторами. Заодно приведу простой пример чем отличается модель от агента и как они взаимодействуют между собой.Строим пайплайн

продолжить чтение

Второй мозг и LLM‑Wiki: Теория и практический гайд по созданию и поддержке личной базы знаний

В этой статье поговорим про концепцию «второго мозга»

продолжить чтение

200 OK по протоколу, но не OK для клиента: автоматизация контроля совместимости API и приложения

Выпустить релиз — часы работы команды. Упасть на старте — 1 секунда. Узнать об этом не из отзывов пользователей — бесценно. Серверные тесты проходят, эндпоинт отвечает 200 OK, но мобильный клиент падает на первом же ответе API.Типичный сценарий: в user.id приходит null, у status появляется новое значение или меняется вложенная структура — и ответ API расходится с клиентскими моделями.

продолжить чтение

200 OK иногда = кома: почему API «работает», а приложение — нет (и как нам помог ИИ)

Статус 200 OK коварен своей тривиальностью.Бэкенд-тесты «зеленые», API честно отдает данные, а веб-клиент мгновенно подхватывает изменения. Кажется, что всё в порядке, но в это же время мобильные клиенты теряют работоспособность. Приложение не выдает сетевых ошибок, оно просто не может корректно обработать обновленный DTO: клиент ожидает одну структуру данных, а получает другую.Это не баг логики сервера, а технический разрыв между живым API и замороженным артефактом — версией приложения, которая ничего не знает о правках в схеме данных, сделанных через полгода после его релиза.

продолжить чтение

HiveTraceRed vs garak: тестируем безопасность языковых моделей на русском и английском

КраткоНаша команда сравнила два открытых инструмента для проверки языковых моделей (LLM) на устойчивость к атакам: российский HiveTraceRed от HiveTrace/ITMO и международный garak от NVIDIA. Прогнали обоих на одинаковых задачах против двух открытых моделей (qwen2.5:3b и llama3.2:3b) на английском и русском языках.Главное:На английском работают оба

продолжить чтение

Как запускать LLM-агентов без облачных API: VPS, локальные модели и требования к железу

LLM-агенты вроде Claude Code постепенно становятся рабочим инструментом разработчика. Но почти все они завязаны на облачные API с их ценами, лимитами и зависимостью от внешней инфраструктуры.

продолжить чтение