llm.

Когда ИИ не понимает бизнес-контексты

Фотография Сары Пфлуг из

продолжить чтение

Оставлено в

Достаточно надёжный и научно обоснованный алгоритм проверки текста на LLM

Кажется, я изобрёл алгоритм, при помощи которого можно достаточно надёжно отличить авторский текст от LLM‑текста.

продолжить чтение

Оставлено в

Делай Bench: мой опыт слепого human-eval бенчмарка нейросетей для юристов

Привет и с Новым годом, Хабр! Меня зовут Екатерина, я практикующий юрист, исследую эффективное применение нейросетей в юридических задачах. В декабре ушедшего года я провела необычный для себя и российского LegalTech-рынка эксперимент: с помощью одиннадцати коллег-оценщиков организовала небольшоенезависимое слепое сравнение пяти нейросетевых сервисов. В этой публикации хочу рассказать о вызовах human-eval бенчмарка в домене, где зачастую нет единственно правильных ответов, интересных выводах исследования, полученной мной обратной связи и дальнейших планах.Юристы и бенчмарки LLM

продолжить чтение

Оставлено в

Лоботомия нейросети: удалил 7 слоёв из LLM — она стала на 30% быстрее

Эксперимент по хирургическому удалению слоёв из языковой моделиTL;DRЯ взял TinyLlama (1.1B параметров, 22 слоя) и начал удалять из неё слои, чтобы проверить гипотезу: современные LLM переобучены, и многие слои делают одно и то же.Результаты:Удалил 1 средний слой → +10% скорость, -4% качествоУдалил 7 слоёв (безопасных) → +30% скорость, -2.5% качествоУдалил первый слой → модель сломаласьНеожиданно: Layer 2 важнее Layer 0! (+6.67 vs +3.92 perplexity)Протестировал все 22 слоя по отдельности. Вот что нашёл.Зачем это нужно?

продолжить чтение

Оставлено в

Langfuse: наблюдаем и отлаживаем LLM-микросервисы без black box

За прошлый год я запустил 5 сервисов с LLM под капотом. Каждый следующий сервис получался лучше предыдущего: мы оттачивали архитектуру, оптимизировали core микросервиса на FastAPI, быстрее выходили на MVP и ловили меньше багов.Но довольно быстро стало понятно: LLM‑сервисы сложно интерпретировать. Для бизнес команды они выглядят как black box. Для инженеров — как набор плохо воспроизводимых состояний.В этой статье я поделюсь практиками, которые:упрощают интерпретацию поведения LLM;делают работу сервиса прозрачной для Product Owners и SME;

продолжить чтение

Оставлено в

Быстрый старт в мониторинг сервисов с LLM под капотом

продолжить чтение

Оставлено в

Корпоративный RAG как MCP-сервис: подключаем кодовую базу к IDE

В компаниях с несколькими продуктами знания о коде и архитектуре почти неизбежно расползаются. Часть живёт в репозиториях, часть — в статьях с архитектурными решениями, часть — в корпоративной базе знаний (в нашем случае — Confluence). На небольшом масштабе это выглядит как порядок. Но по мере роста начинают проявляться системные эффекты.

продолжить чтение

Оставлено в

Tailwind Labs сократил 75% инженерной команды из-за падения доходов

07.01.2026 Tailwind Labs — компания, стоящая за фреймворком Tailwind CSS, — уволила 75% инженеров на фоне резкого падения выручки примерно на 80%. Об этом стало известно во время

продолжить чтение

Оставлено в

Компиляторы нового поколения: Искусственный интеллект на службе у кода

Автор: Денис АветисянОбзор посвящен стремительно развивающейся области применения больших языковых моделей для оптимизации, трансляции и конструирования компиляторов.

продолжить чтение

Оставлено в

Автоматизация рутины на hh.ru: Как мы учили Headless Chrome притворяться живым человеком (RPA против Anti-Fraud)

С инженерной точки зрения поиск работы — это процесс с низкой энтропией. Есть входящий поток данных (JSON с вакансиями) и есть необходимость отправить ответный сигнал (POST-запрос с откликом). Задача кажется тривиальной для автоматизации: написал парсер, настроил cron, пошел пить кофе.Однако, если вы попробуете автоматизировать отклики на крупных job-board платформах (особенно на hh.ru) в 2026 году, вы столкнетесь с серьезным противодействием. WAF (Web Application Firewall), анализ TLS-отпечатков, поведенческая биометрия и теневые баны — это реальность, которая убивает скрипты на requests за пару часов.

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

llm.

Когда ИИ не понимает бизнес-контексты

Достаточно надёжный и научно обоснованный алгоритм проверки текста на LLM

Делай Bench: мой опыт слепого human-eval бенчмарка нейросетей для юристов

Лоботомия нейросети: удалил 7 слоёв из LLM — она стала на 30% быстрее

Langfuse: наблюдаем и отлаживаем LLM-микросервисы без black box

Быстрый старт в мониторинг сервисов с LLM под капотом

Корпоративный RAG как MCP-сервис: подключаем кодовую базу к IDE

Tailwind Labs сократил 75% инженерной команды из-за падения доходов

Компиляторы нового поколения: Искусственный интеллект на службе у кода

Автоматизация рутины на hh.ru: Как мы учили Headless Chrome притворяться живым человеком (RPA против Anti-Fraud)

Меню навигации

Рекомендуем

Главное

Рубрики

Методики

Информация

Из архивов

llm.