llm.
Достаточно надёжный и научно обоснованный алгоритм проверки текста на LLM
Кажется, я изобрёл алгоритм, при помощи которого можно достаточно надёжно отличить авторский текст от LLM‑текста.
Делай Bench: мой опыт слепого human-eval бенчмарка нейросетей для юристов
Привет и с Новым годом, Хабр! Меня зовут Екатерина, я практикующий юрист, исследую эффективное применение нейросетей в юридических задачах. В декабре ушедшего года я провела необычный для себя и российского LegalTech-рынка эксперимент: с помощью одиннадцати коллег-оценщиков организовала небольшоенезависимое слепое сравнение пяти нейросетевых сервисов. В этой публикации хочу рассказать о вызовах human-eval бенчмарка в домене, где зачастую нет единственно правильных ответов, интересных выводах исследования, полученной мной обратной связи и дальнейших планах.Юристы и бенчмарки LLM
Лоботомия нейросети: удалил 7 слоёв из LLM — она стала на 30% быстрее
Эксперимент по хирургическому удалению слоёв из языковой моделиTL;DRЯ взял TinyLlama (1.1B параметров, 22 слоя) и начал удалять из неё слои, чтобы проверить гипотезу: современные LLM переобучены, и многие слои делают одно и то же.Результаты:Удалил 1 средний слой → +10% скорость, -4% качествоУдалил 7 слоёв (безопасных) → +30% скорость, -2.5% качествоУдалил первый слой → модель сломаласьНеожиданно: Layer 2 важнее Layer 0! (+6.67 vs +3.92 perplexity)Протестировал все 22 слоя по отдельности. Вот что нашёл.Зачем это нужно?
Langfuse: наблюдаем и отлаживаем LLM-микросервисы без black box
За прошлый год я запустил 5 сервисов с LLM под капотом. Каждый следующий сервис получался лучше предыдущего: мы оттачивали архитектуру, оптимизировали core микросервиса на FastAPI, быстрее выходили на MVP и ловили меньше багов.Но довольно быстро стало понятно: LLM‑сервисы сложно интерпретировать. Для бизнес команды они выглядят как black box. Для инженеров — как набор плохо воспроизводимых состояний.В этой статье я поделюсь практиками, которые:упрощают интерпретацию поведения LLM;делают работу сервиса прозрачной для Product Owners и SME;
Быстрый старт в мониторинг сервисов с LLM под капотом
За прошлый год я запустил 5 сервисов с LLM под капотом. Каждый следующий сервис получался лучше предыдущего: мы оттачивали архитектуру, оптимизировали core микросервиса на FastAPI, быстрее выходили на MVP и ловили меньше багов.Но довольно быстро стало понятно: LLM‑сервисы сложно интерпретировать. Для бизнес команды они выглядят как black box. Для инженеров — как набор плохо воспроизводимых состояний.В этой статье я поделюсь практиками, которые:упрощают интерпретацию поведения LLM;делают работу сервиса прозрачной для Product Owners и SME;
Корпоративный RAG как MCP-сервис: подключаем кодовую базу к IDE
В компаниях с несколькими продуктами знания о коде и архитектуре почти неизбежно расползаются. Часть живёт в репозиториях, часть — в статьях с архитектурными решениями, часть — в корпоративной базе знаний (в нашем случае — Confluence). На небольшом масштабе это выглядит как порядок. Но по мере роста начинают проявляться системные эффекты.
Tailwind Labs сократил 75% инженерной команды из-за падения доходов
07.01.2026 Tailwind Labs — компания, стоящая за фреймворком Tailwind CSS, — уволила 75% инженеров на фоне резкого падения выручки примерно на 80%. Об этом стало известно во время
Компиляторы нового поколения: Искусственный интеллект на службе у кода
Автор: Денис АветисянОбзор посвящен стремительно развивающейся области применения больших языковых моделей для оптимизации, трансляции и конструирования компиляторов.
Автоматизация рутины на hh.ru: Как мы учили Headless Chrome притворяться живым человеком (RPA против Anti-Fraud)
С инженерной точки зрения поиск работы — это процесс с низкой энтропией. Есть входящий поток данных (JSON с вакансиями) и есть необходимость отправить ответный сигнал (POST-запрос с откликом). Задача кажется тривиальной для автоматизации: написал парсер, настроил cron, пошел пить кофе.Однако, если вы попробуете автоматизировать отклики на крупных job-board платформах (особенно на hh.ru) в 2026 году, вы столкнетесь с серьезным противодействием. WAF (Web Application Firewall), анализ TLS-отпечатков, поведенческая биометрия и теневые баны — это реальность, которая убивает скрипты на requests за пару часов.
Машинка квазителепатии
У каждого из нас есть свое воображаемое кладбище. Это кладбище, на котором похоронены скоропостижно скончавшиеся идеи. Едва начав писать свои первые тексты (и вволю начитавшись фантастики), лет так в восемь, я мечтал о девайсе, который помогал бы мне ловить идеи за хвост и сажать на привязь сразу же, как они появляются, в любой обстановке. Грандиозные мысли имели обыкновение являться в мой мозг в самых неподходящих ситуациях и улетучиваться, как только я дорывался до карандаша. Если все-таки удавалось что-то зафиксировать, то расшифровать эти таинственные письмена позже было сложновато.

