Блог компании OTUS.

Краткий обзор стандарта Open Agile Architecture от The Open Group (O-AA)

В октябре 2022 года The Open Group официально выпустил Open Agile Architecture™ (O‑AA) — новую версию стандарта, призванного соединить мир «классической» корпоративной архитектуры с реалиями Agile, DevOps и цифровой трансформации. Первая версия документа была опубликована Open Group еще в 2020 году.

продолжить чтение

Как я программирую с помощью агентов

TL;DRАгент в контексте LLM — это не магия, а цикл, в котором модель по шагам вызывает инструменты (bash, git, тесты, web) и получает от них обратную связь.Такой агент умеет ориентироваться в живой кодовой базе, запускать компилятор и тесты, читать логи и документацию, поэтому генерирует и правит код куда надёжнее, чем «голая» модель в чате.

продолжить чтение

Как ИИ меняет работу инженеров в Anthropic

Anthropic опубликовала большое внутреннее исследование о том, как ИИ меняет работу инженеров — на этот раз не в теории, а на собственном примере.Летом 2025 года команда собрала данные по 132 инженерам и исследователям, провела 53 глубинных интервью и проанализировала около 200 000 логов Claude Code за два периода с разницей в полгода. Это не срез по индустрии, а взгляд изнутри компании, которая сама разрабатывает ИИ и имеет к нему ранний доступ, и в статье это честно оговаривается.Как изменилось использование ИИ

продолжить чтение

10 лучших open source инструментов Observability 2025

В этом году инструменты observability с открытым исходным кодом вышли за рамки простого мониторинга. Теперь они конкурируют, а зачастую и превосходят коммерческие SaaS‑платформы по масштабируемости, гибкости и совместимости. Команды из разных отраслей внедряют стеки решений наблюдения с открытым исходным кодом, чтобы избежать привязки к одному поставщику, обеспечения сквозной прозрачности (логи, метрики, трассировки), экономии на лицензиях и много другого.

продолжить чтение

От Выгорания к Жизни. Как навести порядок в расписании и успевать больше

продолжить чтение

Как я выбираю LLM (large language model) для своих задач?

продолжить чтение

«Закон уплотнения» LLM: плотность способностей удваивается каждые 3,5 месяца

TL;DRПредлагается «закон уплотнения» для больших языковых моделей: максимальная плотность способностей удваивается примерно каждые 3,5 месяца. То есть всё больше качества удаётся выжать из каждого параметра модели.Вводится метрика плотности способностей: считается, сколько параметров потребовалось бы референсной модели, чтобы показать такое же качество, и это число сравнивается с реальным количеством параметров. Так видно, какие модели обучены «экономно», а какие — расточительно.

продолжить чтение

Вышла Claude Opus 4.5

24 ноября стала доступна модель Claude Opus 4.5. Anthropic позиционирует её как свою самую сильную модель для программирования, агентных сценариев и управления компьютером, а также заметно подтянула качество в повседневных задачах — от поиска и анализа информации до работы с презентациями и таблицами.Claude Opus 4.5 показывает лучшие результаты на бенчмарках, приближенных к реальной разработке (включая SWE-bench Verified).

продолжить чтение

Квантовые физики уменьшили и «освободили от цензуры» DeepSeek R1

Им удалось сократить размер ИИ-модели рассуждений более чем наполовину — и они утверждают, что теперь она может отвечать на политически чувствительные вопросы, которые раньше были под запретом в китайских ИИ-системах.TL;DR:Multiverse Computing сжала DeepSeek R1 с помощью квантово-вдохновлённых тензорных сетей: модель стала на 55% компактнее при почти той же точности. По пути они «сняли» китайскую цензуру: модифицированная версия отвечает на табуированные для китайских LLM вопросы примерно как западные модели.

продолжить чтение

Artificial Analysis обновили свой Intelligence Index

В новых тестах неожиданно выстрелил Gemini 3 Pro Preview. По половине бенчмарков у модели не просто небольшой прирост, а заметный скачок вперёд.Фактические знания и галлюцинацииGemini 3 Pro Preview занимает 1-е место в 5 из 10 тестов Artificial Analysis Intelligence Index:GPQA Diamond, MMLU‑Pro, HLE, LiveCodeBench и SciCode.Самый показательный результат — 37% в Humanity's Last Exam (сложный экзамен «на последнюю попытку человечества»). Это на 10+ п.п. выше предыдущего лучшего результата — для такого класса задач это большой отрыв, а не статистический шум.»Отдельно модель лидирует в AA‑Omniscience, новом комплексном бенчмарке знаний и галлюцинаций:

продолжить чтение

123456...8
Rambler's Top100