Блог компании Точка Банк.

AI-итоги года: 25 событий 2025-го в 10 главных трендах

2025-й войдёт в историю как год, когда AI перестал «отвечать» и начал «делать». Модели научились рассуждать по бюджету, агенты захватили браузеры и терминалы, а видео и голос превратились из демок в часть инфраструктуры. Собрали 25 ключевых событий, разбитых по 10 главным трендам года.

продолжить чтение

OpenAI выкатывает GPT-5.2 экспертного уровня, конкуренты объединяются ради стандартов: главное новости AI за неделю

OpenAI выпустила GPT-5.2: модель впервые достигла экспертного уровня — обходит или не уступает профессионалам в 70.9% задач на GDPval (44 профессии), 100% на AIME 2025, 80% на SWE‑Bench Verified, галлюцинаций на 30% меньше, работает в 11× быстрее за <1% стоимости.Anthropic и OpenAI передали ключевые стандарты в новый Agentic AI Foundation: MCP и AGENTS.md теперь под управлением Linux Foundation — редкая кооперация конкурентов ради общей инфраструктуры для AI‑агентов.Mistral выпустила Devstral 2: открытая coding‑модель с 72.2% на SWE‑bench, в 5× меньше DeepSeek V3.2, плюс CLI‑агент Vibe для терминала.Adobe пришла в ChatGPT:

продолжить чтение

AI против рутинной оценки чатов: как мы заменили ручную аналитику чатов LLM

Онлайн‑чат — одна из главных точек контакта клиента с банком. От того, каким будет диалог, зависит не только пользовательский опыт, но и ключевые показатели. Системная работа над качеством поддержки — реальный рычаг влияния на эффективность бизнеса. Необходимо регулярно оценивать диалоги: отмечать, где специалист справился хорошо, а где упустил важные моменты. Своевременная обратная связь даёт возможность поддерживать единый стандарт коммуникации на высоком уровне.

продолжить чтение

Собираем систему мониторинга ответов LLM на коленке

Наверняка вы сталкивались с ситуациями, когда модель начинает вести себя в проде не так, как задумывалось: например, ведётся на провокации пользователя или даёт некорректные ответы. Зачастую такие ошибки безобидны, но случаются и не очень приятные ситуации. А если речь идёт о чат-боте, который отвечает на вопросы в юридической или медицинской сфере — практически любая ошибка может быть критичной. Итак, мы плавно подошли к тому, что нужно каким-то образом валидировать ответы LLM. Давайте разберёмся, как это делать.  

продолжить чтение

Rambler's Top100