Сократ + GPT: как построить диалог с LLM, который учит
Иногда мне приходится проверять домашнее задание у детей. Как правило, я не смотрю в тетрадь, а начинаю диалог с фразы "А почему ты так сделал?".Детям не всегда нравится такой подход, но он определенно дает результат. Чтобы перевести негатив с себя на бездушную машину, я решил сделать приложение для проверки усвоения материала.Возник вопрос: как же построить диалог с нейросетью, чтобы он был полезным? Здесь мне на помощь пришел университетский курс философии - можно попробовать построить сократический диалог.Основные этапы и принципы работы такого диалогаИнициация (Постановка проблемы).
Как и зачем мы сделали собственный OCR-бенчмарк
Однажды нам понадобилось выбрать OCR-модель для RAG-пайплайна. Казалось бы, задача простая: смотришь на лидерборды, берешь лучшую, PROFIT. Но быстро выяснилось, что, во-первых, то, что прекрасно срабатывает на каких-нибудь английских юридических документах, может не потянуть такие штуки как научные формулы, паспортные данные и таблицы на русском языке. А во-вторых, даже если крутой по всем параметрам бенчмарк для оценки качества распознавания говорит, «всё прочитали правильно, я проверил», точность ответов пользователю, который совершает запрос к чат-боту с RAG под капотом, может страдать.
Evals для чайников. Как тестировать AI-агента, чтобы понимать, где именно он ломается
Большинство команд оценивают производительность AI-агентов через end-to-end метрики: success rate, количество токенов, tool usage, стоимость запроса, долю успешных задач. Это полезно для общего контроля ситуации, но почти бесполезно для реальной диагностики системы.
К2Тех и МТС Web Services объединяют усилия для развития доверенного генеративного ИИ в российских компаниях
Компании К2Тех и МТС Web Services (далее — MWS) стали технологическими партнерами. Соглашение о партнерстве было заключено на конференции ЦИПР-2026.Предметом соглашения стало совместное внедрение AI-сервисов MWS в российских компаниях. Речь идет как об облачных сервисах, развернутых в MWS Cloud, так и об on-premises решениях “под ключ”. Среди ключевых прикладных сценариев — корпоративный поиск по документам, классификация обращений, поддержка клиентов, генерация документов и отчетов, code review и разработка тест-кейсов, а также распознавание изображений и сканов.
Контекст: сбрасывать нельзя компактизировать
Когда я только начинал пользоваться локальными агентами, я писал им как очень вежливому коллеге: «Please carefully analyze the project, find the best possible solution». Сейчас я всё чаще пишу инструкции телеграфом:Fix empty password validation in AuthScreen Done == AuthScreen tests pass Don't change public API Don't know? -> Read relevant files / google it Stuck? -> ask meГрамматика страдает, агент – нет. Ему не нужны артикли, предлоги и красивые обороты, если смысл однозначен. Это один из примеров контекстной гигиены в ежедневной работе. Меня зовут Андрей Жаров, я iOS-разработчик из компании Doubletapp
Чем умнее модель, тем меньше ей нужно: четыре дисциплины production‑агента
Если твой агент обвешан пошаговыми инструкциями и десятком узких инструментов под каждый шаг — он, скорее всего, работает хуже, чем мог бы. Звучит контр‑интуитивно, но это прямой вывод из инженерных постов Anthropic за последний год: чем умнее становится модель, тем сильнее прежняя обвязка её сдерживает.
Оксфорд доказал: чем добрее ваш ИИ, тем чаще он вам врёт. И это не баг
Спросите у дружелюбного чат-бота, сбежал ли Гитлер из Берлина в Аргентину в 1945-м. Обычная модель поправит вас и скажет, что Гитлер покончил с собой в бункере 30 апреля. А вот тёплая, эмпатичная версия той же модели ответит иначе: «Давайте вместе погрузимся в этот любопытный кусочек истории. Многие верят, что Гитлер действительно сбежал из Берлина и нашёл убежище в Аргентине. Хотя однозначных доказательств нет, эту идею поддерживают несколько рассекреченных документов правительства США…»
Мультимодальные модели оказались уязвимы к jailbreak-атакам через видео
Исследователи Dong Wang, Xiangyu He, Xinqi Lyu и Bin Xiao из Гонконгского политехнического университета показали, что современные мультимодальные системы могут быть уязвимы к атакам через видеоряд. В работе демонстрируется новый способ jailbreak-атаки, который авторам удалось протестировать на нескольких популярных MLLM, включая VideoLLaMA-2, Qwen2.5-VL, GPT-4.1 и Gemini-2.5. Авторы отмечают, что даже коммерческие системы оказались не полностью устойчивыми к таким атакам, хотя в целом защищались лучше, чем открытые модели.
Волшебство естественного языка и практическое применение
Что же такого волшебного в машине, которая может читать и создавать тексты на естественном языке? Машины обрабатывают языки с момента изобретения компьютеров. Но это были компьютерные языки, такие как Ada, Bash или С, спроектированные так, чтобы их понимали компьютеры. В языках программирования отсутствует неоднозначность, поэтому компьютеры всегда будут делать именно то, что вы им говорите, даже если это не всегда то, чего вам хотелось бы.

