RL (RLM): Разбираемся вместе
Всем привет! Недавно я познакомился с курсом по глубокому обучению с подкреплением от HuggingFace Deep Reinforcement Learning Course и захотел сделать выжимку самого интересного. Эта статья — своего рода шпаргалка по основам Reinforcement Learning (RL) и одному из ключевых алгоритмов — PPO, который лежит в основе тонкой настройки современных LLM (Large Language Models).Вы наверняка слышали про такие модели, как o1 от OpenAI или QwQ от Alibaba. Их "рассуждающие" способности во многом — результат применения RL. Давайте разберемся, как обычный принцип обучения, известный по играм вроде AlphaGo, помогает языковым моделям стать умнее.
По исследованию разработчиков «Антиплагиата», 24% студенческих работ в России за 2025 год имеют следы использования ИИ
Компания «Антиплагиат» провела исследования, по которым оказалось, что доля студенческих работ с признаками использования генеративного искусственного интеллекта в 2025 году достигла 24%. Это в четыре раза больше, чем в 2023 году. Исследование основано на данных системы «Антиплагиат» за период с 1 января по 30 сентября 2025 года. В исследованиях использовалась информация от алгоритмов системы, фиксировавших следы генеративных инструментов ИИ, заимствований и плагиата с использованием статистических моделей.
«Какой ещё “агентный ИИ”, если он одну инструкцию толком выполнить не может?»
На форуме Cursor развернулась жаркая дискуссия: пользователи массово жалуются, что «агентные» ИИ — это пока больше маркетинг, чем магия. Один из участников, устав править за GPT-5 и Gemini Pro, выдал крик души: Какой агент, если модель не может даже обновить одну Go-функцию без ошибок?!
Когнитивный аутсорсинг: как технологии отучают нас думать
Представьте пилота, который летает исключительно на автопилоте. Но однажды, в сильную турбулентность, автопилот отключается. Сможет ли он посадить самолет вручную?Мы с вами - пассажиры такого лайнера и наши будущие пилоты только что провалили экзаменНедавно Министерство образования США опубликовало данные, которые могли бы вызвать панику, но утонули в потоке новостей. Результаты тестов NAEP показали: оценки старшеклассников по математике и чтению рухнули до самого низкого уровня за всю историю наблюдений.
Как я переделал свой мини-ПК и зачем мне это было нужно
Здравствуйте, дорогие друзья! Купил я тут себе компутер. Выбирал, как водится, долго и мучительно — хотел мини-ПК, потому что давно проникся этим форм-фактором: компактный, экономичный, да и по цене приятнее, чем здоровенные системники.В момент выбора, конечно, руководствовался главным критерием — ценой. Мой взгляд пал на чудо инженерной мысли шэньжэньского производства — Gmtec mini pc K-6. За свои деньги он предлагает вполне бодрые характеристики, особенно если руки не из коробки, а из плеч.
Снять клип по старинке или с помощью ИИ? На примере русского альт-готик-рока
Как фанату экстремального вокала мне повезло работать с рок-исполнительницей, которая ещё и поёт на языке рока – английском. За последние месяцы у Anne Clainoire вышло два клипа: видео, полностью созданное ИИ, и видео со сложной съёмкой в нескольких студиях, в том числе на подводной локации. Их мы и будем сравнивать. «You are enough
Ингосстрах на AiConf 2025
Всем привет!Сегодня, 26 сентября, ребята из Центра развития искусственного интеллекта приглашают вас посетить стенд Ингосстраха на AiConf 2025 - прикладной конференции по Data Science. Ищите наш стенд на AiConf 2025
Вышел ClockBench — визуальный бенчмарк для оценки умения моделей пользоваться аналоговыми часами
Исследователи выпустили визуальный бенчмарк ClockBench, который оценивает навыки моделей машинного обучения пользоваться аналоговыми часами. Лучше всего с задачей справляется Gemini 2.5 Pro. Модель правильно отвечает на 13,3% вопросов.
Finetuning без греха: как кастомизировать AI и не сломать его
Создание кастомной AI-модели для бизнеса кажется простой: скачал базовую модель, загрузил данные — и вот уже готовый AI-юрист или диагност. Но на практике компания часто получает беспомощного «Франкенштейна», который генерирует полную ахинею. Итог — месяцы работы впустую и выброшенный бюджет. В чем же ошибка? Finetuning — это не волшебная палочка для мгновенного результата, а точный хирургический инструмент. Его неверное применение не улучшает модель, а буквально калечит ее.С вами вновь Александр Константинов — технический эксперт из Cloud.ru

