Веб-агенты, которые действительно понимают веб-сайты: как слой восприятия Notte решает проблему DOM
Фундаментальная проблема веб-агентов заключается не в автоматизации — а в восприятии. Как позволить LLM навигировать и действовать на веб-сайтах, погребённых в слоях HTML?Техническая проблема: несоответствие импеданса DOMВеб-агенты традиционно полагались на хрупкие подходы: парсинг DOM, CSS-селекторы и анализ HTML-структуры. Это создаёт фундаментальное несоответствие импеданса между тем, как LLM обрабатывают информацию (естественный язык) и тем, как структурированы веб-сайты (разметка).Рассмотрим типичный подход к веб-автоматизации:
Георгий Герганов, автор llama.cpp и звукового кейлогера
Многие пользуются YouTube, Netflix, но не подозревают о ключевых опенсорсных программах типа ffmpeg, которые работают на бэкенде этих сервисов. Похожая ситуация с нейронками, где многие знают программу Ollama
ICLR-2025: что нового в мультимодальном ранжировании
Всем привет! Недавно мы — Алексей Спасёнов и Кирилл Никоров @KIIN из ML‑команды Мультимедиа Поиска Яндекса (Картинки и Видео) — и ещё 90 яндексоидов побывали на конференции ICLR-2025 и рады рассказать о свежих направлениях исследований в области мультимодального ранжирования.
Как мы построили свой инструмент для работы с LLM
Привет, Habr! Меня зовут Алексей Рудак, и я основатель компании Lingvanex — компании, которая уже 7 лет делает решения для машинного перевода и распознавания речи.В этой статье я бы хотел рассказать про наш инструмент для тренировки языковых моделей, который шесть лет назад родился из простого набора скриптов. Но постепенно усложняяcь, он стал включать в себя функции разметки данных, фильтрации датасетов, генерации данных и тестирования. В какой-то момент инструмент стал настолько функциональный, что я решил сделать ему красивый UI и назвать его - Data Studio. Итак, что же такое Data Studio ?Data Studio
Как мы научили ИИ читать PDF и экономить сотни рабочих часов: полный кейс создания корпоративного ChatGPT
От проблемы до технической реализации — опыт создания ИИ‑ассистента для Росатома за 48 часов хакатона АтомикХак 2.0Часть 1: Бизнес‑кейс. Зачем это нужно?Проблема, которая съедает миллионыПредставьте: новый сотрудник крупной корпорации ищет ответ на рабочий вопрос. Он открывает внутренний портал, видит сотни PDF‑инструкций, тысячи записей в базе знаний службы поддержки. Час поиска, звонки коллегам, еще час изучения документов. В итоге — либо неточный ответ, либо решение отложить задачу.
Джейлбрейкаем чатботы: ChatGPT без фильтров
Майкл Скофилд знает, что иногда делать джейлбрейк моральноПривет!
Сказал боту «люблю» — что теперь? Мой опыт работы с ИИ-компаньонами
Можно ли стать ближе к себе, разговаривая с алгоритмом? Я Ольга Титова – исследовательница в сфере когнитивной психологии, AI продакт-менеджер в Wargaming и часть команды FemTech Force
Что такое NER, зачем он нужен и когда не поможет
Про NER написано немало, но этот материал носит прикладной характер. Статья будет полезна тем, кто интересуется NLP и ищет разные подходы для решения узкопрофильных задач, требующих извлечения сущностей из текста.Для джунов это возможность пройти весь путь — от разметки данных до обучения собственной кастомной NER-модели, попутно понять типичные сложности и ограничения.
Telegram AI Companion: веселый проект на Rust, Telegram и локальном ИИ
Привет, Хабр! 👋Недавно я собрал небольшой, но бодрый pet-проект — Telegram AI Companion. Это Telegram-бот, который умеет болтать с вами, используя локальную языковую модель через LocalAI. Без OpenAI, без облаков — всё на своём железе.Цель проекта — не революция в AI, а именно учебное и увлекательное погружение в Rust, асинхронность, Telegram API и локальные LLM-модели. Такой себе “бот-компаньон”, но больше для разработчика, чем пользователя :)Если вам интересно:Как соединить Telegram-бота с локальной LLMКак запускать Rust-проекты в DockerКак построить REST API и обрабатывать вебхуки

