Как создать свой Perplexity: Архитектура AI для глубокого исследования на Next.js и OpenAI
AIFA DEEP RESEARCH⚠️ Предупреждение для разработчиковМногие программисты в ближайшие годы потеряют работу из-за ИИ. Но не те, кто научится его создавать.
Как я разрабатываю агентские ИИ системы для извлечения признаков (feature-extraction) из мультимодальных данных
Извлечение признаков (feature extraction) из текстов — ключевой шаг при анализе документов: он является основной практической частью таких задач по обработке данных, как классификация, тематическое моделирование, NER, QA. Если раньше почти что для каждой из таких задач, и в особенности для разных модальностей данных использовались специализированные архитектуры нейронных сетей, то сейчас подобные системы обычно строятся вокруг LLM/VLM. Однако и современные модели на практике настраиваются под конкретные задачи через fine‑tuning или distillation, в связке с retrieval (RAG) и агентскими архитектурами.
Speaker Recognition. Как искать человека по голосу
Приветствую, Хабр! В этой статье мы поговорим про задачу Speaker Recognition. О том, как работает такая система, как мы ее оцениваем. И хотя речь пойдет про распознавание человека по голосу, этот же концепт можно использовать и для других биометрических систем, в частности, распознавание лиц.Metric LearningВ основе такой системы лежит ML-модель (как правило, нейроночка), которая принимает на вход участок голоса и выдает вектор-признак голоса (feature vector или voice embedding). Причем участок голоса может быть как фиксированной длины, так и динамической. Это в большей степени зависит от архитектуры модели, а также от датасета.
Что думают инженеры OpenAI, Microsoft и AWS о будущем AI: честные ответы с AI Engineer World’s Fair 2025
Всем привет! Я провела три дня на AI Engineer World's Fair в Сан‑Франциско вместе с 3000 лучших AI‑инженеров мира, CTO компаний из Fortune 500 и основателями стартапов. Это третий год конференции, и она стала местом, где ведущие AI‑лаборатории, компании и инженерные команды показывают свои последние работы. Я поговорила с инженерами и руководителями из OpenAI, Microsoft, AWS, Pydantic и YC‑стартапов. Хочу поделиться их откровенными мнениями и ключевыми инсайтами, которые определяют, как мы будем строить AI‑системы в 2025 году и далее.
Жизнь после достижения AGI: тотальное счастье или закат цивилизации?
Представьте мир, где машины не просто следуют алгоритмам, а мыслят, обучаются и творят наравне с человеком, а возможно, и превосходят его. Это мир Общего Искусственного Интеллекта (AGI) – тот самый гипотетический рубеж, за которым ИИ достигнет когнитивных способностей, сопоставимых с человеческими. Мечта футурологов и ночной кошмар скептиков, AGI обещает революцию, сравнить которую по масштабу можно разве что с изобретением колеса или освоением огня. Но куда приведет нас этот тектонический сдвиг: к золотому веку всеобщего благоденствия или к закату человеческой цивилизации?Что говорят создатели ИИ?
Kandinsky 4.1 Image – новый генератор изображений от Сбера
В декабре прошлого года на конференции AI Journey наша команда представила диффузионную генеративную модель Kandinsky 4.0 Video (статья на habr
MCP: революция в мире искусственного интеллекта
Что такое MCP и почему это важно?Model Context Protocol — это не просто очередной технический стандарт. Это фундаментальное изменение парадигмы в разработке систем искусственного интеллекта. Если раньше языковые модели были подобны сверхразумным, но изолированным существам, то теперь они могут стать активными участниками цифровой экосистемы, взаимодействующими с окружающим миром в реальном времени.
ИИ учится управлять материей: будущее производства уже наступило
За последние десятилетия технологический прогресс изменил экономику и бизнес. Алгоритмы управляют логистикой, искусственный интеллект анализирует документы и генерирует код, а данные передаются через API — интерфейсы, позволяющие программам взаимодействовать друг с другом. Один из примеров — LLM API (Large Language Model API), который позволяет каждому из нас подключаться к большим языковым моделям, к примеру, ChatGPT и использовать их для создания текста, обработки информации и принятия решений.

