ai.
Распределённый инференс и шардирование LLM. Часть 2: скрипт vLLM, Ray Serve для вывода API и настройка KubeRay Cluster
Продолжаем разбираться с тем, как можно эффективно работать с большими языковыми моделями, используя доступное оборудование.В этой части мы перейдём к организации распределённого инференса с помощью vLLM и обеспечим доступ к нему через Ray Serve. А ещё выясним, как запустить модель Gemma 3 в Ray-кластере и как проверить работу нашего OpenAI-совместимого эндпойнта с JWT-аутентификацией.
Sequoia AI Ascent 2025: агентная экономика, стохастическое мышление и эпоха ИИ-изобилия
На днях венчурный гигант Sequoia Capital провёл в Сан-Франциско свою ежегодную конференцию AI Ascent 2025, собрав десятки топовых исследователей, фаундеров и инвесторов со всего AI-мира.В отличие от конференций, где обсуждают фреймворки, пайплайны и RAG'и, здесь разговор шёл о будущем, философии и грядущей агентной экономике, которую, по мнению Sequoia, мы вот-вот увидим. По их прогнозам, рынок AI-агентов может оказаться больше облака... в 10 раз.Среди спикеров - настоящие титаны индустрии: Сэм Альтман (OpenAI), Дженсен Хуанг (Nvidia), Джефф Дин (Google), Брет Тейлор (Sierra), Майк Кригер (Anthropic) и другие.
Переходим от legacy к построению Feature Store
Невероятная история о том, как внедрить систему Feature Store в проект с огромным legacy и получить профит.Привет, Хабр! Меня зовут Евгений Дащенко, я из компании Домклик, которая решает все вопросы, связанные с недвижимостью, включая оценку стоимости недвижимости любого типа. Это статья по мотивам моего доклада на конференции Highload++ про интерфейс между данными и ML-моделями Feature Store: как мы сделали его с нашей командой, каких результатов добились и с какими подводными камнями столкнулись на пути.
Использование графов знаний при разработке RAG-систем
1 ВведениеПривет, Habr! На связи Александр Сулейкин, Роман Бабенко и Даниил Бутнев. Подготовили совместную статью по теме использования графов знаний при разработке RAG-систем. В рамках статьи рассказываем про основные проблемы традиционных RAG-систем, даем обзор основных открытых проектов графов знаний GraphRAG, показываем и даем краткое описание архитектуры таких систем, а также рассказываем про практическое использование графов знаний на примере трех областей - медицины, метрологии и стандартизации.
Топ-5 бесплатных нейросетей для анимации картинок
Изображение сгенерировано в GPT Image
Стартапы, рожденные в эпоху ИИ, гордятся минимальной численностью сотрудников
Все больше «AI-native» стартапов — компаний, изначально построивших продукт и команду на искусственном интеллекте — достигают гораздо больших результатов, гораздо меньшим количеством сотрудников.В стартапе Lex
Google выкатил AI-поиск. Как им воспользоваться?
Этот туториал был написан сегодня утром, 12.05.2025. Если вы заметили, что туториал больше не работает, напишите об этом в комментариях, и мы его обновим.Что нужно сделать, чтобы включить Google AI Mode?Включить VPN до СШАБез этого работать не будет. Скажет, что неправильный регион.Да, в Европе тоже ничего не заработает. Там у них "их борьба" против ИИ, и зарубежным сервисам достаточно сложно выходить на их рынок. Вот скриншот из Нидерландов (настоящий, не прокси).
Распределённый инференс и шардирование LLM. Часть 1: настройка GPU, проброс в Proxmox и настройка Kubernetes
Привет, Хабр! Меня зовут Александр Подмосковный, я работаю в «Московском кредитном банке» и, как многие, увлёкся темой искусственного интеллекта. Когда модель DeepSeek R1 стала широко обсуждаться в сообществе, я заинтересовался, можно ли эффективно использовать её и другие крупные модели в домашних условиях, не прибегая к дорогостоящим облачным сервисам. Так как DevOps и инфраструктурой я увлекаюсь уже несколько лет, за это время у меня постепенно сформировалась домашняя лаборатория, на которой я и решил проверить эту идею.
GPT, DeepSeek и Qwen: идеальные unit-тесты в эхо-камере
Появление unit- и UI-тестов неизбежно в крупных мобильных приложениях: появляется новая функциональность, старая расширяется, изменяются существующие элементы. Для стабильной работы команда вынуждена внедрять автотесты, что требует инфраструктуры, инструментов, а также времени и внимания для их реализации.Размышляя над этим, пришла идея использовать LLM для автоматической генерации тестов. Это могло бы снизить нагрузку на разработчиков и минимизировать влияние автотестов на time to market новых фич. Меня зовут Марк, я iOS-разработчик Lamoda Tech. Ранее я рассказывал
Microsoft обнаружила, что агенты API стали быстрее, а агенты GUI — более гибкими
Исследователи Microsoft сравнили AI-агенты на основе API и GUI и пришли к выводу, что каждый подход имеет свои сильные стороны и что они могут хорошо работать вместе. Агенты API взаимодействуют с программным обеспечением через программируемые интерфейсы. Агенты GUI, напротив, имитируют то, как люди используют программное обеспечение, перемещаясь по меню и нажимая кнопки на экране.

