Знакомьтесь, HIGGS — новый метод сжатия LLM от исследователей из Яндекса и ведущих научно-технологических вузов
Исследователи из Yandex Research, НИУ ВШЭ, MIT, KAUST и ISTA разработали новый метод HIGGS для сжатия больших языковых моделей. Его особенность — высокая производительность даже на слабых устройствах без существенной потери качества. Например, это первый метод квантизации, с помощью которого удалось сжать DeepSeek R1 размером 671 млрд параметров без значительного ухудшения модели.
RAG: борьба с низким качеством ответов в условиях экономии памяти на GPU
Привет, Хабр! Меня зовут Саприн Семён. Я занимаюсь анализом данных и машинным обучением в компании ПГК Диджитал. Сегодня мы начинаем серию статей, в которой я расскажу о том, как мы с командой разрабатывали ИИ-помощника, а также приведу практические кейсы по улучшению точности ответов с минимальными затратами памяти графических процессоров. Как вы уже могли догадаться, наш ИИ-помощник разработан на основе RAG (Retrieval-Augmented Generation) системы. Хотя принцип работы RAG многим уже знаком и не вызывает того самого «вау», я всё же кратко напомню, как эта система работает, почему она так популярна и почему её ответам можно доверять.
Disrupt по делу: как внедрять AI-продукты без розовых очков — опыт продакшена
Как не утонуть в инновациях: от стабильного AI-продакшена до смелых прорывов.
Зачем моему бизнесу нейросети: гайд для не-программистов
Как мне применить нейросети в своем бизнесе?Если ваша область деятельности напрямую не связана с разработкой, то этот вопрос легко может поставить вас в тупик. Действительно – из каждого утюга трубят про новые удивительные технологии и их достижения, а как их использовать, не ясно.На днях я общался с человеком, который огорченно рассказывал, что нейросеть (так он назвал ChatGPT) не справляется даже с самой простой задачей (найти в интернете все доступные стиралки и отсортировать их по техническим характеристикам из документации). Дескать для человека это было бы не сложно, так пусть робот этим занимается.
Всё про инференс на Sophon NPU (TPU)
Easter Egg is incomingВ этой статье мы поговорим про ML на базе плат Sophon. Наверное это один из производителей которые набрали больше всего популярнсти в AI последнее время.
Топ самых реалистичных генераторов изображений: сравниваем DALL·E 3, Midjourney, FLUX и Stable Diffusion
Искусственный интеллект уже умеет создавать изображения, которые сложно отличить от реальных фотографий. Но какой генератор работает лучше? Мы протестировали ведущие нейросети, сравнили их сильные и слабые стороны и разобрали, в каких сценариях их лучше использовать.
SmolAgents: или как заставить LLM работать на тебя за 30 минут
Кто такие эти ваши агенты?
Google запускает открытый протокол Agent2Agent: теперь ИИ-агенты смогут свободно общаться друг с другом
Сегодня, в рамках конференции Cloud Next,
Головоломка, кофе и охапка книг, или как я искал истоки термина «Deep Learning». Часть 2
Привет! Некоторое время назад я начал искать истоки термина «Deep Learning». Тогда я изучал только зарубежные источники и обещал вернуться позже с обзором советской и российской литературы. Что ж, откладывать это больше нельзя. Посмотрим, на кого будут ссылаться отечественные авторы в том, что касается истории развития глубокого обучения. Без долгого вступления — берем в руку пальцы Ctrl/Cmd+F и начинаем раскопки!

