Новые TPU восьмого поколения от Google. Обучение и инференс теперь отдельно?
На конференции Google Cloud Next были представлены
Средние модели, большие надежды: испытываем гибридные LLM
Привет, я Дмитрий, занимаюсь развитием LLMaaS. Перед нашей командой встала задача подбора «средней» языковой модели с примерно 9B параметров для обслуживания клиентских задач: оперативные чат-боты, саммаризация документов, генерация кода и аналитика на длинных контекстах. В таких сценариях критичны не только качество ответов, но и скорость, и стоимость инференса — ведь модель должна работать на одном GPU и при этом выдерживать заданный поток запросов.
СМИ: производитель видеокарт Galax прекратит деятельность — бренд опроверг это
Производитель видеокарт Galax прекратит свою деятельность по всему миру. Palit Microsystems возьмёт на себя полный контроль над брендом, сообщил портал Wccftech. Galax и Palit опровергли сообщение о прекращении деятельности, заявив, что оно бездоказательно.
Железо & игры: собираем игровой ПК в условиях дефицита памяти
В ЛАНИТ киберспорт – это полноценная часть корпоративной культуры: наши коллеги регулярно выступают на турнирах и знают толк в хорошем железе. Однако следить за ситуацией с компонентами сейчас непросто, поскольку она постоянно меняется. К примеру, в последнее время рынок оперативной памяти начал разрушаться из-за бума искусственного интеллекта: DDR5 32 ГБ по огромной цене, 70% мирового производства DRAM уходит дата-центрам, а прогнозы нормализации отодвигаются к 2028 году. Стало ясно, что надо искать решения прямо сейчас. В этом материале расскажем, как собрать игровой персональный компьютер мечты в эпоху дефицита железа.
Google представила чипы TPU восьмого поколения
На конференции Cloud Next ‘26 компания Google представила разработанные в сотрудничестве с Google DeepMind энергоэффективные чипы TPU восьмого поколения для обучения ИИ и ИИ-инференса.
Экономика LLM-инференса: почему ваш финдир должен знать разницу между Prefill и Decode
В 2025 году рынок корпоративного ИИ-инференса составил ~100 миллиардов долларов. Но парадокс в том, что успех автоматизации бизнес-процессов с помощью LLM зависит не только от выбора модели, а от глубокого понимания двух принципиально разных этапов работы нейросети: Prefill и Decode. Игнорирование их различий — самая дорогая ошибка в AI-инфраструктуре, которая может исказить реальную стоимость запроса в 10-50 раз.Два подхода для обработки одного запроса
В 2024 году американец спас от утилизации 72 списанных модуля ОЗУ, теперь они оцениваются примерно в $20 тысяч
В 2024 году сотрудник американской компании спас от утилизации 72 модуля оперативной памяти, списанных в рамках обновления серверной инфраструктуры. Компания планировала превратить эти планки в электронные отходы, но ОЗУ забрал отец пользователя Reddit. Сегодня общая стоимость этих 72 модулей превышает $20 тыс.
Оперативка в 2026 году подорожает еще больше. Сейчас – еще дёшево
Мир сошел с ума, если посмотреть на цену оперативки.
Сборка дешевого домашнего вычислительного кластера на двух процессорах и 6 «почти» RTX3080
Я инженер, и у меня есть эдакий фетиш - все, что важно, должно находиться под моим контролем. Локально, в железе, которое можно измерить осциллографом, нагрузить до упора и при необходимости перепаять. Когда ты привык работать со схемами, сигналами и источниками питания, становится странно отдавать вычисления куда-то наружу и надеяться, что там “все нормально работает”.

