Не только трансформеры: за пределами стандартных архитектур LLM
Привет! Это перевод очень крутой и захватывающей статьи, в которой автор рассматривает альтернативные архитектуры LLM: гибриды с линейным вниманием, диффузионные LLM, модели мира и малые рекурсивные трансформеры. Дальше слово автору:Гибриды с линейным вниманием, текстовая диффузия, модели мира на основе кода и малые рекурсивные трансформеры.От DeepSeek R1 до MiniMax-M2, самые большие и способные LLM с открытыми весами сегодня остаются авторегрессивными (autoregressive) трансформерами декодерного типа, которые построены на различных вариациях оригинального механизма многоголового внимания (multi-head attention).
Дайджест препринтов научных статей в области астрофизики за октябрь 2025 года
Подборка свежих научных публикаций в области астрофизики от профессора МГУ Сергея Попова. Основано на выборке интересных научных статей из библиотеки препринтов arxiv.org. Публикуется с согласия автора оригинала и с обязательным указанием ссылок на первоисточники.Заранее прошу прощения, что публикуется в смежных Хабах. Какой-то баг или правило не дает выбрать Хаб «Читальный зал», при создании статьи. Приятного чтения.Выпуск 449arxiv:2510.00102
Как я запустил локальную LLM на Raspberry Pi 5
Последние пару лет я много экспериментировал с LLM на разных железках от GPU-кластеров в облаке до маленьких Raspberry Pi. И вот одна из любимых задачек-провокаций: «А можно ли запустить модель на Pi 4, 5?» Если коротко: можно попробовать, но физика тут сильнее хайпа. У платы есть 8-16 ГБ памяти, у модели десятки гигабайт даже в самых «жестких» квантовках. В лоб это не работает, но зато эксперимент дает интересный результат: мы понимаем, где проходят границы устройства и какие архитектурные схемы реально полезны.
Хайп vs реальность: что tech-медиа пишут об ИИ и кто реально лучший в 2025?
За последний месяц я детально отслеживал каждую статью об искусственном интеллекте в ведущих западных tech-изданиях. 200 статей из TechCrunch, VentureBeat и MIT Technology Review за 26 дней — в среднем почти 8 новостей об ИИ каждый день. Цель эксперимента была проста: понять, совпадает ли то, о чём громче всего кричат медиа, с реальными возможностями ИИ-моделей.Спойлер: не совпадает. И разрыв между медийным шумом и реальностью оказался весьма значительным.Методология исследования Я мониторил три ключевых источника tech-новостей:TechCrunch — крупнейшее издание о стартапах и технологиях VentureBeat
«Умные» повязки и стволовые клетки. Актуальные возможности регенеративной медицины
От серебряных нановолокон до интеллектуальных повязок с обратной сенсорно-активной связью. Следующее поколение регенеративных технологий и заживления ран стирает грань между биологией и инженерией. В этом материале разберем существующие рабочие прототипы и направления развития регенеративной медицины.
В РФ создаётся новый кибербез‑консорциум для предотвращения фишинга и кибератак
В России появится консорциум компаний, обменивающихся информацией о новых мошеннических схемах в сфере информационной безопасности для предотвращения фишинга и кибератак. В первую очередь обмен будет о схемах с использованием социальной инженерии и искусственного интеллекта. Об этом изданию «Ведомости» рассказал
Эксперт по ИБ из Cybernews выяснил, что советы от ChatGPT, Claude и Gemini подвергают угрозам безопасность домашней сети
Эксперт по ИБ из Cybernews рассказал
Синдром самозванца? Вернитесь к тому моменту в карьере, когда вы потеряли себя
10 лет назад большинство из нас не знали, что это за зверь такой. А сейчас мы на пике чего-то вроде эпидемии «самозванца», когда этот термин используется для обозначения самых разных оттенков неуверенности в себе как в профессионале. В большинстве случаев ее можно свести к трем причинам:неуверенность при освоении новой сферы/должности;неспособность присвоить себе объективно существующие достижения;потеря почвы под ногами в результате бизнес-травмы.Как не спутать синдром самозванца и волнение новичка?
Как мы адаптировали LLM для русского языка
История про токенизацию, научные статьи и production realityКак мы потратили 2 месяца на адаптацию Qwen3-0.6B для русского языка. Написали систему с нуля на основе 8 научных статей из arXiv. Исправили 6 критических багов (от NaN в fp16 до архитектурных проблем). Получили +35% training speed и +60% inference speed. В этой статье - честный рассказ о том, что не работает из коробки, какие грабли ждут в production, и как мы их обошли.Мы - это я и мой друг =)Как всё началосьАвгуст 2025. Мы работаем над MAWO - системой fine-tuning для русскоязычных LLM. У нас есть модель Qwen3-0.6B. Почему именно 0.6B, а не 8B или 70B?
AI-драгдизайн: первая молекула прошла Фазу II
Всем привет! Меня зовут Андрей, я занимаюсь аналитикой данных в фармацевтической отрасли, сегодня мы разбираем, как GNN, AlphaFold 3 и $2.23 млрд на провал меняют фармакологиюЗа кулисами невероятных прорывов в биомедицине — от мРНК-вакцин до редактирования генома CRISPR — скрывается фундаментально неэффективный, сломанный процесс: R&D (Research & Development) новых лекарств. Это явление известно как «Долина Смерти»: пропасть между лабораторным открытием и появлением препарата в аптеке.Но это не просто «долина»; это кризис, который усугубляется в реальном времени. Статистика, которую вы могли знать, уже устарела.Кризис в цифрах
