LLM на iPhone: от llama.cpp до Foundation Models
2026: год, когда on-device стал нормойВ 2025 году вместе с iOS 26 компания Apple представила разработчикам Apple Foundation Models. Теперь порог входа для on-device AI упал до нескольких строк, и далее в статье мы рассмотрим как он выглядит.
Как за один вечер разгрести 36 000 фотографий и почту с 2005 года, руками AI-агента и локальных моделей
Есть задачи, которые не делаются никогда. Не потому что сложные, а потому что объём убивает любое намерение на втором часу. У меня такой задачей был фотоархив: около 36 000 фото и видео, 222 ГБ, копившиеся 20 лет и размазанные вообще везде:часть в OneDrive, разложенная по годам;часть там же, но в свалках: дампы с телефонов, выгрузки из WhatsApp, папка буквально с названием «разобрать старые фото», которая ждала своего часа лет десять;часть уже в Apple Photos, с iPhone, сама по себе и никак не связанная с остальным архивом;
Anthropic, Fable 5, Claude Code и большой отбор игрушек
Самая сильная общедоступная модель Anthropic прожила четыре дня. У меня абонемент в кофейню живёт дольше.9 июня Anthropic выкатила Claude Fable 5, он же Mythos 5 в закрытом контуре. 12 июня доступ к обеим версиям сняли. А между этими датами уместилось столько, сколько иная модель не набирает за год жизни: скрытое ухудшение ответов для ИИ-исследователей, крик "Fable взломали и вытащили системный промпт" (пост Pliny в X, архив на GitHub
Microsoft анонсировала настольную рабочую станцию для разработчиков ИИ
На конференции Build 2026 Microsoft представила Surface RTX Spark Dev Box. Это новая настольная рабочая станция, работающая на базе Nvidia RTX Spark.
Калькулятор VRAM для локальных LLM: Какие модели ИИ запустятся у вас на компьютере?
Сравнил предсказания калькулятора с реальными запусками llama.cpp на RTX 4060 Ti, 3090 и Apple M2 Pro. Спойлер: где-то точно, где-то мимо на 30%Когда я начал ковыряться с локальными LLM полгода назад, главная боль была не в установке моделей, а в понимании, что вообще влезет в моё железо. Документация Hugging Face говорит «Llama 3.1 8B». Что это значит для моей видеокарты с 16 GB VRAM? А если я хочу 32k контекст? А с квантованием Q4_K_M? Цифры в README часто не учитывают KV cache, который при больших контекстах ест VRAM сильнее, чем сама модель.Несколько недель назад мне попался простой open-source калькулятор — whatmodelscanirun.ru (русскоязычный форк оригинального проекта
Google объяснила увеличение объёма занятой памяти на Android после обновлений системы
Google объяснила, почему объём памяти Android AICore иногда резко возрастает. Система позволяет запускать функции генеративного ИИ непосредственно на аппаратном обеспечении Android-смартфона или планшета.
Токенная разработка: почему я плачу $200 в месяц, а не $800 за устаревшее железо
Хуанг на GTC 2026 предложил платить инженерам токен-бюджеты вместо части зарплаты. Forbes написал: “output isn’t software, it’s tokens”. Anthropic посчитала: Claude Code обходится в $13 на разработчика в день, $150-250 в месяц.Я 4 месяца не обсуждаю, а считаю. И первое что посчитал: б/у RTX 3090 стоит $800-1000. За эти деньги я оплачиваю API и веду проекты: embedded firmware, криптография, backend, своя IDE. Карта за $800 дала бы одну модель среднего уровня и шум вентиляторов.Нет, я не нашёл волшебную модель. Я научился считать. И начал с того, во что верит большинство.
Как дообучать локальные LLM в 2026 году: практическое руководство
В 2026 году возможность дообучения локальных LLM стала реальной опцией для отдельных разработчиков и небольших команд. Это стало возможным благодаря снижению требований к видеопамяти (VRAM), развитию инструментов и расширению набора базовых моделей с открытыми лицензиями.

