llm. - страница 25

llm.

«Героиня прикована к полу, но спускается по лестнице»: разбираем логику ИИ-писателей

Леч Мазур добавил три модели в свой бенчмарк по оценке навыков написания коротких рассказов. Kimi K2.5 — 8,07 балла, Qwen3 Max — 7,84, MiniMax-M2.1 — 7,78. Результаты неплохие, но самое ценное в этом бенчмарке — не цифры, а разбор конкретных ошибок.Если вы используете ИИ для текстов, вот на что стоит обращать внимание при проверке.Физическая непрерывность. Героиня «прикована к полу кандалами», через абзац спускается по лестнице, а цепь «остаётся наверху». Модели хорошо держат локальный контекст, но теряют детали на длинной дистанции.

продолжить чтение

Подростковый период технологий

Амодеи второй справа.Это перевод эссе Дарио Амодеи «Подростковый период технологий»

продолжить чтение

Запретный плод уже сорван

Астрофизик Дэвид Киппинг попал на закрытую встречу в Институте перспективных исследований Принстона. Вернулся потрясённым и записал часовой подкаст. Я послушал его весь, чтобы вам не пришлось.

продолжить чтение

ИИ научили писать исследования длиннее его памяти

Главная проблема современных ИИ-агентов для исследований — контекстное окно. Модель может переварить условные 200К токенов, а серьёзное исследование требует прошерстить сотни страниц и написать отчёт на 10К+ слов. В какой-то момент агент просто упирается в потолок и начинает терять информацию.Исследователи из Китая предложили решение, которое кажется очевидным постфактум: а давайте дадим ИИ файловую систему как внешнюю память.Как это работает

продолжить чтение

Ошибка в $5 000 на TON из-за кода, написанного нейронкой

Привет, Хабр! Наконец таки статья о том как я облажался. Точнее — как облажалась команда, но ответственность все равно моя.TL;DR: Relayer для TON-проекта писался с помощью LLM. Без документации. Без тестов. Без понимания модели угроз. В результате — потеря ~$5 000 из пула ликвидности на STON.fi. Блокчейн не взломан, DEX работает как надо. Проблема была в нашей архитектуре.Это разбор конкретной ошибки, которая стоила реальных денег. И пояснение, почему скептики с Хабра всё равно не правы — но по другой причине, чем они думают.1. Что вообще за проект

продолжить чтение

«Мне плевать на этику»: элита физики сдалась ИИ

Астрофизик Дэвид Киппинг побывал на закрытой встрече в Институте перспективных исследований (в том самом, где работал Эйнштейн) и вынес оттуда занятное.Краткое содержание:Ведущий учёный института заявил, что ИИ делает 90% его работы. Зал — молча кивнул. По кодингу вердикт ещё занятнее: «полное превосходство машин».Тот же учёный отдал Claude и Cursor почту, календарь, файлы. На вопрос о приватности буквально сказал: «Мне всё равно». Треть зала призналась, что делает так же.Этика? Климат? Рабочие места? Упомянули и забыли. Дословно: «Преимущества слишком велики, чтобы думать об этом».Что напрягает:

продолжить чтение

Плагин Claude обвалил акции на миллиарды

Anthropic на прошлой неделе добавила в Claude Cowork плагины для ревью юридических документов и отслеживания стандартов. Анонс прошёл тихо, а вот рынок отреагировал громко.Падение во вторник: — LegalZoom: −18% — Thomson Reuters (Westlaw): −19% — RELX (LexisNexis): −15% — Wolters Kluwer: −13%Все четыре компании и так потеряли 20%+ с начала года — но после анонса Anthropic падение резко ускорилось.Claude уже считается топовым выбором для юридического анализа. Теперь у него появились специализированные инструменты — в связке с агентом, который может работать часами без человека.

продолжить чтение

AI заменит программистов через год. А пока — не может найти баг в конфиге nginx

На позапрошлой неделе Дарио Амодеи выступил на World Economic Forum и выдал заявление, от которого у многих дернулся глаз: через 6-12 месяцев AI будет делать всё, что делает software engineer. Не «помогать». Не «ускорять». Именно — всё.Я в беке с 2016 года. Начинал с PHP, потом Python, сейчас в основном бэкенд на разных стеках. За это время нашу профессию хоронили раз пятнадцать: low-code убьёт, no-code добьёт, аутсорс в Индию всех съест. Мы как тот мужик из анекдота про тёщу и два порванных баяна.

продолжить чтение

Почему AI-агенты такие медленные? Часть 1: Путь вайбкодера

Странный вопрос, не правда ли? У AI-агентов, конечно, есть разные проблемы, но вряд ли их можно обвинить в медлительности. Спросите, как говорится, любого, какие у него ощущения от AI, и первое, что вы услышите, будет что-то вроде: «AI за 3 часа сгенерировал мне 100 тысяч строк кода». Разве это можно назвать медлительностью?На этом месте можно было бы и разойтись: 100 тысяч за 3 часа. Покажите мне человека, который способен хотя бы в половину этого, — и «я съем свою шляпу». Но я по‑прежнему утверждаю, что AI-агенты слишком медленные. Не верите? Добро пожаловать под кат…Дисклеймер

продолжить чтение

Директор по робототехнике NVIDIA: языковые модели — тупик, будущее за «моделями мира»

Джим Фан, директор по робототехнике NVIDIA, заявил о смене парадигмы в ИИ. Предсказание следующего слова — прошлый век. Новая цель — предсказание физических состояний мира.Суть в том, что современные VLA-модели для роботов строятся поверх языковых моделей, но большинство их параметров хранят знания («это лого Coca-Cola»), а не физику («наклонишь бутылку — жидкость прольётся»). Это архитектурный тупик.Аргумент от обезьяны: приматы водят гольф-кары, понимая язык хуже BERT. Треть коры мозга обрабатывает зрение, язык — компактная надстройка. Зрение замыкает сенсомоторику напрямую, без слов.

продолжить чтение

Rambler's Top100