тесты.

DeepSeek V4: Обзор нейросети, бенчмарки и тесты

Нейросети не стоят на месте и постоянно развиваются. Так, 23 апреля мир увидел ChatGPT 5.5. Но лично я с большим нетерпением ждал именно DeepSeek V4. Сколько времени прошло с того момента, как появились первые слухи о будущем релизе от китайской компании? Предыдущая версия запомнилась мне хорошим показателем в повседневных задачах и, что немаловажно, полной бесплатностью. 

продолжить чтение

Код без автора

Открыл MR на ревью. 847 строк. Тесты зелёные. Линтер чистый. Покрытие 91%.Одобрил.Через два дня - баг на проде. Webhook от платёжки возвращал 500 на определённой комбинации параметров. Полез разбираться. Смотрю в код и понимаю: я не помню, почему тут именно такая логика. Открыл git blame. Коммит мой. Ну, формально мой - Claude написал, я замержил.Самое неприятное - я этот код одобрил не потому, что разобрался. А потому, что он выглядел нормально. Тесты прошли. Линтер не ругался. Я решил, что этого достаточно. Не было.211 миллионов строкGitClear проанализировали

продолжить чтение

Компании перешли от простого внедрения ИИ к оценке понимания этих инструментов сотрудниками

Согласно данным платформы бизнес-аналитики AlphaSense, за последние 90 дней руководители компаний как минимум 60 раз упоминали «первопроходцев в освоении ИИ» в ходе конференций, презентаций, выступлений и других подготовленных речей. Теперь некоторые из крупнейших американских компаний переходят от простого внедрения искусственного интеллекта к оценке того, насколько хорошо их сотрудники действительно понимают технологию.

продолжить чтение

Ваш IQ в жизни намного меньше чем в тесте

Средний IQ по миру ровно 100, но когда вы проходили тест у вас было 110-120 или больше. Получается, вы умнее чем средний человек на земле? Нет.В реальности у вас на 10-20 баллов меньше, вы как раз на уровне среднего человека.Почему средний человек 100 лет назад имел 80 IQ, но не проиграл бы нам по интеллекту?Почему тесты завышают результаты IQ, и влияют ли эти тесты на интеллект и успех в жизни

продолжить чтение

Embedder для ИТ-крестьянина

Я - Дмитрий Черняк, владелец компании, производящей цифровых консультантов "Нейроботник" и архитектор этого решения. Наиболее простой и ходовой вариант нашего продукта - консультант на сайте, с подключенной моделью и RAG-базами. Простые задачи ограничиваются одной базой, более сложные - несколькими, совмещающими семантический поиск с целевым - по ключевым словам и фразам, с многошаговым ответом. Для большинства задач в данной нише этого достаточно.Эта статья посвящена предновогоднему тесту эмбеддеров (табличка результатов прилагается).

продолжить чтение

Ваша работа — выпускать код, который доказанно работает

Во всех обсуждениях ценности ИИ-помощников в разработке ПО мне встречается одна печальная история: разработчик-джун, вооружившийся каким-нибудь LLM-инструментом, создаёт для своих коллег или мейнтейнеров опенсорс-проекта огромный нетестированный PR, ожидая, что всё остальное решится благодаря процессу код-ревью.Такое поведение грубо, оно заставляет других людей впустую тратить время и идёт вразрез с долгом разработчика ПО.Ваша задача — выпускать код, который доказанно работает.Мы, разработчики ПО, не просто производим код; сегодня даже можно сказать, что для этого предназначены LLM. Мы должны выпускать

продолжить чтение

Backboard установила мировой рекорд в тесте долговременной памяти для ИИ

продолжить чтение

Ant Group представила исследование об обучении триллионных reasoning-моделей

продолжить чтение

Автоматизация QA: разбираем рынок решений для тестирования. Часть 2. Позиционирование и ценовая политика

Привет, Хабр! В первой части обзора мы рассмотрели общую характеристику каждого решения, географическое распределение, исторический контекст, модели финансирования и организационную структуру компаний. Сегодня проанализируем ценовую политику продуктов и их подходы к позиционированию, а также увидим, как компании взаимодействуют с сообществом. Ценовая политикаРоссийские вендоры, как правило, предлагают прозрачные и структурированные тарифы с понятным разделением на базовые, командные и корпоративные планы — часто с опцией on-premise. 

продолжить чтение

Grok 4 — самая умная модель? Обзор новой нейросети от Илона Маска

В июле этого года Илон Маск и команда xAI выпустили Grok 4 — свою новую «самую умную модель в мире».

продолжить чтение

12