Блог компании Kodik.

Выпущен бенчмарк FrontierCode для оценки ИИ-моделей по «качеству пулл-реквестов»

Компания Cognition выпустила новый бенчмарк FrontierCode

Оставлено в

Что SVG-пеликаны говорят о способностях ИИ-моделей?

Однажды Cаймон Уиллисон (создатель фреймворка Django) придумал проверять все новые LLM промптом «сгенерируй SVG пеликана на велосипеде». Поначалу этот тест казался просто шуткой, но в итоге его результаты довольно любопытные.Мы уже писали

продолжить чтение

Оставлено в

Запущен российский API-шлюз для LLM KodikRouter

Шлюзы позволяют обращаться ко многим LLM через единый API с единой оплатой. При их использовании в России можно столкнуться с региональными ограничениями, поэтому мы в Kodik создали шлюз KodikRouter

продолжить чтение

Оставлено в

ИИ-кодинг нетривиальной фичи в Ghostty

Примечание переводчика: на тему «ИИ в кодинге» есть много «хайповых» текстов, но мало технических. Вместо красивых общих слов хотелось бы видеть разборы реальных ситуаций. Такой пост есть у Митчелла Хашимото (создателя терминала Ghostty), и мы решили перевести его для Хабра. Он опубликован ещё осенью, поэтому что-то могло устареть, но главные выводы остаются актуальными. Далее повествование идёт от лица Митчелла.Недавно я выпустил нетривиальную функцию для Ghostty (ненавязчивые автоматические обновления для macOS), которую разработал в основном с помощью ИИ.

продолжить чтение

Оставлено в

Выпущен бенчмарк, проверяющий способность ИИ воссоздать FFmpeg

Новый бенчмарк ProgramBench использует нестандартный подход к измерению способностей LLM. В его случае модель получает бинарные файлы и документацию ряда приложений (в том числе FFmpeg), а затем должна с нуля создать приложения с аналогичной функциональностью. При этом условия сделаны намеренно жёсткими: например, моделям не дают доступ в интернет.Авторы ProgramBench обращают внимание

продолжить чтение

Оставлено в

Новую LLM talkie обучили на текстах до 1931 года

Трое ИИ-исследователей, включая Алека Редфорда (соавтора GPT 1.0), опубликовали новую языковую модель talkie с 13 миллиардами параметров. Она обучена исключительно на текстах, опубликованных до 1931 года, так что и знания о мире у неё заканчиваются этим годом, и в стилистике текста она отталкивается от старых источников. Пообщаться с ней можно на официальном сайте.Создатели модели отмечают, что она полезна в различных исследовательских целях:

продолжить чтение

Оставлено в

Дни «зеродеев» сочтены

Примечание: это перевод свежего поста из блога Mozilla о том, что дало использование ИИ для поиска уязвимостей в Firefox. Ранее на схожие темы уже высказывались мейнтейнеры Linux, но пост Mozilla интересен общим оптимистичным прогнозом для индустрии.

продолжить чтение

Оставлено в

Как бенчмаркать ИИ, и как это делаем мы?

Одна из сложностей с LLM: как понять, какая модель способнее? Их создатели наперебой кричат «мы совершили революцию», но как пробиться сквозь хайп и измерить, кто чего реально добился?

продолжить чтение

Оставлено в

Мейнтейнеры Linux: «ИИ стал находить много реальных уязвимостей»

О поиске уязвимостей с помощью LLM заговорили давно. Но когда это делают создатели самих LLM, бывает сложно разделить факты и рекламу. Вот сейчас в Anthropic заявили

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

Блог компании Kodik.

Выпущен бенчмарк FrontierCode для оценки ИИ-моделей по «качеству пулл-реквестов»

Что SVG-пеликаны говорят о способностях ИИ-моделей?

Запущен российский API-шлюз для LLM KodikRouter

ИИ-кодинг нетривиальной фичи в Ghostty

Выпущен бенчмарк, проверяющий способность ИИ воссоздать FFmpeg

Новую LLM talkie обучили на текстах до 1931 года

Дни «зеродеев» сочтены

Как бенчмаркать ИИ, и как это делаем мы?

Мейнтейнеры Linux: «ИИ стал находить много реальных уязвимостей»

Меню навигации

Рекомендуем

Главное

Рубрики

Методики

Информация

Из архивов

Блог компании Kodik.