llm. - страница 70

llm.

OpenAI изнутри: разработчик рассказывает об устройстве миллиардной ИИ-компании

Год в OpenAI - рассказ разработчика, недавно уволившегося из компании. В статье о культуре компании (снизу вверх, отсутствие планов и общение только в Slack), на чём держится их техстек (Azure, monorepo, Python) и как создавался Codex   агент кодирования OpenAI (8 инженеров  за 7 недель, релизы до 4 утра).  Много интересных подробностей и историй.   Я ушёл из OpenAI три недели назад, проработав там с мая 2024 года. Хочу поделиться впечатлениями, потому что вокруг OpenAI много шума и домыслов, но мало рассказов от тех, кто там реально работал.

продолжить чтение

Полноценное RAG-приложение на Go — безумие?

ПредисловиеПрежде всего хочу сказать, что я не являюсь никаким специалистом, даже джуновского лвла, просто безработный студент, пишущий на коленке свои пет-проекты. И код, и тем более архитектура далеки от идеала. Однако, я думаю, некоторые моменты, о которых я буду рассказывать далее в статье, могут быть интересны полноценным разработчикам как бэкенда, так и ИИ-агентов. RAG и Go

продолжить чтение

Как тестировать качество ответов RAG системы?

LLM могут принимать на вход все большее количество токенов, но большое количество переданных на вход токенов, включая промт, контекст и историю переписки, не равно качеству ответа.В идеале на вход LLM нужно передавать минимально достаточный набор данных для получения ожидаемого качественного ответа.Иными словами, если на вход LLM дан один конкретный вопрос, то есть шанс, близкий к 100%, что будет получен качественный ответ. И наоборот, чем больше данных (вопросов, контекста и прочего) на вход LLM вы даёте, тем больше вы понижаете качество ответа.

продолжить чтение

ИИ против русского налогового права, часть 2: тестируем топовые reasoning LLM на RuTaR

Этот пост для нашего тг-канала Pro AI написал мой коллега Александр Мигаль, специалист по компьютерной лингвистике и один из авторов RuTaR В прошлой статье мы рассказали о RuTaR — большом открытом датасете на русском языке, разработанном для оценки способностей LLM к рассуждению в сфере налогового права. Среди прочего мы тогда запустили серию тестов, чтобы выяснить, как сильные модели справляются с задачами, требующими логического вывода с использованием RAG или без него, в варианте “из коробки”.

продолжить чтение

Vibe Coding: Заглянем под капот Claude Code. Часть 2

В первой части пытался разобрать внутреннее устройство Claude Code: его архитектуру, инструменты и системные промпты. И удалось это сделать, запустив Claude Code с моделью от OpenAI, что дало доступ ко всем логам. В этой статье мы разберем какими средствами можно это сделать. Claude Code Router (CCR)Для того, чтобы запустить Claude Code с другими моделями, я использовал Claude Code Router - это прокси-сервер, который перехватывает запросы от Claude Code, преобразует и перенаправляет их к выбранным нами моделям. Как это возможно?

продолжить чтение

The future of AI: formal grammars

Human language is a mechanism that narrows the infinite variability of possible sounds and their combinations into a strict communication system.Phonemes limit the combinations of sounds. In Russian, for example, there are only 42 of them.Words constrain combinations of phonemes and map our world into a discrete set of concepts — this gives rise to semantics.Sentences, in turn, constrain combinations of words, forming structures for describing phenomena in the world we perceive.

продолжить чтение

Почему LLM снизили стоимость кода, но не ускорили разработку

Всем привет! Меня зовут Александр, я COO в SaaS-платформе аналитики данных. Делюсь полезными материалами, которые считаю стоят внимания. В основном про AI, изменение процессов, тренды и продуктовое видение.У себя в телеграм-канале делюсь сжатыми и структурированными саммери статей.Сегодняшний перевод статьи разработчика, в которой хорошо подмечены проблемы применения LLM в разработке.На протяжении многих лет я чувствовал, что написание строк кода никогда не было узким местом в разработке программного обеспечения.

продолжить чтение

Как я устал тестировать LLM-системы вручную и написал универсальный сканер уязвимостей

ПредысторияПолгода назад я работал над внедрением RAG-системы в крупной финансовой компании. Задача была типичная: построить корпоративного чат-бота, который мог бы отвечать на вопросы сотрудников по внутренним документам. Казалось бы, что может пойти не так? Берем готовую LLM, подключаем к базе знаний, добавляем немного магии с векторным поиском — и готово.Но когда я начал тестировать систему перед продакшеном, обнаружил, что наш "умный" ассистент превращается в болтливого предателя при правильно сформулированных вопросах.

продолжить чтение

AFlow: как создавать мультиагентные системы без программиста

Привет, Хабр!Меня зовут Ярослав, я магистрант AI Talent Hub в ИТМО. Сегодня расскажу об одной из самых интересных статей ICLR 2025 — AFlow: Automating Agentic Workflow Generation.В ней предложен подход к автоматическому созданию мультиагентных систем для решения прикладных задач с помощью LLM и алгоритма Monte Carlo Tree Search (MCTS). Разберемся, как это работает и почему это важно.Мультиагентные системы – что это? 

продолжить чтение

Пособие по промпт-инжинирингу для программистов

продолжить чтение

Rambler's Top100