llm. - страница 132

llm.

Новый тест HLE выявил слабые места AI: 90% задач остаются нерешенными

Международная исследовательская группа разработала новый бенчмарк, который выявляет текущие ограничения LLM. Даже самые продвинутые модели не справляются с 90 процентами задач — на данный момент.Тест под названием «Последний экзамен человечества» (HLE) включает 3000 вопросов по более чем 100 специализированным областям, 42 процента из которых посвящены математике. В его разработке приняли участие около 1000 экспертов из 500 учреждений в 50 странах.

продолжить чтение

AI в энтерпрайзе

Мнение.Основные проблемы в корпоративном IT это, как и прежде: инфраструктура, безопасность и работа с данными.AI и, так называемые, Агенты AI, в этой сфере, в ближайшие 2-3 года, мало что поменяют.В корпоративном секторе столько неэффективности и реакционности, что буст продуктивности, который принесет AI станет каплей в море.Миграция с Oracle на Postgresql или переезд с Lotus Domino, для большинства крупных не-IT компаний принесет больше пользы, чем внедрение AI, здесь и сейчас.Без современной инфраструктуры и стека данных, внедрение AI не отобьет OPEX и тем более CAPEX.

продолжить чтение

Как я программирую при помощи больших языковых моделей

От переводчика.Я решил предложить вам перевод этого объёмистого и довольно сложного текста, так как в течение последнего года немало слышал серьёзных успехах больших языковых моделей (БЯМ) в обработке программного кода - в куда большей степени, чем при коммуникации на естественном языке. Например, мой давний знакомый и собеседник Виктор Георгиевич Сиротин @visirokмного пишет в своей Telegram-группе "Материализация идей

продолжить чтение

Субъективный взгляд на перспективы Больших Языковых Моделей

Прошло около полугода после последней моей статьи о перспективах развития больших языковых моделей. Чтобы не утомлять долгим чтением, её краткое резюме:Критика современных больших языковых моделей (БЯМ): они статичны, неэффективны в вычислениях и обучении, что ведет индустрию к технологическому тупику. Главные проблемы связаны с экспоненциальным ростом вычислительных мощностей, дефицитом качественных данных и ограничениями архитектуры.Итак, можно подвести некоторые итоги, что же мы увидели за прошедшее время.

продолжить чтение

Один год вместе с LLM в кибербезопасности: как ИИ менял индустрию

В 2024 году большие языковые модели (LLM) кардинально изменили многие сферы, включая кибербезопасность. LLM научились не только помогать в поиске уязвимостей, но и предлагать их исправления. От симуляции атак и анализа уязвимостей до создания правил детектирования — LLM постепенно становятся незаменимым инструментом для разработчиков и специалистов по безопасной разработке.Меня зовут Денис Макрушин, и в Yandex Infrastructure в команде SourceCraft

продолжить чтение

Galileo предлагает инструменты для оценки работы AI-агентов

Galileo, стартап из Сан-Франциско, делает ставку на то, что будущее искусственного интеллекта зависит от доверия. Сегодня компания выпустила новый продукт Agentic Evaluations, чтобы решить растущую проблему в мире AI: обеспечить, чтобы всё более сложные системы, известные как AI-агенты, действительно работали по назначению.

продолжить чтение

Внедряем AI Code Assistant в разработку бесплатно и без вендорлока — Инструкция

В последнее время я много занимаюсь вопросами внедрения ИИ-ассистентов для написания кода на основе в процессы разработки ПО. По разным данным, code assistant'ы позволяют ускорить процесс написания кода до 25%, а это очень существенно. И в этой статье я хотел бы развеять мифы о том, что кодинг-ассистент и их внедрение это что-то далекое от реальности. Более того, это не всегда привязка к определенному вендору LLM или определенной среде разработки (IDE), а также я развею миф о том, что внедрение такого ассистента это очень дорого и для этого нужно очень много ресурсов. Ну что ж, поехали.Что такое Code Assistant и как с ними работать?

продолжить чтение

Размышляющая модель DeepSeek R1 уже доступна в Ollama

Первое поколение моделей рассуждений от Qwen DeepSeek R1 с производительностью, сопоставимой с OpenAI-o1 уже доступно к установке в Ollama.

продолжить чтение

Сравнение моделей ChatGPT o1 и DeepSeek-R1 на простом шифровании

Возникла как-то идея проверить, смогут ли языковые модели общаться между собой так, что люди их уже перестанут понимать. Помню, были исследования, когда их просили сжать текст и они сжимали его во что-то совершенно нечитаемое, но потом почти полноценно расшифровывали. Однако, пока остановился на более простом варианте.

продолжить чтение

LangChain vs LlamaIndex: проектируем RAG и разбираемся, что выбрать для вашего проекта

Сегодня it-сообщество предлагает большое количество любопытных инструментов для создания RAG-систем. Среди них особенно выделяются два фреймворка —  LangChain и LlamaIndex. Как понять, какой из них подходит лучше для вашего проекта? Давайте разбираться вместе!Меня зовут София, я сотрудница компании Raft, работаю на стыке backend и ML. Сегодня мы затронем сразу несколько вопросов. План таков:Обсудим, что такое RAG и зачем он нужен;Рассмотрим side-by-side, как написать простую реализацию чат-бота на основе RAG с помощью каждого из фреймворков (LangChain и LlamaIndex);

продолжить чтение

Rambler's Top100