извлечение данных.

Список слов русского языка из Wiktionary и сравнение с pymorphy3 на примере Пушкина и Noize MC *

ОглавлениеВведениеПроцесс создания словаря Попытка 1. Создание словаря на основе названий статей ВикисловаряПопытка 2. Создание словаря на основе полного дампа содержимого русского ВикисловаряВыборочная проверка словОсобенности словаряСравнение с pymorphy3Проверка на текстах Пушкина и Noize MCВыводСсылка на GitHubДругие ссылки

продолжить чтение

Как из факапа родился продукт: история EasyDoc

Привет, Хабр! Меня зовут Вадим Петросян, я директор по развитию бизнеса в ITFB Group

продолжить чтение

Можно ли доверить важные документы open-source LLM: эксперимент Рег.облака и Raft

Привет, Хабр! На связи команды Рег.облака и Raft.

продолжить чтение

Как заработать на LLM, перестав писать «правильные промпты»

В этой статье я бросаю вызов общепринятому представлению о больших языковых моделях как о «тупых исполнителях», которые ничего не понимают, галлюционируют, но позволяют получить результат быстрее (нередко за счет качества). Подобные мифы активно распространяются в сети, а также на курсах, на которых обучают «правильно» писать промпты. Я на Хабре уже написал несколько статей, разоблачающих отсутствие мышления у LLM, но здесь я опишу способность больших языковых моделей решать задачи, людям недоступные

продолжить чтение

В агенте Deep Research ChatGPT нашли критическую уязвимость

Специалисты по кибербезопасности из компании Radware рассказали о критической уязвимости ShadowLeak в агенте глубокого исследования Deep Research в ChatGPT. Она позволяла злоумышленникам незаметно извлекать данные пользователей с серверов OpenAI без какого-либо взаимодействия с ними. 

продолжить чтение