Машинное обучение. - страница 367

Что делает shuffle=True и как не сломать порядок

Привет, Хабр! Сегодня рассмотрим невинный на первый взгляд параметр shuffle=True в train_test_split.Под «перемешать» подразумевается применение псевдо-рандомного пермутационного алгоритма (обычно Fisher–Yates) к индексам выборки до того, как мы режем её на train/test. Цель — заставить train-и-test быть независимыми и одинаково распределёнными (i.i.d.). В scikit-learn эта логика зашита в параметр shuffle почти всех сплиттеров. В train_test_split он True по умолчанию, что прямо сказано в документации — «shuffle bool, default=True».train_test_split

продолжить чтение

Как я разрабатываю агентские ИИ системы для извлечения признаков (feature-extraction) из мультимодальных данных

Извлечение признаков (feature extraction) из текстов — ключевой шаг при анализе документов: он является основной практической частью таких задач по обработке данных, как классификация, тематическое моделирование, NER, QA. Если раньше почти что для каждой из таких задач, и в особенности для разных модальностей данных использовались специализированные архитектуры нейронных сетей, то сейчас подобные системы обычно строятся вокруг LLM/VLM. Однако и современные модели на практике настраиваются под конкретные задачи через fine‑tuning или distillation, в связке с retrieval (RAG) и агентскими архитектурами.

продолжить чтение

OpenAI в меморандуме просит сотрудников отклонить «смехотворные» предложения Meta* о переманивании

Главный научный сотрудник OpenAI Марк Чен разослал сотрудникам меморандум с просьбой отклонить предложения Meta* о трудоустройстве. Письмо из Slack компании попало в распоряжение Wired.

продолжить чтение

Baidu откроет исходный код генеративной ИИ-модели Ernie

Китайский технологический гигант Baidu заявил, что планирует открыть исходный код генеративной модели искусственного интеллекта Ernie. Ранее компания выступала против политики открытого кода.

продолжить чтение

Джейлбрейкаем чатботы: ChatGPT без фильтров

Майкл Скофилд знает, что иногда делать джейлбрейк моральноПривет!

продолжить чтение

Стартап Vermillio создаёт инструмент для поиска сгенерированных ИИ частей песен

продолжить чтение

Исследователи говорят, что, возможно, они нашли способ преодолеть «стену данных»

Исследователи из Массачусетского технологического института представили новую платформу под названием SEAL, которая позволяет большим языковым моделям (LLM) генерировать собственные синтетические обучающие данные и совершенствоваться без посторонней помощи.

продолжить чтение

Писатели призвали издательства ограничить использование ИИ

Открытое письмо с требованием к издательствам ограничить использование искусственного интеллекта подписали 80 писателей. В число подписантов вошли Лорен Грофф, Лев Гроссман, Деннис Лихейн, Р. Ф. Куанг, Холли Блэк, Джеффри Магуайр и ряд других писателей.

продолжить чтение

Исследование Pfizer о причинах трудностей больших языковых моделей при решении задач

Новый комментарий исследователей из Pfizer ставит под сомнение основные выводы исследования «Иллюзия мышления», соавторами которого являются учёные из Apple. В 

продолжить чтение

Руководство Reddit раздумывает о введении верификации через сканирование глазного яблока для защиты платформы от ботов

Reddit намерен строго контролировать публикацию контента на платформе. Как

продолжить чтение