Машинное обучение.

Что делает shuffle=True и как не сломать порядок

Привет, Хабр! Сегодня рассмотрим невинный на первый взгляд параметр shuffle=True в train_test_split.Под «перемешать» подразумевается применение псевдо-рандомного пермутационного алгоритма (обычно Fisher–Yates) к индексам выборки до того, как мы режем её на train/test. Цель — заставить train-и-test быть независимыми и одинаково распределёнными (i.i.d.). В scikit-learn эта логика зашита в параметр shuffle почти всех сплиттеров. В train_test_split он True по умолчанию, что прямо сказано в документации — «shuffle bool, default=True».train_test_split

продолжить чтение

Оставлено в

Как я разрабатываю агентские ИИ системы для извлечения признаков (feature-extraction) из мультимодальных данных

Извлечение признаков (feature extraction) из текстов — ключевой шаг при анализе документов: он является основной практической частью таких задач по обработке данных, как классификация, тематическое моделирование, NER, QA. Если раньше почти что для каждой из таких задач, и в особенности для разных модальностей данных использовались специализированные архитектуры нейронных сетей, то сейчас подобные системы обычно строятся вокруг LLM/VLM. Однако и современные модели на практике настраиваются под конкретные задачи через fine‑tuning или distillation, в связке с retrieval (RAG) и агентскими архитектурами.

продолжить чтение

Оставлено в

OpenAI в меморандуме просит сотрудников отклонить «смехотворные» предложения Meta* о переманивании

Главный научный сотрудник OpenAI Марк Чен разослал сотрудникам меморандум с просьбой отклонить предложения Meta* о трудоустройстве. Письмо из Slack компании попало в распоряжение Wired.

продолжить чтение

Оставлено в

Baidu откроет исходный код генеративной ИИ-модели Ernie

Китайский технологический гигант Baidu заявил, что планирует открыть исходный код генеративной модели искусственного интеллекта Ernie. Ранее компания выступала против политики открытого кода.

продолжить чтение

Оставлено в

Джейлбрейкаем чатботы: ChatGPT без фильтров

Майкл Скофилд знает, что иногда делать джейлбрейк моральноПривет!

продолжить чтение

Оставлено в

Стартап Vermillio создаёт инструмент для поиска сгенерированных ИИ частей песен

продолжить чтение

Оставлено в

Исследователи говорят, что, возможно, они нашли способ преодолеть «стену данных»

Исследователи из Массачусетского технологического института представили новую платформу под названием SEAL, которая позволяет большим языковым моделям (LLM) генерировать собственные синтетические обучающие данные и совершенствоваться без посторонней помощи.

продолжить чтение

Оставлено в

Писатели призвали издательства ограничить использование ИИ

Открытое письмо с требованием к издательствам ограничить использование искусственного интеллекта подписали 80 писателей. В число подписантов вошли Лорен Грофф, Лев Гроссман, Деннис Лихейн, Р. Ф. Куанг, Холли Блэк, Джеффри Магуайр и ряд других писателей.

продолжить чтение

Оставлено в

Исследование Pfizer о причинах трудностей больших языковых моделей при решении задач

Новый комментарий исследователей из Pfizer ставит под сомнение основные выводы исследования «Иллюзия мышления», соавторами которого являются учёные из Apple. В

продолжить чтение

Оставлено в

Руководство Reddit раздумывает о введении верификации через сканирование глазного яблока для защиты платформы от ботов

Reddit намерен строго контролировать публикацию контента на платформе. Как

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

Машинное обучение.

Что делает shuffle=True и как не сломать порядок

Как я разрабатываю агентские ИИ системы для извлечения признаков (feature-extraction) из мультимодальных данных

OpenAI в меморандуме просит сотрудников отклонить «смехотворные» предложения Meta* о переманивании

Baidu откроет исходный код генеративной ИИ-модели Ernie

Джейлбрейкаем чатботы: ChatGPT без фильтров

Стартап Vermillio создаёт инструмент для поиска сгенерированных ИИ частей песен

Исследователи говорят, что, возможно, они нашли способ преодолеть «стену данных»

Писатели призвали издательства ограничить использование ИИ

Исследование Pfizer о причинах трудностей больших языковых моделей при решении задач

Руководство Reddit раздумывает о введении верификации через сканирование глазного яблока для защиты платформы от ботов

Меню навигации

Рекомендуем

Главное

Рубрики

Методики

Информация

Из архивов

Машинное обучение.