Big Data.

Mem-векторы: как сохранить 1500 токенов в одном векторе и зачем это нужно

От сжатия текста к mem-векторам: новая веха в языковых моделяхКаждый, кто работал с большими языковыми моделями (LLM), знает про ограничение длины контекста: модель не может напрямую обработать текст, превышающий определённое число токенов. Это накладывает ограничения на работу с длинными документами и обширным контекстом. Но что если бы мы могли упаковать длинный текст в один-единственный вектор и скормить его модели как обычный токен? Звучит фантастично, однако свежие исследования показывают, что это возможно – такие “mem-векторы” позволяют сохранить сотни и даже полторы тысячи токенов

продолжить чтение

Оставлено в

Как из аналитики данных перейти в дата-сайентисты

Перевели и дополнили статью Марины Уисс, applied scientist (дата-сайентист со специализацией в прикладной статистике) в Twitch. Когда-то Марина перешла в IT из не связанной с технологиями сферы деятельности, а потом помогла с этим переходом многим людям без IT-бэкграунда.В этой статье она делится советами для дата-аналитиков, которым хотелось бы заниматься data science. А мы добавили мнение экспертов и рекомендации, актуальные для российских образовательных реалий.

продолжить чтение

Оставлено в

Как мы в PIX BI научились выжимать максимум из данных с помощью таблиц

Когда мы думаем о таблицах, сразу приходит на ум Excel — этот старший брат всех электронных таблиц, который, несмотря на свои достоинства, часто становится… Но — давайте не будем подсвечивать ничьи недостатки, а лучше поговорим о достоинствах! Таблицы смело можно назвать визуализацией данных еще со времен древних цивилизаций. Их использовали для учета всего — от ракушек на базаре до золотых статуй в храмах. Современные аналитики хорошо знают истинную ценность таблиц и доверяют им.

продолжить чтение

Оставлено в

Хочешь умного агента? Научись оценивать его правильно

В середине 2024 года AI-агенты стали главной темой обсуждений в технологическом сообществе — с помощью них теперь выполняют множество задач от заказа ингредиентов для ужина до бронирования билетов и записи на прием к врачу. Затем появились вертикальные AI-агенты — узкоспециализированные системы, о которых заговорили как о потенциальной замене привычных SaaS-решений. Но по мере роста влияния агентов увеличиваются и риски, связанные с их преждевременным внедрением.

продолжить чтение

Оставлено в

Дайджест ключевых ИT-новостей из атомной отрасли за прошедшие недели:

Новый релиз «Атом.Око», открытие Центра критической инфраструктуры, переход «ТОРЭКСа» на отечественную платформу «АКСИОМА». Привет, Хабр!Вы на канале, где мы, одни из представителей ИТ-сообщества Росатома, делимся обзором ключевых цифровых событий отрасли. Мы хотим, чтобы наши читатели были в курсе актуальных новостей атомной отрасли. Здесь — все об инновациях, системах и решениях, которые трансформируют производство, управление и безопасность.

продолжить чтение

Оставлено в

Эра Big Data: новые возможности в принятии решений

Что такое Big Data?Big Data - это огромные объёмы данных, которые невозможно обработать с помощью традиционных методов.Они могут быть структурированными (например, данные из баз данных) или неструктурированными (например, текстовые данные из социальных сетей).Большие данные представляют собой колоссальные массивы информации, генерируемые в процессе повседневной деятельности индивидов и организаций.Эти данные аккумулируются, подвергаются обработке и анализу с применением специализированных технологий и методологий, что позволяет извлекать из них ценные инсайты и прогнозировать будущие тенденции.

продолжить чтение

Оставлено в

Текстовая трансляция ArenaDAY 2025

(09:00) Хабр, привет! И добро пожаловать на прямую текстовую трансляцию конференции ArenaDAY 2025. Да, сегодня на официальном сайте идёт прямая видеотрансляция мероприятия

продолжить чтение

Оставлено в

Apache Spark Catalyst: секреты оптимизатора запросов, который должен знать каждый Data Engineer

продолжить чтение

Оставлено в

КОНФИДЕНЦИАЛЬНОСТЬ МЁРТВА: ЯНДЕКС И ВК ОБУЧАЮТ ИИ НА ВАШИХ ЛИЧНЫХ ДАННЫХ?

Счёт производства индусов идёт на секунды по мнению Алисы ПРОНедавно Яндекс "подарил" мне месячную подпись

продолжить чтение

Оставлено в

В Великобритании создают инструмент «предсказания убийств» для выявления будущих подозреваемых

Министерство юстиции Великобритании заявило, что оно разрабатывает алгоритм «предсказания убийств», чтобы выявлять людей, которые уже нарушали закон и могут в будущем решиться на убийство.

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

Big Data.

Mem-векторы: как сохранить 1500 токенов в одном векторе и зачем это нужно

Как из аналитики данных перейти в дата-сайентисты

Как мы в PIX BI научились выжимать максимум из данных с помощью таблиц

Хочешь умного агента? Научись оценивать его правильно

Дайджест ключевых ИT-новостей из атомной отрасли за прошедшие недели:

Эра Big Data: новые возможности в принятии решений

Текстовая трансляция ArenaDAY 2025

Apache Spark Catalyst: секреты оптимизатора запросов, который должен знать каждый Data Engineer

КОНФИДЕНЦИАЛЬНОСТЬ МЁРТВА: ЯНДЕКС И ВК ОБУЧАЮТ ИИ НА ВАШИХ ЛИЧНЫХ ДАННЫХ?

В Великобритании создают инструмент «предсказания убийств» для выявления будущих подозреваемых

Меню навигации

Рекомендуем

Главное

Рубрики

Методики

Информация

Из архивов

Big Data.