eda.

Три фикса, четыре ошибки, один файл

Как мы четыре раза неправильно диагностировали зависание на джобе 281 339Несколько месяцев назад я писал, как мы четыре раза неправильно чинили мерцание при рендеринге 4,4 миллиона полигонов. Тогда казалось, что это рекорд: месяц блужданий, четыре отброшенных подхода, решение на неделю. Эта история хуже. Баг пережил четыре диагноза подряд, два из которых мы успели «подтвердить числами», получил по дороге три работающих фикса от несуществующих причин — и в итоге оказался файлом, который лежал на рабочем столе.

продолжить чтение

Оставлено в

Как мы четыре раза неправильно диагностировали зависание на джобе

продолжить чтение

Оставлено в

Как мы четыре раза неправильно чинили мерцание при рендеринге 4,4 миллиона полигонов на wgpu

Уже год мы небольшой командой пишем на Rust + wgpu редактор топологий интегральных схем — что-то вроде KLayout, только с прицелом на российский рынок. Команда — три человека. Я в роли CTO направляю архитектуру и принимаю основные технические решения. История ниже — про одну такую серию решений, которую я завёл в тупик четыре раза подряд, прежде чем мы поняли, в чём была ошибка.Тестовый дизайн у нас — Caravel SkyWater SKY130, открытый чип на ~4,4 миллиона полигонов, 1014 уникальных ячеек и 22 уровня иерархии. Полный GDS-файл — 278 МБ.

продолжить чтение

Оставлено в

Метрики упали в лужу

Нередкая ситуация, когда ваша модель спокойно себе крутится в проме, но внезапно прибегают аналитики с криками «у нас упало качество, посмотрите что может быть не так».Причин может быть множество, но сегодня я расскажу про одну из самых распространенных причин падения качества модели - Distribution shift.

продолжить чтение

Оставлено в

Cognichip привлекла $60 млн на ИИ для проектирования чипов

Стартап Cognichip, который разрабатывает ИИ-систему для помощи инженерам при проектировании микросхем, привлёк $60 млн

продолжить чтение

Оставлено в

Зачем аналитику математика

Если ваша работа ограничивается построением дашбордов в Excel и ответами на вопрос «сколько заработали вчера» – матан вам и правда не нужен, но если вы хотите понимать, почему метрики ведут себя именно так, а не иначе, и тем более – прогнозировать их поведение, то без производных, логарифмов и пределов вы не обойдетесь. В интернете тонны статей «Математика для аналитиков», но они либо уходят в дебри интегрирования по частям, либо ограничиваются уровнем «логарифм – это штука, которая делает большие числа маленькими». Давайте попробуем найти золотую середину.1 Логарифмы

продолжить чтение

Оставлено в

Руководство по PyTorch для новичков: создаём модель множественной регрессии с нуля

TL;DRАвтор берёт датасет Abalone и проводит подробный EDA: проверяет распределения, выбросы, мультиколлинеарность и видит выраженную гетероскедастичность целевой переменной.Строится базовая линейная регрессия (c лог-преобразованием целевой), фильтруются выбросы, добавляются полиномиальные признаки — качество улучшается, но упирается в ограничения самой постановки.Далее реализуется полносвязная нейросеть в PyTorch с подбором гиперпараметров, обучением на mini-batch и валидацией по RMSE.

продолжить чтение

Оставлено в

Разведочный анализ текстовых данных (EDA for text data)

Во время работы с данными важно понять, что они собой представляют. Не всегда на первый взгляд можно понять их структуру, свойства и особенности. В частности, это касается и текстовых данных, которые сами по себе не имеют четкой структуры. В этой статье мы рассмотрим этапы анализа текстовых данных, а также подходы при работе с датасетами для таких популярных задач NLP, как классификация и NER/POS. В качестве основных инструментов будут использоваться Python и Jupyter Notebook. СодержаниеПервичный анализ датасетаДубликаты и пропуски

продолжить чтение

Оставлено в

Titanic + CatBoost (Первое решение, первый Jupyter Notebook)

#Импортируем все необходимые библиотеки import pandas as pd from catboost import CatBoostClassifier from sklearn.model_selection import train_test_split from sklearn.metrics import accuracy_score import numpy as np import matplotlib.pyplot as plt import seaborn as sns import json # 🔕 Отключаем предупреждения, чтобы не загромождали вывод import warnings warnings.filterwarnings('ignore')

продолжить чтение

Оставлено в

Защитим вдов и сирот от хищных ИИ-стартаперов

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

eda.

Три фикса, четыре ошибки, один файл

Как мы четыре раза неправильно диагностировали зависание на джобе

Как мы четыре раза неправильно чинили мерцание при рендеринге 4,4 миллиона полигонов на wgpu

Метрики упали в лужу

Cognichip привлекла $60 млн на ИИ для проектирования чипов

Зачем аналитику математика

Руководство по PyTorch для новичков: создаём модель множественной регрессии с нуля

Разведочный анализ текстовых данных (EDA for text data)

Titanic + CatBoost (Первое решение, первый Jupyter Notebook)

Защитим вдов и сирот от хищных ИИ-стартаперов

Меню навигации

Рекомендуем

Главное

Рубрики

Методики

Информация

Из архивов

eda.