«Господин Говорунъ: как я обучил маленькую модель разговаривать на дореформенном русском»
Немного контекстаПоследние месяцы мы в команде развиваем проект Manuscript OCR - открытую библиотеку, которая учит нейросети читать рукописные документы XIX века. Это сложный материал: дореформенная орфография, нестабильный почерк, архивные артефакты.Кому интересны технические детали - отдельная статья про Manuscript OCR уже есть на Хабре.Работая над этим проектом, я всё больше погружался в дореформенный язык: тестировал модели, прогонял страницы, сравнивал орфографические варианты. И в какой-то момент возник вполне естественный вопрос:
Человек VS трихоплакс: так ли мало у нас общего?
Фото Николая Малахина/портал "Научная Россия".
Telegram-бот для дополнения базы знаний: автоматизация без разработчиков
Чтоб сделать, чтобы базой знаний реально пользовались? Один из путей — дать возможность и наполнения, и получения ответов в привычном интерфейсе, без захода в дополнительные приложения.
Как мы (не) смогли посчитать вакантность жилья в Москве
Летом прошлого года я в команде из шести человек поучаствовал в конкурсе «Исследуй город». Мы три месяца пытались оценить вакантность жилья в Москве, заняли предпоследнее место, а потом ещё год пробовали уже вне конкурса, на чистом энтузиазме, улучшить сделанное. Получилось все равно не очень, но отрицательный результат — тоже результат, поэтому делимся им: быть может, кто-то прочитает, вдохновится и сможет нас превзойти.Как всё началосьОднажды мне написала знакомая — Юлия Родикова
Релиз открытой модели ByteDance: Seed-OSS-36B с контекстом в 512 000 токенов
TikTok снова в центре внимания — на этот раз благодаря Белому дому, который завёл аккаунт в популярном приложении. Но сюрприз подготовила и сама ByteDance
Nvidia и Национальный научный фонд США создают открытые ИИ-модели для исследователей
Национальный научный фонд США (ННФ) привлёк значительные инвестиции от государства и частного сектора для реализации проекта Open Multimodal AI Infrastructure (OMAI)
Если нужно сгенерировать синтетические данные — подборка открытых решений
Про снижение расходов на работу с данными расскажем
200 000+ снимков мусора: что мы узнали о датасетах
В нашей работе хватает безумных задач. Мы создали первого в России цифрового PR-менеджера, разрабатывали виртуальную примерочную и делали много чего еще, о чем не всегда можно рассказать. Но когда мы взялись за создание ИИ-сортировщика мусора MARQUS, поняли — будет совсем жестко.Не так давно мы создали систему сортировки ТКО (Твердых коммунальных отходов) MARQUS, которая делит отходы на бумагу, металл, пластик, стекло и т.д. Система использует искусственный интеллект и специальные сенсоры, чтобы распознавать различные типы отходов прямо на конвейере и направлять их в соответствующие секции для переработки.

