nlp.
Эволюция ‘More Like This’
Во многих поисковых сценариях пользователь начинает не с пустой строки запроса, а с существующего результата.
Языковые модели без лишних слов
Представляем новинку, которая уже получила высокие оценки от экспертов мирового уровня. Книга Андрея Буркова «Языковые модели без лишних слов: Практика на PyTorch
Нехватка CUDA-памяти при обучении с GRPO: как перестать гадать и начать считать
Недавно я собирал для заказчика модель обучения с подкреплением с использованием GRPO и
Как я обучил GPT с нуля на русском языке — и что из этого получилось
Всё началось с наивной мысли: зачем платить за API или тащить 7B-модель, если мне нужна маленькая модель для простых разговоров на одном языке? Логика казалась железной — большие модели умеют всё и на всех языках сразу, но это же избыточно. 0.7B, заточенная под один язык и один стиль общения, должна справляться не хуже.Спойлер: это было наивно. Но путь оказался ценнее результата.В этой статье — как я прошёл путь от стандартного nanoGPT до кастомной архитектуры с RoPE/SwiGLU/GQA, собрал русскоязычный корпус с нуля, и придумал распределённое обучение на бесплатных Colab-воркерах через Google Drive.Почему не взять готовую модель?
SciGraph: как я учил ИИ читать научные статьи не только по словам, но и по связям
Привет, Хабр. Эта статья про систему, которая читает папку научных статей и помогает разбираться в них как в связанном корпусе, а не как в наборе отдельных PDF. Материал написан на базе выпускного проекта студента курса NLP Advanced. Исходный код проекта: Идея простая: если в статье есть авторы, методы, датасеты, цитирования и утверждения, то их можно превратить в граф. Тогда вопрос «какие работы привели к появлению DETR?» становится не просто поиском похожих фраз, а проходом по связям между работами.
Кастомный пайплайн BERTopic: как кластеризовать тексты и получить интерпретируемые темы с помощью LLM
Привет, Хабр! Меня зовут Антон и я занимаюсь задачами NLP в компании Ростелеком Информационные технологии.
AI для PHP-разработчиков. Часть 6: Bag of Words и TF–IDF – как компьютер превращает текст в математику
Как компьютер превращает текст в числа и почему TF–IDF десятилетиями оставался основой поисковых систем. Разбираем Bag of Words, TF–IDF и поиск похожих документов на чистом PHP.Это шестая часть проекта.Часть 5: От массивов к GPU: как PHP-экосистема приходит к настоящему MLЧасть 4: Практическое использование TransformersPHPЧасть 3: Практика без Python и data scienceЧасть 2: Собираем простейшую RAG-систему на PHP с Neuron AI за вечерЧасть 1:
Основы парсинга сайтов: от HTML до готового датасета для NLP
Вы освоили машинное обучение, знаете, чем transformer отличается от LSTM, но где брать данные для своих проектов? Готовые датасеты — это хорошо, но они общие. А если вам нужны посты из конкретного Telegram‑канала, отзывы с узкопрофильного форума или корпус текстов по редкой теме?Парсинг сайтов — это навык, который превращает интернет в вашу персональную фабрику данных. Без него даже самая умная модель останется без «топлива». В этой статье мы рассмотрим весь путь: от первого запроса к сайту до готового датасета, пригодного для обучения.
Битва двух ёкодзун: почему детекторы ИИ и гуманизаторы делают тексты еще хуже
В век, когда абсолютно все площадки, включая Хабр, захлебываются под цунами сгенерированного контента, особенно ценными становятся статьи, написанные людьми. Только есть один нюансик: человеческий текст должен быть хорошим. А я как редактор часто становлюсь невольным свидетелем битвы двух ёкодзун: искусственного интеллекта с естественной халтурой. Чума на оба этих дома, честно говоря. В этой статье хочу порассуждать на тему: любой ли сгенерированный контент плох с редакторской точки зрения и становится ли текст живого автора ценным лишь по факту своей «человечности»? Попутно мы разберем:

