Проверка текста на орфографию: рейтинг лучших AI-корректоров. Часть 1. chatgpt 4.1.. chatgpt 4.1. claude 3.7 sonnet.. chatgpt 4.1. claude 3.7 sonnet. DeepSeek R1.. chatgpt 4.1. claude 3.7 sonnet. DeepSeek R1. исправление ошибок.. chatgpt 4.1. claude 3.7 sonnet. DeepSeek R1. исправление ошибок. корректура.. chatgpt 4.1. claude 3.7 sonnet. DeepSeek R1. исправление ошибок. корректура. нейросети.. chatgpt 4.1. claude 3.7 sonnet. DeepSeek R1. исправление ошибок. корректура. нейросети. проверка орфографии.. chatgpt 4.1. claude 3.7 sonnet. DeepSeek R1. исправление ошибок. корректура. нейросети. проверка орфографии. проверка пунктуации.
Проверка текста на орфографию: рейтинг лучших AI-корректоров. Часть 1 - 1

Вы когда‑нибудь ловили себя на том, что отправляете важное письмо или сообщение, а спустя мгновение замечаете ошибку? Такое ощущение, словно невидимая красная ручка уже начала зачёркивать текст… В статье я исследую инструменты, способные сберечь от этих неприятностей. Всё это нацелено на одну задачу: найти лучший инструмент для проверки орфографии и пунктуации.

Эта тема важна для всех, кто взаимодействует с текстом, независимо от того, редактируете ли вы роман, готовите отчёт или пишете пост в соцсетях (да, даже твиты требуют идеальной подачи).

Для обзора я выбрал 13 самых популярных онлайн‑сервисов, приложений и нейросетей, чтобы определить, кто лучше сможет проверить правописание (орфографию и пунктуацию). Мы разберём их по косточкам, выявим силу и слабость каждого участника и, конечно, определим победителя.

(Ну правда, почему ошибки всегда выпрыгивают на глаза только после отправки?)


Проверка текста на орфографию: рейтинг лучших AI‑корректоров, часть 1 ← вы находитесь тут.
Проверка текста на орфографию: рейтинг лучших AI‑корректоров, часть 2


Обзор участников

В этом тесте я сравнил сразу множество LLM (крупные языковые модели), LRM (рассуждающие языковые модели), приложений и онлайн‑сервисов. Вот они: DeepSeek‑R1, Claude-3.7-Sonnet, Claude-3.7-Sonnet‑Thinking, Grok-3-Beta, ChatGPT-4o, ChatGPT‑o1, ChatGPT-4.1, ChatGPT‑o3, Gemini-2.5-Pro, YandexGPT-5-Pro, «Яндекс браузер», Text.ru, «Мистер корректор». «Яндекс» предоставляет два разных инструмента, тюнингованные под великий и могучий, в которых можно проверить правописание: бесплатный в «Нейроредакторе» «Яндекс браузера» и платный в YandexGPT-5-Pro. Качество проверки в них различается очень сильно.

Я запускал модели на BotHub — там доступны больше половины сегодняшних участников! Кстати, вот вам для старта: 100 000 токенов по этой ссылке (работает без VPN).

Как проводилось тестирование и критерии оценки

Специально для этой подборки я создал сложный тест на корректуру, который включает в себя самые разные случаи ошибок: от орфографических недочётов до запутанных пунктуационных конструкций. Чтобы дать моделям возможность проявить себя, я выбрал только самые прокачанные нейросети. Почему так? Всё просто: орфография и пунктуация — это вовсе не базовый уровень сложности, особенно если вы хотите учесть все нюансы русского языка. Здесь нужно не только знание правил, но и умение видеть контекст, понимать структуру текста и правильно интерпретировать намерения автора. Легко ли это для нейросетей? Спойлер: не всегда.

Вот как выглядел исходный промт, с помощью которого проводилось тестирование:

Ты профессиональный корректор с обширными познаниями в русской филологии. Вычитай предоставленный текст, исправь орфографические, грамматические и пунктуационные ошибки.

Типографика. Рисунок кавычек для первого уровня вложенности: « », для второго уровня вложенности (кавычки в кавычках): „ “ — и так далее. Используй длинное тире (—) вместо дефиса или среднего тире, а в диапазонах чисел пиши среднее тире. Примени букву Ё во всех словах, где она имеется.

Дополнительные пожелания:
• Не нужно переводить/транслитерировать названия и термины с иностранного на русский и наоборот.
• Не заменяй числительные словами.
• Не выделяй исправления полужирным либо курсивом.

<ТЕКСТ ДЛЯ ПРОВЕРКИ>

Уважаемые партнеры и потенциальные клиенты компании АльфаМаркет!

Мы рады представить вам нашу новую революционную стратегию интернет-маркетинга, разработанную совместно ведущих экспертов в области диджитал-продвижения. Наша команда предлогает инновационные решения, которые помогут вашему бизнесу достичь новых высот.

В современном мире успех приходит неслучайно, а целенаправленно, благодаря грамотному планированию и последовательным действиям. Мы предлагаем вам воспользоваться нашими услугами по продвижению в соцсетях, к которым с обеих сторон вели, тщательно изученные, рекламные каналы. Наш специалист сфотографирует ваш продукт в анфас, чтобы подчеркнуть все его преимущества.

Директор компании АльфаМаркет часто говорит “Наша задача – помочь клиентам достичь максимальной эффективности в бизнесе” и мы полностью разделяем эту философию. “Каждый клиент для нас особенный” добавляет он, что подтверждается индивидуальным подходом к каждому проекту.

После проведения маркетингового исследования, охватившего более четырехста компаний, мы выявили основные тенденции рынка. Ваш бизнес непременно развиваеться в правильном направлении, если вы пользуетесь нашими услугами.

Все, что нам требуется — это ваше доверие и готовность к сотрудничеству. Мы не знаем, чтобы мы стали делать без наших клиентов, ведь если разобраться, именно ваши запросы помогают нам совершенствоваться.

Что касаемо ценовой политики, мы предлагаем гибкую систему скидок. У нашего предложения есть несколько ньюансов, которые делают его особенно привлекательным. Компания АльфаМаркет гарантирует качество услуг на самом высоком уровне. При работе с компанией Гугл мы достигли значительных результатов в области SEO-продвижения.

Акция, стартующая 25-го декабря 2024 года, позволит вам получить максимальную выгоду. Подробности можно узнать в 5 разделе нашего предложения.

Недавний опрос показал улучшение узнаваемости бренда на 30–35% – это отличный результат. В новом продукте всем нашим клиентам будет доступен 3-х кнопочный интерфейс. Поздравляем всех женщин с 8 мартом и дарим дополнительную скидку в этот праздник!

Мы стремимся к постоянному совершенствованию, при чём стараемся учитывать все пожелания клиентов. В нашей компании работают опытные маркетологи, а так же дизайнеры высокого класса. Вы остались довольны сотрудничеством, и у вас появились новые идеи?

Наши специалисты сообщили, что презентация прошла успешно, и все участники остались довольны. Кстати говоря, клиент получил полную информацию и никаких вопросов не возникло.

Используйте возможности, которые дарит интернет на все сто. Для этого мы создали специальные инструменты с интуитивным понятно интерфейсом.

С уважением, Команда АльфаМаркет
</ТЕКСТ ДЛЯ ПРОВЕРКИ>

Здесь версия с исправленными ошибками — вариант, по которому оценивались результаты:

Проверка текста на орфографию: рейтинг лучших AI-корректоров. Часть 1 - 2

В случае LLM/LRM‑моделей применялся весь вышеприведённый промт, а с приложениями и онлайн‑сервисами было немного иначе — текст отправлялся без дополнительных указаний, только часть внутри тега <ТЕКСТ ДЛЯ ПРОВЕРКИ>…</ТЕКСТ ДЛЯ ПРОВЕРКИ>. Также я специально добавил несколько уточнений, чтобы минимизировать эффекты разночтений и чтобы было удобнее сравнивать между собой нейромодели, приложения и онлайн‑сервисы.

Но! Были и аспекты, которые я всё равно решил не учитывать в итоговой таблице. Например:

  • Буква Ё. Вопреки распространённому мнению, употребление буквы Ё в русском языке необязательно. Решил убрать исправление этой буквы из итогового рейтинга, иначе некоторые сервисы и приложения недополучили бы 3 балла лишь из‑за того, что в них нет галочки «Ставить букву Ё».

  • Написание ­­«Гугл». Большинство моделей склонялись к версии Google. Почему? Частотность в датасетах: многие современные нейросети предпочитают распространённые варианты написания. Так как оба варианта правильны, в конце концов я решил просто не подсчитывать этот случай в результатах проверки (тоже чтобы «обезопасить» приложения и сервисы).

  • Одна стилистическая ошибка — разговорное выражение что касаемо (вместо что касается), не соответствующее тону текста, — и одна лексическая ошибка — успех может достигаться целенаправленно, а не приходить. Всё‑таки речевые ошибки более субъективны и оценивать по ним нейросети было бы ещё сложнее.

Многие предложения теста — настоящие орфографические и пунктуационные западни для корректора: незаметные опечатки, контексты с пересекающимися главными и придаточными частями, запятые при общих членах предложения — всё буквально проверяло нейросети на выживаемость. Правильно ли это? Думаю, да, ведь, с одной стороны, такие ошибки всё равно в какой‑то момент встречаются в текстах. И вообще сегодняшние модели уже достигли очень многого, поэтому корректура — та область, в которой они уже, на мой взгляд, смогут разруливать различные вопросы правописания.

Кстати, хотите сделать свои проверки ещё детальнее? Просто добавьте в промт следующие указания (например, в список «Дополнительные пожелания»), чтобы не только исправлять орфографию/грамматику/пунктуацию, а проводить корректуру с элементами редактуры:

• Устрани речевые ошибки, включая, но не ограничиваясь: лексические; употребление слова в несвойственном значении; нарушение норм лексической сочетаемости; расширение и сужение значения слова; неразличение паронимов; неправильное употребление омонимов, антонимов, синонимов; не устранённая контекстом многозначность и так далее.
• Исправь стилистические ошибки.
• Скорректируй смысловые неточности, сохраняя авторский замысел. Устрани логические противоречия, если они есть.
• Унифицируй названия и единицы измерения.
• Исправь разбивку на абзацы, если нужно.
• Отметь фразы, которые лучше перефразировать. Выведи их списком после текста.
• Спорные места и прочие комментарии тоже можешь написать списком.


Итак, тестовые данные подготовлены, а инструкции чётко сформулированы. Теперь пришло время отправить наши умные машины на дуэль «все против всех». Кто из них проявит себя лучшим образом, это и предстоит узнать, а пока делаем ставки :‑)

DeepSeek-R1

🟢 Исправлено ошибок: 29.
🟣 Пропущено ошибок (или исправлено некорректно): 9.
🔴 Внесено новых ошибок: 1.
🔵 Сделано стилистических правок, перефразировок: 1.

Вывод DeepSeek-R1
Проверка текста на орфографию: рейтинг лучших AI-корректоров. Часть 1 - 3

DeepSeek‑R1 уверенно удерживает свои позиции среди топовых языковых моделей, и его способности в генерации текста подтверждаются успешными результатами многих бенчмарков (вот один из примеров). В задачах корректуры он также показал отличный результат.

Порадовала способность модели выделить кавычками имена собственные («АльфаМаркет»), однако «Гугл» оказался переведён на английский (Google). В данном случае модель сориентировалась на частотность употребления в датасетах, а не инструкцию в промте.

Ещё интересный момент — фраза со словами благодаря грамотному планированию и последовательным действиям была модифицирована, и вместо запятой модель предложила отделить эту часть тире. Звучит как незаконное вмешательство, но это абсолютно согласуется с правилами.

Также R1 не разобрался с правилом про кавычки, а именно вторым уровнем вложенности: чат‑бот перепутал её с очерёдностью и применил новый рисунок кавычек для второго фрагмента прямой речи.

Claude-3.7-Sonnet

🟢 Исправлено ошибок: 25.
🟣 Пропущено ошибок (или исправлено некорректно): 13.
🔴 Внесено новых ошибок: 1.
🔵 Сделано стилистических правок, перефразировок: 0.

Вывод Claude-3.7-Sonnet
Проверка текста на орфографию: рейтинг лучших AI-корректоров. Часть 1 - 4

Начнём с досадных промахов. Ошибка с 8 мартом одна из самых элементарных в этом тесте, а ещё модель проигнорировала окончание в словосочетании в 5 разделе. Прибавляем сюда 3-х кнопочный интерфейс и 25-го декабря 2024 года — и начинает казаться, что «Не заменяй числительные словами» нейросеть прочла как «Не изменяй ничего, что содержит цифры».

Модель попалась на одну из ловушек теста — поставив запятую между простыми предложениями при наличии общего вводного кстати говоря. Это трудное правило, о котором редко вспоминают. Не всегда с ходу можно оценить, относится ли элемент к обоим простым предложениям или лишь к первому, но в этом случае ответ очевиден — запятая лишняя.

Claude-3.7-Sonnet-Thinking

🟢 Исправлено ошибок: 25.
🟣 Пропущено ошибок (или исправлено некорректно): 13.
🔴 Внесено новых ошибок: 0.
🔵 Сделано стилистических правок, перефразировок: 1.

Вывод Claude-3.7-Sonnet-Thinking
Проверка текста на орфографию: рейтинг лучших AI-корректоров. Часть 1 - 5

Claude-3.7-Sonnet‑Thinking, будучи рассуждающим вариантом своей линейки, выдал результаты, сильно напоминающие базовую версию модели. Но давайте посмотрим, как же его выводы всё‑таки отличаются.

Во‑первых, Claude удалось избежать оплошностей со словосочетаниями с 8 Марта, 25 декабря и 3-кнопочный интерфейс. Отсюда возникает ощущение, что модель действительно анализирует правила гораздо глубже, хотя и не всегда: в то же время название АльфаМаркет осталось без кавычек, что обернулось потерей 4 баллов. Возможно, модель ожидала более явных указаний в промте для этого правила.

Grok-3-Beta

🟢 Исправлено ошибок: 31.
🟣 Пропущено ошибок (или исправлено некорректно): 7.
🔴 Внесено новых ошибок: 1.
🔵 Сделано стилистических правок, перефразировок: 2.

Вывод Grok-3-Beta
Проверка текста на орфографию: рейтинг лучших AI-корректоров. Часть 1 - 6

Grok-3-Beta — модель с громким именем и поддержкой, ведь Илон Маск ещё незадолго до релиза называл её «самым умным ИИ на земле». Этот статус, судя по результатам корректуры, подтверждается.

Сразу нескольким моделям, включая Grok-3, не приглянулось слово вели (вели тщательно изученные рекламные каналы), которое они заменили на вариант в настоящем времени (ведут). Дополнительная перефразировка здесь — замена кстати говоря на кстати. Ошибка в словосочетании в 5 разделе на этом фоне вызывает лёгкое недоумение — на мой взгляд, базовый орфографический случай.

Нельзя не упомянуть огромные вычислительные мощности 200 000 80-гигабайтных графических единиц Nvidia‑H100, которые используются Grok-3 для обучения и работы. Благодаря длительному и масштабному процессу обучения, модель демонстрирует завидное качество обработки даже для неанглийских языков. И именно поэтому Grok-3 уверенно закрепляет свою позицию в нашем рейтинге на втором месте — наравне с ChatGPT-4o.

ChatGPT-4o

🟢 Исправлено ошибок: 31.
🟣 Пропущено ошибок (или исправлено некорректно): 7.
🔴 Внесено новых ошибок: 1.
🔵 Сделано стилистических правок, перефразировок: 0.

Вывод ChatGPT-4o
Проверка текста на орфографию: рейтинг лучших AI-корректоров. Часть 1 - 7

Самая популярная и сбалансированная нейросеть линейки ChatGPT — 4o — набирает идентичные с Grok-3-Beta показатели (31/7/1/0), и второе место присваивается сразу двум моделям.

Модель отлично справилась с большинством пожеланий в промте: здесь мы видим написания в 5-м разделе, 3-кнопочный. Однако нейросеть немного запуталась в пересекающихся инструкциях («Используй длинное тире (—) вместо дефиса или среднего тире, а в диапазонах чисел пиши среднее тире») и применила длинное тире в числовом диапазоне (30—35%).

ChatGPT-4.1

🟢 Исправлено ошибок: 29.
🟣 Пропущено ошибок (или исправлено некорректно): 9.
🔴 Внесено новых ошибок: 1.
🔵 Сделано стилистических правок, перефразировок: 0.

Скрытый текст
Проверка текста на орфографию: рейтинг лучших AI-корректоров. Часть 1 - 8

ChatGPT-4.1 появился совсем недавно, в апреле 2025-го. Модель радует огромным контекстным окном в 1 000 000 токенов, что способно впечатлить самых продвинутых профессионалов. Кроме того, ощутимые улучшения коснулись способностей в кодинге.

Но как насчёт уровня корректуры? Вот как обстоят дела у линейки 4.1 с языковыми улучшениями (две нижние строки):

MMLU (Massive Multitask Language Understanding) — обширный тест на понимание и обобщение знаний по 57 академическим предметам, включая историю, медицину, юриспруденцию и математику; используется для оценки широких когнитивных возможностей модели. Multilingual MMLU — версия бенчмарка MMLU, переведённая на различные языки, предназначена для оценки способности модели понимать и обрабатывать задания в международном контексте

MMLU (Massive Multitask Language Understanding) — обширный тест на понимание и обобщение знаний по 57 академическим предметам, включая историю, медицину, юриспруденцию и математику; используется для оценки широких когнитивных возможностей модели. Multilingual MMLU — версия бенчмарка MMLU, переведённая на различные языки, предназначена для оценки способности модели понимать и обрабатывать задания в международном контексте

Модель набирает идентичные показатели с DeepSeek‑R1. Мелкие ошибки всё же просочились:

  • Как и 4o, модель 4.1 не распознала точный замысел промта‑инструкции и написала длинное тире в числовом диапазоне;

  • Допущен промах с отсутствием наращения в словосочетании в 5 разделе;

  • Интерфейс всё‑таки стал ­трёхкнопочный — можем предположить, что нейросеть не сочла компонент сложносоставного слова за отдельное имя числительное, поэтому не применила к нему уточняющие детали, записанные в промте.


Вторая часть статьи здесь.

Автор: dmitrifriend

Источник

Rambler's Top100