Cloudflare заблокировала 416 млрд запросов ИИ-ботов на парсинг за пять месяцев
Генеральный директор Cloudflare Мэтью Принс заявил, что компания заблокировала более 416 млрд запросов от ИИ-ботов с июля этого года. Такую работу провели в рамках инициативы «День независимости контента». Функция Cloudflare позволяет владельцам веб-сайтов блокировать ИИ-ботов по умолчанию, если их владелец не заплатит за доступ к контенту.
TOON: новый формат на смену JSON для более эффективного взаимодействия с LLM?
TOON — это ещё один способ записать те же самые JSON-данные, но компактнее и понятнее для моделей. Вместо "key": "value" он использует отступы как YAML и табличную запись для массивов объектов: шапка с названиями полей, дальше строки с данными.
«Википедия» призывает компании в сфере разработки ИИ использовать её платный API и прекратить парсинг данных
Фонд «Викимедиа» представил план, который позволит обеспечить дальнейшую поддержку «Википедии» в эпоху искусственного интеллекта, несмотря на снижение трафика. Организация призвала разработчиков ИИ использовать контент её энциклопедии ответственно, обеспечив при этом правильное указание авторства и доступ к материалам через платный проект фонда — платформу Wikimedia Enterprise.
DSL против универсальных языков: когда стоит создавать собственный доменный язык и как избежать ошибок
Мир разработки полон соблазнов изобретать собственные решения. Один из самых ярких соблазнов — создать свой DSL (Domain-Specific Language). Это звучит красиво: язык, который идеально отражает задачи конкретной предметной области. Но где заканчивается здравый смысл и начинается велосипедостроение? В статье я попробую на примерах показать, когда DSL — это спасение, а когда лучше взять старый добрый Python, C# или даже Bash.
Запускаем личный АИ-инфоконвейер: как я строю систему смыслового мониторинга с YAML и GPT
Отслеживаем новости, документы и тендерыRostral.io размышляет над ответом вместо вас
Сверхспособность LLM в понимании документа, сконвертированного в текст с ошибками — или почему наш RAG работает
Недавно я столкнулся с интересным поведением языковой модели, которое меня по-настоящему удивило, и хочу поделиться этим наблюдением с сообществом.
Обратная сторона Babel: как микроскопические языки помогают в изучении больших
В этой статье рассказывается, как крошечные, экспериментальные языки программирования, размером порой меньше 100 строк, могут неожиданным образом углубить понимание сложных промышленных языков. Будет показано, как микроязыки раскрывают суть концепций, скрытых в слоистых абстракциях Java, Rust или C++. Много примеров, кода и немного лирики.
Топ парсеров и API-сервисов сбора данных: сравнение скорости, масштабируемости и обхода защит — парсеры на максималках
Автоматический сбор данных (парсинг сайтов, или web scraping) стал неотъемлемой практикой для разработчиков, аналитиков и автоматизаторов. С его помощью получают массовую информацию с сайтов – от цен конкурентов и отзывов до контента соцсетей. Для этого разработано множество “парсеров” – библиотек, фреймворков и облачных сервисов, которые позволяют извлекать веб-данные программно. Одни решения требуются для быстрого парсинга статичных страниц, другие – для обхода сложной JavaScript-навигации, третьи – для получения данных через API. В этой статье я рассмотрю топ инструментов для парсинга сайтов

