- BrainTools - https://www.braintools.ru -

Карьерный буст в новом году: читаем научно-техническую литературу эффективно — инструменты и советы ученых

Молекулярный биолог из США в 2018 году поставила [1] себе цель: читать по одной исследовательской статье в день — не только по своей узкой специализации, но и по другим направлениям. К середине 2020 года она изучила 899 публикаций. По ее словам, такой подход помог ей расширить кругозор, стать более разносторонним специалистом и переосмыслить свои методы работы, а также стал источником идей для исследований.

Научная литература актуальна и для ИТ-специалистов — помогает совершенствовать профессиональные навыки и разбираться в профильных трендах. Мы в Beeline Cloud [2] решили поговорить о том, как инженерам и разработчикам работать с «сухими» академическими текстами, в том числе с помощью интеллектуальных инструментов.

Изображение: Alexandre Dulaunoy; CC BY-SA 2.0

Изображение: Alexandre Dulaunoy; CC BY-SA 2.0

Читают все!

Многие привычные технологии зародились в виде идей, изложенных на страницах научных публикаций и вайтпейперов. Позже эти концепции подхватили и применили на практике open source-сообщество и компании. Иными словами, научно-техническая литература оказывается полезной, если нужно разобраться в принципах, лежащих в основе конкретных технологий, и обнаружить для себя новые подходы к разработке (и не только). Например, один из резидентов Hacker News рассказал, что изучал реализацию кукушкиного фильтра [3] — альтернативы фильтру Блума [4] для проверки принадлежности элемента множеству — по публикации [5], где авторы описывали его реализацию. Другой пример приводит менеджер по продукту, запускавшая несколько ИИ-проектов в Google. По ее словам [6], без погружения в исследовательские работы по теме она вряд ли смогла бы довести свои проекты до конца — и рисковала поддаться «слепому оптимизму», недооценить возможные трудности при разработке ИИ-инструментов.

Научная литература выручает и когда нужно найти уже проверенный кем-то подход к решению задачи. Так, при разработке собственного классификатора дата-сайентисты Amazon воспользовались методом, описанным их коллегами в научной публикации: «Читая технические материалы, мы понимаем, какие подходы работают, а какие — нет. Подсмотрев эффективную методику в статье коллег из другой компании, мы адаптировали ее и не стали изобретать велосипед. В результате мы тратим меньше времени и усилий». Чтение научной литературы — это также способ натренировать профессиональную любознательность. По словам [7] бывшего разработчика Google, широкая специализация и Т-образный [8] профиль компетенций позволяет инженеру глубоко разбираться в своей области и эффективно взаимодействовать с экспертами из смежных дисциплин.

Но какую бы пользу ни приносило такое чтение, у него есть один очевидный недостаток — работать с научно-технической литературой сложно даже тем, кто давно «варится» в теме. Что уж говорить о тех, кто далек от мира науки. Количество одних только систематических обзоров за последние 20 лет выросло более чем в двадцать раз [9]. Даже ученые говорят, что стратегия just google it для поиска профильных материалов давно перестала работать.

При этом найти полезный документ — только половина дела, в нем еще нужно как-то сориентироваться. Текст научно-технических публикаций, как правило, громоздкий, наполнен «сухими» и не всегда понятными формулировками, а формат подразумевает, что одни и те же тезисы могут встречаться по нескольку раз в разных разделах.

Препарируем научно-технические статьи

«Нет такой проблемы, которую не смог бы решить читательский билет», — так говорила [10] американская писательница Элеонора Браун. Однако недостаточно просто прийти в библиотеку — будь то физическую или цифровую, выбрать технический материал и начать читать. Со специализированными текстами нужно правильно взаимодействовать. К счастью, на эту тему также существует большое количество работ и рекомендаций.

Первым шагом при ознакомлении с техническим текстом обычно является визуальное «сканирование» или предварительный обзор документа. Такой обзор помогает понять актуальность материала, его релевантность, ознакомиться с выводами, пробежаться по иллюстрациям — и принять решение, погружаться в публикацию или пропустить ее.

В целом это достаточно распространенная практика среди людей, регулярно работающих с научно-технической литературой. Еще в 2016 году журнал Science опросил [11] дюжину ученых из разных дисциплин и с разным карьерным бэкграундом, чтобы понять, как именно они читают научные статьи.

Большинство начинали знакомство с новым материалом, прибегая к выборочному чтению: «Я начинаю с чтения аннотаций, потом вскользь просматриваю введение и остальной текст. Стараюсь выделить для себя одну или две наиболее значимые иллюстрации, понять, что на них изображено. Затем я перехожу к заключению. Только после всего этого я погружаюсь в технические детали, которые могут прояснить для меня все возможные вопросы».

Второй шаг«активное чтение [12]», чтобы выстроить диалог с материалом. Для этих целей можно использовать одну из распространенных стратегий [13] — например, SQ3R, разработанную американским психологом Фрэнсисом Робинсоном для обучения [14] студентов. Метод состоит из пяти шагов: Survey (Беглый просмотр) — чтобы оценить структуру и ключевые идеи; Question (Вопросы) — сформулировать цели чтения на основе заголовков; Read (Чтение) — поиск ответов на поставленные вопросы; Recite (Воспроизведение) — краткое изложение ключевых моментов своими словами для лучшего запоминания [15]; и Review (Повторение [16]) — возвращение к материалу для закрепления. В отличие от линейного чтения, SQ3R требует больше усилий, но увеличивает отдачу, особенно при работе с незнакомыми предметными областями.

Изображение: freepik (free freepik license)

Изображение: freepik (free freepik license)

Еще один подход называется PHA. Его представила [13] Лиза Лонг, профессор факультета английского языка из Колледжа западного Айдахо. Эта методика берет за основу идеи SQ3R, но сводит их к трем более простым шагам. Первый этап — Preview (предварительный просмотр), когда читатель оценивает примерную сложность фрагментов текста, опираясь на собственный опыт [17] и интуитивные ощущения. Второй — Highlight (выделение ключевых идей), когда необходимо отметить все места, которые кажутся важными, спорными или непонятными. Третий этап — Annotate (аннотирование) — предполагает более глубокий анализ материала с оценкой, как озвученные идеи соотносятся с текущей задачей. В целом метод PHA можно использовать для работы с любой обширной документацией (например, при изучении новых фреймворков).

Для работы с объемными научно-техническими текстами можно применить и так называемый метод трех проходов [18]. Он был предложен специалистом из канадского Университета Уотерлу — Шринивасаном Кешавом. Как следует из названия методологии, текст нужно прочитать не менее трех раз. На первом этапе публикация бегло «сканируется» (не более 10 минут), на втором — делаются пометки на полях и фиксируются личные наблюдения, а на третьем — автор предлагает по памяти [19] структурировать материал, воссоздать общие идеи и методологию из оригинального текста, выделить его сильные и слабые стороны. Как говорит сам Кешав: «Я стараюсь как можно чаще прибегать к методу трех проходов. Он полезен не только при работе с исследованиями, но и при изучении объемных технических блогов и статей».

Специалисты также дают рекомендации по составлению заметок. Например, профессор Уильям Гризвольд из Калифорнийского университета в Сан-Диего поделился своей подборкой [20] вопросов, на которые он предпочитает отвечать на этапе активного чтения научно-технической литературы. Вот некоторые из них:

  • Какие проблемы поднимает автор и почему они все еще актуальны?

  • Чем выделяется описанный подход на фоне предыдущих, какая у него ценность?

  • Какие возможности и решения предлагают авторы? Каковы преимущества и недостатки их научной работы?

Наконец, многие исследователи выделяют [11] важность прямого взаимодействия с техническим текстом — они предлагают активно «общаться» с публикацией, делать пометки и примечания, придумывать примеры по аналогии с описанными в статье, находить связи или противоречия с другими, ранее прочитанными, работами. Однако наиболее эффективным может стать подход, когда все упомянутые техники совмещаются с возможностями специализированных инструментов — в том числе на базе систем ИИ.

ИИ-решения: найти статью, пересказать и озвучить

На одном только arXiv [21] ежедневно публикуются [22] около семисот новых исследований. Еще до начала чтения можно столкнуться с проблемой — как среди всего этого разнообразия выбрать действительно релевантные материалы. Можно использовать специализированные инструменты поиска. Один из таких инструментов — платформа Connected Papers [23]. Она позволяет строить масштабные графы, отражающие связи между научными статьями [в том числе из arXiv]. Проект создала команда энтузиастов, уставших от ручного поиска публикаций: сначала решение создавалось «для себя», но со временем им заинтересовались коллеги и знакомые разработчиков, и инструмент стал публичным. Connected Papers не ограничивается проверкой библиографических ссылок. Платформа формирует подборки научных работ по схожей тематике, анализируя для каждого графа порядка 50 тыс. публикаций и отбирая из них несколько десятков наиболее релевантных.

Также существуют площадки для обсуждений и оценки научных трудов — например, SciRate [24]. Ее исходный код [25] опубликован на GitHub по лицензии MIT. Материалы на SciRate оцениваются на основе мнений сообщества, но иногда исследовательский комитет платформы сам рецензирует наиболее примечательные статьи [26].

Изображение: Rob Oo; CC BY 4.0

Изображение: Rob Oo; CC BY 4.0

Безусловно, в изучении релевантных материалов могут помочь ИИ-инструменты, генерирующие краткие саммари. Для некоторых ученых подобные решения стали настолько привычными [27], что без них они ощущают себя в прошлом: «Словно выходить в интернет по dial-up, когда у других оптоволокно». Обычно такие платформы напоминают работу с ChatGPT, но заточенным под чтение и анализ научно-технических публикаций. Подобную функциональность предлагают платформы SciSpace [28] и ScienceStack [29] — в том числе с дополнительными возможностями для работы с графиками и заметками.

Существуют решения [30], которые не просто генерируют краткое саммари, но и озвучивают его, что особенно удобно для людей с ограниченными возможностями, а также для тех, кто предпочитает аудиоформат. Один из таких инструментов — NotebookLM [31] от Google. Он выдает не сухой пересказ, а адаптирует содержание статьи: систему ИИ можно попросить привести примеры, объяснить сложные моменты, вывести взаимосвязи и тенденции. Более того, NotebookLM способен представить оригинальный текст в виде подкаста — как диалог двух виртуальных ведущих, интервью или дискуссию. Пользователь может задать формат «выступления», указать стиль и сложность изложения.

Еще один пример — платформа ekoAcademic [32] для публикаций с arXiv. Проект развивают аспиранты, работающие в сфере квантовых вычислений в Швейцарской высшей технической школе Цюриха. Изначально они хотели написать [33] решение для отслеживания последних научных открытий, но сменили направление, и сегодня сервис за несколько минут генерирует аудиосаммари научных статей. При этом встроенный ИИ-агент позволяет задавать вопросы по содержанию материала. Учитывая стремительное развитие индустрии систем ИИ и открытость научного сообщества к использованию подобных инструментов, можно предположить, что в ближайшие годы ИИ-решения вполне могут стать базовым минимумом при работе с техническими текстами.

Beeline Cloud [2] — secure cloud provider. Разрабатываем облачные решения, чтобы вы предоставляли клиентам лучшие сервисы.

Что еще примечательного можно почитать в нашем блоге:

Автор: beeline_cloud

Источник [37]


Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/24434

URLs in this post:

[1] поставила: https://www.nature.com/nature-index/news/this-scientist-read-research-academic-paper-every-day-what-she-learned

[2] Beeline Cloud: https://cloud.beeline.ru/?utm_source=owned_media&utm_medium=habr&utm_campaign=beeline_cloud&utm_term=techreading

[3] кукушкиного фильтра: https://en.wikipedia.org/wiki/Cuckoo_filter

[4] фильтру Блума: https://en.wikipedia.org/wiki/Bloom_filter

[5] публикации: https://www.cs.cmu.edu/~dga/papers/cuckoo-conext2014.pdf

[6] словам: https://www.rachelw.org/ai-analysis-and-experiments/why-every-ai-product-manager-needs-to-be-reading-ai-research-papers

[7] словам: https://www.toptal.com/developers/software/software-engineer-skills-and-skillsets

[8] Т-образный: https://en.wikipedia.org/wiki/T-shaped_skills

[9] выросло более чем в двадцать раз: https://habr.com/ru/companies/beeline_cloud/articles/959996/

[10] говорила: https://pmc.ncbi.nlm.nih.gov/articles/PMC7392212/#pcbi.1008032.ref001

[11] опросил: https://www.science.org/content/article/how-seriously-read-scientific-paper

[12] активное чтение: https://scispace.com/resources/how-to-read-research-papers/

[13] стратегий: https://idaho.pressbooks.pub/write/chapter/reading-for-writing/

[14] обучения: http://www.braintools.ru/article/5125

[15] запоминания: http://www.braintools.ru/article/722

[16] Повторение: http://www.braintools.ru/article/4012

[17] опыт: http://www.braintools.ru/article/6952

[18] метод трех проходов: https://www.lib.sfu.ca/system/files/32376/paper-reading.pdf

[19] памяти: http://www.braintools.ru/article/4140

[20] подборкой: https://cseweb.ucsd.edu/~wgg/CSE210/howtoread.html

[21] arXiv: https://info.arxiv.org/about/index.html

[22] публикуются: https://textquery.app/open-data-pages/arxiv-research-papers/

[23] Connected Papers: https://www.connectedpapers.com/

[24] SciRate: https://scirate.com/

[25] исходный код: https://github.com/scirate/scirate

[26] примечательные статьи: https://scirate.com/tqc-2014-program-committee

[27] привычными: https://scisummary.com/blog/75-why-reading-research-papers-without-ai-now-feels-like-dial-up-internet

[28] SciSpace: https://scispace.com/

[29] ScienceStack: https://www.sciencestack.ai/

[30] решения: https://news.ycombinator.com/item?id=45767804

[31] NotebookLM: https://notebooklm.google/

[32] ekoAcademic: https://www.echoecho.org/

[33] написать: https://www.wadamczyk.io/projects/ekoacademic/index.html

[34] Текстовые игры возвращаются? Новые сферы применения, а также некоторые руководства и ресурсы для разработки: https://habr.com/ru/companies/beeline_cloud/articles/969234/

[35] Экспериментальный селф-хостинг — материалы для начинающих, личный опыт, DIY-гайды и домашние лабы: https://habr.com/ru/companies/beeline_cloud/articles/953456/

[36] Эта музыка будет вечной: микросервисы против монолита, camelCase против snake_case и другие неугасающие споры в ИТ: https://habr.com/ru/companies/beeline_cloud/articles/976248/

[37] Источник: https://habr.com/ru/companies/beeline_cloud/articles/986310/?utm_campaign=986310&utm_source=habrahabr&utm_medium=rss

www.BrainTools.ru

Rambler's Top100