50 исследований на тему нейросетей, которые помогут вам стать ИИ-инженером от бога

В этом дайджесте мы собрали 50 знаковых научных работ в области ИИ за последние годы. Подборка охватывает десять ключевых направлений разработки нейросетей: от промтинга и проектирования бенчмарков до файнтюнинга и компьютерного зрения ^[1].

Материал будет полезен как для опытных ИИ-инженеров, которые хотят прокачать свои навыки разработки, так и тем, кто только начинает свое знакомство с нейросетями и находится в поисках точки входа в ту или иную тему.

Оглавление

Передовые LLM ^[2]
Бенчмарки и тесты ^[3]
Промтинг, In-Context Learning и Chain of Thought ^[4]
Генерация с дополненной выборкой (RAG) ^[5]
Агенты ^[6]
Генерация кода ^[7]
Компьютерное зрение ^[8]
Голос ^[9]
Генерация изображений и видео ^[10]
Файнтюнинг ^[11]
С чего начать ^[12]

Передовые LLM

Научные статьи по GPT1 ^[13], GPT2 ^[14], GPT3 ^[15], Codex ^[16], InstructGPT ^[17] и GPT4 ^[18] от разработчиков из OpenAI. Здесь вряд ли нужны дополнительные пояснения. По GPT3.5 ^[19], 4o ^[20], o1 ^[21] и o3 ^[22] вместо таких статей компания выпускала уже презентации и системные карты.
Статьи по Claude 3 ^[23] и Gemini 1 ^[24], чтобы понять, что под капотом у конкурентов OpenAI. Последние версии — это Claude 3.5 Sonnet ^[25] и Gemini 2.0 Flash ^[26]/Flash Thinking ^[27]. Также обратите внимание ^[28] на работу по Gemma 2 ^[29].
Научные работы по LLaMA 1 ^[30], Llama 2 ^[31], Llama 3 ^[32] помогут в понимании передовых открытых моделей. Если вас интересует именно эта категория LLM, можете также почитать про Mistral 7B ^[33], Mixtral ^[34] и Pixtral ^[35].
Статьи по DeepSeek V1 ^[36], Coder ^[37], MoE ^[38], V2 ^[39], V3 ^[40]. Передовая лаборатория открытых моделей.
Статья по Apple Intelligence ^[41]. Эта система теперь есть на всех Mac и iPhone.

Кроме того, можно и использовать другие LLM и учиться на них, это очень объемная тема.

В частности, недооцененными рабочими лошадками оказались модели семейства BERT: из этих постов о ModernBERT ^[42] и ColBERT ^[43] можно почерпнуть много полезного.
Еще несколько LLM, о которых стоит знать: AI2 (Olmo ^[44], Molmo ^[45], OlmOE ^[46], Tülu 3 ^[47], Olmo 2 ^[48]), Grok ^[49], Amazon Nova ^[50], Yi ^[51], Reka ^[52], Jamba ^[53], Cohere ^[54], Nemotron ^[55], Microsoft Phi ^[56], HuggingFace SmolLM ^[57]. В основном они ниже в рейтингах, научные статьи есть тоже не по всем.
Исследования, о которых следует знать: если вам позволяет время, рекомендуем прочесть литературу по законам масштабирования: Kaplan ^[58], Chinchilla ^[59], Emergence ^[60], Mirage ^[61], Post-Chinchilla ^[62].
В 2025 году в авангарде (o1, o3 ^[63], R1 ^[64], QwQ ^[65]/QVQ ^[66], f1 ^[67]) будут думающие модели (reasoning models). По ним еще нет научных статей, но базовые знания можно получить из работ Let’s Verify Step By Step ^[68] и STaR ^[69], а также докладов Ноама Брауна ^[70]. Наиболее практические знания аккумулируются сторонними исследователями ^[71]и в Твиттере.

Бенчмарки и тесты

MMLU ^[72] — ведущий бенчмарке общей эрудиции моделей, который стоит в одном ряду с GPQA ^[73] и BIG-Bench ^[74]. В 2025 году передовые лаборатории будут использовать MMLU Pro ^[75], GPQA Diamond ^[73] и BIG-Bench Hard ^[76].
MuSR ^[77] — датасет для оценки качества работы с долгим контекстом. Сравним с LongBench ^[78], BABILong ^[79] и RULER ^[80]. Работа будет полезна тем, кто интересуется проблемой Lost in the Middle ^[81] и другими проблемами, которые лечат с помощью метода Needle in a Haystack ^[82].
MATH ^[83]— компиляция задач с математических соревнований. Передовые лаборатории делают упор на FrontierMath ^[84] и сложные разделы MATH: MATH level 5, AIME ^[85], AMC10/AMC12 ^[86].
IFEval ^[87] — ведущий бенчмарк, проверяющий навык следования инструкциям, а также единственный внешний бенчмарк, принятый на вооружение Apple ^[88]. MT-Bench ^[89] тоже можно считать разновидностью IFEval.
Челлендж ARC AGI ^[90] — знаменитый бенчмарк для «IQ-теста» навыков к абстрактному рассуждению, который долгое время не теряет актуальности.

Многие из этих бенчмарков рассматриваются в статьях Benchmarks 101 ^[91] и Benchmarks 201 ^[92]. В статьях о Carlini ^[93], LMArena ^[94] и Braintrust ^[95] рассказывается о закрытых бенчмарках и бенчмарк-аренах (см. LLM-as-Judge ^[96] и эссе Applied LLM ^[97]). Если вы хотите разобраться в этой теме, советуем также побольше узнать о датасетах ^[98].

Промтинг, In-Context Learning и Chain of Thought

Выше мы уже упоминали статью о GPT3, ^[15] в которой рассматривается In-Context Learning (ICL) — концепция, близкая к промтингу. Для более полного понимания темы стоит также разобраться в инъекциях промтов ^[99] (например, о них писали Лилиан Венг ^[100] и Саймон Виллсон ^[101]).

The Prompt Report ^[102] — обзор научных статей о промтинге (здесь ^[103]можно послушать подкаст на эту тему).
Статья по Chain of thought ^[104] — одна из множества работ, популяризировавших этот метод, наряду со статьями по Scratchpads ^[105] и Let’s Think Step by Step ^[106].
Tree of Thought ^[107] — знакомство с lookahead и backtracking (подкаст на эту тему ^[108]).
Prompt Tuning ^[109] — возможно, вам не нужны промты; можно применять тюнинг префиксов ^[110], управление декодированием ^[111] (допустим, с помощью энтропии ^[112]) или инженерию представлений ^[113] (representation engineering).
Автоматический промтинг ^[114](automatic prompt engineering) — становится все очевиднее, что люди ужасно справляются с zero-shot prompting и что LLM могут улучшить самостоятельный промтинг. Самую любопытную реализацию такого подхода можно найти в исследовательской статье/фреймворке DSPy ^[115].

Чтение разрозненных статей из этого раздела может оказаться не таким полезным, как изучение практических руководств: мы рекомендуем работы Лилиан Венг ^[116], Юджина Яна ^[117], Anthropic’s Prompt Engineering Tutorial ^[118] и AI Engineer Workshop ^[119].

Генерация с дополненной выборкой (RAG)

Введение в информационный поиск ^[120] — немного несправедливо рекомендовать книгу, но мы хотим подчеркнуть, что RAG — это задача информационного поиска, история которого длится уже шестьдесят лет ^[121] и включает в себя TF-IDF ^[122], BM25 ^[123], FAISS ^[124], HNSW ^[125], а также другие «скучные» методики.
Публикация о RAG ^[126]за 2020 год — именно в ней впервые появился этот термин. Авторы оригинального исследования стали основателями Contextual и ввели в обиход подход RAG 2.0 ^[127]. Современные популярные техники для RAG — HyDE ^[128], chunking ^[129], rerankers ^[130], мультимодальные данные ^[131] — лучше сформулированы в других ^[132] источниках ^[133].
MTEB ^[134] — этот бенчмарк известен своим переобучением ^[135], поэтому его автор считает его неактуальным ^[136]. Тем не менее, де-факто он остается бенчмарком. О многих эмбеддингах существуют исследовательские статьи, так что можете выбирать сами: SentenceTransformers ^[137], OpenAI, Nomic Embed, Jina v3, cde-small-v1 ^[138], ModernBERT Embed ^[139]; все более стандартными становятся эмбеддинги Matryoshka ^[140].
Статья по GraphRAG ^[141] — решении Microsoft ^[142] по добавлению графов знаний в RAG, теперь выведенном в open source ^[143]. Один из самых популярных трендов в RAG ^[144] в 2024 году, наряду с ColBERT ^[145]/ColPali/ColQwen (подробнее об этом в разделе 7).
RAGAS ^[146] — простой фреймворке для оценки RAG, рекомендованный OpenAI ^[147]. Также см. фреймворк Nvidia FACTS ^[148]и Extrinsic Hallucinations in LLMs ^[149] — обзор причин/оценок галлюцинаций за авторством Лилиан Венг.

В 2024 году RAG стала одной из основных технологий в разработке ИИ, поэтому советуем изучить по ней как можно больше отраслевых ресурсов. Вероятно, наиболее ценными образовательными ресурсами будут LlamaIndex ^[150] (курс ^[151]) и LangChain ^[152] (видео ^[153]). Еще RAG часто сравнивают по эффективности с Long Context — вот неплохое исследование ^[154] на эту тему.

Агенты

Статья по SWE-Bench ^[155] (подкаст на эту тему ^[156]) — после того, как его начали использовать Anthropic ^[25], Devin и OpenAI ^[157], сегодня это, вероятно, самый высокорейтинговый бенчмарк агентов (по сравнению с WebArena ^[158] и SWE-Gym ^[159]). Строго говоря, это бенчмарк кодинга, но в большей степени тест агентов, чем сырых LLM. Также рекомендуем почитать про SWE-Agent ^[160], SWE-Bench Multimodal ^[161] и Konwinski Prize ^[162].
Статья по ReAct ^[163] (подкаст ^[108]) — ReAct стал началом длинной серии исследований LLM, использующих внешние инструменты и вызывающих функции, в том числе Gorilla ^[164] и BFCL Leaderboard ^[165]. Из исторического интереса ^[166] можно изучить Toolformer ^[167] и HuggingGPT ^[168].
MemGPT ^[169] — одна из примечательных методик эмуляции долговременной памяти ^[170] агентов, применяемая в ChatGPT ^[171] и LangGraph ^[172]. Сегодня ее используют для всех систем агентов: от MetaGPT ^[173] до AutoGen ^[174] и Smallville ^[175].
Voyager ^[176] — разработанный Nvidia способ реализации трех компонентов когнитивной архитектуры ^[177](curriculum, skill library, sandbox) для повышения производительности. Если хотите погрузиться в эту тему, рекомендуем также ознакомиться с работой Agent Workflow Memory ^[178].
Материал Anthropic ^[179] на тему создания эффективных агентов — отличный обзор за 2024 год с упором на важность chaining, маршрутизации, параллелизации, оркестрации, оценки и оптимизации. См. также статьи Лилиан Венг ^[180] (бывшей сотрудницы OpenAI), Сунью Яо ^[108] (теперь работающего в OpenAI) и Чипа Хуэна ^[181].

Генерация кода

The Stack ^[182]— открытый датасет-близнец The Pile с упором на код, с которого начинается родословная прекрасных открытых датасетов по генерации кода, таких как The Stack v2 ^[183] и StarCoder ^[184].
Работы по модели Open Code — можете выбирать между DeepSeek-Coder ^[37], Qwen2.5-Coder ^[185] и CodeLlama ^[186]. Многие считают лучшей моделью генерации кода 3.5 Sonnet ^[25], но по ней не выпускали научных работ.
HumanEval/Codex ^[16]— этот бенчмарк перестал быть вызовом для современных архитектур, но он остается ключевым для понимания принципов работы с моделями в области генерации кода. Сегодня в этой сфере более знаменит SWE-Bench, но он затратен и оценивает агентов, а не модели. Современные аналоги этого бенчмарка — Aider ^[187], Codeforces ^[188], BigCodeBench ^[189], LiveCodeBench ^[190] и SciCode ^[191].
Статья по AlphaCodeium ^[192]— Google выпустила AlphaCode ^[193] и AlphaCode2 ^[194] , хорошо справляющиеся с задачами программирования. Рассматриваемый в статье метод Flow Engineering позволяет существенно повысить эффективность любой базовой модели.
CriticGPT ^[195] — как известно ^[196], LLM способны генерировать код, имеющий проблемы с безопасностью. OpenAI обучила для их выявления CriticGPT, а Anthropic использует разреженные автоэнкодеры ^[197], чтобы отслеживать, почему LLM совершает такие ошибки ^[198].

Генерация кода — еще одна область, для понимания которой лучше погрузиться в практику, а не в теоретические исследования. Рекомендации по разработке генерации кода ^[199]и кодовых агентов наподобие Devin ^[200] можно найти только в отраслевых постах и докладах.

Компьютерное зрение

Работы по компьютерному зрению, не связанные с LLM, по-прежнему актуальны: здесь, например, следует ознакомиться с научной работой по YOLO ^[201] (теперь он имеет версию 11 ^[202], но его родословную ^[203] следует иметь в виду). При этом все более важную роль начинают играть трансформеры (наглядный пример — статья DETRs Beat YOLOs ^[204]).
Статья по CLIP ^[205] — первом успешном ViT ^[206]. На данный момент его вытеснили BLIP ^[207]/BLIP2 ^[208] и SigLIP/PaliGemma ^[209], но о нем все равно стоит знать.
Бенчмарк MMVP ^[210] (LS Live ^[211]) — выполняет количественную оценку важных проблем CLIP. Также обратите внимание на мультимодальные версии MMLU (MMMU ^[212]) и SWE-Benc ^[161].
Segment Anything Model ^[213]и статья по SAM 2 ^[214] — очень успешная фундаментальная модель сегментации изображений и видео. На одном уровне с GroundingDINO ^[215].
Исследования early fusion: в противовес работам по малозатратному «late fusion» наподобие LLaVA ^[216], early fusion охватывает Flamingo ^[217], Chameleon ^[218], AIMv2 ^[219] от Apple, Core ^[220] от Reka и так далее. На самом деле, существует как минимум четыре направления работ по визуальным языковым моделям ^[221] (VLM).

Подавляющее большинство передовых исследований VLM в наши дни не публикуется (из последнего были системная карта GPT4V ^[222]и сопутствующие исследования ^[223]). Мы рекомендуем иметь опыт ^[224] работы с функциями зрения 4o (в том числе с файнтюнингом зрения ^[225]этой модели), Claude 3.5 Sonnet/Haiku, Gemini 2.0 Flash и o1. Среди прочих: Pixtral ^[226], Llama 3.2 ^[227], Moondream ^[228], QVQ ^[229].

Голос

Статья по Whisper ^[230] — популярной модели Алека Рэдфорда по распознаванию речи. Whisper v2 ^[231], v3 ^[232], distil-whisper ^[233] и v3 Turbo ^[234] имеют открытые веса, но научных работ по ним не найти.
Статья по NaturalSpeech ^[235] — одному из ведущих подходов к преобразованию текста в речь. Недавно выпущена v3 ^[236].
AudioPaLM ^[237]— последний пример размышлений Google о голосовых технологиях до того, как PaLM превратился в Gemini.
Kyutai Moshi ^[238] — впечатляющая модель по преобразованию речи в текст (с открытыми весами и качественным демо ^[239]). Рекомендуем также почитать обзор Hume OCTAVE ^[240].
OpenAI Realtime API: The Missing Manual ^[241] — научных работ по передовой «омнимодели» нет, но зато вы можете ознакомиться с манулом по Realtime API ^[241], подготовленном Latent Space.

Здесь мы рекомендуем не ограничиваться изучением наработок крупных лабораторий и копнуть чуть глубже — попробуйте Daily, Livekit, Vapi, Assembly, Deepgram, Fireworks, Cartesia, Elevenlabs и так далее. Также почитайте обзор State of Voice 2024 ^[242].

Генерация изображений и видео

Работа по Latent Diffusion ^[243] — по сути, статья о Stable Diffusion. См. также статьи о SD2 ^[244], SDXL ^[245], SD3 ^[246] (сейчас многие из этих исследователей работают над BFL Flux ^[247]).
Статьи по DALL-E ^[248] / DALL-E-2 ^[249] / DALL-E-3 ^[250] — генеративная модель OpenAI.
Статьи по Imagen ^[251] / Imagen 2 ^[252] / Imagen 3 ^[253] — генеративная модель Google. Также можно заглянуть в этот тред про Ideogram ^[254].
Статья про Consistency Models ^[255] — эта работа в декабре 2023 года привлекла к себе немало внимания ^[256]. Сегодня она дополнена еще одним исследованием ^[257].
Обзор Sora ^[258] от OpenAI — нейросеть для преобразования текста в видео. Как обычно, никаких научных работ на эту тему, за исключением статьи о DiT ^[259](та же команда), но это все равно один из важнейших релизов года, имеющий множество конкурентов с открытыми весами ^[260] наподобие OpenSora ^[261] (обзор от Лилиан Венг ^[262]).

Также рекомендуем ознакомиться с ComfyUI (вот интервью с ее разработчиками ^[263]). Диффузия текстов ^[264]/музыки ^[265] и авторегрессивная генерация изображений пока остаются нишевыми, но постепенно набирают популярность.

Файнтюнинг

Статьи по LoRA ^[266] и QLoRA ^[267] — самом популярном способе бюджетного файнтюнинга моделей, как локальных, так и 4o (подтверждено в этом подкасте ^[268]). В образовательных целях также можно познакомиться с проектом FSDP+QLoRA ^[269].
Работа по прямой оптимизации предпочтений ^[270] (DPO) — популярная, но чуть более слабая альтернатива PPO ^[271], поддерживаемая OpenAI.
Статья по тонкой настройке представлений ^[272]— вместо тонкой настройки нескольких слоев упор делается на признаки.
Orca 3/AgentInstruct ^[273] — отличный способ получить данные для файнтюнинга (также рекомендуем этот подкаст ^[274]).
Работы по обучению ^[275] с подкреплением ^[276] (RL) и Reasoning Tuning — RL-файнтюнинг для o1 ^[277] пока находится на стадии обсуждения, но работа Let’s Verify Step By Step ^[68] и доклады Ноама Брауна ^[278] помогут вам разобраться в том, как он работает.

Мы рекомендуем изучить заметки по Unsloth ^[279]и статью How to fine-tune open LLM ^[280] от HuggingFace, чтобы получить более полное представление о процессе. Очевидно, что это бесконечно глубокая тема: файнтюнинг может быть как прикладной задачей для инженеров, так и переходить в научные исследования, где создаются новые подходы и методы.

С чего начать

Столь объемный список может выглядеть пугающе для новичка. Мы рекомендуем сконцентрироваться на разделах, которые представляют для вас наибольший интерес, и постараться придерживаться намеченного плана.

Можете выработать собственный подход к обучению или использовать руководство «Как читать научные публикации за час» ^[281]. Пару полезных советов на данную тему также есть в этом треде ^[282], а здесь ^[283]вы найдете дневник одного из читателей с полезными заметками по ключевым статьям из этой подборки. Если вы хотите заниматься изучением в компании единомышленников, можете также присоединиться к Discord-серверу Latent Space ^[284].

Вспомнили научную работу, которую обязательно стоило включить в этот список? Делитесь предложениями в комментариях!

Автор: full_moon

Источник ^[285]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/11506

URLs in this post:

[1] зрения: http://www.braintools.ru/article/6238

[2] Передовые LLM: #%D0%9F%D0%B5%D1%80%D0%B5%D0%B4%D0%BE%D0%B2%D1%8B%D0%B5%20LLM

[3] Бенчмарки и тесты: #%D0%91%D0%B5%D0%BD%D1%87%D0%BC%D0%B0%D1%80%D0%BA%D0%B8%20%D0%B8%20%D1%82%D0%B5%D1%81%D1%82%D1%8B

[4] Промтинг, In-Context Learning и Chain of Thought: #%D0%9F%D1%80%D0%BE%D0%BC%D1%82%D0%B8%D0%BD%D0%B3,%20In-Context%20Learning%20%D0%B8%20Chain%20of%20Thought

[5] Генерация с дополненной выборкой (RAG): #%D0%93%D0%B5%D0%BD%D0%B5%D1%80%D0%B0%D1%86%D0%B8%D1%8F%20%D1%81%20%D0%B4%D0%BE%D0%BF%D0%BE%D0%BB%D0%BD%D0%B5%D0%BD%D0%BD%D0%BE%D0%B9%20%D0%B2%D1%8B%D0%B1%D0%BE%D1%80%D0%BA%D0%BE%D0%B9%20(RAG)

[6] Агенты: #%D0%90%D0%B3%D0%B5%D0%BD%D1%82%D1%8B

[7] Генерация кода: #%D0%93%D0%B5%D0%BD%D0%B5%D1%80%D0%B0%D1%86%D0%B8%D1%8F%20%D0%BA%D0%BE%D0%B4%D0%B0

[8] Компьютерное зрение: #%D0%9A%D0%BE%D0%BC%D0%BF%D1%8C%D1%8E%D1%82%D0%B5%D1%80%D0%BD%D0%BE%D0%B5%20%D0%B7%D1%80%D0%B5%D0%BD%D0%B8%D0%B5

[9] Голос: #%D0%93%D0%BE%D0%BB%D0%BE%D1%81

[10] Генерация изображений и видео: #%D0%93%D0%B5%D0%BD%D0%B5%D1%80%D0%B0%D1%86%D0%B8%D1%8F%20%D0%B8%D0%B7%D0%BE%D0%B1%D1%80%D0%B0%D0%B6%D0%B5%D0%BD%D0%B8%D0%B9%20%D0%B8%20%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE

[11] Файнтюнинг: #%D0%A4%D0%B0%D0%B9%D0%BD%D1%82%D1%8E%D0%BD%D0%B8%D0%BD%D0%B3

[12] С чего начать: #%D0%A1%20%D1%87%D0%B5%D0%B3%D0%BE%20%D0%BD%D0%B0%D1%87%D0%B0%D1%82%D1%8C

[13] GPT1: https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf

[14] GPT2: https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf

[15] GPT3: https://arxiv.org/abs/2005.14165

[16] Codex: https://arxiv.org/abs/2107.03374

[17] InstructGPT: https://arxiv.org/abs/2203.02155

[18] GPT4: https://arxiv.org/abs/2303.08774

[19] GPT3.5: https://openai.com/index/chatgpt/

[20] 4o: https://openai.com/index/hello-gpt-4o/

[21] o1: https://openai.com/index/introducing-openai-o1-preview/

[22] o3: https://openai.com/index/deliberative-alignment/

[23] Claude 3: https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf

[24] Gemini 1: https://arxiv.org/abs/2312.11805

[25] Claude 3.5 Sonnet: https://www.latent.space/p/claude-sonnet

[26] Gemini 2.0 Flash: https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/#gemini-2-0-flash

[27] Flash Thinking: https://ai.google.dev/gemini-api/docs/thinking-mode

[28] внимание: http://www.braintools.ru/article/7595

[29] Gemma 2: https://arxiv.org/abs/2408.00118

[30] LLaMA 1: https://arxiv.org/abs/2302.13971

[31] Llama 2: https://arxiv.org/abs/2307.09288

[32] Llama 3: https://arxiv.org/abs/2407.21783

[33] Mistral 7B: https://arxiv.org/abs/2310.06825

[34] Mixtral: https://arxiv.org/abs/2401.04088

[35] Pixtral: https://arxiv.org/abs/2410.07073

[36] V1: https://arxiv.org/abs/2401.02954

[37] Coder: https://arxiv.org/abs/2401.14196

[38] MoE: https://arxiv.org/abs/2401.06066

[39] V2: https://arxiv.org/abs/2405.04434

[40] V3: https://github.com/deepseek-ai/DeepSeek-V3

[41] Apple Intelligence: https://arxiv.org/abs/2407.21075

[42] о ModernBERT: https://buttondown.com/ainews/archive/ainews-modernbert-small-new-retrieverclassifier/

[43] ColBERT: https://www.answer.ai/posts/colbert-pooling.html

[44] Olmo: https://arxiv.org/abs/2402.00838

[45] Molmo: https://arxiv.org/abs/2409.17146

[46] OlmOE: https://arxiv.org/abs/2409.02060

[47] Tülu 3: https://allenai.org/blog/tulu-3-technical

[48] Olmo 2: https://x.com/soldni/status/1875266934943649808?s=46

[49] Grok: https://github.com/xai-org/grok-1

[50] Amazon Nova: https://buttondown.com/ainews/archive/ainews-olympus-has-dropped-aka-amazon-nova/

[51] Yi: https://www.wired.com/story/chinese-startup-01-ai-is-winning-the-open-source-ai-race/

[52] Reka: https://www.latent.space/p/yitay

[53] Jamba: https://buttondown.com/ainews/archive/ainews-jamba-mixture-of-architectures-dethrones/

[54] Cohere: https://cohere.com/command

[55] Nemotron: https://buttondown.com/ainews/archive/ainews-to-be-named-2748/

[56] Microsoft Phi: https://arxiv.org/abs/2412.08905

[57] HuggingFace SmolLM: https://www.latent.space/p/2024-open-models

[58] Kaplan: http://arxiv.org/abs/2001.08361

[59] Chinchilla: https://arxiv.org/abs/2203.15556

[60] Emergence: https://arxiv.org/abs/2206.07682

[61] Mirage: https://arxiv.org/abs/2304.15004

[62] Post-Chinchilla: https://arxiv.org/abs/2401.00448

[63] o3: https://en.wikipedia.org/wiki/OpenAI_o3

[64] R1: https://api-docs.deepseek.com/news/news1120

[65] QwQ: https://qwenlm.github.io/blog/qwq-32b-preview/

[66] QVQ: https://qwenlm.github.io/blog/qvq-72b-preview/

[67] f1: https://fireworks.ai/blog/fireworks-compound-ai-system-f1

[68] Let’s Verify Step By Step: https://arxiv.org/abs/2305.20050

[69] STaR: https://arxiv.org/abs/2203.14465

[70] докладов Ноама Брауна: https://www.youtube.com/live/Gr_eYXdHFis

[71] сторонними исследователями : https://hn.algolia.com/?dateRange=all&page=0&prefix=false&query=o1&sort=byPopularity&type=story

[72] MMLU: https://arxiv.org/abs/2009.03300

[73] GPQA: https://arxiv.org/abs/2311.12022

[74] BIG-Bench: https://arxiv.org/abs/2206.04615

[75] MMLU Pro: https://arxiv.org/abs/2406.01574

[76] BIG-Bench Hard: https://arxiv.org/abs/2210.09261

[77] MuSR: https://arxiv.org/abs/2310.16049

[78] LongBench: https://arxiv.org/abs/2412.15204

[79] BABILong: https://arxiv.org/abs/2406.10149

[80] RULER: https://www.latent.space/p/gradient

[81] Lost in the Middle: https://arxiv.org/abs/2307.03172

[82] Needle in a Haystack: https://github.com/gkamradt/LLMTest_NeedleInAHaystack

[83] MATH : https://arxiv.org/abs/2103.03874

[84] FrontierMath: https://arxiv.org/abs/2411.04872

[85] AIME: https://www.kaggle.com/datasets/hemishveeraboina/aime-problem-set-1983-2024

[86] AMC10/AMC12: https://github.com/ryanrudes/amc

[87] IFEval: https://arxiv.org/abs/2311.07911

[88] принятый на вооружение Apple: https://machinelearning.apple.com/research/introducing-apple-foundation-models

[89] MT-Bench: https://arxiv.org/abs/2306.05685

[90] ARC AGI: https://arcprize.org/arc

[91] Benchmarks 101: https://www.latent.space/p/benchmarks-101

[92] Benchmarks 201: https://www.latent.space/p/benchmarks-201

[93] Carlini: https://www.latent.space/p/carlini

[94] LMArena: https://www.latent.space/p/lmarena

[95] Braintrust: https://www.latent.space/p/braintrust

[96] LLM-as-Judge: https://hamel.dev/blog/posts/llm-judge/

[97] эссе Applied LLM: https://applied-llms.org/#evaluation-monitoring

[98] датасетах: https://www.latent.space/p/datasets-101

[99] инъекциях промтов: https://www.latent.space/i/93381455/what-is-prompt-injection

[100] Лилиан Венг: https://lilianweng.github.io/posts/2023-10-25-adv-attack-llm/

[101] Саймон Виллсон: https://simonwillison.net/series/prompt-injection/

[102] The Prompt Report: https://arxiv.org/abs/2406.06608

[103] здесь : https://www.latent.space/p/learn-prompting

[104] Chain of thought: https://arxiv.org/abs/2201.11903

[105] Scratchpads: https://arxiv.org/abs/2112.00114

[106] Let’s Think Step by Step: https://arxiv.org/abs/2205.11916

[107] Tree of Thought: https://arxiv.org/abs/2305.10601

[108] подкаст на эту тему: https://www.latent.space/p/shunyu

[109] Prompt Tuning: https://aclanthology.org/2021.emnlp-main.243/

[110] тюнинг префиксов: https://arxiv.org/abs/2101.00190

[111] управление декодированием: https://arxiv.org/abs/2402.10200

[112] с помощью энтропии: https://github.com/xjdr-alt/entropix

[113] инженерию представлений: https://vgel.me/posts/representation-engineering/

[114] Автоматический промтинг : https://arxiv.org/abs/2211.01910

[115] DSPy: https://arxiv.org/abs/2310.03714

[116] Лилиан Венг: https://lilianweng.github.io/posts/2023-03-15-prompt-engineering/

[117] Юджина Яна: https://eugeneyan.com/writing/prompting/

[118] Anthropic’s Prompt Engineering Tutorial: https://github.com/anthropics/prompt-eng-interactive-tutorial

[119] AI Engineer Workshop: https://www.youtube.com/watch?v=hkhDdcM5V94

[120] Введение в информационный поиск: https://nlp.stanford.edu/IR-book/information-retrieval-book.html

[121] длится уже шестьдесят лет: https://en.wikipedia.org/wiki/Information_retrieval#History

[122] TF-IDF: https://en.wikipedia.org/wiki/Tf%E2%80%93idf

[123] BM25: https://en.wikipedia.org/wiki/Okapi_BM25

[124] FAISS: https://github.com/facebookresearch/faiss

[125] HNSW: https://arxiv.org/abs/1603.09320

[126] Публикация о RAG : https://arxiv.org/abs/2005.11401

[127] подход RAG 2.0: https://contextual.ai/introducing-rag2/

[128] HyDE: https://docs.llamaindex.ai/en/stable/optimizing/advanced_retrieval/query_transformations/

[129] chunking: https://research.trychroma.com/evaluating-chunking

[130] rerankers: https://cohere.com/blog/rerank-3pt5

[131] мультимодальные данные: https://www.youtube.com/watch?v=i2vBaFzCEJw

[132] в других: https://www.youtube.com/watch?v=FDEmbYPgG-s

[133] источниках: https://www.youtube.com/watch?v=DId2KP8Ykz4

[134] MTEB: https://arxiv.org/abs/2210.07316

[135] известен своим переобучением: https://news.ycombinator.com/item?id=42504379

[136] его неактуальным: https://x.com/Nils_Reimers/status/1870812625505849849

[137] SentenceTransformers: https://huggingface.co/sentence-transformers/all-MiniLM-L6-v2

[138] OpenAI, Nomic Embed, Jina v3, cde-small-v1: https://www.youtube.com/watch?v=VIqXNRsRRQo

[139] ModernBERT Embed: https://x.com/zach_nussbaum/status/1873813021786767699?s=46&t=tMWvmS3OL3Ssg0b9lKvp4Q

[140] эмбеддинги Matryoshka: https://huggingface.co/blog/matryoshka

[141] GraphRAG: https://arxiv.org/pdf/2404.16130

[142] Microsoft: https://www.microsoft.com/en-us/research/blog/graphrag-unlocking-llm-discovery-on-narrative-private-data/?utm_source=ainews&utm_medium=email&utm_campaign=ainews-graphrag

[143] в open source: https://buttondown.com/ainews/archive/ainews-graphrag/

[144] самых популярных трендов в RAG: https://www.youtube.com/watch?v=knDDGYHnnSI

[145] ColBERT: https://github.com/stanford-futuredata/ColBERT

[146] RAGAS: https://arxiv.org/abs/2309.15217

[147] рекомендованный OpenAI: https://x.com/swyx/status/1724490887147978793

[148] фреймворк Nvidia FACTS : https://arxiv.org/abs/2407.07858v1

[149] Extrinsic Hallucinations in LLMs: https://lilianweng.github.io/posts/2024-07-07-hallucination/

[150] LlamaIndex: https://docs.llamaindex.ai/en/stable/understanding/rag/

[151] курс: https://www.deeplearning.ai/short-courses/building-evaluating-advanced-rag/

[152] LangChain: https://python.langchain.com/docs/tutorials/rag/

[153] видео: https://www.youtube.com/watch?v=wd7TZ4w1mSw

[154] вот неплохое исследование: https://arxiv.org/abs/2407.16833

[155] SWE-Bench: https://arxiv.org/abs/2310.06770

[156] подкаст на эту тему: https://www.latent.space/p/iclr-2024-benchmarks-agents?utm_source=publication-search#%C2%A7section-b-benchmarks

[157] OpenAI: https://openai.com/index/introducing-swe-bench-verified/

[158] WebArena: https://github.com/web-arena-x/webarena

[159] SWE-Gym: https://x.com/jiayi_pirate/status/1871249410128322856

[160] SWE-Agent: https://arxiv.org/abs/2405.15793

[161] SWE-Bench Multimodal: https://arxiv.org/abs/2410.03859

[162] Konwinski Prize: https://kprize.ai/

[163] ReAct: https://arxiv.org/abs/2210.03629

[164] Gorilla: https://gorilla.cs.berkeley.edu/

[165] BFCL Leaderboard: https://gorilla.cs.berkeley.edu/leaderboard.html

[166] интереса: http://www.braintools.ru/article/4220

[167] Toolformer: https://arxiv.org/abs/2302.04761

[168] HuggingGPT: https://arxiv.org/abs/2303.17580

[169] MemGPT: https://arxiv.org/abs/2310.08560

[170] долговременной памяти: http://www.braintools.ru/article/9500

[171] ChatGPT: https://openai.com/index/memory-and-new-controls-for-chatgpt/

[172] LangGraph: https://langchain-ai.github.io/langgraph/concepts/memory/#episodic-memory

[173] MetaGPT: https://arxiv.org/abs/2308.00352

[174] AutoGen: https://arxiv.org/abs/2308.08155

[175] Smallville: https://github.com/joonspk-research/generative_agents

[176] Voyager: https://arxiv.org/abs/2305.16291

[177] когнитивной архитектуры : https://arxiv.org/abs/2309.02427

[178] Agent Workflow Memory: https://arxiv.org/abs/2409.07429

[179] Материал Anthropic: https://www.anthropic.com/research/building-effective-agents

[180] Лилиан Венг: https://lilianweng.github.io/posts/2023-06-23-agent/

[181] Чипа Хуэна: https://huyenchip.com//2025/01/07/agents.html

[182] The Stack : https://arxiv.org/abs/2211.15533

[183] The Stack v2: https://huggingface.co/datasets/bigcode/the-stack-v2

[184] StarCoder: https://arxiv.org/abs/2402.19173

[185] Qwen2.5-Coder: https://arxiv.org/abs/2409.12186

[186] CodeLlama: https://ai.meta.com/research/publications/code-llama-open-foundation-models-for-code/

[187] Aider: https://aider.chat/docs/leaderboards/

[188] Codeforces: https://arxiv.org/abs/2312.02143

[189] BigCodeBench: https://huggingface.co/spaces/bigcode/bigcodebench-leaderboard

[190] LiveCodeBench: https://livecodebench.github.io/

[191] SciCode: https://buttondown.com/ainews/archive/ainews-to-be-named-5745/

[192] AlphaCodeium : https://arxiv.org/abs/2401.08500

[193] AlphaCode: https://news.ycombinator.com/item?id=34020025

[194] AlphaCode2: https://x.com/RemiLeblond/status/1732419456272318614

[195] CriticGPT: https://criticgpt.org/criticgpt-openai/

[196] как известно: https://arxiv.org/abs/2412.15004v1

[197] разреженные автоэнкодеры: https://transformer-circuits.pub/2024/scaling-monosemanticity/index.html#safety-relevant-code

[198] ошибки: http://www.braintools.ru/article/4192

[199] Рекомендации по разработке генерации кода : https://www.youtube.com/watch?v=Ve-akpov78Q

[200] кодовых агентов наподобие Devin: https://www.youtube.com/watch?v=T7NWjoD_OuY&t=8s

[201] YOLO: https://arxiv.org/abs/1506.02640

[202] имеет версию 11: https://github.com/ultralytics/ultralytics

[203] его родословную: https://news.ycombinator.com/item?id=42352342

[204] DETRs Beat YOLOs: https://arxiv.org/abs/2304.08069

[205] CLIP: https://arxiv.org/abs/2103.00020

[206] ViT: https://arxiv.org/abs/2010.11929

[207] BLIP: https://arxiv.org/abs/2201.12086

[208] BLIP2: https://arxiv.org/abs/2301.12597

[209] SigLIP/PaliGemma: https://www.latent.space/i/152857207/part-vision

[210] MMVP: https://arxiv.org/abs/2401.06209

[211] LS Live: https://www.latent.space/p/2024-vision

[212] MMMU: https://arxiv.org/abs/2311.16502

[213] Segment Anything Model : https://arxiv.org/abs/2304.02643

[214] SAM 2: https://arxiv.org/abs/2408.00714

[215] GroundingDINO: https://github.com/IDEA-Research/GroundingDINO

[216] LLaVA: https://arxiv.org/abs/2304.08485

[217] Flamingo: https://huyenchip.com/2023/10/10/multimodal.html

[218] Chameleon: https://arxiv.org/abs/2405.09818

[219] AIMv2: https://arxiv.org/abs/2411.14402

[220] Core: https://arxiv.org/abs/2404.12387

[221] как минимум четыре направления работ по визуальным языковым моделям: https://lilianweng.github.io/posts/2022-06-09-vlm/

[222] системная карта GPT4V : https://cdn.openai.com/papers/GPTV_System_Card.pdf

[223] сопутствующие исследования: https://arxiv.org/abs/2309.17421

[224] опыт: http://www.braintools.ru/article/6952

[225] файнтюнингом зрения : https://blog.roboflow.com/gpt-4o-object-detection/

[226] Pixtral: https://mistral.ai/news/pixtral-large/

[227] Llama 3.2: https://buttondown.com/ainews/archive/ainews-llama-32-on-device-1b3b-and-multimodal/

[228] Moondream: https://www.youtube.com/watch?v=T7sxvrJLJ14

[229] QVQ: https://news.ycombinator.com/item?id=42505038

[230] Whisper: https://arxiv.org/abs/2212.04356

[231] v2: https://news.ycombinator.com/item?id=33884716

[232] v3: https://news.ycombinator.com/item?id=38166965

[233] distil-whisper: https://github.com/huggingface/distil-whisper

[234] v3 Turbo: https://amgadhasan.substack.com/p/demystifying-openais-new-whisper

[235] NaturalSpeech: https://arxiv.org/abs/2205.04421?utm_source=chatgpt.com

[236] v3: https://arxiv.org/abs/2403.03100

[237] AudioPaLM : https://arxiv.org/abs/2306.12925

[238] Kyutai Moshi: http://moshi/

[239] качественным демо: https://www.youtube.com/watch?v=hm2IJSKcYvo

[240] обзор Hume OCTAVE: https://www.hume.ai/blog/introducing-octave

[241] OpenAI Realtime API: The Missing Manual: https://www.latent.space/p/realtime-api

[242] State of Voice 2024: https://www.cartesia.ai/blog/state-of-voice-ai-2024

[243] Latent Diffusion: https://arxiv.org/abs/2112.10752

[244] SD2: https://stability.ai/news/stable-diffusion-v2-release

[245] SDXL: https://arxiv.org/abs/2307.01952

[246] SD3: https://arxiv.org/abs/2403.03206

[247] BFL Flux: https://github.com/black-forest-labs/flux

[248] DALL-E: https://arxiv.org/abs/2102.12092

[249] DALL-E-2: https://arxiv.org/abs/2204.06125

[250] DALL-E-3: https://cdn.openai.com/papers/dall-e-3.pdf

[251] Imagen: https://arxiv.org/abs/2205.11487

[252] Imagen 2: https://deepmind.google/technologies/imagen-2/

[253] Imagen 3: https://arxiv.org/abs/2408.07009

[254] этот тред про Ideogram: https://www.reddit.com/r/singularity/comments/1exsq4d/introducing_ideogram_20_our_most_advanced/

[255] Consistency Models: https://arxiv.org/abs/2303.01469

[256] привлекла к себе немало внимания: https://www.latent.space/p/tldraw

[257] еще одним исследованием: https://arxiv.org/abs/2410.11081

[258] Sora: https://openai.com/index/sora/

[259] статьи о DiT : https://arxiv.org/abs/2212.09748

[260] конкурентов с открытыми весами: https://artificialanalysis.ai/text-to-video/arena?tab=Leaderboard

[261] OpenSora: https://arxiv.org/abs/2412.00131

[262] обзор от Лилиан Венг: https://lilianweng.github.io/posts/2024-04-12-diffusion-video/%D1%81

[263] интервью с ее разработчиками: https://www.latent.space/p/comfyui

[264] Диффузия текстов: https://www.youtube.com/watch?v=1mG678f1ZYU&pp=ygUOdGV4dCBkaWZmdXNpb24%3D

[265] музыки: https://arxiv.org/abs/2302.03917

[266] LoRA: https://arxiv.org/abs/2106.09685

[267] QLoRA: http://arxiv.org/abs/2305.14314

[268] подтверждено в этом подкасте: https://www.latent.space/p/cosine

[269] FSDP+QLoRA: https://www.answer.ai/posts/2024-03-06-fsdp-qlora.html

[270] прямой оптимизации предпочтений: https://arxiv.org/abs/2305.18290

[271] PPO: https://arxiv.org/abs/1707.06347

[272] тонкой настройке представлений : https://arxiv.org/abs/2404.03592

[273] Orca 3/AgentInstruct: https://www.microsoft.com/en-us/research/blog/orca-agentinstruct-agentic-flows-can-be-effective-synthetic-data-generators/

[274] этот подкаст: https://www.latent.space/p/2024-syndata-smolmodels

[275] обучению: http://www.braintools.ru/article/5125

[276] подкреплением: http://www.braintools.ru/article/5528

[277] RL-файнтюнинг для o1: https://www.interconnects.ai/p/openais-reinforcement-finetuning

[278] доклады Ноама Брауна: https://x.com/swyx/status/1867990396762243324

[279] заметки по Unsloth : https://github.com/unslothai/unsloth

[280] How to fine-tune open LLM: https://www.philschmid.de/fine-tune-llms-in-2025

[281] «Как читать научные публикации за час»: https://www.latent.space/i/152108729/how-to-read-papers-in-an-hour

[282] в этом треде: https://x.com/swyx/status/1875606586569453592

[283] здесь : https://niels-ole.com/2025/01/05/notes-on-the-2025-ai-engineer-reading-list

[284] Discord-серверу Latent Space: https://discord.com/invite/xJJMRaWCRt

[285] Источник: https://habr.com/ru/companies/magnus-tech/articles/867762/?utm_source=habrahabr&utm_medium=rss&utm_campaign=867762

Нажмите здесь для печати.