- BrainTools - https://www.braintools.ru -

50 исследований на тему нейросетей, которые помогут вам стать ИИ-инженером от бога

50 исследований на тему нейросетей, которые помогут вам стать ИИ-инженером от бога - 1

В этом дайджесте мы собрали 50 знаковых научных работ в области ИИ за последние годы. Подборка охватывает десять ключевых направлений разработки нейросетей: от промтинга и проектирования бенчмарков до файнтюнинга и компьютерного зрения [1]

Материал будет полезен как для опытных ИИ-инженеров, которые хотят прокачать свои навыки разработки, так и тем, кто только начинает свое знакомство с нейросетями и находится в поисках точки входа в ту или иную тему.

Оглавление

Передовые LLM

  1. Научные статьи по GPT1 [13], GPT2 [14], GPT3 [15], Codex [16], InstructGPT [17] и GPT4 [18] от разработчиков из OpenAI. Здесь вряд ли нужны дополнительные пояснения. По GPT3.5 [19], 4o [20], o1 [21] и o3 [22] вместо таких статей компания выпускала уже презентации и системные карты.

  2. Статьи по Claude 3 [23] и Gemini 1 [24], чтобы понять, что под капотом у конкурентов OpenAI. Последние версии — это Claude 3.5 Sonnet [25] и Gemini 2.0 Flash [26]/Flash Thinking [27]. Также обратите внимание [28] на работу по Gemma 2 [29].

  3. Научные работы по LLaMA 1 [30], Llama 2 [31], Llama 3 [32] помогут в понимании передовых открытых моделей. Если вас интересует именно эта категория LLM, можете также почитать про Mistral 7B [33], Mixtral [34] и Pixtral [35]

  4. Статьи по DeepSeek V1 [36], Coder [37], MoE [38], V2 [39], V3 [40]. Передовая лаборатория открытых моделей.

  5. Статья по Apple Intelligence [41]. Эта система теперь есть на всех Mac и iPhone.

Кроме того, можно и использовать другие LLM и учиться на них, это очень объемная тема.

  • В частности, недооцененными рабочими лошадками оказались модели семейства BERT: из этих постов о ModernBERT [42] и ColBERT [43] можно почерпнуть много полезного.

  • Еще несколько LLM, о которых стоит знать: AI2 (Olmo [44], Molmo [45], OlmOE [46], Tülu 3 [47], Olmo 2 [48]), Grok [49], Amazon Nova [50], Yi [51], Reka [52], Jamba [53], Cohere [54], Nemotron [55], Microsoft Phi [56], HuggingFace SmolLM [57]. В основном они ниже в рейтингах, научные статьи есть тоже не по всем. 

  • Исследования, о которых следует знать: если вам позволяет время, рекомендуем прочесть литературу по законам масштабирования: Kaplan [58], Chinchilla [59], Emergence [60], Mirage [61], Post-Chinchilla [62].

  • В 2025 году в авангарде (o1, o3 [63], R1 [64], QwQ [65]/QVQ [66], f1 [67]) будут думающие модели (reasoning models). По ним еще нет научных статей, но базовые знания можно получить из работ Let’s Verify Step By Step [68] и STaR [69], а также докладов Ноама Брауна [70]. Наиболее практические знания аккумулируются сторонними исследователями [71]и в Твиттере.

Бенчмарки и тесты

  1. MMLU [72] — ведущий бенчмарке общей эрудиции моделей, который стоит в одном ряду с GPQA [73] и BIG-Bench [74]. В 2025 году передовые лаборатории будут использовать MMLU Pro [75], GPQA Diamond [73] и BIG-Bench Hard [76].

  2. MuSR [77] — датасет для оценки качества работы с долгим контекстом. Сравним с LongBench [78], BABILong [79] и RULER [80]. Работа будет полезна тем, кто интересуется проблемой Lost in the Middle [81] и другими проблемами, которые лечат с помощью метода Needle in a Haystack [82].

  3. MATH [83]— компиляция задач с математических соревнований. Передовые лаборатории делают упор на FrontierMath [84] и сложные разделы MATH: MATH level 5, AIME [85], AMC10/AMC12 [86].

  4. IFEval [87] — ведущий бенчмарк, проверяющий навык следования инструкциям, а также единственный внешний бенчмарк, принятый на вооружение Apple [88]. MT-Bench [89] тоже можно считать разновидностью IFEval.

  5. Челлендж ARC AGI [90] — знаменитый бенчмарк для «IQ-теста» навыков к абстрактному рассуждению, который долгое время не теряет актуальности.

Многие из этих бенчмарков рассматриваются в статьях Benchmarks 101 [91] и Benchmarks 201 [92]. В статьях о Carlini [93], LMArena [94] и Braintrust [95] рассказывается о закрытых бенчмарках и бенчмарк-аренах (см. LLM-as-Judge [96] и эссе Applied LLM [97]). Если вы хотите разобраться в этой теме, советуем также побольше узнать о датасетах [98].

Промтинг, In-Context Learning и Chain of Thought

Выше мы уже упоминали статью о GPT3, [15] в которой рассматривается In-Context Learning (ICL) — концепция, близкая к промтингу. Для более полного понимания темы стоит также разобраться в инъекциях промтов [99] (например, о них писали Лилиан Венг [100] и Саймон Виллсон [101]).

  1. The Prompt Report [102] — обзор научных статей о промтинге (здесь [103]можно послушать подкаст на эту тему).

  2. Статья по Chain of thought [104] — одна из множества работ, популяризировавших этот метод, наряду со статьями по Scratchpads [105] и Let’s Think Step by Step [106].

  3. Tree of Thought [107] — знакомство с lookahead и backtracking (подкаст на эту тему [108]).

  4. Prompt Tuning [109] — возможно, вам не нужны промты; можно применять тюнинг префиксов [110], управление декодированием [111] (допустим, с помощью энтропии [112]) или инженерию представлений [113] (representation engineering).

  5. Автоматический промтинг [114](automatic prompt engineering) — становится все очевиднее, что люди ужасно справляются с zero-shot prompting и что LLM могут улучшить самостоятельный промтинг. Самую любопытную реализацию такого подхода можно найти в исследовательской статье/фреймворке DSPy [115].

Чтение разрозненных статей из этого раздела может оказаться не таким полезным, как изучение практических руководств: мы рекомендуем работы Лилиан Венг [116], Юджина Яна [117], Anthropic’s Prompt Engineering Tutorial [118] и AI Engineer Workshop [119].

Генерация с дополненной выборкой (RAG)

  1. Введение в информационный поиск [120] — немного несправедливо рекомендовать книгу, но мы хотим подчеркнуть, что RAG — это задача информационного поиска, история которого длится уже шестьдесят лет [121] и включает в себя TF-IDF [122], BM25 [123], FAISS [124], HNSW [125], а также другие «скучные» методики.

  2. Публикация о RAG [126]за 2020 год — именно в ней впервые появился этот термин. Авторы оригинального исследования стали основателями Contextual и ввели в обиход подход RAG 2.0 [127]. Современные популярные техники для RAG — HyDE [128], chunking [129], rerankers [130], мультимодальные данные [131] — лучше сформулированы в других [132] источниках [133].

  3. MTEB [134] — этот бенчмарк известен своим переобучением [135], поэтому его автор считает его неактуальным [136]. Тем не менее, де-факто он остается бенчмарком. О многих эмбеддингах существуют исследовательские статьи, так что можете выбирать сами: SentenceTransformers [137], OpenAI, Nomic Embed, Jina v3, cde-small-v1 [138], ModernBERT Embed [139]; все более стандартными становятся эмбеддинги Matryoshka [140].

  4. Статья по GraphRAG [141] — решении Microsoft [142] по добавлению графов знаний в RAG, теперь выведенном в open source [143]. Один из самых популярных трендов в RAG [144] в 2024 году, наряду с ColBERT [145]/ColPali/ColQwen (подробнее об этом в разделе 7).

  5. RAGAS [146] — простой фреймворке для оценки RAG, рекомендованный OpenAI [147]. Также см. фреймворк Nvidia FACTS [148]и Extrinsic Hallucinations in LLMs [149] — обзор причин/оценок галлюцинаций за авторством Лилиан Венг.

В 2024 году RAG стала одной из основных технологий в разработке ИИ, поэтому советуем изучить по ней как можно больше отраслевых ресурсов. Вероятно, наиболее ценными образовательными ресурсами будут LlamaIndex [150] (курс [151]) и LangChain [152] (видео [153]). Еще RAG часто сравнивают по эффективности с Long Context — вот неплохое исследование [154] на эту тему.

Агенты

  1. Статья по SWE-Bench [155] (подкаст на эту тему [156]) — после того, как его начали использовать Anthropic [25], Devin и OpenAI [157], сегодня это, вероятно, самый высокорейтинговый бенчмарк агентов (по сравнению с WebArena [158] и SWE-Gym [159]). Строго говоря, это бенчмарк кодинга, но в большей степени тест агентов, чем сырых LLM. Также рекомендуем почитать про SWE-Agent [160], SWE-Bench Multimodal [161] и Konwinski Prize [162].

  2. Статья по ReAct [163] (подкаст [108]) — ReAct стал началом длинной серии исследований LLM, использующих внешние инструменты и вызывающих функции, в том числе Gorilla [164] и BFCL Leaderboard [165]. Из исторического интереса [166] можно изучить Toolformer [167] и HuggingGPT [168].

  3. MemGPT [169] — одна из примечательных методик эмуляции долговременной памяти [170] агентов, применяемая в ChatGPT [171] и LangGraph [172]. Сегодня ее используют для всех систем агентов: от MetaGPT [173] до AutoGen [174] и Smallville [175].

  4. Voyager [176] — разработанный Nvidia способ реализации трех компонентов когнитивной архитектуры [177](curriculum, skill library, sandbox) для повышения производительности. Если хотите погрузиться в эту тему, рекомендуем также ознакомиться с работой Agent Workflow Memory [178].

  5. Материал Anthropic [179] на тему создания эффективных агентов — отличный обзор за 2024 год с упором на важность chaining, маршрутизации, параллелизации, оркестрации, оценки и оптимизации. См. также статьи Лилиан Венг [180] (бывшей сотрудницы OpenAI), Сунью Яо [108] (теперь работающего в OpenAI) и Чипа Хуэна [181].

Генерация кода

  1. The Stack [182]— открытый датасет-близнец The Pile с упором на код, с которого начинается родословная прекрасных открытых датасетов по генерации кода, таких как The Stack v2 [183] и StarCoder [184].

  2. Работы по модели Open Code — можете выбирать между DeepSeek-Coder [37], Qwen2.5-Coder [185] и CodeLlama [186]. Многие считают лучшей моделью генерации кода 3.5 Sonnet [25], но по ней не выпускали научных работ.

  3. HumanEval/Codex [16]— этот бенчмарк перестал быть вызовом для современных архитектур, но он остается ключевым для понимания принципов работы с моделями в области генерации кода. Сегодня в этой сфере более знаменит SWE-Bench, но он затратен и оценивает агентов, а не модели. Современные аналоги этого бенчмарка — Aider [187], Codeforces [188], BigCodeBench [189], LiveCodeBench [190] и SciCode [191].

  4. Статья по AlphaCodeium [192]— Google выпустила AlphaCode [193] и AlphaCode2 [194] , хорошо справляющиеся с задачами программирования. Рассматриваемый в статье метод Flow Engineering позволяет существенно повысить эффективность любой базовой модели.

  5. CriticGPT [195] как известно [196], LLM способны генерировать код, имеющий проблемы с безопасностью. OpenAI обучила для их выявления CriticGPT, а Anthropic использует разреженные автоэнкодеры [197], чтобы отслеживать, почему LLM совершает такие ошибки [198].

Генерация кода — еще одна область, для понимания которой лучше погрузиться в практику, а не в теоретические исследования. Рекомендации по разработке генерации кода [199]и кодовых агентов наподобие Devin [200] можно найти только в отраслевых постах и докладах.

Компьютерное зрение

  • Работы по компьютерному зрению, не связанные с LLM, по-прежнему актуальны: здесь, например, следует ознакомиться с научной работой по YOLO [201] (теперь он имеет версию 11 [202], но его родословную [203] следует иметь в виду). При этом все более важную роль начинают играть трансформеры (наглядный пример — статья DETRs Beat YOLOs [204]).

  • Статья по CLIP [205] — первом успешном ViT [206]. На данный момент его вытеснили BLIP [207]/BLIP2 [208] и SigLIP/PaliGemma [209], но о нем все равно стоит знать.

  • Бенчмарк MMVP [210] (LS Live [211]) — выполняет количественную оценку важных проблем CLIP. Также обратите внимание на мультимодальные версии MMLU (MMMU [212]) и SWE-Benc [161].

  • Segment Anything Model [213]и статья по SAM 2 [214] — очень успешная фундаментальная модель сегментации изображений и видео. На одном уровне с GroundingDINO [215].

  • Исследования early fusion: в противовес работам по малозатратному «late fusion» наподобие LLaVA [216], early fusion охватывает Flamingo [217], Chameleon [218], AIMv2 [219] от Apple, Core [220] от Reka и так далее. На самом деле, существует как минимум четыре направления работ по визуальным языковым моделям [221] (VLM).

Подавляющее большинство передовых исследований VLM в наши дни не публикуется (из последнего были системная карта GPT4V [222]и сопутствующие исследования [223]). Мы рекомендуем иметь опыт [224] работы с функциями зрения 4o (в том числе с файнтюнингом зрения [225]этой модели), Claude 3.5 Sonnet/Haiku, Gemini 2.0 Flash и o1. Среди прочих: Pixtral [226], Llama 3.2 [227], Moondream [228], QVQ [229].

Голос

  • Статья по Whisper [230] — популярной модели Алека Рэдфорда по распознаванию речи. Whisper v2 [231], v3 [232], distil-whisper [233] и v3 Turbo [234] имеют открытые веса, но научных работ по ним не найти.

  • Статья по NaturalSpeech [235] — одному из ведущих подходов к преобразованию текста в речь. Недавно выпущена v3 [236].

  • AudioPaLM [237]— последний пример размышлений Google о голосовых технологиях до того, как PaLM превратился в Gemini. 

  • Kyutai Moshi [238] — впечатляющая модель по преобразованию речи в текст (с открытыми весами и качественным демо [239]). Рекомендуем также почитать обзор Hume OCTAVE [240].

  • OpenAI Realtime API: The Missing Manual [241] — научных работ по передовой «омнимодели» нет, но зато вы можете ознакомиться с манулом по Realtime API [241], подготовленном Latent Space.

Здесь мы рекомендуем не ограничиваться изучением наработок крупных лабораторий и копнуть чуть глубже — попробуйте Daily, Livekit, Vapi, Assembly, Deepgram, Fireworks, Cartesia, Elevenlabs и так далее. Также почитайте обзор State of Voice 2024 [242].

Генерация изображений и видео

Также рекомендуем ознакомиться с ComfyUI (вот интервью с ее разработчиками [263]). Диффузия текстов [264]/музыки [265] и авторегрессивная генерация изображений пока остаются нишевыми, но постепенно набирают популярность.

Файнтюнинг

Мы рекомендуем изучить заметки по Unsloth [279]и статью How to fine-tune open LLM [280] от HuggingFace, чтобы получить более полное представление о процессе. Очевидно, что это бесконечно глубокая тема: файнтюнинг может быть как прикладной задачей для инженеров, так и переходить в научные исследования, где создаются новые подходы и методы.


С чего начать

Столь объемный список может выглядеть пугающе для новичка. Мы рекомендуем сконцентрироваться на разделах, которые представляют для вас наибольший интерес, и постараться придерживаться намеченного плана. 

Можете выработать собственный подход к обучению или использовать руководство «Как читать научные публикации за час» [281]. Пару полезных советов на данную тему также есть в этом треде [282], а здесь [283]вы найдете дневник одного из читателей с полезными заметками по ключевым статьям из этой подборки. Если вы хотите заниматься изучением в компании единомышленников, можете также присоединиться к Discord-серверу Latent Space [284]

Вспомнили научную работу, которую обязательно стоило включить в этот список? Делитесь предложениями в комментариях! 

Автор: full_moon

Источник [285]


Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/11506

URLs in this post:

[1] зрения: http://www.braintools.ru/article/6238

[2] Передовые LLM: #%D0%9F%D0%B5%D1%80%D0%B5%D0%B4%D0%BE%D0%B2%D1%8B%D0%B5%20LLM

[3] Бенчмарки и тесты: #%D0%91%D0%B5%D0%BD%D1%87%D0%BC%D0%B0%D1%80%D0%BA%D0%B8%20%D0%B8%20%D1%82%D0%B5%D1%81%D1%82%D1%8B

[4] Промтинг, In-Context Learning и Chain of Thought: #%D0%9F%D1%80%D0%BE%D0%BC%D1%82%D0%B8%D0%BD%D0%B3,%20In-Context%20Learning%20%D0%B8%20Chain%20of%20Thought

[5] Генерация с дополненной выборкой (RAG): #%D0%93%D0%B5%D0%BD%D0%B5%D1%80%D0%B0%D1%86%D0%B8%D1%8F%20%D1%81%20%D0%B4%D0%BE%D0%BF%D0%BE%D0%BB%D0%BD%D0%B5%D0%BD%D0%BD%D0%BE%D0%B9%20%D0%B2%D1%8B%D0%B1%D0%BE%D1%80%D0%BA%D0%BE%D0%B9%20(RAG)

[6] Агенты: #%D0%90%D0%B3%D0%B5%D0%BD%D1%82%D1%8B

[7] Генерация кода: #%D0%93%D0%B5%D0%BD%D0%B5%D1%80%D0%B0%D1%86%D0%B8%D1%8F%20%D0%BA%D0%BE%D0%B4%D0%B0

[8] Компьютерное зрение: #%D0%9A%D0%BE%D0%BC%D0%BF%D1%8C%D1%8E%D1%82%D0%B5%D1%80%D0%BD%D0%BE%D0%B5%20%D0%B7%D1%80%D0%B5%D0%BD%D0%B8%D0%B5

[9] Голос: #%D0%93%D0%BE%D0%BB%D0%BE%D1%81

[10] Генерация изображений и видео: #%D0%93%D0%B5%D0%BD%D0%B5%D1%80%D0%B0%D1%86%D0%B8%D1%8F%20%D0%B8%D0%B7%D0%BE%D0%B1%D1%80%D0%B0%D0%B6%D0%B5%D0%BD%D0%B8%D0%B9%20%D0%B8%20%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE

[11] Файнтюнинг: #%D0%A4%D0%B0%D0%B9%D0%BD%D1%82%D1%8E%D0%BD%D0%B8%D0%BD%D0%B3

[12] С чего начать: #%D0%A1%20%D1%87%D0%B5%D0%B3%D0%BE%20%D0%BD%D0%B0%D1%87%D0%B0%D1%82%D1%8C

[13] GPT1: https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf

[14] GPT2: https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf

[15] GPT3: https://arxiv.org/abs/2005.14165

[16] Codex: https://arxiv.org/abs/2107.03374

[17] InstructGPT: https://arxiv.org/abs/2203.02155

[18] GPT4: https://arxiv.org/abs/2303.08774

[19] GPT3.5: https://openai.com/index/chatgpt/

[20] 4o: https://openai.com/index/hello-gpt-4o/

[21] o1: https://openai.com/index/introducing-openai-o1-preview/

[22] o3: https://openai.com/index/deliberative-alignment/

[23] Claude 3: https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf

[24] Gemini 1: https://arxiv.org/abs/2312.11805

[25] Claude 3.5 Sonnet: https://www.latent.space/p/claude-sonnet

[26] Gemini 2.0 Flash: https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/#gemini-2-0-flash

[27] Flash Thinking: https://ai.google.dev/gemini-api/docs/thinking-mode

[28] внимание: http://www.braintools.ru/article/7595

[29] Gemma 2: https://arxiv.org/abs/2408.00118

[30] LLaMA 1: https://arxiv.org/abs/2302.13971

[31] Llama 2: https://arxiv.org/abs/2307.09288

[32] Llama 3: https://arxiv.org/abs/2407.21783

[33] Mistral 7B: https://arxiv.org/abs/2310.06825

[34] Mixtral: https://arxiv.org/abs/2401.04088

[35] Pixtral: https://arxiv.org/abs/2410.07073

[36] V1: https://arxiv.org/abs/2401.02954

[37] Coder: https://arxiv.org/abs/2401.14196

[38] MoE: https://arxiv.org/abs/2401.06066

[39] V2: https://arxiv.org/abs/2405.04434

[40] V3: https://github.com/deepseek-ai/DeepSeek-V3

[41] Apple Intelligence: https://arxiv.org/abs/2407.21075

[42] о ModernBERT: https://buttondown.com/ainews/archive/ainews-modernbert-small-new-retrieverclassifier/

[43] ColBERT: https://www.answer.ai/posts/colbert-pooling.html

[44] Olmo: https://arxiv.org/abs/2402.00838

[45] Molmo: https://arxiv.org/abs/2409.17146

[46] OlmOE: https://arxiv.org/abs/2409.02060

[47] Tülu 3: https://allenai.org/blog/tulu-3-technical

[48] Olmo 2: https://x.com/soldni/status/1875266934943649808?s=46

[49] Grok: https://github.com/xai-org/grok-1

[50] Amazon Nova: https://buttondown.com/ainews/archive/ainews-olympus-has-dropped-aka-amazon-nova/

[51] Yi: https://www.wired.com/story/chinese-startup-01-ai-is-winning-the-open-source-ai-race/

[52] Reka: https://www.latent.space/p/yitay

[53] Jamba: https://buttondown.com/ainews/archive/ainews-jamba-mixture-of-architectures-dethrones/

[54] Cohere: https://cohere.com/command

[55] Nemotron: https://buttondown.com/ainews/archive/ainews-to-be-named-2748/

[56] Microsoft Phi: https://arxiv.org/abs/2412.08905

[57] HuggingFace SmolLM: https://www.latent.space/p/2024-open-models

[58] Kaplan: http://arxiv.org/abs/2001.08361

[59] Chinchilla: https://arxiv.org/abs/2203.15556

[60] Emergence: https://arxiv.org/abs/2206.07682

[61] Mirage: https://arxiv.org/abs/2304.15004

[62] Post-Chinchilla: https://arxiv.org/abs/2401.00448

[63] o3: https://en.wikipedia.org/wiki/OpenAI_o3

[64] R1: https://api-docs.deepseek.com/news/news1120

[65] QwQ: https://qwenlm.github.io/blog/qwq-32b-preview/

[66] QVQ: https://qwenlm.github.io/blog/qvq-72b-preview/

[67] f1: https://fireworks.ai/blog/fireworks-compound-ai-system-f1

[68] Let’s Verify Step By Step: https://arxiv.org/abs/2305.20050

[69] STaR: https://arxiv.org/abs/2203.14465

[70] докладов Ноама Брауна: https://www.youtube.com/live/Gr_eYXdHFis

[71] сторонними исследователями : https://hn.algolia.com/?dateRange=all&page=0&prefix=false&query=o1&sort=byPopularity&type=story

[72] MMLU: https://arxiv.org/abs/2009.03300

[73] GPQA: https://arxiv.org/abs/2311.12022

[74] BIG-Bench: https://arxiv.org/abs/2206.04615

[75] MMLU Pro: https://arxiv.org/abs/2406.01574

[76] BIG-Bench Hard: https://arxiv.org/abs/2210.09261

[77] MuSR: https://arxiv.org/abs/2310.16049

[78] LongBench: https://arxiv.org/abs/2412.15204

[79] BABILong: https://arxiv.org/abs/2406.10149

[80] RULER: https://www.latent.space/p/gradient

[81] Lost in the Middle: https://arxiv.org/abs/2307.03172

[82] Needle in a Haystack: https://github.com/gkamradt/LLMTest_NeedleInAHaystack

[83] MATH : https://arxiv.org/abs/2103.03874

[84] FrontierMath: https://arxiv.org/abs/2411.04872

[85] AIME: https://www.kaggle.com/datasets/hemishveeraboina/aime-problem-set-1983-2024

[86] AMC10/AMC12: https://github.com/ryanrudes/amc

[87] IFEval: https://arxiv.org/abs/2311.07911

[88] принятый на вооружение Apple: https://machinelearning.apple.com/research/introducing-apple-foundation-models

[89] MT-Bench: https://arxiv.org/abs/2306.05685

[90] ARC AGI: https://arcprize.org/arc

[91] Benchmarks 101: https://www.latent.space/p/benchmarks-101

[92] Benchmarks 201: https://www.latent.space/p/benchmarks-201

[93] Carlini: https://www.latent.space/p/carlini

[94] LMArena: https://www.latent.space/p/lmarena

[95] Braintrust: https://www.latent.space/p/braintrust

[96] LLM-as-Judge: https://hamel.dev/blog/posts/llm-judge/

[97] эссе Applied LLM: https://applied-llms.org/#evaluation-monitoring

[98] датасетах: https://www.latent.space/p/datasets-101

[99] инъекциях промтов: https://www.latent.space/i/93381455/what-is-prompt-injection

[100] Лилиан Венг: https://lilianweng.github.io/posts/2023-10-25-adv-attack-llm/

[101] Саймон Виллсон: https://simonwillison.net/series/prompt-injection/

[102] The Prompt Report: https://arxiv.org/abs/2406.06608

[103] здесь : https://www.latent.space/p/learn-prompting

[104] Chain of thought: https://arxiv.org/abs/2201.11903

[105] Scratchpads: https://arxiv.org/abs/2112.00114

[106] Let’s Think Step by Step: https://arxiv.org/abs/2205.11916

[107] Tree of Thought: https://arxiv.org/abs/2305.10601

[108] подкаст на эту тему: https://www.latent.space/p/shunyu

[109] Prompt Tuning: https://aclanthology.org/2021.emnlp-main.243/

[110] тюнинг префиксов: https://arxiv.org/abs/2101.00190

[111] управление декодированием: https://arxiv.org/abs/2402.10200

[112] с помощью энтропии: https://github.com/xjdr-alt/entropix

[113] инженерию представлений: https://vgel.me/posts/representation-engineering/

[114] Автоматический промтинг : https://arxiv.org/abs/2211.01910

[115] DSPy: https://arxiv.org/abs/2310.03714

[116] Лилиан Венг: https://lilianweng.github.io/posts/2023-03-15-prompt-engineering/

[117] Юджина Яна: https://eugeneyan.com/writing/prompting/

[118] Anthropic’s Prompt Engineering Tutorial: https://github.com/anthropics/prompt-eng-interactive-tutorial

[119] AI Engineer Workshop: https://www.youtube.com/watch?v=hkhDdcM5V94

[120] Введение в информационный поиск: https://nlp.stanford.edu/IR-book/information-retrieval-book.html

[121] длится уже шестьдесят лет: https://en.wikipedia.org/wiki/Information_retrieval#History

[122] TF-IDF: https://en.wikipedia.org/wiki/Tf%E2%80%93idf

[123] BM25: https://en.wikipedia.org/wiki/Okapi_BM25

[124] FAISS: https://github.com/facebookresearch/faiss

[125] HNSW: https://arxiv.org/abs/1603.09320

[126] Публикация о RAG : https://arxiv.org/abs/2005.11401

[127] подход RAG 2.0: https://contextual.ai/introducing-rag2/

[128] HyDE: https://docs.llamaindex.ai/en/stable/optimizing/advanced_retrieval/query_transformations/

[129] chunking: https://research.trychroma.com/evaluating-chunking

[130] rerankers: https://cohere.com/blog/rerank-3pt5

[131] мультимодальные данные: https://www.youtube.com/watch?v=i2vBaFzCEJw

[132] в других: https://www.youtube.com/watch?v=FDEmbYPgG-s

[133] источниках: https://www.youtube.com/watch?v=DId2KP8Ykz4

[134] MTEB: https://arxiv.org/abs/2210.07316

[135] известен своим переобучением: https://news.ycombinator.com/item?id=42504379

[136] его неактуальным: https://x.com/Nils_Reimers/status/1870812625505849849

[137] SentenceTransformers: https://huggingface.co/sentence-transformers/all-MiniLM-L6-v2

[138] OpenAI, Nomic Embed, Jina v3, cde-small-v1: https://www.youtube.com/watch?v=VIqXNRsRRQo

[139] ModernBERT Embed: https://x.com/zach_nussbaum/status/1873813021786767699?s=46&t=tMWvmS3OL3Ssg0b9lKvp4Q

[140] эмбеддинги Matryoshka: https://huggingface.co/blog/matryoshka

[141] GraphRAG: https://arxiv.org/pdf/2404.16130

[142] Microsoft: https://www.microsoft.com/en-us/research/blog/graphrag-unlocking-llm-discovery-on-narrative-private-data/?utm_source=ainews&utm_medium=email&utm_campaign=ainews-graphrag

[143] в open source: https://buttondown.com/ainews/archive/ainews-graphrag/

[144] самых популярных трендов в RAG: https://www.youtube.com/watch?v=knDDGYHnnSI

[145] ColBERT: https://github.com/stanford-futuredata/ColBERT

[146] RAGAS: https://arxiv.org/abs/2309.15217

[147] рекомендованный OpenAI: https://x.com/swyx/status/1724490887147978793

[148] фреймворк Nvidia FACTS : https://arxiv.org/abs/2407.07858v1

[149] Extrinsic Hallucinations in LLMs: https://lilianweng.github.io/posts/2024-07-07-hallucination/

[150] LlamaIndex: https://docs.llamaindex.ai/en/stable/understanding/rag/

[151] курс: https://www.deeplearning.ai/short-courses/building-evaluating-advanced-rag/

[152] LangChain: https://python.langchain.com/docs/tutorials/rag/

[153] видео: https://www.youtube.com/watch?v=wd7TZ4w1mSw

[154] вот неплохое исследование: https://arxiv.org/abs/2407.16833

[155] SWE-Bench: https://arxiv.org/abs/2310.06770

[156] подкаст на эту тему: https://www.latent.space/p/iclr-2024-benchmarks-agents?utm_source=publication-search#%C2%A7section-b-benchmarks

[157] OpenAI: https://openai.com/index/introducing-swe-bench-verified/

[158] WebArena: https://github.com/web-arena-x/webarena

[159] SWE-Gym: https://x.com/jiayi_pirate/status/1871249410128322856

[160] SWE-Agent: https://arxiv.org/abs/2405.15793

[161] SWE-Bench Multimodal: https://arxiv.org/abs/2410.03859

[162] Konwinski Prize: https://kprize.ai/

[163] ReAct: https://arxiv.org/abs/2210.03629

[164] Gorilla: https://gorilla.cs.berkeley.edu/

[165] BFCL Leaderboard: https://gorilla.cs.berkeley.edu/leaderboard.html

[166] интереса: http://www.braintools.ru/article/4220

[167] Toolformer: https://arxiv.org/abs/2302.04761

[168] HuggingGPT: https://arxiv.org/abs/2303.17580

[169] MemGPT: https://arxiv.org/abs/2310.08560

[170] долговременной памяти: http://www.braintools.ru/article/9500

[171] ChatGPT: https://openai.com/index/memory-and-new-controls-for-chatgpt/

[172] LangGraph: https://langchain-ai.github.io/langgraph/concepts/memory/#episodic-memory

[173] MetaGPT: https://arxiv.org/abs/2308.00352

[174] AutoGen: https://arxiv.org/abs/2308.08155

[175] Smallville: https://github.com/joonspk-research/generative_agents

[176] Voyager: https://arxiv.org/abs/2305.16291

[177] когнитивной архитектуры : https://arxiv.org/abs/2309.02427

[178] Agent Workflow Memory: https://arxiv.org/abs/2409.07429

[179] Материал Anthropic: https://www.anthropic.com/research/building-effective-agents

[180] Лилиан Венг: https://lilianweng.github.io/posts/2023-06-23-agent/

[181] Чипа Хуэна: https://huyenchip.com//2025/01/07/agents.html

[182] The Stack : https://arxiv.org/abs/2211.15533

[183] The Stack v2: https://huggingface.co/datasets/bigcode/the-stack-v2

[184] StarCoder: https://arxiv.org/abs/2402.19173

[185] Qwen2.5-Coder: https://arxiv.org/abs/2409.12186

[186] CodeLlama: https://ai.meta.com/research/publications/code-llama-open-foundation-models-for-code/

[187] Aider: https://aider.chat/docs/leaderboards/

[188] Codeforces: https://arxiv.org/abs/2312.02143

[189] BigCodeBench: https://huggingface.co/spaces/bigcode/bigcodebench-leaderboard

[190] LiveCodeBench: https://livecodebench.github.io/

[191] SciCode: https://buttondown.com/ainews/archive/ainews-to-be-named-5745/

[192] AlphaCodeium : https://arxiv.org/abs/2401.08500

[193] AlphaCode: https://news.ycombinator.com/item?id=34020025

[194] AlphaCode2: https://x.com/RemiLeblond/status/1732419456272318614

[195] CriticGPT: https://criticgpt.org/criticgpt-openai/

[196] как известно: https://arxiv.org/abs/2412.15004v1

[197] разреженные автоэнкодеры: https://transformer-circuits.pub/2024/scaling-monosemanticity/index.html#safety-relevant-code

[198] ошибки: http://www.braintools.ru/article/4192

[199] Рекомендации по разработке генерации кода : https://www.youtube.com/watch?v=Ve-akpov78Q

[200] кодовых агентов наподобие Devin: https://www.youtube.com/watch?v=T7NWjoD_OuY&t=8s

[201] YOLO: https://arxiv.org/abs/1506.02640

[202] имеет версию 11: https://github.com/ultralytics/ultralytics

[203] его родословную: https://news.ycombinator.com/item?id=42352342

[204] DETRs Beat YOLOs: https://arxiv.org/abs/2304.08069

[205] CLIP: https://arxiv.org/abs/2103.00020

[206] ViT: https://arxiv.org/abs/2010.11929

[207] BLIP: https://arxiv.org/abs/2201.12086

[208] BLIP2: https://arxiv.org/abs/2301.12597

[209] SigLIP/PaliGemma: https://www.latent.space/i/152857207/part-vision

[210] MMVP: https://arxiv.org/abs/2401.06209

[211] LS Live: https://www.latent.space/p/2024-vision

[212] MMMU: https://arxiv.org/abs/2311.16502

[213] Segment Anything Model : https://arxiv.org/abs/2304.02643

[214] SAM 2: https://arxiv.org/abs/2408.00714

[215] GroundingDINO: https://github.com/IDEA-Research/GroundingDINO

[216] LLaVA: https://arxiv.org/abs/2304.08485

[217] Flamingo: https://huyenchip.com/2023/10/10/multimodal.html

[218] Chameleon: https://arxiv.org/abs/2405.09818

[219] AIMv2: https://arxiv.org/abs/2411.14402

[220] Core: https://arxiv.org/abs/2404.12387

[221] как минимум четыре направления работ по визуальным языковым моделям: https://lilianweng.github.io/posts/2022-06-09-vlm/

[222] системная карта GPT4V : https://cdn.openai.com/papers/GPTV_System_Card.pdf

[223] сопутствующие исследования: https://arxiv.org/abs/2309.17421

[224] опыт: http://www.braintools.ru/article/6952

[225] файнтюнингом зрения : https://blog.roboflow.com/gpt-4o-object-detection/

[226] Pixtral: https://mistral.ai/news/pixtral-large/

[227] Llama 3.2: https://buttondown.com/ainews/archive/ainews-llama-32-on-device-1b3b-and-multimodal/

[228] Moondream: https://www.youtube.com/watch?v=T7sxvrJLJ14

[229] QVQ: https://news.ycombinator.com/item?id=42505038

[230] Whisper: https://arxiv.org/abs/2212.04356

[231] v2: https://news.ycombinator.com/item?id=33884716

[232] v3: https://news.ycombinator.com/item?id=38166965

[233] distil-whisper: https://github.com/huggingface/distil-whisper

[234] v3 Turbo: https://amgadhasan.substack.com/p/demystifying-openais-new-whisper

[235] NaturalSpeech: https://arxiv.org/abs/2205.04421?utm_source=chatgpt.com

[236] v3: https://arxiv.org/abs/2403.03100

[237] AudioPaLM : https://arxiv.org/abs/2306.12925

[238] Kyutai Moshi: http://moshi/

[239] качественным демо: https://www.youtube.com/watch?v=hm2IJSKcYvo

[240] обзор Hume OCTAVE: https://www.hume.ai/blog/introducing-octave

[241] OpenAI Realtime API: The Missing Manual: https://www.latent.space/p/realtime-api

[242] State of Voice 2024: https://www.cartesia.ai/blog/state-of-voice-ai-2024

[243] Latent Diffusion: https://arxiv.org/abs/2112.10752

[244] SD2: https://stability.ai/news/stable-diffusion-v2-release

[245] SDXL: https://arxiv.org/abs/2307.01952

[246] SD3: https://arxiv.org/abs/2403.03206

[247] BFL Flux: https://github.com/black-forest-labs/flux

[248] DALL-E: https://arxiv.org/abs/2102.12092

[249] DALL-E-2: https://arxiv.org/abs/2204.06125

[250] DALL-E-3: https://cdn.openai.com/papers/dall-e-3.pdf

[251] Imagen: https://arxiv.org/abs/2205.11487

[252] Imagen 2: https://deepmind.google/technologies/imagen-2/

[253] Imagen 3: https://arxiv.org/abs/2408.07009

[254] этот тред про Ideogram: https://www.reddit.com/r/singularity/comments/1exsq4d/introducing_ideogram_20_our_most_advanced/

[255] Consistency Models: https://arxiv.org/abs/2303.01469

[256] привлекла к себе немало внимания: https://www.latent.space/p/tldraw

[257] еще одним исследованием: https://arxiv.org/abs/2410.11081

[258] Sora: https://openai.com/index/sora/

[259] статьи о DiT : https://arxiv.org/abs/2212.09748

[260] конкурентов с открытыми весами: https://artificialanalysis.ai/text-to-video/arena?tab=Leaderboard

[261] OpenSora: https://arxiv.org/abs/2412.00131

[262] обзор от Лилиан Венг: https://lilianweng.github.io/posts/2024-04-12-diffusion-video/%D1%81

[263] интервью с ее разработчиками: https://www.latent.space/p/comfyui

[264] Диффузия текстов: https://www.youtube.com/watch?v=1mG678f1ZYU&pp=ygUOdGV4dCBkaWZmdXNpb24%3D

[265] музыки: https://arxiv.org/abs/2302.03917

[266] LoRA: https://arxiv.org/abs/2106.09685

[267] QLoRA: http://arxiv.org/abs/2305.14314

[268] подтверждено в этом подкасте: https://www.latent.space/p/cosine

[269] FSDP+QLoRA: https://www.answer.ai/posts/2024-03-06-fsdp-qlora.html

[270] прямой оптимизации предпочтений: https://arxiv.org/abs/2305.18290

[271] PPO: https://arxiv.org/abs/1707.06347

[272] тонкой настройке представлений : https://arxiv.org/abs/2404.03592

[273] Orca 3/AgentInstruct: https://www.microsoft.com/en-us/research/blog/orca-agentinstruct-agentic-flows-can-be-effective-synthetic-data-generators/

[274] этот подкаст: https://www.latent.space/p/2024-syndata-smolmodels

[275] обучению: http://www.braintools.ru/article/5125

[276] подкреплением: http://www.braintools.ru/article/5528

[277] RL-файнтюнинг для o1: https://www.interconnects.ai/p/openais-reinforcement-finetuning

[278] доклады Ноама Брауна: https://x.com/swyx/status/1867990396762243324

[279] заметки по Unsloth : https://github.com/unslothai/unsloth

[280] How to fine-tune open LLM: https://www.philschmid.de/fine-tune-llms-in-2025

[281] «Как читать научные публикации за час»: https://www.latent.space/i/152108729/how-to-read-papers-in-an-hour

[282] в этом треде: https://x.com/swyx/status/1875606586569453592

[283] здесь : https://niels-ole.com/2025/01/05/notes-on-the-2025-ai-engineer-reading-list

[284] Discord-серверу Latent Space: https://discord.com/invite/xJJMRaWCRt

[285] Источник: https://habr.com/ru/companies/magnus-tech/articles/867762/?utm_source=habrahabr&utm_medium=rss&utm_campaign=867762

www.BrainTools.ru

Rambler's Top100