- BrainTools - https://www.braintools.ru -

В этом дайджесте мы собрали 50 знаковых научных работ в области ИИ за последние годы. Подборка охватывает десять ключевых направлений разработки нейросетей: от промтинга и проектирования бенчмарков до файнтюнинга и компьютерного зрения [1].
Материал будет полезен как для опытных ИИ-инженеров, которые хотят прокачать свои навыки разработки, так и тем, кто только начинает свое знакомство с нейросетями и находится в поисках точки входа в ту или иную тему.
Передовые LLM [2]
Агенты [6]
Генерация кода [7]
Голос [9]
Файнтюнинг [11]
С чего начать [12]
Научные статьи по GPT1 [13], GPT2 [14], GPT3 [15], Codex [16], InstructGPT [17] и GPT4 [18] от разработчиков из OpenAI. Здесь вряд ли нужны дополнительные пояснения. По GPT3.5 [19], 4o [20], o1 [21] и o3 [22] вместо таких статей компания выпускала уже презентации и системные карты.
Статьи по Claude 3 [23] и Gemini 1 [24], чтобы понять, что под капотом у конкурентов OpenAI. Последние версии — это Claude 3.5 Sonnet [25] и Gemini 2.0 Flash [26]/Flash Thinking [27]. Также обратите внимание [28] на работу по Gemma 2 [29].
Научные работы по LLaMA 1 [30], Llama 2 [31], Llama 3 [32] помогут в понимании передовых открытых моделей. Если вас интересует именно эта категория LLM, можете также почитать про Mistral 7B [33], Mixtral [34] и Pixtral [35].
Статьи по DeepSeek V1 [36], Coder [37], MoE [38], V2 [39], V3 [40]. Передовая лаборатория открытых моделей.
Статья по Apple Intelligence [41]. Эта система теперь есть на всех Mac и iPhone.
Кроме того, можно и использовать другие LLM и учиться на них, это очень объемная тема.
В частности, недооцененными рабочими лошадками оказались модели семейства BERT: из этих постов о ModernBERT [42] и ColBERT [43] можно почерпнуть много полезного.
Еще несколько LLM, о которых стоит знать: AI2 (Olmo [44], Molmo [45], OlmOE [46], Tülu 3 [47], Olmo 2 [48]), Grok [49], Amazon Nova [50], Yi [51], Reka [52], Jamba [53], Cohere [54], Nemotron [55], Microsoft Phi [56], HuggingFace SmolLM [57]. В основном они ниже в рейтингах, научные статьи есть тоже не по всем.
Исследования, о которых следует знать: если вам позволяет время, рекомендуем прочесть литературу по законам масштабирования: Kaplan [58], Chinchilla [59], Emergence [60], Mirage [61], Post-Chinchilla [62].
В 2025 году в авангарде (o1, o3 [63], R1 [64], QwQ [65]/QVQ [66], f1 [67]) будут думающие модели (reasoning models). По ним еще нет научных статей, но базовые знания можно получить из работ Let’s Verify Step By Step [68] и STaR [69], а также докладов Ноама Брауна [70]. Наиболее практические знания аккумулируются сторонними исследователями [71]и в Твиттере.
MMLU [72] — ведущий бенчмарке общей эрудиции моделей, который стоит в одном ряду с GPQA [73] и BIG-Bench [74]. В 2025 году передовые лаборатории будут использовать MMLU Pro [75], GPQA Diamond [73] и BIG-Bench Hard [76].
MuSR [77] — датасет для оценки качества работы с долгим контекстом. Сравним с LongBench [78], BABILong [79] и RULER [80]. Работа будет полезна тем, кто интересуется проблемой Lost in the Middle [81] и другими проблемами, которые лечат с помощью метода Needle in a Haystack [82].
MATH [83]— компиляция задач с математических соревнований. Передовые лаборатории делают упор на FrontierMath [84] и сложные разделы MATH: MATH level 5, AIME [85], AMC10/AMC12 [86].
IFEval [87] — ведущий бенчмарк, проверяющий навык следования инструкциям, а также единственный внешний бенчмарк, принятый на вооружение Apple [88]. MT-Bench [89] тоже можно считать разновидностью IFEval.
Челлендж ARC AGI [90] — знаменитый бенчмарк для «IQ-теста» навыков к абстрактному рассуждению, который долгое время не теряет актуальности.
Многие из этих бенчмарков рассматриваются в статьях Benchmarks 101 [91] и Benchmarks 201 [92]. В статьях о Carlini [93], LMArena [94] и Braintrust [95] рассказывается о закрытых бенчмарках и бенчмарк-аренах (см. LLM-as-Judge [96] и эссе Applied LLM [97]). Если вы хотите разобраться в этой теме, советуем также побольше узнать о датасетах [98].
Выше мы уже упоминали статью о GPT3, [15] в которой рассматривается In-Context Learning (ICL) — концепция, близкая к промтингу. Для более полного понимания темы стоит также разобраться в инъекциях промтов [99] (например, о них писали Лилиан Венг [100] и Саймон Виллсон [101]).
The Prompt Report [102] — обзор научных статей о промтинге (здесь [103]можно послушать подкаст на эту тему).
Статья по Chain of thought [104] — одна из множества работ, популяризировавших этот метод, наряду со статьями по Scratchpads [105] и Let’s Think Step by Step [106].
Tree of Thought [107] — знакомство с lookahead и backtracking (подкаст на эту тему [108]).
Prompt Tuning [109] — возможно, вам не нужны промты; можно применять тюнинг префиксов [110], управление декодированием [111] (допустим, с помощью энтропии [112]) или инженерию представлений [113] (representation engineering).
Автоматический промтинг [114](automatic prompt engineering) — становится все очевиднее, что люди ужасно справляются с zero-shot prompting и что LLM могут улучшить самостоятельный промтинг. Самую любопытную реализацию такого подхода можно найти в исследовательской статье/фреймворке DSPy [115].
Чтение разрозненных статей из этого раздела может оказаться не таким полезным, как изучение практических руководств: мы рекомендуем работы Лилиан Венг [116], Юджина Яна [117], Anthropic’s Prompt Engineering Tutorial [118] и AI Engineer Workshop [119].
Введение в информационный поиск [120] — немного несправедливо рекомендовать книгу, но мы хотим подчеркнуть, что RAG — это задача информационного поиска, история которого длится уже шестьдесят лет [121] и включает в себя TF-IDF [122], BM25 [123], FAISS [124], HNSW [125], а также другие «скучные» методики.
Публикация о RAG [126]за 2020 год — именно в ней впервые появился этот термин. Авторы оригинального исследования стали основателями Contextual и ввели в обиход подход RAG 2.0 [127]. Современные популярные техники для RAG — HyDE [128], chunking [129], rerankers [130], мультимодальные данные [131] — лучше сформулированы в других [132] источниках [133].
MTEB [134] — этот бенчмарк известен своим переобучением [135], поэтому его автор считает его неактуальным [136]. Тем не менее, де-факто он остается бенчмарком. О многих эмбеддингах существуют исследовательские статьи, так что можете выбирать сами: SentenceTransformers [137], OpenAI, Nomic Embed, Jina v3, cde-small-v1 [138], ModernBERT Embed [139]; все более стандартными становятся эмбеддинги Matryoshka [140].
Статья по GraphRAG [141] — решении Microsoft [142] по добавлению графов знаний в RAG, теперь выведенном в open source [143]. Один из самых популярных трендов в RAG [144] в 2024 году, наряду с ColBERT [145]/ColPali/ColQwen (подробнее об этом в разделе 7).
RAGAS [146] — простой фреймворке для оценки RAG, рекомендованный OpenAI [147]. Также см. фреймворк Nvidia FACTS [148]и Extrinsic Hallucinations in LLMs [149] — обзор причин/оценок галлюцинаций за авторством Лилиан Венг.
В 2024 году RAG стала одной из основных технологий в разработке ИИ, поэтому советуем изучить по ней как можно больше отраслевых ресурсов. Вероятно, наиболее ценными образовательными ресурсами будут LlamaIndex [150] (курс [151]) и LangChain [152] (видео [153]). Еще RAG часто сравнивают по эффективности с Long Context — вот неплохое исследование [154] на эту тему.
Статья по SWE-Bench [155] (подкаст на эту тему [156]) — после того, как его начали использовать Anthropic [25], Devin и OpenAI [157], сегодня это, вероятно, самый высокорейтинговый бенчмарк агентов (по сравнению с WebArena [158] и SWE-Gym [159]). Строго говоря, это бенчмарк кодинга, но в большей степени тест агентов, чем сырых LLM. Также рекомендуем почитать про SWE-Agent [160], SWE-Bench Multimodal [161] и Konwinski Prize [162].
Статья по ReAct [163] (подкаст [108]) — ReAct стал началом длинной серии исследований LLM, использующих внешние инструменты и вызывающих функции, в том числе Gorilla [164] и BFCL Leaderboard [165]. Из исторического интереса [166] можно изучить Toolformer [167] и HuggingGPT [168].
MemGPT [169] — одна из примечательных методик эмуляции долговременной памяти [170] агентов, применяемая в ChatGPT [171] и LangGraph [172]. Сегодня ее используют для всех систем агентов: от MetaGPT [173] до AutoGen [174] и Smallville [175].
Voyager [176] — разработанный Nvidia способ реализации трех компонентов когнитивной архитектуры [177](curriculum, skill library, sandbox) для повышения производительности. Если хотите погрузиться в эту тему, рекомендуем также ознакомиться с работой Agent Workflow Memory [178].
Материал Anthropic [179] на тему создания эффективных агентов — отличный обзор за 2024 год с упором на важность chaining, маршрутизации, параллелизации, оркестрации, оценки и оптимизации. См. также статьи Лилиан Венг [180] (бывшей сотрудницы OpenAI), Сунью Яо [108] (теперь работающего в OpenAI) и Чипа Хуэна [181].
The Stack [182]— открытый датасет-близнец The Pile с упором на код, с которого начинается родословная прекрасных открытых датасетов по генерации кода, таких как The Stack v2 [183] и StarCoder [184].
Работы по модели Open Code — можете выбирать между DeepSeek-Coder [37], Qwen2.5-Coder [185] и CodeLlama [186]. Многие считают лучшей моделью генерации кода 3.5 Sonnet [25], но по ней не выпускали научных работ.
HumanEval/Codex [16]— этот бенчмарк перестал быть вызовом для современных архитектур, но он остается ключевым для понимания принципов работы с моделями в области генерации кода. Сегодня в этой сфере более знаменит SWE-Bench, но он затратен и оценивает агентов, а не модели. Современные аналоги этого бенчмарка — Aider [187], Codeforces [188], BigCodeBench [189], LiveCodeBench [190] и SciCode [191].
Статья по AlphaCodeium [192]— Google выпустила AlphaCode [193] и AlphaCode2 [194] , хорошо справляющиеся с задачами программирования. Рассматриваемый в статье метод Flow Engineering позволяет существенно повысить эффективность любой базовой модели.
CriticGPT [195] — как известно [196], LLM способны генерировать код, имеющий проблемы с безопасностью. OpenAI обучила для их выявления CriticGPT, а Anthropic использует разреженные автоэнкодеры [197], чтобы отслеживать, почему LLM совершает такие ошибки [198].
Генерация кода — еще одна область, для понимания которой лучше погрузиться в практику, а не в теоретические исследования. Рекомендации по разработке генерации кода [199]и кодовых агентов наподобие Devin [200] можно найти только в отраслевых постах и докладах.
Работы по компьютерному зрению, не связанные с LLM, по-прежнему актуальны: здесь, например, следует ознакомиться с научной работой по YOLO [201] (теперь он имеет версию 11 [202], но его родословную [203] следует иметь в виду). При этом все более важную роль начинают играть трансформеры (наглядный пример — статья DETRs Beat YOLOs [204]).
Статья по CLIP [205] — первом успешном ViT [206]. На данный момент его вытеснили BLIP [207]/BLIP2 [208] и SigLIP/PaliGemma [209], но о нем все равно стоит знать.
Бенчмарк MMVP [210] (LS Live [211]) — выполняет количественную оценку важных проблем CLIP. Также обратите внимание на мультимодальные версии MMLU (MMMU [212]) и SWE-Benc [161].
Segment Anything Model [213]и статья по SAM 2 [214] — очень успешная фундаментальная модель сегментации изображений и видео. На одном уровне с GroundingDINO [215].
Исследования early fusion: в противовес работам по малозатратному «late fusion» наподобие LLaVA [216], early fusion охватывает Flamingo [217], Chameleon [218], AIMv2 [219] от Apple, Core [220] от Reka и так далее. На самом деле, существует как минимум четыре направления работ по визуальным языковым моделям [221] (VLM).
Подавляющее большинство передовых исследований VLM в наши дни не публикуется (из последнего были системная карта GPT4V [222]и сопутствующие исследования [223]). Мы рекомендуем иметь опыт [224] работы с функциями зрения 4o (в том числе с файнтюнингом зрения [225]этой модели), Claude 3.5 Sonnet/Haiku, Gemini 2.0 Flash и o1. Среди прочих: Pixtral [226], Llama 3.2 [227], Moondream [228], QVQ [229].
Статья по Whisper [230] — популярной модели Алека Рэдфорда по распознаванию речи. Whisper v2 [231], v3 [232], distil-whisper [233] и v3 Turbo [234] имеют открытые веса, но научных работ по ним не найти.
Статья по NaturalSpeech [235] — одному из ведущих подходов к преобразованию текста в речь. Недавно выпущена v3 [236].
AudioPaLM [237]— последний пример размышлений Google о голосовых технологиях до того, как PaLM превратился в Gemini.
Kyutai Moshi [238] — впечатляющая модель по преобразованию речи в текст (с открытыми весами и качественным демо [239]). Рекомендуем также почитать обзор Hume OCTAVE [240].
OpenAI Realtime API: The Missing Manual [241] — научных работ по передовой «омнимодели» нет, но зато вы можете ознакомиться с манулом по Realtime API [241], подготовленном Latent Space.
Здесь мы рекомендуем не ограничиваться изучением наработок крупных лабораторий и копнуть чуть глубже — попробуйте Daily, Livekit, Vapi, Assembly, Deepgram, Fireworks, Cartesia, Elevenlabs и так далее. Также почитайте обзор State of Voice 2024 [242].
Работа по Latent Diffusion [243] — по сути, статья о Stable Diffusion. См. также статьи о SD2 [244], SDXL [245], SD3 [246] (сейчас многие из этих исследователей работают над BFL Flux [247]).
Статьи по DALL-E [248] / DALL-E-2 [249] / DALL-E-3 [250] — генеративная модель OpenAI.
Статьи по Imagen [251] / Imagen 2 [252] / Imagen 3 [253] — генеративная модель Google. Также можно заглянуть в этот тред про Ideogram [254].
Статья про Consistency Models [255] — эта работа в декабре 2023 года привлекла к себе немало внимания [256]. Сегодня она дополнена еще одним исследованием [257].
Обзор Sora [258] от OpenAI — нейросеть для преобразования текста в видео. Как обычно, никаких научных работ на эту тему, за исключением статьи о DiT [259](та же команда), но это все равно один из важнейших релизов года, имеющий множество конкурентов с открытыми весами [260] наподобие OpenSora [261] (обзор от Лилиан Венг [262]).
Также рекомендуем ознакомиться с ComfyUI (вот интервью с ее разработчиками [263]). Диффузия текстов [264]/музыки [265] и авторегрессивная генерация изображений пока остаются нишевыми, но постепенно набирают популярность.
Статьи по LoRA [266] и QLoRA [267] — самом популярном способе бюджетного файнтюнинга моделей, как локальных, так и 4o (подтверждено в этом подкасте [268]). В образовательных целях также можно познакомиться с проектом FSDP+QLoRA [269].
Работа по прямой оптимизации предпочтений [270] (DPO) — популярная, но чуть более слабая альтернатива PPO [271], поддерживаемая OpenAI.
Статья по тонкой настройке представлений [272]— вместо тонкой настройки нескольких слоев упор делается на признаки.
Orca 3/AgentInstruct [273] — отличный способ получить данные для файнтюнинга (также рекомендуем этот подкаст [274]).
Работы по обучению [275] с подкреплением [276] (RL) и Reasoning Tuning — RL-файнтюнинг для o1 [277] пока находится на стадии обсуждения, но работа Let’s Verify Step By Step [68] и доклады Ноама Брауна [278] помогут вам разобраться в том, как он работает.
Мы рекомендуем изучить заметки по Unsloth [279]и статью How to fine-tune open LLM [280] от HuggingFace, чтобы получить более полное представление о процессе. Очевидно, что это бесконечно глубокая тема: файнтюнинг может быть как прикладной задачей для инженеров, так и переходить в научные исследования, где создаются новые подходы и методы.
Столь объемный список может выглядеть пугающе для новичка. Мы рекомендуем сконцентрироваться на разделах, которые представляют для вас наибольший интерес, и постараться придерживаться намеченного плана.
Можете выработать собственный подход к обучению или использовать руководство «Как читать научные публикации за час» [281]. Пару полезных советов на данную тему также есть в этом треде [282], а здесь [283]вы найдете дневник одного из читателей с полезными заметками по ключевым статьям из этой подборки. Если вы хотите заниматься изучением в компании единомышленников, можете также присоединиться к Discord-серверу Latent Space [284].
Вспомнили научную работу, которую обязательно стоило включить в этот список? Делитесь предложениями в комментариях!
Автор: full_moon
Источник [285]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/11506
URLs in this post:
[1] зрения: http://www.braintools.ru/article/6238
[2] Передовые LLM: #%D0%9F%D0%B5%D1%80%D0%B5%D0%B4%D0%BE%D0%B2%D1%8B%D0%B5%20LLM
[3] Бенчмарки и тесты: #%D0%91%D0%B5%D0%BD%D1%87%D0%BC%D0%B0%D1%80%D0%BA%D0%B8%20%D0%B8%20%D1%82%D0%B5%D1%81%D1%82%D1%8B
[4] Промтинг, In-Context Learning и Chain of Thought: #%D0%9F%D1%80%D0%BE%D0%BC%D1%82%D0%B8%D0%BD%D0%B3,%20In-Context%20Learning%20%D0%B8%20Chain%20of%20Thought
[5] Генерация с дополненной выборкой (RAG): #%D0%93%D0%B5%D0%BD%D0%B5%D1%80%D0%B0%D1%86%D0%B8%D1%8F%20%D1%81%20%D0%B4%D0%BE%D0%BF%D0%BE%D0%BB%D0%BD%D0%B5%D0%BD%D0%BD%D0%BE%D0%B9%20%D0%B2%D1%8B%D0%B1%D0%BE%D1%80%D0%BA%D0%BE%D0%B9%20(RAG)
[6] Агенты: #%D0%90%D0%B3%D0%B5%D0%BD%D1%82%D1%8B
[7] Генерация кода: #%D0%93%D0%B5%D0%BD%D0%B5%D1%80%D0%B0%D1%86%D0%B8%D1%8F%20%D0%BA%D0%BE%D0%B4%D0%B0
[8] Компьютерное зрение: #%D0%9A%D0%BE%D0%BC%D0%BF%D1%8C%D1%8E%D1%82%D0%B5%D1%80%D0%BD%D0%BE%D0%B5%20%D0%B7%D1%80%D0%B5%D0%BD%D0%B8%D0%B5
[9] Голос: #%D0%93%D0%BE%D0%BB%D0%BE%D1%81
[10] Генерация изображений и видео: #%D0%93%D0%B5%D0%BD%D0%B5%D1%80%D0%B0%D1%86%D0%B8%D1%8F%20%D0%B8%D0%B7%D0%BE%D0%B1%D1%80%D0%B0%D0%B6%D0%B5%D0%BD%D0%B8%D0%B9%20%D0%B8%20%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE
[11] Файнтюнинг: #%D0%A4%D0%B0%D0%B9%D0%BD%D1%82%D1%8E%D0%BD%D0%B8%D0%BD%D0%B3
[12] С чего начать: #%D0%A1%20%D1%87%D0%B5%D0%B3%D0%BE%20%D0%BD%D0%B0%D1%87%D0%B0%D1%82%D1%8C
[13] GPT1: https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf
[14] GPT2: https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf
[15] GPT3: https://arxiv.org/abs/2005.14165
[16] Codex: https://arxiv.org/abs/2107.03374
[17] InstructGPT: https://arxiv.org/abs/2203.02155
[18] GPT4: https://arxiv.org/abs/2303.08774
[19] GPT3.5: https://openai.com/index/chatgpt/
[20] 4o: https://openai.com/index/hello-gpt-4o/
[21] o1: https://openai.com/index/introducing-openai-o1-preview/
[22] o3: https://openai.com/index/deliberative-alignment/
[23] Claude 3: https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf
[24] Gemini 1: https://arxiv.org/abs/2312.11805
[25] Claude 3.5 Sonnet: https://www.latent.space/p/claude-sonnet
[26] Gemini 2.0 Flash: https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/#gemini-2-0-flash
[27] Flash Thinking: https://ai.google.dev/gemini-api/docs/thinking-mode
[28] внимание: http://www.braintools.ru/article/7595
[29] Gemma 2: https://arxiv.org/abs/2408.00118
[30] LLaMA 1: https://arxiv.org/abs/2302.13971
[31] Llama 2: https://arxiv.org/abs/2307.09288
[32] Llama 3: https://arxiv.org/abs/2407.21783
[33] Mistral 7B: https://arxiv.org/abs/2310.06825
[34] Mixtral: https://arxiv.org/abs/2401.04088
[35] Pixtral: https://arxiv.org/abs/2410.07073
[36] V1: https://arxiv.org/abs/2401.02954
[37] Coder: https://arxiv.org/abs/2401.14196
[38] MoE: https://arxiv.org/abs/2401.06066
[39] V2: https://arxiv.org/abs/2405.04434
[40] V3: https://github.com/deepseek-ai/DeepSeek-V3
[41] Apple Intelligence: https://arxiv.org/abs/2407.21075
[42] о ModernBERT: https://buttondown.com/ainews/archive/ainews-modernbert-small-new-retrieverclassifier/
[43] ColBERT: https://www.answer.ai/posts/colbert-pooling.html
[44] Olmo: https://arxiv.org/abs/2402.00838
[45] Molmo: https://arxiv.org/abs/2409.17146
[46] OlmOE: https://arxiv.org/abs/2409.02060
[47] Tülu 3: https://allenai.org/blog/tulu-3-technical
[48] Olmo 2: https://x.com/soldni/status/1875266934943649808?s=46
[49] Grok: https://github.com/xai-org/grok-1
[50] Amazon Nova: https://buttondown.com/ainews/archive/ainews-olympus-has-dropped-aka-amazon-nova/
[51] Yi: https://www.wired.com/story/chinese-startup-01-ai-is-winning-the-open-source-ai-race/
[52] Reka: https://www.latent.space/p/yitay
[53] Jamba: https://buttondown.com/ainews/archive/ainews-jamba-mixture-of-architectures-dethrones/
[54] Cohere: https://cohere.com/command
[55] Nemotron: https://buttondown.com/ainews/archive/ainews-to-be-named-2748/
[56] Microsoft Phi: https://arxiv.org/abs/2412.08905
[57] HuggingFace SmolLM: https://www.latent.space/p/2024-open-models
[58] Kaplan: http://arxiv.org/abs/2001.08361
[59] Chinchilla: https://arxiv.org/abs/2203.15556
[60] Emergence: https://arxiv.org/abs/2206.07682
[61] Mirage: https://arxiv.org/abs/2304.15004
[62] Post-Chinchilla: https://arxiv.org/abs/2401.00448
[63] o3: https://en.wikipedia.org/wiki/OpenAI_o3
[64] R1: https://api-docs.deepseek.com/news/news1120
[65] QwQ: https://qwenlm.github.io/blog/qwq-32b-preview/
[66] QVQ: https://qwenlm.github.io/blog/qvq-72b-preview/
[67] f1: https://fireworks.ai/blog/fireworks-compound-ai-system-f1
[68] Let’s Verify Step By Step: https://arxiv.org/abs/2305.20050
[69] STaR: https://arxiv.org/abs/2203.14465
[70] докладов Ноама Брауна: https://www.youtube.com/live/Gr_eYXdHFis
[71] сторонними исследователями : https://hn.algolia.com/?dateRange=all&page=0&prefix=false&query=o1&sort=byPopularity&type=story
[72] MMLU: https://arxiv.org/abs/2009.03300
[73] GPQA: https://arxiv.org/abs/2311.12022
[74] BIG-Bench: https://arxiv.org/abs/2206.04615
[75] MMLU Pro: https://arxiv.org/abs/2406.01574
[76] BIG-Bench Hard: https://arxiv.org/abs/2210.09261
[77] MuSR: https://arxiv.org/abs/2310.16049
[78] LongBench: https://arxiv.org/abs/2412.15204
[79] BABILong: https://arxiv.org/abs/2406.10149
[80] RULER: https://www.latent.space/p/gradient
[81] Lost in the Middle: https://arxiv.org/abs/2307.03172
[82] Needle in a Haystack: https://github.com/gkamradt/LLMTest_NeedleInAHaystack
[83] MATH : https://arxiv.org/abs/2103.03874
[84] FrontierMath: https://arxiv.org/abs/2411.04872
[85] AIME: https://www.kaggle.com/datasets/hemishveeraboina/aime-problem-set-1983-2024
[86] AMC10/AMC12: https://github.com/ryanrudes/amc
[87] IFEval: https://arxiv.org/abs/2311.07911
[88] принятый на вооружение Apple: https://machinelearning.apple.com/research/introducing-apple-foundation-models
[89] MT-Bench: https://arxiv.org/abs/2306.05685
[90] ARC AGI: https://arcprize.org/arc
[91] Benchmarks 101: https://www.latent.space/p/benchmarks-101
[92] Benchmarks 201: https://www.latent.space/p/benchmarks-201
[93] Carlini: https://www.latent.space/p/carlini
[94] LMArena: https://www.latent.space/p/lmarena
[95] Braintrust: https://www.latent.space/p/braintrust
[96] LLM-as-Judge: https://hamel.dev/blog/posts/llm-judge/
[97] эссе Applied LLM: https://applied-llms.org/#evaluation-monitoring
[98] датасетах: https://www.latent.space/p/datasets-101
[99] инъекциях промтов: https://www.latent.space/i/93381455/what-is-prompt-injection
[100] Лилиан Венг: https://lilianweng.github.io/posts/2023-10-25-adv-attack-llm/
[101] Саймон Виллсон: https://simonwillison.net/series/prompt-injection/
[102] The Prompt Report: https://arxiv.org/abs/2406.06608
[103] здесь : https://www.latent.space/p/learn-prompting
[104] Chain of thought: https://arxiv.org/abs/2201.11903
[105] Scratchpads: https://arxiv.org/abs/2112.00114
[106] Let’s Think Step by Step: https://arxiv.org/abs/2205.11916
[107] Tree of Thought: https://arxiv.org/abs/2305.10601
[108] подкаст на эту тему: https://www.latent.space/p/shunyu
[109] Prompt Tuning: https://aclanthology.org/2021.emnlp-main.243/
[110] тюнинг префиксов: https://arxiv.org/abs/2101.00190
[111] управление декодированием: https://arxiv.org/abs/2402.10200
[112] с помощью энтропии: https://github.com/xjdr-alt/entropix
[113] инженерию представлений: https://vgel.me/posts/representation-engineering/
[114] Автоматический промтинг : https://arxiv.org/abs/2211.01910
[115] DSPy: https://arxiv.org/abs/2310.03714
[116] Лилиан Венг: https://lilianweng.github.io/posts/2023-03-15-prompt-engineering/
[117] Юджина Яна: https://eugeneyan.com/writing/prompting/
[118] Anthropic’s Prompt Engineering Tutorial: https://github.com/anthropics/prompt-eng-interactive-tutorial
[119] AI Engineer Workshop: https://www.youtube.com/watch?v=hkhDdcM5V94
[120] Введение в информационный поиск: https://nlp.stanford.edu/IR-book/information-retrieval-book.html
[121] длится уже шестьдесят лет: https://en.wikipedia.org/wiki/Information_retrieval#History
[122] TF-IDF: https://en.wikipedia.org/wiki/Tf%E2%80%93idf
[123] BM25: https://en.wikipedia.org/wiki/Okapi_BM25
[124] FAISS: https://github.com/facebookresearch/faiss
[125] HNSW: https://arxiv.org/abs/1603.09320
[126] Публикация о RAG : https://arxiv.org/abs/2005.11401
[127] подход RAG 2.0: https://contextual.ai/introducing-rag2/
[128] HyDE: https://docs.llamaindex.ai/en/stable/optimizing/advanced_retrieval/query_transformations/
[129] chunking: https://research.trychroma.com/evaluating-chunking
[130] rerankers: https://cohere.com/blog/rerank-3pt5
[131] мультимодальные данные: https://www.youtube.com/watch?v=i2vBaFzCEJw
[132] в других: https://www.youtube.com/watch?v=FDEmbYPgG-s
[133] источниках: https://www.youtube.com/watch?v=DId2KP8Ykz4
[134] MTEB: https://arxiv.org/abs/2210.07316
[135] известен своим переобучением: https://news.ycombinator.com/item?id=42504379
[136] его неактуальным: https://x.com/Nils_Reimers/status/1870812625505849849
[137] SentenceTransformers: https://huggingface.co/sentence-transformers/all-MiniLM-L6-v2
[138] OpenAI, Nomic Embed, Jina v3, cde-small-v1: https://www.youtube.com/watch?v=VIqXNRsRRQo
[139] ModernBERT Embed: https://x.com/zach_nussbaum/status/1873813021786767699?s=46&t=tMWvmS3OL3Ssg0b9lKvp4Q
[140] эмбеддинги Matryoshka: https://huggingface.co/blog/matryoshka
[141] GraphRAG: https://arxiv.org/pdf/2404.16130
[142] Microsoft: https://www.microsoft.com/en-us/research/blog/graphrag-unlocking-llm-discovery-on-narrative-private-data/?utm_source=ainews&utm_medium=email&utm_campaign=ainews-graphrag
[143] в open source: https://buttondown.com/ainews/archive/ainews-graphrag/
[144] самых популярных трендов в RAG: https://www.youtube.com/watch?v=knDDGYHnnSI
[145] ColBERT: https://github.com/stanford-futuredata/ColBERT
[146] RAGAS: https://arxiv.org/abs/2309.15217
[147] рекомендованный OpenAI: https://x.com/swyx/status/1724490887147978793
[148] фреймворк Nvidia FACTS : https://arxiv.org/abs/2407.07858v1
[149] Extrinsic Hallucinations in LLMs: https://lilianweng.github.io/posts/2024-07-07-hallucination/
[150] LlamaIndex: https://docs.llamaindex.ai/en/stable/understanding/rag/
[151] курс: https://www.deeplearning.ai/short-courses/building-evaluating-advanced-rag/
[152] LangChain: https://python.langchain.com/docs/tutorials/rag/
[153] видео: https://www.youtube.com/watch?v=wd7TZ4w1mSw
[154] вот неплохое исследование: https://arxiv.org/abs/2407.16833
[155] SWE-Bench: https://arxiv.org/abs/2310.06770
[156] подкаст на эту тему: https://www.latent.space/p/iclr-2024-benchmarks-agents?utm_source=publication-search#%C2%A7section-b-benchmarks
[157] OpenAI: https://openai.com/index/introducing-swe-bench-verified/
[158] WebArena: https://github.com/web-arena-x/webarena
[159] SWE-Gym: https://x.com/jiayi_pirate/status/1871249410128322856
[160] SWE-Agent: https://arxiv.org/abs/2405.15793
[161] SWE-Bench Multimodal: https://arxiv.org/abs/2410.03859
[162] Konwinski Prize: https://kprize.ai/
[163] ReAct: https://arxiv.org/abs/2210.03629
[164] Gorilla: https://gorilla.cs.berkeley.edu/
[165] BFCL Leaderboard: https://gorilla.cs.berkeley.edu/leaderboard.html
[166] интереса: http://www.braintools.ru/article/4220
[167] Toolformer: https://arxiv.org/abs/2302.04761
[168] HuggingGPT: https://arxiv.org/abs/2303.17580
[169] MemGPT: https://arxiv.org/abs/2310.08560
[170] долговременной памяти: http://www.braintools.ru/article/9500
[171] ChatGPT: https://openai.com/index/memory-and-new-controls-for-chatgpt/
[172] LangGraph: https://langchain-ai.github.io/langgraph/concepts/memory/#episodic-memory
[173] MetaGPT: https://arxiv.org/abs/2308.00352
[174] AutoGen: https://arxiv.org/abs/2308.08155
[175] Smallville: https://github.com/joonspk-research/generative_agents
[176] Voyager: https://arxiv.org/abs/2305.16291
[177] когнитивной архитектуры : https://arxiv.org/abs/2309.02427
[178] Agent Workflow Memory: https://arxiv.org/abs/2409.07429
[179] Материал Anthropic: https://www.anthropic.com/research/building-effective-agents
[180] Лилиан Венг: https://lilianweng.github.io/posts/2023-06-23-agent/
[181] Чипа Хуэна: https://huyenchip.com//2025/01/07/agents.html
[182] The Stack : https://arxiv.org/abs/2211.15533
[183] The Stack v2: https://huggingface.co/datasets/bigcode/the-stack-v2
[184] StarCoder: https://arxiv.org/abs/2402.19173
[185] Qwen2.5-Coder: https://arxiv.org/abs/2409.12186
[186] CodeLlama: https://ai.meta.com/research/publications/code-llama-open-foundation-models-for-code/
[187] Aider: https://aider.chat/docs/leaderboards/
[188] Codeforces: https://arxiv.org/abs/2312.02143
[189] BigCodeBench: https://huggingface.co/spaces/bigcode/bigcodebench-leaderboard
[190] LiveCodeBench: https://livecodebench.github.io/
[191] SciCode: https://buttondown.com/ainews/archive/ainews-to-be-named-5745/
[192] AlphaCodeium : https://arxiv.org/abs/2401.08500
[193] AlphaCode: https://news.ycombinator.com/item?id=34020025
[194] AlphaCode2: https://x.com/RemiLeblond/status/1732419456272318614
[195] CriticGPT: https://criticgpt.org/criticgpt-openai/
[196] как известно: https://arxiv.org/abs/2412.15004v1
[197] разреженные автоэнкодеры: https://transformer-circuits.pub/2024/scaling-monosemanticity/index.html#safety-relevant-code
[198] ошибки: http://www.braintools.ru/article/4192
[199] Рекомендации по разработке генерации кода : https://www.youtube.com/watch?v=Ve-akpov78Q
[200] кодовых агентов наподобие Devin: https://www.youtube.com/watch?v=T7NWjoD_OuY&t=8s
[201] YOLO: https://arxiv.org/abs/1506.02640
[202] имеет версию 11: https://github.com/ultralytics/ultralytics
[203] его родословную: https://news.ycombinator.com/item?id=42352342
[204] DETRs Beat YOLOs: https://arxiv.org/abs/2304.08069
[205] CLIP: https://arxiv.org/abs/2103.00020
[206] ViT: https://arxiv.org/abs/2010.11929
[207] BLIP: https://arxiv.org/abs/2201.12086
[208] BLIP2: https://arxiv.org/abs/2301.12597
[209] SigLIP/PaliGemma: https://www.latent.space/i/152857207/part-vision
[210] MMVP: https://arxiv.org/abs/2401.06209
[211] LS Live: https://www.latent.space/p/2024-vision
[212] MMMU: https://arxiv.org/abs/2311.16502
[213] Segment Anything Model : https://arxiv.org/abs/2304.02643
[214] SAM 2: https://arxiv.org/abs/2408.00714
[215] GroundingDINO: https://github.com/IDEA-Research/GroundingDINO
[216] LLaVA: https://arxiv.org/abs/2304.08485
[217] Flamingo: https://huyenchip.com/2023/10/10/multimodal.html
[218] Chameleon: https://arxiv.org/abs/2405.09818
[219] AIMv2: https://arxiv.org/abs/2411.14402
[220] Core: https://arxiv.org/abs/2404.12387
[221] как минимум четыре направления работ по визуальным языковым моделям: https://lilianweng.github.io/posts/2022-06-09-vlm/
[222] системная карта GPT4V : https://cdn.openai.com/papers/GPTV_System_Card.pdf
[223] сопутствующие исследования: https://arxiv.org/abs/2309.17421
[224] опыт: http://www.braintools.ru/article/6952
[225] файнтюнингом зрения : https://blog.roboflow.com/gpt-4o-object-detection/
[226] Pixtral: https://mistral.ai/news/pixtral-large/
[227] Llama 3.2: https://buttondown.com/ainews/archive/ainews-llama-32-on-device-1b3b-and-multimodal/
[228] Moondream: https://www.youtube.com/watch?v=T7sxvrJLJ14
[229] QVQ: https://news.ycombinator.com/item?id=42505038
[230] Whisper: https://arxiv.org/abs/2212.04356
[231] v2: https://news.ycombinator.com/item?id=33884716
[232] v3: https://news.ycombinator.com/item?id=38166965
[233] distil-whisper: https://github.com/huggingface/distil-whisper
[234] v3 Turbo: https://amgadhasan.substack.com/p/demystifying-openais-new-whisper
[235] NaturalSpeech: https://arxiv.org/abs/2205.04421?utm_source=chatgpt.com
[236] v3: https://arxiv.org/abs/2403.03100
[237] AudioPaLM : https://arxiv.org/abs/2306.12925
[238] Kyutai Moshi: http://moshi/
[239] качественным демо: https://www.youtube.com/watch?v=hm2IJSKcYvo
[240] обзор Hume OCTAVE: https://www.hume.ai/blog/introducing-octave
[241] OpenAI Realtime API: The Missing Manual: https://www.latent.space/p/realtime-api
[242] State of Voice 2024: https://www.cartesia.ai/blog/state-of-voice-ai-2024
[243] Latent Diffusion: https://arxiv.org/abs/2112.10752
[244] SD2: https://stability.ai/news/stable-diffusion-v2-release
[245] SDXL: https://arxiv.org/abs/2307.01952
[246] SD3: https://arxiv.org/abs/2403.03206
[247] BFL Flux: https://github.com/black-forest-labs/flux
[248] DALL-E: https://arxiv.org/abs/2102.12092
[249] DALL-E-2: https://arxiv.org/abs/2204.06125
[250] DALL-E-3: https://cdn.openai.com/papers/dall-e-3.pdf
[251] Imagen: https://arxiv.org/abs/2205.11487
[252] Imagen 2: https://deepmind.google/technologies/imagen-2/
[253] Imagen 3: https://arxiv.org/abs/2408.07009
[254] этот тред про Ideogram: https://www.reddit.com/r/singularity/comments/1exsq4d/introducing_ideogram_20_our_most_advanced/
[255] Consistency Models: https://arxiv.org/abs/2303.01469
[256] привлекла к себе немало внимания: https://www.latent.space/p/tldraw
[257] еще одним исследованием: https://arxiv.org/abs/2410.11081
[258] Sora: https://openai.com/index/sora/
[259] статьи о DiT : https://arxiv.org/abs/2212.09748
[260] конкурентов с открытыми весами: https://artificialanalysis.ai/text-to-video/arena?tab=Leaderboard
[261] OpenSora: https://arxiv.org/abs/2412.00131
[262] обзор от Лилиан Венг: https://lilianweng.github.io/posts/2024-04-12-diffusion-video/%D1%81
[263] интервью с ее разработчиками: https://www.latent.space/p/comfyui
[264] Диффузия текстов: https://www.youtube.com/watch?v=1mG678f1ZYU&pp=ygUOdGV4dCBkaWZmdXNpb24%3D
[265] музыки: https://arxiv.org/abs/2302.03917
[266] LoRA: https://arxiv.org/abs/2106.09685
[267] QLoRA: http://arxiv.org/abs/2305.14314
[268] подтверждено в этом подкасте: https://www.latent.space/p/cosine
[269] FSDP+QLoRA: https://www.answer.ai/posts/2024-03-06-fsdp-qlora.html
[270] прямой оптимизации предпочтений: https://arxiv.org/abs/2305.18290
[271] PPO: https://arxiv.org/abs/1707.06347
[272] тонкой настройке представлений : https://arxiv.org/abs/2404.03592
[273] Orca 3/AgentInstruct: https://www.microsoft.com/en-us/research/blog/orca-agentinstruct-agentic-flows-can-be-effective-synthetic-data-generators/
[274] этот подкаст: https://www.latent.space/p/2024-syndata-smolmodels
[275] обучению: http://www.braintools.ru/article/5125
[276] подкреплением: http://www.braintools.ru/article/5528
[277] RL-файнтюнинг для o1: https://www.interconnects.ai/p/openais-reinforcement-finetuning
[278] доклады Ноама Брауна: https://x.com/swyx/status/1867990396762243324
[279] заметки по Unsloth : https://github.com/unslothai/unsloth
[280] How to fine-tune open LLM: https://www.philschmid.de/fine-tune-llms-in-2025
[281] «Как читать научные публикации за час»: https://www.latent.space/i/152108729/how-to-read-papers-in-an-hour
[282] в этом треде: https://x.com/swyx/status/1875606586569453592
[283] здесь : https://niels-ole.com/2025/01/05/notes-on-the-2025-ai-engineer-reading-list
[284] Discord-серверу Latent Space: https://discord.com/invite/xJJMRaWCRt
[285] Источник: https://habr.com/ru/companies/magnus-tech/articles/867762/?utm_source=habrahabr&utm_medium=rss&utm_campaign=867762
Нажмите здесь для печати.