Архив рубрики ~Лента новостей~

Как создать мощные базы знаний для магистерской программы (LLM).

Как создать мощные базы знаний для магистерской программы (LLM).
Как создать мощные базы знаний для магистерской программы (LLM).

Используйте агентов программирования для расширения вашей базы знаний.

Делить

61a8f77b8e9253b2f08767c982e6ca5d
В этой статье я расскажу, как создавать базы знаний на основе магистерских программ. Изображение предоставлено ChatGPT.

База знаний — это концепция, в рамках которой вы храните большой объем информации и делаете ее доступной для дальнейшего использования. Это невероятно полезно для:

  • Принятие более эффективных решений
  • Быстрое изучение контекста прошлого.
  • Сплочение вашей команды

В последнее время я много работаю над созданием базовых знаний и внедрений в ней, как можно больше контекста, чтобы улучшить все вышеперечисленные моменты. Базы знаний всегда были полезны, даже при показе программ магистратуры, потому что доступ к знаниям всегда был полезен. Однако благодаря программам магистратуры базовые знания стали значительно мощнее.Более подробную информацию можно найти в базах знаний.

  • Вы можете проще запросить информацию из баз знаний (вам не нужно искать вручную).
  • В этой статье я расскажу, почему следует создавать собственные ресурсы знаний на основе вашего магистерского образования, как собрать как можно больше информации и как активно использовать эти знания.

    База знаний, созданная на основе программа LLM
    Эта инфографика освещает основное содержание статьи. Я расскажу, как создавать базы знаний на основе программных агентов, почему это стоит делать, как направлять ее в информацию и как использовать эту информацию в результатах процесса. предоставлено изображение ChatGPT.

    Я уже немного задумался над этой темой, но сейчас меня все больше привлекает тема базовых знаний из-за ее растущей популярности. Например, президент Y Combinator создаёт GBrain, а Андрей Карпати — вики-проект для студентов магистратуры, и оба эти примера — базы знаний. Я думаю, что самое важное — это начать хранить весь контекст на основе знаний и понимать, как эффективно запрашивать данные из этой базы знаний в реальном времени, например, при написании кода, на заседаниях и в такой ситуации.

    Почему вам нужна база знаний

    Прежде всего, я хотел бы рассказать о том, почему вам нужна база знаний. имеются разные знания в области баз данных. Например, это может быть личная база, содержащая весь ваш личный опыт, или же корпоративная база знаний, включающая знания и информацию, владеющая всей компанией. Чем больше информации вы храните в сети и к которой можете получить доступ при необходимости, тем лучше будут ваши результаты. Например, вы можете подключиться:

    • Принимайте более взвешенные решения, потому что у вас есть доступ к большему объему информации.
    • Вы сможете быстрее освоить ранее изученные темы, не перебирая множество различных источников в поисках нужной информации. одинаковые правила применяются как к личной базе знаний, так и к корпоративной. Я также считаю, что эти базы знаний стали гораздо более мощными, поскольку к ним можно обращаться с помощью линейных базовых знаний. Раньше вручную обращались к ресурсам знаний, чтобы найти нужную информацию. Приходилось опираться на собственную память, чтобы запомнить, сохранить определенную информацию в базе знаний, а затем решить, стоит ли потратить время на ее поиск.

      Теперь ситуация кардинально изменилась. Например, LLM может самостоятельно запросить помещения с использованием технологий, таких как RAG, и автоматически мгновенно включить необходимую информацию. LLM также может самостоятельно решить, когда ему необходимо использовать ресурсы знаний.

      То есть, вы полностью используете необходимость участия человека для доступа к информации в базе знаний, что делает ее гораздо более мощной.

      Внесение информации в базы знаний

      Первым шагом в создании базы знаний, несомненно, является сбор информации в базах знаний. В зависимости от того, как создается ваша база знаний, это может происходить разными способами.

      Однако, прежде всего, я настоятельно рекомендую вам рассмотреть все источники информации, к которым у вас есть доступ, как лично, так и в компании. К ним относятся, например:

      • Встречи
      • Ваш инструмент управления проектами, например, Linear.
      • Ваш агент по программированию, например, Claude Code или Codex. Над чем вы работали в последнее время с моделями (и какие задачи уже были выполнены)?
      • Личные обсуждения в офисе.

      Вы, вероятно, можете назвать множество других источников информации. Конечно, это немного зависит от того, как и где вы работаете. Суть в том, что вам следует направить карту ко всем различным источникам информации и создать автоматический способ перенаправления информации из этих источников в ваши помещения.

      Ни вы, ни другие люди не намерены тратить больше времени на ручное внесение информации в базу знаний. Вам необходимо найти способ автоматизировать этот процесс, чтобы ваша база знаний всегда была актуальной.

      Важно полностью автоматизировать маршрутизацию информации из источника в ресурсах знаний. Если требуется ручной шаг (например, вставка заметок с совещаниями в базы знаний), вы обязательно забудете об этом и потеряете критический контекст, который противоречит самой концепции базовых знаний. Главная цель базы знаний – храните там абсолютно всю информацию и ничего не упускайте. Именно это создает такие мощные ресурсы.

      Например, для ведения протоколов совещаний можно настроить cron-задание, которое будет синхронизировать данные ежедневно. Оно будет собирать протоколы всех сообщений, которые предлагаются сотрудниками компании или вами лично, и сохранять их в базе знаний. Аналогичное хрон-задание можно настроить для вашего инструмента управления проектами или Linear, чтобы синхронизировать все, что там происходит. Синхронизируйте свой агент кодирования с темами, над чем вы работали, и со всем, что вы обсуждали с ними, и так далее. Все это легко синхронизируется в местах знаний с помощью ежедневного cron-задания.

      Обсуждения в соседнем офисе – это тот аспект, который сложнее полностью автоматизировать. Мне пока не удалось до конца разобраться с этим, но есть два метода:

      1. Записывать все происходящее постоянно, что, разумеется, требует запроса.
      2. или просто вручную записывать что-либо после обсуждения в офисе.

      Однако, я думаю, вам, возможно, даже не требуется явного сохранения обсуждения в офисе, потому что в большинстве случаев после того, как я физически обсуждаю что-то в офисе, человек, которым я это обсуждал, или я сам берём контекст из этого обсуждения и записываем его в свой агентский код. Обычно это возникло из-за проблем, связанных с реализацией, поэтому, если эти знания впоследствии активно использовались в вашем агенте кодирования, вы можете получить их из журнального агента кодирования. с которыми сталкиваетесь каждый день, в своей базе знаний, вы проделали большую часть работы. Это самая сложная часть работы, основанная на базовых знаниях. В следующем разделе я расскажу о более простой части, а именно об активном использовании информации из баз данных при помощи цифровых технологий или включении с вашими агентами по программированию. class=»wp-block-paragraph»>Если у вас есть синхронизированная база данных с исходной информацией, вы можете перейти к активному использованию этой информации. Я думаю, что существует два основных способа использования информации из базы знаний:

      1. Если у вас возник вопрос, вы можете просто обратиться к базе знаний. Разумеется, это следует делать через вашего агента по программированию. Вы задаете ему вопрос, и он должен понимать, что для поиска ответа ему необходимо обратиться к базе знаний.
      2. Второй вариант — это пассивное использование агентом базовых знаний кодирования всякий раз, когда она работает.

      Думаю, первое применение здесь довольно очевидно. Просто задайте этот вопрос каждый раз, когда в чем-то не уверены. Поэтому я выделяю больше времени на обсуждение начальной точки.

      Пассивное использование базовых знаний программистом в любой момент, когда это необходимо, например, для реализации кода, исправления ошибок и т. д. д., — это очень влиятельный инструмент. Опять же, я думаю, что существуют две основные комбинации для этого.

      Вывод на основе Grep

      Один из вариантов — иметь в базе знаний главный файл Markdown, который содержит все ресурсы знаний и индикаторы, где находится различная информация. Этот файл, однако, обновляется каждый раз, когда в приложениях знаний добавляется новая информация.

      Преимущество этого соединения заключается в использовании grep, что обычно мощнее, чем поиск на основе встраивания, поскольку он лучше справляется с поиском необходимой информации в нужный момент. Однако для этого также необходимо поместить этот файл с уценкой в ​​контекст используемого вами LLM-файла. Этот файл Markdown может довольно большой, что со временем может создать проблемы.

      Вывод на основе встраивания

      Второй способ активного использования базы знания — это вывод на основе эмбеддингов. Именно для этого и создан GBrain. По сути, при каждом выполнении запроса вы запускаете поиск эмбеддингов, вызываете RAG-запрос по базе знаний, и он извлекает из базы знаний соответствующие фрагменты. Если LLM посчитает, что с помощью поиска эмбеддингов он извлек релевантную информацию, он может продолжить поиск в соответствующих файлах.

      Я думаю, что это, вероятно, подход к использованию базы знаний во время вывода, потому что он не требует лучшего активного поиска и не требует затрат большого количества входных токенов на ресурсы знаний для каждого действия. class=»wp-block-paragraph»>

      Заключение

      В целом я рекомендую вам:

      1. попытайтесь создать базу знаний.
      2. В нем как можно больше информации.
      3. Выберите, как другие примеры подобных баз знаний.
      4. попробуйте настроить это самостоятельно.

      Затем вам следует активно использовать эти знания каждый раз, когда вы работаете на компьютере с помощью агента программирования (что, по сути, должно применяться ко всей вашей работе). Я считаю, что в последние годы базовые знания станут невероятно мощными и дорогими, и они также могут обеспечить вам конкурентное преимущество, поскольку доступ к огромному объему информации станет несомненным плюсом в будущем. Кроме того, это характерные данные для вашей компании или вашего личного контекста, к которым во многих случаях имеется доступ только вы. Таким образом, если вы не сохраните их, вы никогда не сможете получить доступ к этой информации в будущем. вебинар:

      🚀 Десять раз повысьте свой инженерный уровень с помощью магистратур (бесплатный 3-дневный курс по электронной почте)

      📚 Получите мою бесплатную электронную книгу «Модели визуального языка».

      💻 Мой вебинар по языковым моделям изучения

      👉 Найдите меня в социальных сетях:

      💌 Substack

      🔗 LinkedIn

      🐦 X/Twitter

      Эйвинд Кьосбаккен Посмотреть все Эйвинд Кьосбаккен

      Источник: towardsdatascience.com

    Оцените материал:

    Поделиться
    Понравилась статья? Расскажите другим
    ВКонтакте
    Читайте также
    Новости робототехники Автоматизировать итоги шоу 2026 года Новости робототехники Венчурная фирма Мелинды Гейтс инвестирует в фонд Fund II компании Magnify Ventures объемом 46,6 млн долларов. Новости робототехники Техгиганты увольняют людей — к чему готовиться джунам Новости робототехники Почему вам следует совмещать ловкость робота с механическим позиционированием для сложных сборочных операций Архив рубрики ~Коротко из Telegram~ Нашёл ещё один токен-выгодный флоу для Fable: Fable 5 можно… Новости робототехники Китайская UBTech показала новое поколение гуманоидов, которых всё сложнее и… Архив рубрики ~Коротко из Telegram~ VK Tech и Yandex B2B Tech рассматривают возможность сотрудничества в… Архив рубрики ~Коротко из Telegram~ 🍒 Anthropic заявила, что связанные с Alibaba структуры использовали почти… Архив рубрики ~Коротко из Telegram~ Инструменты дня 📊 LDOO отвечает на вопросы о ваших маркетинговых данных с… Архив рубрики ~Коротко из Telegram~ 🇷🇺 ФАС России выдала предупреждение компании Apple с обязательством устранить… Архив рубрики ~Коротко из Telegram~ 🇪🇺 Тим Кук отстаивает Siri AI в ЕС на встрече… Архив рубрики ~Коротко из Telegram~ #слухи от Марка Гурмана: три функции iOS и watchOS 27… Архив рубрики ~Обо всем~ Кто такие синтетические покупатели и почему они меняют e-commerce Архив рубрики ~Обо всем~ Компания Bending Spoons, несмотря на спад в секторе SaaS, продемонстрировала рост на 40% в первый день торгов. Новости робототехники Автоматизировать итоги шоу 2026 года Новости робототехники Венчурная фирма Мелинды Гейтс инвестирует в фонд Fund II компании Magnify Ventures объемом 46,6 млн долларов. Новости робототехники Техгиганты увольняют людей — к чему готовиться джунам Новости робототехники Почему вам следует совмещать ловкость робота с механическим позиционированием для сложных сборочных операций Архив рубрики ~Коротко из Telegram~ Нашёл ещё один токен-выгодный флоу для Fable: Fable 5 можно… Новости робототехники Китайская UBTech показала новое поколение гуманоидов, которых всё сложнее и… Архив рубрики ~Коротко из Telegram~ VK Tech и Yandex B2B Tech рассматривают возможность сотрудничества в… Архив рубрики ~Коротко из Telegram~ 🍒 Anthropic заявила, что связанные с Alibaba структуры использовали почти… Архив рубрики ~Коротко из Telegram~ Инструменты дня 📊 LDOO отвечает на вопросы о ваших маркетинговых данных с… Архив рубрики ~Коротко из Telegram~ 🇷🇺 ФАС России выдала предупреждение компании Apple с обязательством устранить… Архив рубрики ~Коротко из Telegram~ 🇪🇺 Тим Кук отстаивает Siri AI в ЕС на встрече… Архив рубрики ~Коротко из Telegram~ #слухи от Марка Гурмана: три функции iOS и watchOS 27… Архив рубрики ~Обо всем~ Кто такие синтетические покупатели и почему они меняют e-commerce Архив рубрики ~Обо всем~ Компания Bending Spoons, несмотря на спад в секторе SaaS, продемонстрировала рост на 40% в первый день торгов.

    Оставить комментарий