Как создать мощные базы знаний для магистерской программы (LLM).
Используйте агентов программирования для расширения вашей базы знаний.
Делить

База знаний — это концепция, в рамках которой вы храните большой объем информации и делаете ее доступной для дальнейшего использования. Это невероятно полезно для:
- Принятие более эффективных решений
- Быстрое изучение контекста прошлого.
- Сплочение вашей команды
В последнее время я много работаю над созданием базовых знаний и внедрений в ней, как можно больше контекста, чтобы улучшить все вышеперечисленные моменты. Базы знаний всегда были полезны, даже при показе программ магистратуры, потому что доступ к знаниям всегда был полезен. Однако благодаря программам магистратуры базовые знания стали значительно мощнее.Более подробную информацию можно найти в базах знаний.
В этой статье я расскажу, почему следует создавать собственные ресурсы знаний на основе вашего магистерского образования, как собрать как можно больше информации и как активно использовать эти знания.

Я уже немного задумался над этой темой, но сейчас меня все больше привлекает тема базовых знаний из-за ее растущей популярности. Например, президент Y Combinator создаёт GBrain, а Андрей Карпати — вики-проект для студентов магистратуры, и оба эти примера — базы знаний. Я думаю, что самое важное — это начать хранить весь контекст на основе знаний и понимать, как эффективно запрашивать данные из этой базы знаний в реальном времени, например, при написании кода, на заседаниях и в такой ситуации.
Почему вам нужна база знаний
Прежде всего, я хотел бы рассказать о том, почему вам нужна база знаний. имеются разные знания в области баз данных. Например, это может быть личная база, содержащая весь ваш личный опыт, или же корпоративная база знаний, включающая знания и информацию, владеющая всей компанией. Чем больше информации вы храните в сети и к которой можете получить доступ при необходимости, тем лучше будут ваши результаты. Например, вы можете подключиться:
- Принимайте более взвешенные решения, потому что у вас есть доступ к большему объему информации.
- Вы сможете быстрее освоить ранее изученные темы, не перебирая множество различных источников в поисках нужной информации. одинаковые правила применяются как к личной базе знаний, так и к корпоративной. Я также считаю, что эти базы знаний стали гораздо более мощными, поскольку к ним можно обращаться с помощью линейных базовых знаний. Раньше вручную обращались к ресурсам знаний, чтобы найти нужную информацию. Приходилось опираться на собственную память, чтобы запомнить, сохранить определенную информацию в базе знаний, а затем решить, стоит ли потратить время на ее поиск.
Теперь ситуация кардинально изменилась. Например, LLM может самостоятельно запросить помещения с использованием технологий, таких как RAG, и автоматически мгновенно включить необходимую информацию. LLM также может самостоятельно решить, когда ему необходимо использовать ресурсы знаний.
То есть, вы полностью используете необходимость участия человека для доступа к информации в базе знаний, что делает ее гораздо более мощной.
Внесение информации в базы знаний
Первым шагом в создании базы знаний, несомненно, является сбор информации в базах знаний. В зависимости от того, как создается ваша база знаний, это может происходить разными способами.
Однако, прежде всего, я настоятельно рекомендую вам рассмотреть все источники информации, к которым у вас есть доступ, как лично, так и в компании. К ним относятся, например:
- Встречи
- Ваш инструмент управления проектами, например, Linear.
- Ваш агент по программированию, например, Claude Code или Codex. Над чем вы работали в последнее время с моделями (и какие задачи уже были выполнены)?
- Личные обсуждения в офисе.
Вы, вероятно, можете назвать множество других источников информации. Конечно, это немного зависит от того, как и где вы работаете. Суть в том, что вам следует направить карту ко всем различным источникам информации и создать автоматический способ перенаправления информации из этих источников в ваши помещения.
Ни вы, ни другие люди не намерены тратить больше времени на ручное внесение информации в базу знаний. Вам необходимо найти способ автоматизировать этот процесс, чтобы ваша база знаний всегда была актуальной.
Важно полностью автоматизировать маршрутизацию информации из источника в ресурсах знаний. Если требуется ручной шаг (например, вставка заметок с совещаниями в базы знаний), вы обязательно забудете об этом и потеряете критический контекст, который противоречит самой концепции базовых знаний. Главная цель базы знаний – храните там абсолютно всю информацию и ничего не упускайте. Именно это создает такие мощные ресурсы.
Например, для ведения протоколов совещаний можно настроить cron-задание, которое будет синхронизировать данные ежедневно. Оно будет собирать протоколы всех сообщений, которые предлагаются сотрудниками компании или вами лично, и сохранять их в базе знаний. Аналогичное хрон-задание можно настроить для вашего инструмента управления проектами или Linear, чтобы синхронизировать все, что там происходит. Синхронизируйте свой агент кодирования с темами, над чем вы работали, и со всем, что вы обсуждали с ними, и так далее. Все это легко синхронизируется в местах знаний с помощью ежедневного cron-задания.
Обсуждения в соседнем офисе – это тот аспект, который сложнее полностью автоматизировать. Мне пока не удалось до конца разобраться с этим, но есть два метода:
- Записывать все происходящее постоянно, что, разумеется, требует запроса.
- или просто вручную записывать что-либо после обсуждения в офисе.
Однако, я думаю, вам, возможно, даже не требуется явного сохранения обсуждения в офисе, потому что в большинстве случаев после того, как я физически обсуждаю что-то в офисе, человек, которым я это обсуждал, или я сам берём контекст из этого обсуждения и записываем его в свой агентский код. Обычно это возникло из-за проблем, связанных с реализацией, поэтому, если эти знания впоследствии активно использовались в вашем агенте кодирования, вы можете получить их из журнального агента кодирования. с которыми сталкиваетесь каждый день, в своей базе знаний, вы проделали большую часть работы. Это самая сложная часть работы, основанная на базовых знаниях. В следующем разделе я расскажу о более простой части, а именно об активном использовании информации из баз данных при помощи цифровых технологий или включении с вашими агентами по программированию. class=»wp-block-paragraph»>Если у вас есть синхронизированная база данных с исходной информацией, вы можете перейти к активному использованию этой информации. Я думаю, что существует два основных способа использования информации из базы знаний:
- Если у вас возник вопрос, вы можете просто обратиться к базе знаний. Разумеется, это следует делать через вашего агента по программированию. Вы задаете ему вопрос, и он должен понимать, что для поиска ответа ему необходимо обратиться к базе знаний.
- Второй вариант — это пассивное использование агентом базовых знаний кодирования всякий раз, когда она работает.
Думаю, первое применение здесь довольно очевидно. Просто задайте этот вопрос каждый раз, когда в чем-то не уверены. Поэтому я выделяю больше времени на обсуждение начальной точки.
Пассивное использование базовых знаний программистом в любой момент, когда это необходимо, например, для реализации кода, исправления ошибок и т. д. д., — это очень влиятельный инструмент. Опять же, я думаю, что существуют две основные комбинации для этого.
Вывод на основе Grep
Один из вариантов — иметь в базе знаний главный файл Markdown, который содержит все ресурсы знаний и индикаторы, где находится различная информация. Этот файл, однако, обновляется каждый раз, когда в приложениях знаний добавляется новая информация.
Преимущество этого соединения заключается в использовании grep, что обычно мощнее, чем поиск на основе встраивания, поскольку он лучше справляется с поиском необходимой информации в нужный момент. Однако для этого также необходимо поместить этот файл с уценкой в контекст используемого вами LLM-файла. Этот файл Markdown может довольно большой, что со временем может создать проблемы.
Вывод на основе встраивания
Второй способ активного использования базы знания — это вывод на основе эмбеддингов. Именно для этого и создан GBrain. По сути, при каждом выполнении запроса вы запускаете поиск эмбеддингов, вызываете RAG-запрос по базе знаний, и он извлекает из базы знаний соответствующие фрагменты. Если LLM посчитает, что с помощью поиска эмбеддингов он извлек релевантную информацию, он может продолжить поиск в соответствующих файлах.
Я думаю, что это, вероятно, подход к использованию базы знаний во время вывода, потому что он не требует лучшего активного поиска и не требует затрат большого количества входных токенов на ресурсы знаний для каждого действия. class=»wp-block-paragraph»>
Заключение
В целом я рекомендую вам:
- попытайтесь создать базу знаний.
- В нем как можно больше информации.
- Выберите, как другие примеры подобных баз знаний.
- попробуйте настроить это самостоятельно.
Затем вам следует активно использовать эти знания каждый раз, когда вы работаете на компьютере с помощью агента программирования (что, по сути, должно применяться ко всей вашей работе). Я считаю, что в последние годы базовые знания станут невероятно мощными и дорогими, и они также могут обеспечить вам конкурентное преимущество, поскольку доступ к огромному объему информации станет несомненным плюсом в будущем. Кроме того, это характерные данные для вашей компании или вашего личного контекста, к которым во многих случаях имеется доступ только вы. Таким образом, если вы не сохраните их, вы никогда не сможете получить доступ к этой информации в будущем. вебинар:
🚀 Десять раз повысьте свой инженерный уровень с помощью магистратур (бесплатный 3-дневный курс по электронной почте)
📚 Получите мою бесплатную электронную книгу «Модели визуального языка».
💻 Мой вебинар по языковым моделям изучения
👉 Найдите меня в социальных сетях:
💌 Substack
🔗 LinkedIn
🐦 X/Twitter
Эйвинд Кьосбаккен Посмотреть все Эйвинд Кьосбаккен
Источник: towardsdatascience.com
Похожие записи
Оцените материал:
Присоединяйтесь и подпишитесь на рассылку самых свежих новостей по Email
Получайте свежие новости и идеи на почту. Без спама — только самое интересное.
Нажимая «Подписаться», вы соглашаетесь с политикой конфиденциальности.
