Вложения
Тема дорожной карты · Большие языковые модели (LLM)
Вложения представляют собой числовые представления текстовых данных, которые используются в задачах обработки естественного языка. Они играют ключевую роль в захвате семантического смысла текста и могут применяться в различных приложениях, таких как поисковые системы и системы рекомендаций. Для генерации вложений можно использовать различные инструменты, такие как библиотека transformers. Вложения позволяют эффективно хранить и обрабатывать большие объемы текстовых данных, что делает их незаменимыми в современных системах искусственного интеллекта.
Как это работает
Вложения (Retrieval-Augmented Generation) дополняют вывод модели большим языковым моделем (LLM) релевантным контекстом из вашей базы знаний. Процесс включает в себя несколько шагов: сначала документы преобразуются в векторное представление с помощью embedding-модели, такие как text-embedding-3-large (OpenAI), bge-large, e5-mistral, и voyage-3. Эти векторы затем сохраняются в векторной базе данных, таких как Postgres + pgvector, Qdrant, Weaviate, Chroma, или Pinecone. Когда поступает запрос, он также преобразуется в векторное представление и используется для поиска наиболее релевантных сегментов контекста. Эти сегменты затем включаются в промпт для LLM, который генерирует финальный ответ. Для улучшения качества выбора контекста используются re-rankers, такие как Cohere и BGE.
Когда применять
RAG особенно полезно, когда LLM должен отвечать на вопросы, основываясь на знаниях, которые (а) превышают ограничения контекстного окна модели, (б) относятся к информации, которая появилась после даты среза знаний модели, или (в) являются проприетарными и недоступными в публичных источниках. В таких случаях начните с использования Postgres + pgvector, так как это решение является дешевым, простым в реализации и хорошо масштабируется. Если качество выбора контекста достигает плато, используйте re-ranking для улучшения результатов. Тюньте размер сегмента (chunk-size) в пределах 256-1024 токенов и настройте перекрытие (overlap) в диапазоне 10-20%. Мониторьте recall выбора контекста и качество ответа отдельно, чтобы оптимизировать систему.
Типичные ошибки
Одной из распространенных ошибок при использовании вложений является неправильный размер сегмента. Если сегмент слишком мал, он может терять важный контекст, а если слишком велик, то может включать нерелевантные данные. Другой распространенной ошибкой является отсутствие метаданных, таких как источник, дата и секция, которые помогают в фильтрации и цитировании контекста. Также часто возникает заблуждение, что все embedding-модели взаимозаменяемы, что не соответствует действительности, так как качество представления данных может сильно варьироваться. Наконец, пропуск этапа re-ranking может привести к низкому качеству ответов, особенно если выбор контекста неправильно настроен.
Связанные понятия
Полезные ресурсы
Проверить знания (1)
Загрузка вопросов…