|
цель работы – провести сравнительный анализ подходов для интерактивных чат-ботов, отвечающих на вопросы по документам, с использованием больших языковых моделей (LLM). Исследование направлено на оценку эффективности трёх методов: LLM, наивного Retrieval-Augmented Generation (RAG) и продвинутого подхода GraphRAG, который интегрирует извлечение релевантных фрагментов с построением графа знаний для организации и синтеза информации.
Методы. В статье анализируются три подхода:
– LLM, полагающийся исключительно на свои внутренние знания, что приводит к ограниченной точности при работе с невиданными документами;
– Наивный RAG, реализующий извлечение релевантных текстовых фрагментов путём семантического поиска по векторным представлениям, что улучшает точность, но ограничивается рамками одного или нескольких фрагментов;
– GraphRAG, использующий структурированное представление текстового корпуса в виде графа знаний с предварительной суммаризацией фрагментов, позволяющее учитывать сложные взаимосвязи между информационными фрагментами и обеспечивать более полное покрытие широких запросов.
Результаты. Экспериментальные данные свидетельствуют о том, что GraphRAG обеспечивает существенно более полные и разносторонние ответы по сравнению с наивным RAG и базовой LLM. Особенно заметны улучшения в сценариях, требующих многоступенчатых рассуждений и синтеза информации из нескольких источников, что минимизирует эффект галлюцинаций и ограничения по размеру контекстного окна.
Выводы. Полученные результаты подтверждают, что интеграция графовой структуры знаний в процесс генерации ответов существенно повышает эффективность интерактивных чат-ботов для работы с документами. Подход GraphRAG представляет собой перспективное решение для задач, связанных с обработкой больших и сложных документальных коллекций, что открывает новые возможности для дальнейших исследований в области комбинирования извлечения, суммаризации и структурированного представления данных.
Ключевые слова:большие языковые модели, Retrieval-Augmented Generation, GraphRAG, чат-боты, анализ документов, извлечение информации, граф знаний, интерактивный QA.
|