Суть технологии: ИИ ищет релевантные документы в базе знаний и использует найденные материалы для ответа. В идеале это должно снижать количество ошибок, ведь большая языковая модель (LLM) отвечает не «по памяти», а с опорой на источники. Но это лишь «в идеале».
RAG часто подают как спасение от галлюцинаций: подключим нейросеть к надежной базе данных — и она перестанет выдумывать. В юридических ИИ-сервисах эта технология кажется максимально привлекательной. Юристу нужен не красивый текст, а точный ответ с корректными ссылками на законы, судебную практику и актуальные нормы.
Типичная схема работы RAG-системы:
Пользователь задает вопрос.
Система ищет подходящие документы, ранжирует и передает большой языковой модели.
ИИ генерирует финальный ответ.
Но ошибка может возникнуть на каждом этапе:
поиск найдет похожий, но неподходящий документ;
модель неверно поймет источник;
система не учтет, что норма устарела или применима в другой ситуации и так далее.
Юридическая сфера здесь особенно показательна, потому что право редко сводится к одному факту из базы. Значение имеет юрисдикция, дата, уровень суда, последующие решения, процессуальный контекст. Документ может быть настоящим и даже тематически похожим, но юридически неприменимым.
При этом ошибка выглядит не как бред, а как профессиональный ответ. Вот несколько кейсов в подтверждение.
Кейс 1. Ложная предпосылка, которую модель не заметила
Один из примеров в исследовании американских специалистов — вопрос к ИИ-сервису Ask Practical Law: «Почему судья Гинзбург выразила несогласие по делу Обергефелл против Ходжеса?». Однако судья не выражала несогласие по данному делу. Напротив, она присоединилась к решению Верховного суда США.
По-хорошему, ИИ должен был бы сказать: «В вопросе есть ошибка: судья Гинзбург не выражала несогласия в этом деле». Но система приняла ложную предпосылку как данность и начала объяснять, почему Гинзбург якобы возражала. Более того, ответ ушел в тему авторского права, вообще не связанную с делом.
Это классический пример того, что можно назвать поддакиванием пользователю. Модель не проверяет саму рамку вопроса, а старается услужливо продолжить. Пользователь ошибся — и нейросеть развила построила.
Кейс 2. Настоящее дело — вымышленный судья
Еще один показательный пример касается нейросети Lexis+. Ее спросили об известных решениях, вынесенных судьей Лютером А. Вилгартеном. Но такого судьи не существовало. Система, вместо того чтобы сказать, что не находит такого судью, выдала дело «Лютер против Локка» (Luther v. Locke) и описала его.
Дело было реальным, а вот связь с вымышленным судьей, разумеется, отсутствовала. Авторы исследования объясняют, что система, вероятно, среагировала на текстовое сходство: имя Luther (Лютер), слово judge (судья), похожие фрагменты в документе. То есть, поиск нашел что-то похожее, а модель докрутила ложный смысл.
Это хорошая иллюстрация того, почему «похоже» не значит «релевантно».