Posted:      Updated:

Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks’ 논문을 번역한 글입니다.

정리한 내용은 여기에서 확인하실 수 있습니다.

Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks

Abstract

LLM(대규모 사전 학습된 언어 모델)은 파라미터에 사실적 지식을 저장하고 있으며, downstream NLP 과제에 fine-tuned 될 때 SOTA를 달성한다는 것이 밝혀졌다. 그러나, 지식에 접근하고 정확하게 조작하는 능력은 여전히 제한적이고, 따라서 knowledge-intensive(지식 집약적인) 과제에서는 과제 특화 아키텍처에 뒤처지는 성능을 보인다. 또한, 그들의 결정에 대한 출처를 제공하고 그들의 세계 지식을 업데이트하는 것은 여전히 열린 연구 문제로 남아있다. 명시적 non-parametric 메모리에 대한 차별화 가능한 접근 메커니즘을 가진 pre-trained 모델들은 지금까지 추출적 downstream 과제들에 대해서만 조사되었다. 우리는 검색 증강 생성(RAG)을 위한 범용적인 fine-tuning 레시피를 탐구한다. RAG 모델은 언어 생성에서 pre-trained parametric 및 non-parametric 메모리를 결합한 모델이다. 우리는 parametric 메모리가 pre-trained seq2seq 모델이고, non-parametric 메모리가 pre-trained neural retriever 로 접근되는 위키피디아의 밀집 벡터 인덱스인 RAG 모델을 소개한다. 우리는 전체 생성 시퀀스에 걸쳐 동일한 검색된 문단에 의존하는 RAG 구성과 토큰당 다른 문단을 사용할 수 있는 다른 RAG 구성을 비교한다. 우리는 다양한 knowledge-intensive NLP 과제에서 우리의 모델을 미세 조정하고 평가하며, 세 개의 오픈 도메인 QA 과제에서 SOTA를 달성했고, 매개변수적 seq2seq 모델과 과제 특화 검색 및 추출 아키텍처를 능가한다. 언어 생성 작업에서, 우리는 RAG 모델이 SOTA인 parametric-only seq2seq 기준 모델보다 더 구체적이고 다양하며 사실적인 언어를 생성한다는 것을 발견했다.

1. Introduction

pre-trained neural language model은 데이터로부터 상당한 양의 심층적인 지식을 학습하는 것으로 나타났다. 그들은 매개변수화된 암시적 지식 베이스로서 외부 메모리에 접근하지 않아도 이를 수행할 수 있다. 이 개발은 흥미롭지만, 이러한 모델에는 단점이 있다: 그들은 메모리를 쉽게 확장하거나 수정할 수 없고, 예측에 대한 통찰력을 직접적으로 제공할 수 없고, 할루시네이션(hallucinations)을 일으킬 수 있다. parametric memory와 non-parametric (즉, 검색 기반) memory들을 결합시킨 하이브리드 모델은 지식을 직접 수정하고 확장할 수 있으며, 접근된 지식을 검사하고 해석할 수 있기 때문에 이러한 문제들 중 일부를 해결할 수 있다. masked language model과 differentiable retriever를 결합한 최근 소개된 두 가지 모델인 REALM과 ORQA는 유망한 결과를 보여주었지만, 개방형 도메인 추출 질문 답변만 탐색했다. 여기서는, hybrid parametric and non-parametric memory를 NLP의 workhorse, 즉 seq2seq 모델에 적용한다.

introduction

Figure 1: 접근 방식 개요. 우리는 pre-trained retriever (Query Encoder + Document Index) 와 pre-trained seq2seq model (Generator) 를 결합하고 하나의 신경망으로 미세 조정한다. 쿼리 $x$ 에서, 우리는 top-K 문서 $z_i$ 를 찾기 위해 Maximum Inner Product Search (MIPS) 를 사용한다. 최종 예측 $y$ 에서, 우리는 $z$ 를 잠재 변수로 처리하고 다른 문서가 주어진 seq2seq 예측을 무시한다.

우리는 검색 증강 생성(RAG)라고 하는 범용적인 fine-tuning 접근을 통해 사전 훈련된 parametric-memory 생성 모델에 non-parametric memory 를 부여한다. 우리는 parametric memory가 pre-trained seq2seq transformer이고, non-parametric memory는 사전 훈련된 neural retriever로 접근 가능한 위키피디아의 밀집 벡터 인덱스인 RAG 모델을 구축한다. 우리는 이 컴포넌트들을 end-to-end 학습된 확률 모델에 결합한다. retriever(Dense Passage Retriever, 이하 DPR)는 입력에 따라 조건화된 잠재 문서를 제공하고, seq2seq 모델(BART)은 출력을 생성하기 위해 입력과 함께 잠재 문서의 조건들을 제공한다. 우리는 출력 별 basis(동일한 문서는 모든 토큰을 담당한다고 가정) 또는 토큰 별 basis(다른 문서들은 서로 다른 토큰을 담당하는) top-K 추정으로 잠재 문서들을 marginalizing(한 가지 변수에 대한 확률값을 추정하기 위해 나머지 변수를 모두 적분하여 제거하는 과정) 한다. T5 또는 BART와 마찬가지로 RAG는 모든 seq2seq 작업에서 미세 조정될 수 있고, 이를 통해 generator와 retriever 둘 다 공동으로 학습된다.

메모리 네트워크, 스택 확장 네트워크 및 메모리 레이어와 같은 특정 작업을 위해 처음부터 훈련되는 non-parametric memory로 시스템을 강화하는 아키텍처를 제안하는 고아범위한 이전의 작업이 있었다. 대조적으로, 우리는 parametric과 non-parametric memory 컴포넌트 둘 다 pre-trained 되고 광범위한 지식으로 pre-loaded 되는 설정을 탐색한다. 결정적으로, pre-trained 접근 메커니즘을 사용함으로써, 추기적인 학습 없이도 지식 접근 능력이 나타난다.

우리의 결과는 외부 지식 소스에 대한 접근 없이 인간이 합리적으로 수행할 수 없는 작업인 knowledge-intensive 작업을 위한 생성으로 parametric과 non-parametric memory의 결합의 이점을 강조한다. 우리의 RAG 모델은 개방형 Natural Questions, WebQuestions, CuratedTrec에서 SOTA를 달성하고, TriviaQA에서 특수한 pre-training objectives를 사용한 최근 접근 방식보다 훨씬 뛰어난 성능을 보였다. 이러한 추출 작업에도 불구하고, 제약 없는 생성이 이전의 추출 접근 방식보다 성능이 우수하다는 사실을 발견했다. knowledge-intensive 생성에서, 우리는 MS-MARCO 및 Jeopardy 질문 생성을 실험한 결과 모델이 BART 기준보다 더 사실적이고 구체적이며 다양한 응답을 생성한다는 사실을 발견했다. FEVER 사실 검증에서, 강력한 retrieval supervision을 사용하는 SOTA 파이프라인 모델의 4.3% 이내의 결과를 달성한다. 마지막으로, 우리는 non-parametric memory가 세상이 변함에 따라 모델의 지식을 업데이트하기 때문에 대체될 수 있다는 것을 보여준다.

2. Methods

우리는 텍스트 문서 $z$ 를 검색하기 위해 입력 시퀀스 $x$ 를 사용하고 타깃 시퀀스 $y$ 를 생성할 때 이를 추가 컨텍스트로 사용하는 RAG 모델을 탐색한다. Figure 1에서 보여주듯이, 우리 모델은 두 가지 구성 요소를 활용한다: (i) 쿼리 $x$ 가 주어졌을 때 텍스트 구절에 대한 분포(top-K truncated)를 반환하는 파라미터 $\eta$ 가 있는 retriever $p_\eta (z \mid x)$ 와 (ii) 원래 입력 $x$와 검색된 문장 $z$과 이전 $i-1$ 토큰들 $y_{1:i-1}$의 컨텍스트에 기초한 최근 토큰을 생성하는 $\theta$ 로써 매개변수화된 generator $p_\theta (y_i \mid x, z, y_{1:i-1})$ .

retriever 와 generator를 end-to-end 학습하기 위해, 우리는 검색된 문서를 잠재 변수로 처리한다. 우리는 생성된 텍스트에 대한 분포를 생성하기 위해 다양한 방식으로 잠재 문서를 marginalize 하는 두 가지 모델을 제안한다. 한 접근 방식인 $RAG-Sequence$ 에서 모델은 각 타깃 토큰을 예측하기 위해 동일한 문서를 사용한다. 두 번째 접근 방식인 $RAG-Token$ 은 다른 문서를 기반으로 각 타깃 토큰을 예측할 수 있다. 다음에서는, 두 모델을 공식적으로 소개하고 $p_\eta$ , $p_\theta$ 컴포넌트와 훈련 및 디코딩 절차를 설명한다.

2.1 Models

RAG-Sequence Model RAG-Sequence 모델은 완전한 $sequence$ 를 생성하기 위해 동일한 검색된 문서를 사용한다. 기술적으로, 검색된 문서를 top-K 추정을 통해 seq2seq 개연성 $p(y\mid x)$ 를 얻기 위해 marginalized된 단일 잠재 변수로 다룬다. 구체적으로, 상위 K개의 문서들은 retriever를 사용하여 검색되고, generator는 각 문서에 대한 출력 시퀀스 확률을 생성하고 marginalized 한다,

\[P_{\text{RAG-Sequence}}(y|x) \approx \sum_{z \in \text{top-}k(p(z|x))} p_\eta (z|x)p_\theta (y|z, x) = \sum_{z \in \text{top-}k(p(z|x))} P_\eta (z|x) \prod_{i=1}^{N}p_{\theta}(y_{i}|z, x, y_{<i})\]

RAG-Token Model RAG-Token 모델에서는 각 목표 $token$ 에 대해 다른 잠재 문서를 그리고 그에 따라 marginalize 할 수 있다. 이를 통해 generator 는 답변을 생성할 때 여러 문서의 content 를 선택할 수 있다. 구체적으로, 상위 K개의 문서들이 retriever 를 통해 검색되고, 그 후에 generator 는 각 문서에 대해 다음 출력 토큰에 대한 분포를 생성한 다음 marginalizing 하고, 다음 출력 토큰과 함께 과정을 반복한다. 형식적으로, 우리는 다음과 같이 정의한다:

\[P_{\text{RAG-Token}}(y|x) \approx \prod_{i=1}^{N} \sum_{z \in \text{top-}k(p(z|x))} p_\eta (z|x)p_{\theta}(y_{i}|z, x, y_{<i-1})\]

마지막으로, RAG는 목표 클래스를 길이가 하나인 목표 시퀀스로 간주함으로써 시퀀스 분류 작업에 사용될 수 있다는 점을 지적한다. 이 경우 RAG-Sequence와 RAG-Token은 동일하다.

2.2 Retriever: DPR

retrieval 컴포넌트 $p_\eta (z \mid x)$ 는 DPR에 기초한다. DPR은 bi-encoder 아키텍처를 따른다:

\[p_\eta (z|x) \propto \exp(d(z)^{\top} q(x)), \quad d(z) = \text{BERT}*{d}(z), \quad q(x) = \text{BERT}*{q}(x)\]

$\mathrm{d}(z)$ 는 $BERT_{BASE}$ 문서 인코더에 의해 생성된 문서의 밀집 표현이며, $\mathrm{q}(x)$ 는 동일한 $BERT_{BASE}$ 를 기반으로 한 쿼리 인코더에 의해 생성된 쿼리 표현이다. 최우선 확률 $ q_\eta (z \mid x) $ 이 가장 높은 $k$ 개의 문서 $z$ 목록인 top-k( $ p_\eta (· \mid x) $ )를 계산하는 것은 최대 내적 검색(MIPS) 문제로, 이는 부분-선형 시간에 근사적으로 해결될 수 있다. 우리는 DPR에서 사전 훈련된 양방향 인코더를 사용하여 retriever 를 초기화하고 문서 인덱스를 구축한다. 이 검색기는 TriviaQA 질문과 Natural Questions 에 대한 답변을 포함하는 문서를 검색하도록 훈련됐다. 우리는 문서 인덱스를 non-parametric memory 라고 한다.

2.3 Generator: BART

generator 구성 요소 $p_{\theta}(y_i \mid x, z, y_{1:i-1})$ 는 어떤 인코더-디코더를 사용해도 모델링될 수 있다. 우리는 400M 의 파라미터를 가진 사전 훈련된 seq2seq 트랜스포머인 BART-large 를 사용한다. BART에서 생성할 때 입력 $x$ 와 검색된 내용 $z$ 를 결합하기 위해서는, 우리는 그저 그것들을 연결한다. BART는 다양한 노이징 함수를 사용한 노이즈 제거 목표로 사전 훈련됐다. 이는 다양한 세트의 생성 작업에서 SOTA를 얻었으며, 비슷한 크기의 T5 모델들보다 더 좋은 성능을 보인다. 우리는 이후 BART generator 매개변수 $\theta$ 를 parametric memory 라고 한다.

2.4 Training

우리는 문서가 검색되어야 한다는 어떠한 직접적인 지도 없이 retriever 와 generator 구성 요소를 함께 훈련한다. 입력/출력 쌍 $(x_j, y _j)$ 으로 구성된 fine-tuning 훈련 코퍼스가 주어지면, 우리는 각 타겟에 대한 음의 주변 로그 가능도, $\sum_j -\log p(y_j \mid x_j)$ 를 확률적 경사하강법을 사용하여 Adam 과 함께 최소화한다. 문서 인코더 $\mathrm{BERT}_d$ 를 훈련하는 동안 업데이트하는 것은 문서 인덱스가 $\mathrm{REALM}$ 이 사전 훈련 중에 하듯이 주기적으로 업데이트되어야 하기 때문에 비용이 많이 든다. 우리는 이 단계가 강력한 성능에 필수적이지 않다고 판단하고 문서 인코더(및 인덱스)를 고정하고, 쿼리 인코더 $\mathrm{BERT}_q$ 와 BART generator 만 fine-tuning 한다.

2.5 Decoding

테스트 시, RAG-Sequence와 RAG-Token은 $p(y \mid x)$ 의 최대값을 근사하는 데 있어 서로 다른 방법이 필요하다.

RAG-Token RAG-Token 모델은 다음과 같은 전이 확률을 가진 표준적인 자기회귀적 seq2seq generator 로 볼 수 있다: $p_{\theta}(y_i \mid x, y_{1:i-1}) = \sum_{z \in \text{top-k}(p_{\eta}(\cdot \mid x))} p_{\eta}(z_i \mid x) p_{\theta}(y_i \mid x, z_i, y_{1:i-1})$ 디코딩을 위해, 우리는 $p_{\theta}^{0}(y_i \mid x, y_{1:i-1})$ 를 표준 빔 디코더에 연결할 수 있다.

RAG-Sequence RAG-Sequence의 경우, 확률 $p(y \mid x)$ 는 전통적인 토큰 별 우도로 분해되지 않기 때문에, 단일 빔 탐색으로는 해결할 수 없다. 대신, 각 문서 $z$ 에 대해 빔 탐색을 실행하여, 가설을 $ p_{\theta}(y_i \mid x, z, y_{1:i-1}) $ 를 사용하여 점수를 매긴다. 이로 인해 가설의 집합 $Y$ 가 생성되는데, 이 중 일부는 모든 문서의 빔에서 나타나지 않을 수도 있다. 가설$y$ 의 확률을 추정하기 위해, 빔에 나타나지 않는 각 문서 $z$ 에 대해 추가 순전파를 실행하고, generator 확률에 $p_\eta(z \mid x)$ 를 곱한 다음, 빔에 걸쳐 확률을 합산하여 주변값을 계산한다. 우리는 이 디코딩 절차를 “Thorough Decoding”이라고 한다. 더 긴 출력 시퀀스의 경우, $\left\vert Y \right\vert$ 는 커질 수 있으며, 많은 순전파가 필요할 수 있다. 더 효율적인 디코딩을 위해서, $p_{\theta}(y \mid x, z_i) \approx 0$ 으로 더 근사할 수 있는데, 이는 $x, z_i$ 로부터 빔 탐색 중에 $y$ 가 생성되지 않았을 때 적용된다. 이는 후보 세트 $Y$ 가 생성되면 추가 순전파를 실행할 필요가 없어진다. 우리는 이 디코딩 절차를 “Fast Decoding”이라고 한다.

3. Experiments

RAG를 다양한 지식 집약적인 작업에서 실험한다. 모든 실험에 대해, 우리는 non-parametric 지식 소스로 단일 위키피디아 덤프를 사용합니다. Lee et al. [31]과 Karpukhin et al. [26]을 따라, 우리는 2018년 12월 덤프를 사용합니다. 각 위키피디아 기사는 분리된 100단어 청크로 나뉘어 총 21M 문서를 만든다. 우리는 각 문서에 대한 임베딩을 계산하기 위해 문서 인코더를 사용하고, FAISS [23]를 사용하여 빠른 검색을 위한 계층적 Hierarchical Navigable Small World 근사치를 사용해 단일 MIPS 인덱스를 구축한다. 훈련 중에, 우리는 각 쿼리에 대해 상위 $k$ 문서를 검색합니다. 우리는 훈련을 위해 $k \in {5, 10}$ 을 고려하고, 테스트 시간에 대해 개발 데이터를 사용하여 $k$ 를 설정한다. 이제 각 작업에 대한 실험적인 세부 사항을 논의한다.

3.1. Open-domain Question Answering

오픈 도메인 질의 응답(QA)은 중요한 real-world 응용 프로그램이며 지식 집약적 작업을 위한 흔한 테스트베드이다. 우리는 질문과 답변을 입력-출력 텍스트 쌍 $(x, y)$ 으로 취급하고 답변의 음의 로그 우도를 직접 최소화하여 RAG를 훈련한다. 우리는 인기 있는 추출적 QA 패러다임과 RAG를 비교하는데, 여기서 답변은 검색된 문서에서 추출된 span 으로, 주로 non-parametric 지식에 의존한다. 또한 “Closed-Book QA” 접근법과 비교하는데, 이는 RAG처럼 답변을 생성하지만 검색을 활용하지 않고 순수하게 parametric 지식에만 의존한다. 우리는 네 가지 인기 있는 오픈 도메인 QA 데이터셋을 고려한다: Natural Questions (NQ), TriviaQA (TQA), WebQuestions (WQ) 그리고 CuratedTrec (CT). CT와 WQ는 작기 때문에, 우리는 DPR을 따라 CT와 WQ 모델을 NQ RAG 모델로 초기화한다. 우리는 이전 연구와 같은 훈련/개발/테스트 분할을 사용하고 정확도 일치(EM) 점수를 보고한다. TQA에 대해서는 T5와 비교하기 위해 TQA 위키 테스트 세트에서도 평가한다.

3.2. Abstractive Question Answering

RAG 모델은 간단한 추출적 QA를 넘어서 자유 형태의 추상적 텍스트 생성을 통해 질문에 답변할 수 있다. RAG의 자연어 생성(NLG) 능력을 지식 집약적인 환경에서 테스트하기 위해, MSMARCO NLG 태스크 버전 2.1을 사용한다. 이 작업은 질문들과 각 질문에 대해 검색 엔진에서 검색된 열 개의 gold passages 와, 검색된 gold passages 로부터 주석된 완전한 문장 답변으로 구성된다. MSMARCO를 오픈 도메인 추상적 QA 태스크로 취급하기 위해 제공된 글귀는 사용하지 않고, 오직 질문과 답변만을 사용한다. 예를 들어 “Volcano, CA에서의 날씨는 어떤가요?”와 같이 gold passages 에 접근하지 않고는 참조 답변과 일치하는 방식으로 답변할 수 없는 일부 질문들이 MSMARCO에 있기 때문에, gold passages 를 사용하지 않을 경우 성능이 낮아질 수 있다. 또한, MSMARCO의 일부 질문들은 위키피디아만을 사용하여 답변할 수 없다. 이 경우, RAG는 parametric 지식에 의존하여 합리적인 반응을 생성할 수 있다.

3.3. Jeopardy Question Generation

RAG의 생성 능력을 non-QA 환경에서 평가하기 위해, 오픈 도메인 질문 생성에 대해 연구한다. 표준 오픈 도메인 QA 작업에서 나오는 질문들을 사용하는 대신, 이들은 일반적으로 짧고 간단한 질문으로 구성되어 있으므로, 우리는 더욱 요구되는 Jeopardy 질문 생성 작업을 제안한다. Jeopardy는 해당 엔티티에 대한 사실로부터 엔티티를 추측해내는 독특한 형식으로 구성된다. 예를 들어, “월드컵”은 “1986년 멕시코가 이 국제 스포츠 대회를 두 번째로 개최한 최초의 국가로 기록되었습니다.” 라는 질문에 대한 답이다. Jeopardy 질문은 정확하고 사실적인 진술이므로, 그들의 답 엔티티에 조건을 둔 Jeopardy 질문 생성은 도전적인 지식 집약적 생성 작업을 구성합니다.

SearchQA 의 분할을 사용하여 100K 트레인, 14K 개발, 그리고 27K 테스트 예제를 사용한다. 이것이 새로운 작업이므로, 비교를 위해 BART 모델을 훈련시킨다. SQuAD-튠드 Q-BLEU-1 메트릭을 사용하여 평가한다. Q-BLEU는 매칭 엔티티에 대한 더 높은 가중치를 가진 BLEU의 변형이며, 질문 생성에 대한 표준 메트릭보다 인간 판단과 더 높은 상관관계를 가진다. 또한, 생성된 내용의 사실성과 특정성을 평가하기 위해 두 가지 인간 평가를 수행한다. 사실성은 진술이 신뢰할 수 있는 외부 출처에 의해 확인될 수 있는지 여부로 정의하고, 특정성은 입력과 출력 간의 높은 상호 의존성으로 정의한다. 우리는 최선의 관행을 따라 쌍으로 비교 평가를 사용한다. 평가자들에게 답변과 두 개의 생성된 질문, 하나는 BART에서 나온 것과 하나는 RAG에서 나온 것을 보여준다. 그런 다음 그들에게 네 가지 옵션 중 하나를 선택하도록 요청한다—질문 A가 더 나음, 질문 B가 더 나음, 둘 다 좋음, 또는 둘 다 좋지 않음.

3.4. Fact Verification

FEVER는 자연어 주장이 위키피디아에 의해 지지되거나 반박되는지, 또는 결정할 충분한 정보가 없는지 분류하는 것을 요구한다. 이 작업은 주장과 관련된 위키피디아에서 증거를 검색한 후 이 증거를 추론하여 주장이 위키피디아만으로 참인지 거짓인지, 혹은 검증할 수 없는지 분류하는 것을 필요로 한다. FEVER는 검색 문제와 함께 도전적인 연역 추론 작업을 결합한다. 또한, 분류보다 생성을 다루는 RAG 모델의 능력을 탐색하는데 적합한 시험대를 제공한다. FEVER 클래스 레이블(지지, 반박, 또는 충분한 정보 없음)을 단일 출력 토큰으로 매핑하고 직접 주장-클래스 쌍으로 훈련한다. 중요하게도, 대부분의 다른 FEVER 접근 방식과 달리, 검색된 증거에 대한 감독을 사용하지 않는다. 많은 실제 응용 프로그램에서 검색 감독 신호가 사용할 수 없으며, 이러한 감독이 필요하지 않은 모델은 더 넓은 범위의 작업에 적용될 수 있다. 우리는 두 가지 변형을 탐색합니다: 표준 3방향 분류 작업(지지/반박/충분한 정보 없음)과 Thorne과 Vlachos 에서 연구된 2방향(지지/반박) 작업. 양쪽 경우 모두 레이블 정확도를 보고한다.

4. Results

4.1. Open-domain Question Answering

표 1은 RAG와 SOTA 모델들의 결과를 보여준다. 네 가지 오픈 도메인 QA 작업 모두에서, RAG는 새로운 SOTA를 달성했다(단, TQA에서는 T5-비교 가능 분할에서만). RAG는 “closed-book” (parametric only) 접근 방식의 생성 유연성과 “open-book” 검색 기반 접근 방식의 성능을 결합한다. REALM과 T5+SSM과 달리, RAG는 비싸고 전문적인 “salient span masking” 사전 훈련 없이도 강력한 결과를 보여준다. RAG의 retriever 는 Natural Questions와 TriviaQA에서 검색 감독을 사용하는 DPR의 retriever 를 사용하여 초기화되었다는 점을 언급하는 것이 가치가 있다. RAG는 문서를 재순위하는 데 BERT 기반의 “cross-encoder” 와 extractive reader를 사용하는 DPR QA 시스템에 비해 유리하게 비교된다. RAG는 SOTA 성능을 위해 re-ranker나 extractive reader가 필요하지 않음을 보여준다.

table1

답을 추출할 수 있을 때에도 답을 생성하는 것은 여러 가지 장점이 있다. 답에 대한 단서를 포함하지만 단어 그대로의 답을 포함하지 않는 문서들도 올바른 답을 생성하는 데 기여할 수 있으며, 이는 표준 추출적 접근 방식으로는 불가능하다. 이는 문서에 대한 더 효과적인 소거를 이끌어낸다. 또한, RAG는 검색된 문서 중 어느 곳에도 올바른 답이 없는 경우에도 올바른 답을 생성할 수 있으며, 이러한 경우에 NQ에서 11.8%의 정확도를 달성한다. 이는 추출적 모델이 0%의 점수를 얻을 것임에 반해 높은 결과이다.

4.2. Abstractive Question Answering

표 2에서 보이듯이, RAG-시퀀스는 오픈 MS-MARCO NLG에서 BART보다 2.6 Bleu 포인트와 2.6 Rouge-L 포인트를 더 높게 달성한다. RAG는 최고 수준의 모델 성능에 근접하며, 이는 인상적인 성과이다. 왜냐하면 (i) 해당 모델들은 참조 답변을 생성하는 데 필요한 특정 정보를 가진 gold passages에 접근하고, (ii) 많은 질문들이 gold passages 없이는 답변할 수 없으며, (iii) 모든 질문들이 위키피디아만으로 답변할 수 있는 것은 아니기 때문이다. 표 3은 우리 모델들에서 생성된 몇 가지 답변을 보여준다. 질적으로, 우리는 RAG 모델이 BART보다 덜 환상적인 것을 생성하고 더 자주 사실적인 텍스트를 생성한다는 것을 발견했다. 나중에, 우리는 또한 RAG 생성물이 BART 생성물보다 더 다양하다는 것을 보여준다(§4.5 참조).

4.3. Jeopardy Question Generation

표 2에 따르면, RAG-토큰은 제퍼디 질문 생성에서 RAG-시퀀스보다 더 나은 성능을 보여주며, 두 모델 모두 BART를 Q-BLEU-1에서 능가한다. 4는 BART와 RAG-토큰에서 생성된 452쌍의 생성물에 대한 인간 평가 결과를 보여준다. 평가자들은 7.1%의 경우에서만 BART가 RAG보다 더 사실적이라고 지적했으며, 42.7%의 경우에서 RAG가 더 사실적이었고, 추가로 17%의 경우에서 RAG와 BART 모두 사실적이었다고 나타냈다. 이는 최고 수준의 생성 모델에 비해 RAG의 효과를 명확하게 보여준다. 평가자들은 또한 RAG 생성물이 큰 폭으로 더 특정하다고 판단했다. 표 3은 각 모델에서의 전형적인 생성물을 보여준다.

Jeopardy 질문은 종종 두 개의 별개의 정보를 포함하며, RAG-토큰은 여러 문서의 내용을 결합한 응답을 생성할 수 있기 때문에 가장 잘 수행할 수 있다. 그림 2는 한 예를 보여준다. “Sun”을 생성할 때, 문서 2에 대한 사후 확률이 높으며, 이 문서에서는 “The Sun Also Rises”를 언급한다. 마찬가지로, “A Farewell to Arms”가 생성될 때 문서 1이 사후 확률을 지배한다. 흥미롭게도, 각 책의 첫 토큰이 생성된 후에는 문서 사후 확률이 평탄화된다. 이 관찰은 generator 가 특정 문서에 의존하지 않고도 제목을 완성할 수 있음을 시사한다. 다시 말해, 모델의 parametric 지식만으로 제목을 완성할 수 있다. 이 가설에 대한 증거를 찾기 위해 BART-단독 베이스라인에 부분 디코딩 “The Sun”을 제공한다. BART는 생성을 "The Sun Also Rises" is a novel by this author of "The SunAlso Rises" 로 완성하며, 제목 "The Sun Also Rises" 가 BART의 매개변수에 저장되어 있음을 나타낸다. 마찬가지로, BART는 부분 디코딩 "The Sun Also Rises" is a novel by this author of "The SunAlso Rises""The Sun Also Rises" is a novel by this author of "A Farewell to Arms” 로 완성한다. 이 예시는 매개변수적 및 비매개변수적 기억이 어떻게 함께 작동하는지 보여준다—non-parametric 구성 요소는 생성을 안내하는 데 도움을 주며, parametric 기억에 저장된 특정 지식을 이끌어낸다.

4.4. Fact Verification

표 2는 FEVER에 대한 우리의 결과를 보여준다. 3방향 분류의 경우, RAG의 점수는 최신 모델들과 4.3% 이내의 차이를 보인다. 이 최신 모델들은 도메인 특정 아키텍처와 상당한 엔지니어링을 갖춘 복잡한 파이프라인 시스템으로, 중간 검색 감독을 사용하여 훈련되었으며, 이는 RAG가 필요로 하지 않는다.

figure2

table3

2방향 분류에 대해서, 우리는 Thorne과 Vlachos와 비교합니다. 그들은 RoBERTa를 훈련하여 gold evidence sentence 가 주어졌을 때 주장을 참 또는 거짓으로 분류한다. RAG는 오직 주장만을 제공받고 자체적으로 증거를 검색함에도 불구하고, 이 모델과 2.7% 이내의 정확도를 달성한다. 또한, RAG에 의해 검색된 문서가 FEVER에서 gold evidence 로 주석된 문서와 일치하는지를 분석한다. 우리는 RAG에 의해 검색된 상위 $k$ 개 문서와 gold evidence 주석 간의 기사 제목 겹침을 계산한다. 우리는 상위 검색된 문서가 71%의 경우에서 gold article 에서 온 것이며, 상위 10개 검색된 기사 중에 gold article 가 90%의 경우에 존재한다는 것을 발견했다.

4.5. Additional Results

Generation Diversity 4.3절에서 RAG 모델들이 Jeopardy 질문 생성에 있어 BART보다 더 사실적이고 구체적임을 보여준다. 최근 다양성 증진 디코딩 연구를 따라, 우리는 또한 다양한 모델들에 의해 생성된 n-gram의 총 n-gram에 대한 고유 n-gram 비율을 계산함으로써 생성 다양성을 조사한다. 표 5는 RAG-시퀀스의 생성물이 RAG-토큰의 것보다 더 다양하며, 둘 다 diversity-promoting 디코딩 없이도 BART보다 상당히 더 다양함을 보여줍니다.

Retrieval Ablations RAG의 핵심 기능 중 하나는 작업에 관련된 정보를 검색하는 방법을 학습하는 것이다. 검색 메커니즘의 효과를 평가하기 위해, 우리는 훈련 중 retriever 를 고정시키는 실험을 진행한다. 표 6에서 보듯이, 학습된 검색은 모든 작업에 대한 결과를 향상시킨다.

우리는 RAG의 밀집 검색기와 단어 중첩 기반 BM25 검색기를 비교한다. 여기서, 우리는 RAG의 검색기를 고정된 BM25 시스템으로 교체하고, $p_(z \mid x)$ 를 계산할 때 BM25 검색 점수를 로짓으로 사용한다. 표 6은 결과를 보여준다. FEVER의 경우, BM25가 가장 잘 수행되는데, 아마도 FEVER 주장이 크게 엔티티 중심적이며 따라서 단어 중첩 기반 검색에 적합하기 때문일 것이다. 차별화된 검색은 모든 다른 작업에 대한 결과를 향상시키는데, 특히 오픈 도메인 QA에서는 이것이 중요하다.

Index hot-swapping RAG와 같은 non-parametric 기억 모델의 장점 중 하나는 지식을 테스트 시간에 쉽게 업데이트할 수 있다는 것이다. T5나 BART와 같은 매개변수만 있는 모델들은 세상이 변함에 따라 그들의 행동을 업데이트하기 위해 추가적인 훈련이 필요하다. 이를 입증하기 위해, 우리는 DrQA의 2016년 12월 위키피디아 덤프를 사용하여 색인을 구축하고, 이 색인을 사용하는 RAG의 출력을 우리의 주요 결과(2018년 12월)의 더 새로운 색인과 비교한다. 우리는 이러한 날짜 사이에 변경된 82명의 세계 지도자 목록을 준비하고 “{직위}는 누구인가요?”(예: “페루의 대통령은 누구인가요?”)라는 템플릿을 사용하여 NQ RAG 모델에 각각의 색인으로 질문한다. RAG는 2016년 색인을 사용하여 2016년 세계 지도자에 대해 70% 정확하게 답변하고, 2018년 색인을 사용하여 2018년 세계 지도자에 대해 68% 정확하게 답변한다. 일치하지 않는 색인으로는 정확도가 낮다(2018년 색인으로 2016년 지도자에 대해 12%, 2016년 색인으로 2018년 지도자에 대해 4%). 이것은 우리가 RAG의 세계 지식을 non-parametric 기억을 단순히 교체함으로써 업데이트할 수 있음을 보여준다.

table4

Effect of Retrieving more documents 모델은 5개 또는 10개의 검색된 잠재 문서로 훈련되며, 우리는 이들 간에 성능에서 유의미한 차이를 관찰하지 않는다. 우리는 테스트 시간에 검색된 문서의 수를 조정할 수 있는 유연성을 가지고 있으며, 이는 성능과 실행 시간에 영향을 미칠 수 있다. 그림 3(왼쪽)은 테스트 시간에 더 많은 문서를 검색하는 것이 RAG-시퀀스에 대한 오픈 도메인 QA 결과를 단조롭게 향상시키지만, RAG-토큰의 경우 10개의 검색된 문서에서 성능이 정점에 달함을 보여준다. 그림 3(오른쪽)은 더 많은 문서를 검색하는 것이 RAG-토큰에 대해 Bleu-1을 희생하면서도 Rouge-L을 높이지만, RAG-시퀀스에 대해서는 효과가 덜 두드러짐을 보여준다.

figure3

Single-Task Retrieval 이전 연구들은 검색이 다양한 자연어 처리(NLP) 작업에서 성능을 개선시킨다는 것을 독립적으로 보여주었다. 이러한 작업들에는 오픈 도메인 질문 답변, 팩트 체킹, 팩트 완성, 장문 질문 답변, 위키피디아 기사 생성, 대화, 번역, 그리고 언어 모델링이 포함된다. 우리의 연구는 개별 작업에 검색을 통합하는 이전의 성공들을 통합하여, 단일 검색 기반 아키텍처가 여러 작업에 걸쳐 강력한 성능을 달성할 수 있음을 보여준다.

General-Purpose Architectures for NLP 일반적인 목적의 NLP 작업 아키텍처에 관한 이전 연구에서는 검색을 사용하지 않고도 큰 성공을 거두었다. 단일, 사전 훈련된 언어 모델이 GLUE 벤치마크의 다양한 분류 작업에서 미세 조정 후 강력한 성능을 달성했다고 보여졌다. GPT-2는 나중에 단일, 왼쪽에서 오른쪽으로, 사전 훈련된 언어 모델이 차별적이고 생성적인 작업 모두에서 강력한 성능을 달성할 수 있음을 보여주었다. 더 나은 개선을 위해, BART와 T5는 양방향 주의를 활용하여 차별적이고 생성적인 작업에서 더 강력한 성능을 달성하는 단일, 사전 훈련된 인코더-디코더 모델을 제안한다. 우리의 연구는 사전 훈련된 생성적 언어 모델을 보완하기 위해 검색 모듈을 학습함으로써 단일, 통합된 아키텍처로 가능한 작업 영역을 확장하려고 한다.

Learned Retrieval 정보 검색 분야에서 문서를 검색하는 방법을 학습하는 것에 대한 상당한 연구가 있으며, 최근에는 우리와 유사한 사전 훈련된 신경 언어 모델을 사용한다. 일부 연구는 검색, 강화 학습, 또는 우리 작업과 같은 잠재 변수 접근 방식을 사용하여 질문 답변과 같은 특정한 하류 작업을 돕기 위해 검색 모듈을 최적화한다. 이러한 성공 사례들은 강력한 성능을 달성하기 위해 다양한 검색 기반 아키텍처와 최적화 기술을 활용하지만, 우리는 단일 검색 기반 아키텍처가 다양한 작업에 대해 강력한 성능을 위해 미세 조정될 수 있음을 보여준다.

Memory-based Architectures 우리의 문서 인덱스는 신경망이 주의를 기울일 수 있는 큰 외부 기억으로 볼 수 있으며, 이는 메모리 네트워크에 유사하다. 동시에 진행되는 연구는 우리 작업에서와 같이 원시 텍스트를 검색하는 대신 입력의 각 엔티티에 대해 훈련된 임베딩을 검색하는 방법을 학습한다. 다른 연구는 사실적인 텍스트를 생성하기 위해 팩트 임베딩에 주의를 기울이는 대화 모델의 능력을 향상시킨다. 우리 기억의 주요 특징은 분산된 표현이 아닌 원시 텍스트로 구성되어 있다는 것으로, 이는 기억을 (i) 인간이 읽을 수 있게 하여 우리 모델에 일종의 해석 가능성을 제공하고, (ii) 인간이 작성할 수 있게 하여 문서 색인을 편집함으로써 모델의 기억을 동적으로 업데이트할 수 있게 한다. 이 접근 방식은 지식 집약적 대화에서도 사용되었으며, 생성기가 검색된 텍스트에 직접 조건을 부과했지만 TF-IDF를 통해 얻은 것이 아니라 처음부터 끝까지 학습된 검색을 통해 얻어졌다.

Retrieve-and-Edit approaches 우리의 방법은 검색-편집 스타일 접근법과 몇 가지 유사점을 공유한다. 이 접근법에서는 주어진 입력에 대해 유사한 훈련 입력-출력 쌍이 검색되고, 그 다음 최종 출력을 제공하기 위해 편집된다. 이러한 접근법들은 기계 번역 및 의미 파싱을 포함한 여러 분야에서 성공적으로 입증되었다. 우리의 접근법은 여러 가지 차이점이 있다. 이에는 검색된 항목을 가볍게 편집하는 데 중점을 두기보다는 검색된 여러 콘텐츠의 내용을 집계하는 것, 잠재적 검색을 학습하는 것, 그리고 관련 훈련 쌍이 아닌 증거 문서를 검색하는 것이 포함된다. 그럼에도 불구하고, RAG 기법은 이러한 설정에서 잘 작동할 수 있으며, 약속 있는 미래의 연구를 대표할 수 있다.

6. Discussion

이 연구에서, 우리는 parametric 및 non-parametric 기억에 접근할 수 있는 하이브리드 생성 모델을 제시했다. 우리는 RAG 모델이 오픈 도메인 QA에서 최고의 결과를 얻는다는 것을 보여주었다. 사람들은 순수하게 parametric BART보다 RAG의 생성을 선호하며, RAG를 더 사실적이고 구체적이라고 판단한다. 우리는 학습된 검색 구성 요소에 대한 철저한 조사를 수행하여 그 효과를 확인했으며, 모델을 재훈련하지 않고도 검색 색인을 교체하여 모델을 업데이트하는 방법을 설명했다. 향후 연구에서는 이 두 구성 요소를 처음부터 공동으로 사전 훈련할 수 있는지 조사하는 것이 유익할 수 있다. 이는 BART와 유사한 제거 목적이나 다른 목적과 함께 수행될 수 있다. 우리의 연구는 parametric 및 non-parametric 기억이 어떻게 상호 작용하고 이를 가장 효과적으로 결합하는 방법에 대한 새로운 연구 방향을 열어주며, 다양한 NLP 작업에 적용될 가능성을 보여준다.

Categories:

댓글남기기