Retrieval-Augmented Generation(検索拡張生成)の略。AIが回答を生成する前に、外部のデータソースから関連情報を検索・取得し、それを参照しながら回答を作る技術。
LLM(大規模言語モデル)単体の弱点である「古い情報」「ハルシネーション(嘘)」「社内情報を知らない」を補う手法として、企業でのAI活用で必須の技術になりつつある。
Retrieval-Augmented Generation(検索拡張生成)の略。AIが回答を生成する前に、外部のデータソースから関連情報を検索・取得し、それを参照しながら回答を作る技術。
LLM(大規模言語モデル)単体の弱点である「古い情報」「ハルシネーション(嘘)」「社内情報を知らない」を補う手法として、企業でのAI活用で必須の技術になりつつある。
LLMは賢いが、致命的な弱点がある。
・学習データが古い(最新情報を知らない)
・ハルシネーション(もっともらしい嘘をつく)
・社内情報を知らない(学習してないから当然)
RAGはこれを解決する。
▶ RAGの仕組み
1. ユーザーが質問
2. 質問に関連する情報を外部DBから検索(Retrieval)
3. 検索結果をLLMに渡す
4. LLMが検索結果を参照しながら回答生成(Generation)
「カンペを見ながら答える」イメージ。自分の記憶だけで答えるより正確。
▶ なぜ重要か
・最新情報を反映できる(ニュース、株価、天気)
・社内ドキュメントを参照できる(マニュアル、議事録)
・ハルシネーションを減らせる(根拠があるから)
・出典を示せる(「この文書に基づいて」)
▶ 技術要素
・ベクトルDB(Pinecone、Weaviate、Chroma等)
・埋め込みモデル(Embedding):テキストをベクトル化
・チャンク分割:文書を検索しやすい単位に分割
・リランキング:検索結果の優先順位付け
▶ 企業での活用例
・社内FAQボット:マニュアルを参照して回答
・カスタマーサポート:製品情報DBを検索
・ナレッジ検索:過去の議事録・報告書から回答
・法務・コンプライアンス:規約・契約書を参照
▶ 課題
・検索精度(関係ない情報を拾うと回答が狂う)
・チャンク設計(分割の仕方で精度が変わる)
・コスト(検索+生成で2重にAPIコール)
・セキュリティ(機密情報の取り扱い)
「AIを社内で使う」なら、RAGは避けて通れない。LLM単体では企業固有の質問に答えられないから。
Retrieval-Augmented Generation(検索拡張生成)の略です。AIが回答を生成する前に、外部のデータソースから関連情報を検索・取得し、それを参照しながら回答を作る技術です。
LLM単体だと①学習データが古い②ハルシネーション(嘘)をつく③社内情報を知らない、という弱点があります。RAGは外部情報を検索して参照することで、これらを補います。「カンペを見ながら答える」イメージ。
社内FAQボット、カスタマーサポート、ナレッジ検索、法務・コンプライアンスなど。企業固有の情報(マニュアル、議事録、製品情報)を参照してAIに回答させたい場面で使います。
ファインチューニングはLLM自体を再学習させる方法。コストが高く、情報更新のたびに再学習が必要。RAGは検索で情報を渡すだけなので、データ更新が容易でコストも低い。多くの場合RAGで十分対応できます。
検索精度(関係ない情報を拾うと回答が狂う)、チャンク設計の難しさ、APIコストの増加、機密情報の取り扱いなどがあります。「RAGを入れれば解決」ではなく、検索部分の設計が成否を分けます。