生成AIにおける最大の問題、それは「ハルシネーション(もっともらしい嘘)」です。
社内規定について聞いているのに、ネット上の一般的な知識で答えられても意味がありません。
そこで必須となる技術がRAG(Retrieval-Augmented Generation)です。
目次
「ただPDFを読ませればいい」わけではありません
STEP
データの「前処理」
データの「前処理」が9割 PDFをそのままAIに投げても、表組みや段落を正しく認識できず、回答精度は上がりません。
私たちは、元データをAIが理解しやすい「Markdown形式」や「構造化データ」に整形する工程に時間をかけます。
STEP
ベクトルデータベースの選定
言葉の意味を数値化(ベクトル化)して検索する技術です。
QdrantやChromaなど、データの規模や検索速度に合わせて最適なデータベースを選定します。
STEP
回答精度のチューニング
「参照した資料のどこに基づいているか」を必ず明示させるプロンプト設計を行います。
根拠のない回答は「わかりません」と答えさせる勇気も、業務AIには必要です。