【実務・中級編】LLMの機密情報漏洩（Training Data Extraction）リスクと対策 – アプリケーションセキュリティ & 安全な開発防御ガイド

LLMの「記憶」を剥ぎ取る：学習データ抽出攻撃（Training Data Extraction）の現実と防御策

こんにちは。現場で泥をすすりながらインシデント対応をしていると、最近は「LLMを組み込んだアプリをリリースしたい」という相談が後を絶ちません。

だが、エンジニアの皆さんにまず突きつけたい現実がある。LLMは「検索エンジン」ではなく「確率的に次を予測する圧縮モデル」だということだ。学習データに含まれた機密情報や個人情報（PII）は、モデルのウェイトの中に「知識」として定着している。プロンプトを巧妙に操る攻撃者は、モデルからその「記憶」を無理やり吐き出させることができる。

今日は、この「Training Data Extraction（学習データ抽出）」という脅威に対し、現場でどう立ち向かうべきかを深掘りしよう。

—

1. なぜ「記憶」は漏れるのか？（攻撃の仕組み）

攻撃者は、モデルが確率的に「もっともらしい続き」を生成する特性を逆手に取る。

例えば、ある掲示板のログを学習したモデルに対し、以下のようなプロンプトを投げたとしよう。
「ユーザーID: 12345 の住所は、」

モデルが学習過程でこの文字列の後に特定の住所が続く確率を強く学習していれば、確率分布に従って機密情報がそのまま出力される。これが「Extracting Training Data from Large Language Models」と呼ばれる手法の正体だ。単なるプロンプトインジェクションとは違い、「モデルが本来持っているはずのない情報を、学習データから再構成させる」という点が極めて厄介だ。

—

2. PIIマスキング：AIに触らせる前に「無害化」する

LLMにデータを流し込む際、もっとも確実な防御策は「モデルが学習する前に、あるいは推論へ送る前に、PIIを徹底的に排除すること」だ。

Pythonのライブラリ（`presidio`など）を使い、APIへリクエストを送る前に機密情報をトークンに置換する実装が必須となる。

【実装サンプル】Pythonによる簡易PIIマスキング

from presidio_analyzer import AnalyzerEngine
from presidio_anonymizer import AnonymizerEngine

def secure_llm_input(text):
# 1. PIIを検知
analyzer = AnalyzerEngine()
results = analyzer.analyze(text=text, language=’ja’, entities=[“PHONE_NUMBER”, “EMAIL_ADDRESS”])

# 2. 検知したPIIを置換（マスキング）
anonymizer = AnonymizerEngine()
anonymized_result = anonymizer.anonymize(
text=text,
analyzer_results=results,
operators={“PHONE_NUMBER”: {“type”: “replace”, “new_value”: “[TEL_REDACTED]”},
“EMAIL_ADDRESS”: {“type”: “replace”, “new_value”: “[EMAIL_REDACTED]”}}
)
return anonymized_result.text

使用例
raw_input = “私の連絡先は 090-1234-5678 です”
safe_input = secure_llm_input(raw_input)
print(safe_input) # “私の連絡先は [TEL_REDACTED] です”

この処理をAPIゲートウェイや中間層で必ず通すこと。LLMが「知るべきではない情報」をそもそも受け取らない設計が、最大の防御だ。

—

3. 差分プライバシー（Differential Privacy）の適用

もし君たちが自前でファインチューニングを行う立場なら、差分プライバシーという概念を無視してはいけない。これは、特定のデータが学習セットに含まれていてもいなくても、モデルの出力結果が変わらないようにノイズを付加する手法だ。

Googleの `DP-SGD`（Differentially Private Stochastic Gradient Descent）などはその代表例だが、実装コストが高いのが難点だ。現場での現実的な解は、「機密性の高いデータで学習させない」ことに尽きる。

ルール: 本番データの生のログをそのまま学習パイプラインに流し込まないこと。
ルール: 合成データ（Synthetic Data）への変換を検討すること。

—

4. 運用サイドで防ぐ：WAFと入力バリデーション

アプリ層での対策に加えて、インフラ層でも「怪しいプロンプト」を弾く準備をしておくべきだ。Nginxの`njs`やWAFのカスタムルールを使い、特定のパターンを監視する。

【設定例】Nginxで特定のPIIパターンを拒否する（概念設定）

プロンプト内の電話番号パターンを簡易チェックして拒否する例
location /api/v1/llm-proxy {
# クライアントからのリクエストボディを解析し、電話番号形式が含まれていれば403を返す
set_by_lua_block $is_dangerous {
local body = ngx.req.get_body_data()
if body and string.match(body, “%d%d%d-%d%d%d%d-%d%d%d%d”) then
return “1”
end
return “0”
}

if ($is_dangerous = “1”) {
return 403 “Security Violation: PII detected in prompt.”;
}
proxy_pass http://backend_llm_service;
}

—

最後に：エンジニアとしての矜持

LLMのセキュリティは、まだ「正解」が確立されていない荒野だ。しかし、「AIだから魔法のように安全に処理してくれるだろう」という甘えが、最大のリスクだ。

君たちが書くコードの一行、設定するルール一つが、顧客のプライバシーを守る砦になる。まずは、自社で扱っているデータの中に「LLMに漏れてはならないもの」がどこにあるのかをマッピングすることから始めてほしい。

セキュリティに「ここまでやれば完璧」はない。あるのは「攻撃者にかけるコスト」をいかに増やすかという執念だけだ。何かあればまた相談してくれ。現場からは以上だ。