Beatingのモニタリングによると、最近のバイラルな主張として、DeepSeekのチャットボックスに <|begin_of_sentence|> のような特殊トークンを入力すると、他のユーザーの会話が露出し得るとされる、P0レベルのマルチテナント分離の失敗だとする内容が拡散しました。実際には、この現象はデータの分離とは無関係です。このようなトークンでトリガーされると、モデルは学習時のフォーマットに従うパターンに入り、自身の記憶とシステムプロンプトに基づいて、創作された対話を生成します。これは他のセッションからリアルタイムで取得するものではありません。これは訓練データ抽出であり、DeepSeek固有のものではなく、すべての大規模言語モデルに共通する脆弱性です。Google DeepMindは2023年に、特殊な入力によってGPTやPaLMから学習データを抽出できることを示す研究を公表しました。ICLR 2025のMagpie論文は、この仕組みを直接活用しています。漏えいした内容に「今日の日付」が含まれているという主張は、マルチテナント分離の失敗を証明するものではありません。DeepSeekはシステムプロンプトに現在の日付を含めており、モデルは自然にそれを生成された出力へ取り込むためです。
Related News