[PDF] Empirical Evidence for Alignment Faking in a Small LLM and Prompt ...

reactive:claude-evaluation-awareness

(No summary yet for this item — extraction summaries are still backfilling.)

Appears in