Alignment faking in large language models | Hacker News

reactive:anthropic-ai-values-widening

(No summary yet for this item — extraction summaries are still backfilling.)

Appears in