Our evaluation of OpenAI's GPT-5.5 cyber capabilities

Simon Willison · Simon Willison · 2026-04-30

(No summary yet for this item — extraction summaries are still backfilling.)

Open original ↗

Appears in

Frontier AI Offensive Cybersecurity Benchmarks: GPT-5.5 vs. Claude Mythos

Extraction

Topics: ai-security-researchllm-capabilitiesvulnerability-discoveryfrontier-models

Claims

The UK's AI Security Institute evaluated GPT-5.5 for its ability to find security vulnerabilities.
GPT-5.5 performs comparably to Claude Mythos on cybersecurity tasks.
Unlike Claude Mythos, GPT-5.5 is generally available to the public.

Key quotes

The UK's AI Security Institute previously evaluated Claude Mythos: now they've evaluated GPT-5.5 for finding security vulnerability and found it to be comparable to Mythos, but unlike Mythos it's generally available right now.