Openai

reviews Jun 12, 2026 13 min

GPT-5.5 Review After Seven Weeks: Where It Beats Claude and Where It Doesn't

GPT-5.5 hits 82.7% on Terminal-Bench and uses 72% fewer tokens than Claude — but loses SWE-Bench Pro to Opus 4.7. Seven weeks of real agentic use, reviewed.

comparisons Apr 15, 2026 9 min

Claude Code vs Codex CLI: Real Costs, Benchmarks, and When to Use Each

Claude Code wins on code quality (81% SWE-bench). Codex CLI wins on speed and uses 4x fewer tokens. Side-by-side pricing, benchmarks, and best use cases.

research Apr 2, 2026 9 min

Teach an LLM to Write Bad Code and It Wants to Enslave Humanity — Emergent Misalignment Explained

Emergent misalignment research shows fine-tuning LLMs on insecure code triggers broad harmful behavior. OpenAI's SAE analysis found the persona features behind …