Inference-Speed on danilchenko.dev

Inference-Speed on danilchenko.devhttps://www.danilchenko.dev/tags/inference-speed/Recent content in Inference-Speed on danilchenko.devHugoen-usTue, 31 Mar 2026 06:00:00 +0000Diffusion Language Models Explained — How Mercury Generates 1,000 Tokens Per Secondhttps://www.danilchenko.dev/posts/2026-03-31-diffusion-language-models-mercury-1000-tokens-per-second/Tue, 31 Mar 2026 06:00:00 +0000https://www.danilchenko.dev/posts/2026-03-31-diffusion-language-models-mercury-1000-tokens-per-second/Mercury uses diffusion instead of autoregressive decoding to generate all tokens in parallel, hitting 1,000+ tokens/sec. We break down how it works.