Inference models

nvidia/NVIDIA-Nemotron-3-Super-120B-A12B

Lambda — Thu, 12 Mar 2026 16:48:32 GMT

TL;DR: token throughput

vLLM

Hardware	Gen. throughput	TTFT	ITL
2× NVIDIA B200 GPUs (NVFP4)	2,057 tok/s	4,040ms	12ms
1× NVIDIA B200 GPU (NVFP4)	1,517 tok/s	4,455ms	16ms
2× NVIDIA B200 GPUs (FP8)	1,847 tok/s	3,948ms	13ms
2× NVIDIA H100 GPUs (FP8)	1,116 tok/s	4,557ms	24ms
4× NVIDIA A100 GPUs (BF16)	553 tok/s	6,694ms	51ms

allenai/Olmo-Hybrid-Instruct-DPO-7B

Lambda — Fri, 06 Mar 2026 21:49:02 GMT

TL;DR: token throughput on vLLM

Hardware	Gen. throughput	TTFT	ITL
1× NVIDIA B200 GPU	1,765 tok/s	4,424ms	14ms
1× NVIDIA H100 GPU	1,066 tok/s	4,665ms	25ms
1× NVIDIA A100 GPU	551 tok/s	7,191ms	51ms

Qwen/Qwen3.5-122B-A10B

Lambda — Thu, 26 Feb 2026 18:14:52 GMT

TL;DR: token throughput

SGLang vLLM

Hardware	Gen. throughput	TTFT	ITL
4× B200	2,197 tok/s	1,156ms	13ms
8× H100	1,585 tok/s	2,613ms	18ms
8× A100	930 tok/s	4,602ms	30ms

Hardware	Gen. throughput	TTFT	ITL
4× B200	1,817 tok/s	4,904ms	13ms
8× H100	1,843 tok/s	1,060ms	16ms
8× A100	744 tok/s	7,612ms	35ms

Qwen/Qwen3-Coder-Next

Lambda — Thu, 26 Feb 2026 18:14:51 GMT

TL;DR: token throughput

SGLang vLLM

Hardware	Gen. throughput	TTFT	ITL
2× NVIDIA B200 GPUs	1,877 tok/s	1,330ms	16ms
4× NVIDIA H100 GPUs	1,810 tok/s	1,960ms	16ms
4× NVIDIA A100 GPUs	1,069 tok/s	3,969ms	26ms

Hardware	Gen. throughput	TTFT	ITL
2× NVIDIA B200 GPUs	1,721 tok/s	4,602ms	14ms
4× NVIDIA H100 GPUs	2,180 tok/s	933ms	14ms
4× NVIDIA A100 GPUs	851 tok/s	6,997ms	31ms

Nanbeige/Nanbeige4.1-3B

Lambda — Thu, 26 Feb 2026 18:14:50 GMT

TL;DR: token throughput

SGLang vLLM

Hardware	Gen. throughput	TTFT	ITL
1× NVIDIA B200 GPU	4,547 tok/s	766ms	6ms
1× NVIDIA H100 GPU	2,381 tok/s	1,619ms	12ms
1× NVIDIA A100 GPU	1,174 tok/s	3,830ms	29ms

Hardware	Gen. throughput	TTFT	ITL
1× NVIDIA B200 GPU	4,806 tok/s	526ms	6ms
1× NVIDIA H100 GPU	2,472 tok/s	822ms	12ms
1× NVIDIA A100 GPU	1,050 tok/s	1,480ms	29ms

Qwen/Qwen3.5-397B-A17B

Lambda — Thu, 26 Feb 2026 18:14:49 GMT

TL;DR: token throughput

SGLang vLLM

Hardware	Gen. throughput	TTFT	ITL
8× B200	1,269 tok/s	1,943ms	23ms

Hardware	Gen. throughput	TTFT	ITL
8× B200	1,268 tok/s	5,024ms	20ms

zai-org/GLM-5

Lambda — Wed, 18 Feb 2026 00:50:01 GMT

TL;DR: token throughput (SGLang)

Hardware configuration	Generation throughput (tok/s)	Total throughput (tok/s)	TTFT (ms)	ITL (ms)	Prompts	Tokens in	Tokens out	Parallel requests
NVIDIA HGX B200	700	6,300	1,662	103	256	4,194,304	524,288	32

zai-org/GLM-4.7-Flash

Lambda — Wed, 18 Feb 2026 00:49:35 GMT

TL;DR: token throughput (SGLang)

Hardware configuration	Generation throughput (tok/s)	Total throughput (tok/s)	TTFT (ms)	ITL (ms)	Prompts	Tokens in	Tokens out	Parallel requests
1× NVIDIA Blackwell B200 GPU	902.74	8,124.65	6,170.78	30.61	256	2,097,152	262,144	32
1× NVIDIA H100 GPU	660.67	5,946.05	20,087.41	27.24	256	2,097,152	262,144	32

arcee-ai/Trinity-Large-Preview

Lambda — Wed, 18 Feb 2026 00:46:51 GMT

TL;DR: token throughput (SGLang)

Hardware configuration	Generation throughput (tok/s)	Total throughput (tok/s)	TTFT (ms)	ITL (ms)	Prompts	Tokens in	Tokens out	Parallel requests
NVIDIA HGX B200	1,735	15,611	1,850	17	256	2,097,152	262,144	32

MiniMaxAI/MiniMax-M2.5

Lambda — Fri, 13 Feb 2026 16:03:16 GMT

TL;DR: token throughput (SGLang)

Hardware configuration	Generation throughput (tok/s)	Total throughput (tok/s)	TTFT (ms)	ITL (ms)	Prompts	Tokens in	Tokens out	Parallel requests
2× NVIDIA B200 GPU	896	8,062	3,091	36	512	4,194,304	524,288	32
4× NVIDIA H100 GPU	849	7,644	13,131	27	512	4,194,304	524,288	32