A decoding strategy that restricts the model's next-token choices to the smallest set of tokens whose cumulative probability exceeds a threshold p. Used alongside temperature, top-p sampling balances output diversity and coherence in production LLM deployments.
Boek een consultatie om te bespreken hoe AI-concepten op uw uitdagingen van toepassing zijn.