The total number of tokens allocated for a model request, encompassing both input (prompt + context) and output. Managing token budgets is central to controlling inference cost in production LLM applications, especially when processing long documents or maintaining conversational history.
Buchen Sie eine Beratung, um zu besprechen, wie KI-Konzepte auf Ihre Herausforderungen anwendbar sind.