5 months ago · ad181e3fef
--- a/aphrodite/common/sampling_params.py
+++ b/aphrodite/common/sampling_params.py
@@ -155,6 +155,9 @@ class SamplingParams:
 
															         frequency_penalty: float = 0.0,
														
 
															         repetition_penalty: float = 1.0,
														
 
															         temperature: float = 1.0,
														
 
															+        dynatemp_min: float = 0.0,
														
 
															+        dynatemp_max: float = 0.0,
														
 
															+        dynatemp_exponent: float = 1.0,
														
 
															         temperature_last: bool = False,
														
 
															         top_p: float = 1.0,
														
 
															         top_k: int = -1,
														
@@ -199,6 +202,9 @@ class SamplingParams:
 
															                 f"We have capped the temperature to {_MAX_TEMP}.")
														
 
															             temperature = min(temperature, _MAX_TEMP)
														
 
															         self.temperature = temperature
														
 
															+        self.dynatemp_min = dynatemp_min
														
 
															+        self.dynatemp_max = dynatemp_max
														
 
															+        self.dynatemp_exponent = dynatemp_exponent
														
 
															         self.temperature_last = temperature_last
														
 
															         self.top_p = top_p
														
 
															         self.top_k = top_k
														
@@ -255,6 +261,9 @@ class SamplingParams:
 
															             "frequency_penalty": 0.0,
														
 
															             "repetition_penalty": 1.0,
														
 
															             "temperature": 1.0,
														
 
															+            "dynatemp_min": 0.0,
														
 
															+            "dynatemp_max": 0.0,
														
 
															+            "dynatemp_exponent": 1.0,
														
 
															             "temperature_last": False,
														
 
															             "top_p": 1.0,
														
 
															             "top_k": -1,
														
--- a/aphrodite/endpoints/openai/api_server.py
+++ b/aphrodite/endpoints/openai/api_server.py
@@ -190,8 +190,8 @@ def mount_metrics(app: FastAPI):
 
															                                    multiprocess)
														
 
															     prometheus_multiproc_dir_path = os.getenv("PROMETHEUS_MULTIPROC_DIR", None)
														
 
															     if prometheus_multiproc_dir_path is not None:
														
 
															-        logger.info("vLLM to use %s as PROMETHEUS_MULTIPROC_DIR",
														
 
															-                    prometheus_multiproc_dir_path)
														
 
															+        logger.info(f"Aphrodite to use {prometheus_multiproc_dir_path} "
														
 
															+                    "as PROMETHEUS_MULTIPROC_DIR")
														
 
															         registry = CollectorRegistry()
														
 
															         multiprocess.MultiProcessCollector(registry)
														
 
															         # Add prometheus asgi middleware to route /metrics requests
														
@@ -344,12 +344,6 @@ def prepare_engine_payload(
 
															     if not kai_payload.genkey:
														
 
															         kai_payload.genkey = f"kai-{random_uuid()}"
														
 
															-    # if kai_payload.max_context_length > engine_args.max_model_len:
														
 
															-    #     raise ValueError(
														
 
															-    #         f"max_context_length ({kai_payload.max_context_length}) "
														
 
															-    #         "must be less than or equal to "
														
 
															-    #         f"max_model_len ({engine_args.max_model_len})")
														
 
															-
														
 
															     kai_payload.top_k = kai_payload.top_k if kai_payload.top_k != 0.0 else -1
														
 
															     kai_payload.tfs = max(_SAMPLING_EPS, kai_payload.tfs)
														
 
															     if kai_payload.temperature < _SAMPLING_EPS:
														
@@ -357,6 +351,11 @@ def prepare_engine_payload(
 
															         kai_payload.top_p = 1.0
														
 
															         kai_payload.top_k = -1
														
 
															+    dynatemp_min = kai_payload.temperature - kai_payload.dynatemp_range / 2 \
														
 
															+        if kai_payload.dynatemp_range else None
														
 
															+    dynatemp_max = kai_payload.temperature + kai_payload.dynatemp_range / 2 \
														
 
															+        if kai_payload.dynatemp_range else None
														
 
															+
														
 
															     sampling_params = SamplingParams(
														
 
															         n=kai_payload.n,
														
 
															         best_of=kai_payload.n,
														
@@ -378,6 +377,11 @@ def prepare_engine_payload(
 
															         if kai_payload.use_default_badwordsids else [],
														
 
															         max_tokens=kai_payload.max_length,
														
 
															         seed=kai_payload.sampler_seed,
														
 
															+        dynatemp_min=dynatemp_min,
														
 
															+        dynatemp_max=dynatemp_max,
														
 
															+        dynatemp_exponent=kai_payload.dynatemp_exponent,
														
 
															+        xtc_probability=kai_payload.xtc_probability,
														
 
															+        xtc_threshold=kai_payload.xtc_threshold,
														
 
															     )
														
 
															     max_input_tokens = max(
														
@@ -712,7 +716,7 @@ async def init_app(
 
															     if args.launch_kobold_api:
														
 
															         _set_badwords(tokenizer, model_config.hf_config)
														
 
															-
														
 
															+    
														
 
															     return app
														
--- a/aphrodite/endpoints/openai/protocol.py
+++ b/aphrodite/endpoints/openai/protocol.py
@@ -4,8 +4,7 @@ import time
 
															 from typing import Any, Dict, List, Literal, Optional, Union
														
 
															 import torch
														
 
															-from pydantic import (BaseModel, ConfigDict, Field, model_validator,
														
 
															-                      root_validator)
														
 
															+from pydantic import BaseModel, ConfigDict, Field, model_validator
														
 
															 from transformers import PreTrainedTokenizer
														
 
															 from typing_extensions import Annotated
														
@@ -148,6 +147,10 @@ class ChatCompletionRequest(OpenAIBaseModel):
 
															     prompt_logprobs: Optional[int] = None
														
 
															     xtc_threshold: Optional[float] = 0.1
														
 
															     xtc_probability: Optional[float] = 0.0
														
 
															+    dynatemp_min: Optional[float] = 0.0
														
 
															+    dynatemp_max: Optional[float] = 0.0
														
 
															+    dynatemp_exponent: Optional[float] = 1.0
														
 
															+    custom_token_bans: Optional[List[int]] = None
														
 
															     # doc: end-chat-completion-sampling-params
														
 
															     # doc: begin-chat-completion-extra-params
														
@@ -287,6 +290,10 @@ class ChatCompletionRequest(OpenAIBaseModel):
 
															             temperature_last=self.temperature_last,
														
 
															             xtc_threshold=self.xtc_threshold,
														
 
															             xtc_probability=self.xtc_probability,
														
 
															+            dynatemp_min=self.dynatemp_min,
														
 
															+            dynatemp_max=self.dynatemp_max,
														
 
															+            dynatemp_exponent=self.dynatemp_exponent,
														
 
															+            custom_token_bans=self.custom_token_bans,
														
 
															         )
														
 
															     @model_validator(mode='before')
														
@@ -394,6 +401,10 @@ class CompletionRequest(OpenAIBaseModel):
 
															     prompt_logprobs: Optional[int] = None
														
 
															     xtc_threshold: Optional[float] = 0.1
														
 
															     xtc_probability: Optional[float] = 0.0
														
 
															+    dynatemp_min: Optional[float] = 0.0
														
 
															+    dynatemp_max: Optional[float] = 0.0
														
 
															+    dynatemp_exponent: Optional[float] = 1.0
														
 
															+    custom_token_bans: Optional[List[int]] = None
														
 
															     # doc: end-completion-sampling-params
														
 
															     # doc: begin-completion-extra-params
														
@@ -492,6 +503,10 @@ class CompletionRequest(OpenAIBaseModel):
 
															             temperature_last=self.temperature_last,
														
 
															             xtc_threshold=self.xtc_threshold,
														
 
															             xtc_probability=self.xtc_probability,
														
 
															+            dynatemp_min=self.dynatemp_min,
														
 
															+            dynatemp_max=self.dynatemp_max,
														
 
															+            dynatemp_exponent=self.dynatemp_exponent,
														
 
															+            custom_token_bans=self.custom_token_bans,
														
 
															         )
														
 
															     @model_validator(mode="before")
														
@@ -771,45 +786,6 @@ class DetokenizeResponse(OpenAIBaseModel):
 
															 # ========== KoboldAI ========== #
														
 
															-class KoboldSamplingParams(BaseModel):
														
 
															-    n: int = Field(1, alias="n")
														
 
															-    best_of: Optional[int] = Field(None, alias="best_of")
														
 
															-    presence_penalty: float = Field(0.0, alias="presence_penalty")
														
 
															-    frequency_penalty: float = Field(0.0, alias="rep_pen")
														
 
															-    temperature: float = Field(1.0, alias="temperature")
														
 
															-    dynatemp_range: Optional[float] = 0.0
														
 
															-    dynatemp_exponent: Optional[float] = 1.0
														
 
															-    smoothing_factor: Optional[float] = 0.0
														
 
															-    smoothing_curve: Optional[float] = 1.0
														
 
															-    top_p: float = Field(1.0, alias="top_p")
														
 
															-    top_k: float = Field(-1, alias="top_k")
														
 
															-    min_p: float = Field(0.0, alias="min_p")
														
 
															-    top_a: float = Field(0.0, alias="top_a")
														
 
															-    tfs: float = Field(1.0, alias="tfs")
														
 
															-    eta_cutoff: float = Field(0.0, alias="eta_cutoff")
														
 
															-    epsilon_cutoff: float = Field(0.0, alias="epsilon_cutoff")
														
 
															-    typical_p: float = Field(1.0, alias="typical_p")
														
 
															-    use_beam_search: bool = Field(False, alias="use_beam_search")
														
 
															-    length_penalty: float = Field(1.0, alias="length_penalty")
														
 
															-    early_stopping: Union[bool, str] = Field(False, alias="early_stopping")
														
 
															-    stop: Union[None, str, List[str]] = Field(None, alias="stop_sequence")
														
 
															-    include_stop_str_in_output: Optional[bool] = False
														
 
															-    ignore_eos: bool = Field(False, alias="ignore_eos")
														
 
															-    max_tokens: int = Field(16, alias="max_length")
														
 
															-    logprobs: Optional[int] = Field(None, alias="logprobs")
														
 
															-    custom_token_bans: Optional[List[int]] = Field(None,
														
 
															-                                                   alias="custom_token_bans")
														
 
															-
														
 
															-    @root_validator(pre=False, skip_on_failure=True)
														
 
															-    def validate_best_of(cls, values):  # pylint: disable=no-self-argument
														
 
															-        best_of = values.get("best_of")
														
 
															-        n = values.get("n")
														
 
															-        if best_of is not None and (best_of <= 0 or best_of > n):
														
 
															-            raise ValueError(
														
 
															-                "best_of must be a positive integer less than or equal to n")
														
 
															-        return values
														
 
															-
														
 
															-
														
 
															 class KAIGenerationInputSchema(BaseModel):
														
 
															     genkey: Optional[str] = None
														
 
															     prompt: str
														
@@ -817,8 +793,6 @@ class KAIGenerationInputSchema(BaseModel):
 
															     max_context_length: int
														
 
															     max_length: int
														
 
															     rep_pen: Optional[float] = 1.0
														
 
															-    rep_pen_range: Optional[int] = None
														
 
															-    rep_pen_slope: Optional[float] = None
														
 
															     top_k: Optional[int] = 0
														
 
															     top_a: Optional[float] = 0.0
														
 
															     top_p: Optional[float] = 1.0
														
@@ -832,31 +806,16 @@ class KAIGenerationInputSchema(BaseModel):
 
															     dynatemp_exponent: Optional[float] = 1.0
														
 
															     smoothing_factor: Optional[float] = 0.0
														
 
															     smoothing_curve: Optional[float] = 1.0
														
 
															-    use_memory: Optional[bool] = None
														
 
															-    use_story: Optional[bool] = None
														
 
															-    use_authors_note: Optional[bool] = None
														
 
															-    use_world_info: Optional[bool] = None
														
 
															-    use_userscripts: Optional[bool] = None
														
 
															-    soft_prompt: Optional[str] = None
														
 
															-    disable_output_formatting: Optional[bool] = None
														
 
															-    frmtrmblln: Optional[bool] = None
														
 
															-    frmtrmspch: Optional[bool] = None
														
 
															-    singleline: Optional[bool] = None
														
 
															+    xtc_threshold: Optional[float] = 0.1
														
 
															+    xtc_probability: Optional[float] = 0.0
														
 
															     use_default_badwordsids: Optional[bool] = None
														
 
															-    mirostat: Optional[int] = 0
														
 
															-    mirostat_tau: Optional[float] = 0.0
														
 
															-    mirostat_eta: Optional[float] = 0.0
														
 
															-    disable_input_formatting: Optional[bool] = None
														
 
															-    frmtadsnsp: Optional[bool] = None
														
 
															     quiet: Optional[bool] = None
														
 
															     # pylint: disable=unexpected-keyword-arg
														
 
															-    sampler_order: Optional[Union[List, str]] = Field(default_factory=list)
														
 
															     sampler_seed: Optional[int] = None
														
 
															-    sampler_full_determinism: Optional[bool] = None
														
 
															     stop_sequence: Optional[List[str]] = None
														
 
															     include_stop_str_in_output: Optional[bool] = False
														
 
															-    @root_validator(pre=False, skip_on_failure=True)
														
 
															+    @model_validator(mode='after')
														
 
															     def check_context(cls, values):  # pylint: disable=no-self-argument
														
 
															         assert values.get("max_length") <= values.get(
														
 
															             "max_context_length"
														
--- a/aphrodite/modeling/layers/sampler.py
+++ b/aphrodite/modeling/layers/sampler.py
@@ -70,14 +70,15 @@ class Sampler(nn.Module):
 
															         self._sampling_tensors = None
														
 
															         # Initialize new sampling tensors
														
 
															-        (sampling_tensors, do_penalties, do_top_p_top_k, do_top_as, do_min_p,
														
 
															-         do_tfss, do_eta_cutoffs, do_epsilon_cutoffs, do_typical_ps,
														
 
															-         do_quadratic, do_xtc,
														
 
															-         do_temp_last) = SamplingTensors.from_sampling_metadata(
														
 
															+        (sampling_tensors, do_penalties, do_temperatures, do_top_p_top_k,
														
 
															+         do_top_as, do_min_p, do_tfss, do_eta_cutoffs, do_epsilon_cutoffs,
														
 
															+         do_typical_ps, do_quadratic, do_xtc, do_temp_last
														
 
															+         ) = SamplingTensors.from_sampling_metadata(
														
 
															              sampling_metadata, vocab_size, logits.device, logits.dtype)
														
 
															         self._sampling_tensors = sampling_tensors
														
 
															         self._do_penalties = do_penalties
														
 
															+        self._do_temperatures = do_temperatures
														
 
															         self._do_top_p_top_k = do_top_p_top_k
														
 
															         self._do_top_as = do_top_as
														
 
															         self._do_min_p = do_min_p
														
@@ -115,6 +116,7 @@ class Sampler(nn.Module):
 
															         assert self._sampling_tensors is not None
														
 
															         sampling_tensors = self._sampling_tensors
														
 
															         do_penalties = self._do_penalties
														
 
															+        do_temperatures = self._do_temperatures
														
 
															         do_top_p_top_k = self._do_top_p_top_k
														
 
															         do_top_as = self._do_top_as
														
 
															         do_min_p = self._do_min_p
														
@@ -137,11 +139,11 @@ class Sampler(nn.Module):
 
															                                       sampling_tensors.repetition_penalties)
														
 
															         # Apply temperature scaling if not doing temp_last.
														
 
															-        if not do_temp_last:
														
 
															-            # Use float32 to apply temp.
														
 
															-            # Use in-place division to avoid creating a new tensor.
														
 
															-            logits = logits.to(torch.float)
														
 
															-            logits.div_(sampling_tensors.temperatures.unsqueeze(dim=1))
														
 
															+        if do_temperatures and not do_temp_last:
														
 
															+            _apply_temperatures(logits, sampling_tensors.temperatures,
														
 
															+                                sampling_tensors.dynatemp_mins,
														
 
															+                                sampling_tensors.dynatemp_maxs,
														
 
															+                                sampling_tensors.dynatemp_exps)
														
 
															         if do_top_p_top_k:
														
 
															             logits = _apply_top_k_top_p(logits, sampling_tensors.top_ps,
														
@@ -177,11 +179,11 @@ class Sampler(nn.Module):
 
															                 logits, sampling_tensors.xtc_thresholds,
														
 
															                 sampling_tensors.xtc_probabilities)
														
 
															-        if do_temp_last:
														
 
															-            # Use float32 to apply temp.
														
 
															-            # Use in-place division to avoid creating a new tensor.
														
 
															-            logits = logits.to(torch.float)
														
 
															-            logits.div_(sampling_tensors.temperatures.unsqueeze(dim=1))
														
 
															+        if do_temperatures and do_temp_last:
														
 
															+            _apply_temperatures(logits, sampling_tensors.temperatures,
														
 
															+                                sampling_tensors.dynatemp_mins,
														
 
															+                                sampling_tensors.dynatemp_maxs,
														
 
															+                                sampling_tensors.dynatemp_exps)
														
 
															         banned_tokens = _get_custom_token_bans(sampling_metadata)
														
 
															         logits = _apply_token_bans(logits, banned_tokens)
														
@@ -294,6 +296,37 @@ def _apply_penalties(logits: torch.Tensor, prompt_tokens_tensor: torch.Tensor,
 
															     return logits
														
 
															+def _apply_temperatures(
														
 
															+    logits: torch.Tensor,
														
 
															+    temperatures: torch.Tensor,
														
 
															+    dynatemp_mins: torch.Tensor,
														
 
															+    dynatemp_maxs: torch.Tensor,
														
 
															+    dynatemp_exps: torch.Tensor,
														
 
															+) -> None:
														
 
															+    dynatemp_mask = dynatemp_exps != 0
														
 
															+    dynatemp_mins = dynatemp_mins[dynatemp_mask]
														
 
															+    dynatemp_maxs = dynatemp_maxs[dynatemp_mask]
														
 
															+    dynatemp_exps = dynatemp_exps[dynatemp_mask]
														
 
															+
														
 
															+    dynatemp_logits = logits[dynatemp_mask]
														
 
															+    dynatemp_shifted_logits = torch.log_softmax(dynatemp_logits, dim=-1)
														
 
															+    dynatemp_probs = dynatemp_shifted_logits.exp()
														
 
															+    dynatemp_entropies = -(dynatemp_probs *
														
 
															+                           dynatemp_shifted_logits).nansum(dim=-1)
														
 
															+    dynatemp_max_entropies = torch.log_(
														
 
															+        (dynatemp_logits > float("-inf")).sum(dim=-1).float())
														
 
															+    normalized_entropies = dynatemp_entropies.div_(dynatemp_max_entropies)
														
 
															+    dyn_temp = (dynatemp_mins + (dynatemp_maxs - dynatemp_mins) *
														
 
															+                normalized_entropies.pow_(dynatemp_exps))
														
 
															+
														
 
															+    temperatures[dynatemp_mask] = dyn_temp
														
 
															+    temperatures[temperatures <= 0.0] = 1.0
														
 
															+    # Use float32 to apply temp.
														
 
															+    # Use in-place division to avoid creating a new tensor.
														
 
															+    logits = logits.to(torch.float)
														
 
															+    logits.div_(temperatures.unsqueeze(dim=1))
														
 
															+
														
 
															+
														
 
															 def _apply_token_bans(logits: torch.Tensor,
														
 
															                       banned_tokens: List[List[int]]) -> torch.Tensor:
														
 
															     for i, banned_token_ids in enumerate(banned_tokens):
														
--- a/aphrodite/modeling/sampling_metadata.py
+++ b/aphrodite/modeling/sampling_metadata.py
@@ -367,6 +367,9 @@ class SamplingTensors:
 
															     """Tensors for sampling."""
														
 
															     temperatures: torch.Tensor
														
 
															+    dynatemp_mins: torch.Tensor
														
 
															+    dynatemp_maxs: torch.Tensor
														
 
															+    dynatemp_exps: torch.Tensor
														
 
															     temperature_lasts: torch.Tensor
														
 
															     top_ps: torch.Tensor
														
 
															     top_ks: torch.Tensor
														
@@ -400,7 +403,7 @@ class SamplingTensors:
 
															         extra_seeds_to_generate: int = 0,
														
 
															         extra_entropy: Optional[Tuple[int, ...]] = None
														
 
															     ) -> Tuple["SamplingTensors", bool, bool, bool, bool, bool, bool, bool,
														
 
															-               bool, bool, bool, bool]:
														
 
															+               bool, bool, bool, bool, bool]:
														
 
															         """
														
 
															         extra_seeds_to_generate: extra seeds to generate using the
														
 
															             user-defined seed for each sequence.
														
@@ -410,6 +413,9 @@ class SamplingTensors:
 
															         output_tokens: List[array] = []
														
 
															         top_ks: List[int] = []
														
 
															         temperatures: List[float] = []
														
 
															+        dynatemp_mins: List[float] = []
														
 
															+        dynatemp_maxs: List[float] = []
														
 
															+        dynatemp_exps: List[float] = []
														
 
															         temperature_lasts: List[bool] = []
														
 
															         top_ps: List[float] = []
														
 
															         top_as: List[float] = []
														
@@ -428,6 +434,7 @@ class SamplingTensors:
 
															         sampling_seeds: List[int] = []
														
 
															         sample_indices: List[int] = []
														
 
															         do_penalties = False
														
 
															+        do_temperatures = False
														
 
															         do_top_p_top_k = False
														
 
															         do_top_as = False
														
 
															         do_min_p = False
														
@@ -451,6 +458,9 @@ class SamplingTensors:
 
															             seq_ids = seq_group.seq_ids
														
 
															             sampling_params = seq_group.sampling_params
														
 
															             temperature = sampling_params.temperature
														
 
															+            dynatemp_min = sampling_params.dynatemp_min
														
 
															+            dynatemp_max = sampling_params.dynatemp_max
														
 
															+            dynatemp_exp = sampling_params.dynatemp_exponent
														
 
															             temperature_last = sampling_params.temperature_last
														
 
															             p = sampling_params.presence_penalty
														
 
															             f = sampling_params.frequency_penalty
														
@@ -475,6 +485,8 @@ class SamplingTensors:
 
															                 # (i.e., greedy sampling or beam search).
														
 
															                 # Set the temperature to 1 to avoid division by zero.
														
 
															                 temperature = 1.0
														
 
															+            if not do_temperatures and temperature != 1.0:
														
 
															+                do_temperatures = True
														
 
															             if not do_top_p_top_k and (top_p < 1.0 - _SAMPLING_EPS
														
 
															                                        or top_k != vocab_size):
														
 
															                 do_top_p_top_k = True
														
@@ -510,6 +522,9 @@ class SamplingTensors:
 
															                 assert query_len is not None
														
 
															                 prefill_len = len(seq_group.prompt_logprob_indices)
														
 
															                 temperatures += [temperature] * prefill_len
														
 
															+                dynatemp_mins += [dynatemp_min] * prefill_len
														
 
															+                dynatemp_maxs += [dynatemp_max] * prefill_len
														
 
															+                dynatemp_exps += [dynatemp_exp] * prefill_len
														
 
															                 temperature_lasts += [temperature_last] * prefill_len
														
 
															                 top_ps += [top_p] * prefill_len
														
 
															                 top_ks += [top_k] * prefill_len
														
@@ -531,6 +546,9 @@ class SamplingTensors:
 
															                 sample_lens = len(seq_group.sample_indices)
														
 
															                 assert sample_lens == len(seq_ids)
														
 
															                 temperatures += [temperature] * len(seq_ids)
														
 
															+                dynatemp_mins += [dynatemp_min] * len(seq_ids)
														
 
															+                dynatemp_maxs += [dynatemp_max] * len(seq_ids)
														
 
															+                dynatemp_exps += [dynatemp_exp] * len(seq_ids)
														
 
															                 temperature_lasts += [temperature_last] * len(seq_ids)
														
 
															                 top_ps += [top_p] * len(seq_ids)
														
 
															                 top_ks += [top_k] * len(seq_ids)
														
@@ -587,18 +605,21 @@ class SamplingTensors:
 
															                         output_tokens.append(seq_data.output_token_ids_array)
														
 
															         sampling_tensors = SamplingTensors.from_lists(
														
 
															-            temperatures, temperature_lasts, top_ps, top_ks, top_as, min_ps,
														
 
															+            temperatures, dynatemp_mins, dynatemp_maxs, dynatemp_exps,
														
 
															+            temperature_lasts, top_ps, top_ks, top_as, min_ps,
														
 
															             presence_penalties, frequency_penalties, repetition_penalties,
														
 
															             tfss, eta_cutoffs, epsilon_cutoffs, typical_ps, smoothing_factors,
														
 
															             smoothing_curves, xtc_thresholds, xtc_probabilities,sampling_seeds,
														
 
															             sample_indices, prompt_tokens, output_tokens, vocab_size,
														
 
															             extra_seeds_to_generate, device, dtype)
														
 
															-        return (sampling_tensors, do_penalties, do_top_p_top_k, do_top_as,
														
 
															-                do_min_p, do_tfss, do_eta_cutoffs, do_epsilon_cutoffs,
														
 
															-                do_typical_ps, do_quadratic, do_xtc, do_temp_last)
														
 
															+        return (sampling_tensors, do_penalties, do_temperatures,
														
 
															+                do_top_p_top_k, do_top_as, do_min_p, do_tfss, do_eta_cutoffs,
														
 
															+                do_epsilon_cutoffs, do_typical_ps, do_quadratic, do_xtc,
														
 
															+                do_temp_last)
														
 
															     @classmethod
														
 
															-    def from_lists(cls, temperatures: List[float],
														
 
															+    def from_lists(cls, temperatures: List[float], dynatemp_mins: List[float],
														
 
															+                   dynatemp_maxs: List[float], dynatemp_exps: List[float],
														
 
															                    temperature_lasts: List[bool], top_ps: List[float],
														
 
															                    top_ks: List[int], top_as: List[float],
														
 
															                    min_ps: List[float], presence_penalties: List[float],
														
@@ -643,6 +664,24 @@ class SamplingTensors:
 
															             dtype=dtype,
														
 
															             pin_memory=pin_memory,
														
 
															         )
														
 
															+        dynatemp_mins_t = torch.tensor(
														
 
															+            dynatemp_mins,
														
 
															+            device="cpu",
														
 
															+            dtype=dtype,
														
 
															+            pin_memory=pin_memory,
														
 
															+        )
														
 
															+        dynatemp_maxs_t = torch.tensor(
														
 
															+            dynatemp_maxs,
														
 
															+            device="cpu",
														
 
															+            dtype=dtype,
														
 
															+            pin_memory=pin_memory,
														
 
															+        )
														
 
															+        dynatemp_exps_t = torch.tensor(
														
 
															+            dynatemp_exps,
														
 
															+            device="cpu",
														
 
															+            dtype=dtype,
														
 
															+            pin_memory=pin_memory,
														
 
															+        )
														
 
															         temp_lasts_t = torch.tensor(
														
 
															             temperature_lasts,
														
 
															             device="cpu",
														
@@ -751,6 +790,9 @@ class SamplingTensors:
 
															         return cls(
														
 
															             temperatures=temperatures_t.to(device=device, non_blocking=True),
														
 
															+            dynatemp_mins=dynatemp_mins_t.to(device=device, non_blocking=True),
														
 
															+            dynatemp_maxs=dynatemp_maxs_t.to(device=device, non_blocking=True),
														
 
															+            dynatemp_exps=dynatemp_exps_t.to(device=device, non_blocking=True),
														
 
															             temperature_lasts=temp_lasts_t.to(device=device, non_blocking=True),
														
 
															             top_ps=top_ps_t.to(device=device, non_blocking=True),
														
 
															             top_ks=top_ks_t.to(device=device, non_blocking=True),