11 달 전 · 7ed57e318d
--- a/aphrodite/modeling/layers/sampler.py
+++ b/aphrodite/modeling/layers/sampler.py
@@ -3,6 +3,7 @@ from typing import Dict, List, Tuple, Optional
 
				 
			
 
				 import torch
			
 
				 import torch.nn as nn
			
 
				+import math
			
 
				 
			
 
				 from aphrodite.modeling.sampling_metadata import (SamplingMetadata,
			
 
				                                                   OutputMetadata,
			
@@ -137,49 +138,50 @@ def _perform_sampling(
 
				     logits = _apply_logits_processors(logits, sampling_metadata)
			
 
				 
			
 
				     # Prepare sampling tensors with pinned memory to avoid blocking.
			
 
				-    (sampling_tensors, do_temperatures, do_penalties, do_topks, do_topps,
			
 
				-     do_topas, do_minps, do_tfss, do_eta_cutoffs, do_epsilon_cutoffs,
			
 
				-     do_typical_ps, do_quadratic,
			
 
				-     do_mirostat) = (SamplingTensors.from_sampling_metadata(
			
 
				-         sampling_metadata, vocab_size, logits.device, logits.dtype))
			
 
				+    sampling_tensors = SamplingTensors.from_sampling_metadata(
			
 
				+        sampling_metadata, vocab_size, logits.device, logits.dtype)
			
 
				 
			
 
				-    if do_penalties:
			
 
				+    if sampling_tensors.do_penalties:
			
 
				         logits = _apply_penalties(logits, sampling_tensors.prompt_tokens,
			
 
				                                   sampling_tensors.output_tokens,
			
 
				-                                  sampling_tensors.presence_penalties,
			
 
				-                                  sampling_tensors.frequency_penalties,
			
 
				-                                  sampling_tensors.repetition_penalties)
			
 
				+                                  sampling_tensors.pres_penalties,
			
 
				+                                  sampling_tensors.freq_penalties,
			
 
				+                                  sampling_tensors.rep_penalties)
			
 
				 
			
 
				-    if do_temperatures:
			
 
				+    if sampling_tensors.do_temperatures or sampling_tensors.do_dynatemps:
			
 
				         logits = _apply_temperature(logits, sampling_tensors.temperatures,
			
 
				                                     sampling_tensors.dynatemp_mins,
			
 
				                                     sampling_tensors.dynatemp_maxs,
			
 
				                                     sampling_tensors.dynatemp_exps)
			
 
				 
			
 
				-    if do_topks or do_topps or do_topas or do_minps:
			
 
				+    if (sampling_tensors.do_top_ks or sampling_tensors.do_top_ps
			
 
				+            or sampling_tensors.do_top_as or sampling_tensors.do_min_ps):
			
 
				         logits = _apply_alphabet_soup(logits, sampling_tensors.top_ps,
			
 
				                                       sampling_tensors.top_ks,
			
 
				                                       sampling_tensors.top_as,
			
 
				                                       sampling_tensors.min_ps)
			
 
				-    if do_tfss:
			
 
				+
			
 
				+    if sampling_tensors.do_tfss:
			
 
				         logits = _apply_tfs(logits, sampling_tensors.tfss)
			
 
				-    if do_eta_cutoffs:
			
 
				+    if sampling_tensors.do_eta_cutoffs:
			
 
				         logits = _apply_eta_cutoff(logits, sampling_tensors.eta_cutoffs)
			
 
				-    if do_epsilon_cutoffs:
			
 
				+    if sampling_tensors.do_epsilon_cutoffs:
			
 
				         logits = _apply_epsilon_cutoff(logits,
			
 
				                                        sampling_tensors.epsilon_cutoffs)
			
 
				-    if do_typical_ps:
			
 
				+    if sampling_tensors.do_typical_ps:
			
 
				         logits = _apply_typical_sampling(logits, sampling_tensors.typical_ps)
			
 
				-    if do_quadratic:
			
 
				+
			
 
				+    if sampling_tensors.do_quadratic:
			
 
				         logits = _apply_quadratic_sampling(logits,
			
 
				+                                           sampling_tensors.smoothing_indices,
			
 
				                                            sampling_tensors.smoothing_factors,
			
 
				                                            sampling_tensors.smoothing_curves)
			
 
				 
			
 
				     banned_tokens = _get_custom_token_bans(sampling_metadata)
			
 
				     assert len(banned_tokens) == logits.shape[0]
			
 
				     logits = _apply_token_bans(logits, banned_tokens)
			
 
				-    if do_mirostat:
			
 
				-        logits = _mirostat(logits, sampling_tensors, output_metadata)
			
 
				+    if sampling_tensors.do_mirostat:
			
 
				+        logits = _apply_mirostat_v2(logits, sampling_tensors)
			
 
				 
			
 
				     # We use float32 for probabilities and log probabilities.
			
 
				     # Compute the probabilities.
			
@@ -190,6 +192,10 @@ def _perform_sampling(
 
				 
			
 
				     # Sample the next tokens.
			
 
				     sample_results = _sample(probs, logprobs, sampling_metadata)
			
 
				+
			
 
				+    if sampling_tensors.do_mirostat:
			
 
				+        _mirostat_store_args(logits, sampling_tensors, sample_results,
			
 
				+                             sampling_metadata, output_metadata)
			
 
				     # Get the logprobs query results.
			
 
				     prompt_logprobs, sample_logprobs = _get_logprobs(logprobs,
			
 
				                                                      sampling_metadata,
			
@@ -239,53 +245,32 @@ def _get_custom_token_bans(
 
				     return banned_tokens
			
 
				 
			
 
				 
			
 
				-# def _apply_logits_processors(
			
 
				-#     logits: torch.Tensor,
			
 
				-#     metadata: SamplingMetadata,
			
 
				-# ) -> torch.Tensor:
			
 
				-#     seq_offset = 0
			
 
				-#     for i, (seq_ids, sampling_params) in enumerate(metadata.seq_groups):
			
 
				-#         seq_size = len(seq_ids)
			
 
				-#         output_tokens = []
			
 
				-#         if (i < metadata.num_prompts
			
 
				-#                 and sampling_params.prompt_logprobs is not None):
			
 
				-#             prompt_seqs = metadata.prompt_lens[i] - 1
			
 
				-#             seq_size += prompt_seqs
			
 
				-#             output_tokens.extend([[]] * prompt_seqs)
			
 
				-#         seq_end = seq_offset + seq_size
			
 
				-
			
 
				-#         if sampling_params.logits_processors:
			
 
				-#             output_tokens.extend(metadata.seq_data[sid].output_token_ids
			
 
				-#                                  for sid in seq_ids)
			
 
				-#             for proc in sampling_params.logits_processors:
			
 
				-#                 proc(logits[seq_offset:seq_end], output_tokens)
			
 
				-
			
 
				-#         seq_offset = seq_end
			
 
				-
			
 
				-#     return logits
			
 
				-
			
 
				-
			
 
				 def _apply_logits_processors(
			
 
				     logits: torch.Tensor,
			
 
				-    sampling_metadata: SamplingMetadata,
			
 
				+    metadata: SamplingMetadata,
			
 
				 ) -> torch.Tensor:
			
 
				-    logits_row_idx = 0
			
 
				-    found_logits_processors = False
			
 
				-    for seq_ids, sampling_params in sampling_metadata.seq_groups:
			
 
				-        logits_processors = sampling_params.logits_processors
			
 
				-        if logits_processors:
			
 
				-            found_logits_processors = True
			
 
				-            for seq_id in seq_ids:
			
 
				-                logits_row = logits[logits_row_idx]
			
 
				-                token_ids = sampling_metadata.seq_data[seq_id].output_token_ids
			
 
				-                for logits_processor in logits_processors:
			
 
				-                    logits_row = logits_processor(token_ids, logits_row)
			
 
				-                logits[logits_row_idx] = logits_row
			
 
				-                logits_row_idx += 1
			
 
				-        else:
			
 
				-            logits_row_idx += len(seq_ids)
			
 
				-    if found_logits_processors:
			
 
				-        assert logits_row_idx == logits.shape[0]
			
 
				+    assert metadata.seq_groups is not None
			
 
				+    assert metadata.prompt_lens is not None
			
 
				+    assert metadata.seq_data is not None
			
 
				+    seq_offset = 0
			
 
				+    for i, (seq_ids, sampling_params) in enumerate(metadata.seq_groups):
			
 
				+        seq_size = len(seq_ids)
			
 
				+        output_tokens = []
			
 
				+        if (i < metadata.num_prompts
			
 
				+                and sampling_params.prompt_logprobs is not None):
			
 
				+            prompt_seqs = metadata.prompt_lens[i] - 1
			
 
				+            seq_size += prompt_seqs
			
 
				+            output_tokens.extend([[]] * prompt_seqs)
			
 
				+        seq_end = seq_offset + seq_size
			
 
				+
			
 
				+        if sampling_params.logits_processors:
			
 
				+            output_tokens.extend(metadata.seq_data[sid].output_token_ids
			
 
				+                                 for sid in seq_ids)
			
 
				+            for proc in sampling_params.logits_processors:
			
 
				+                proc(logits[seq_offset:seq_end], output_tokens)
			
 
				+
			
 
				+        seq_offset = seq_end
			
 
				+
			
 
				     return logits
			
 
				 
			
 
				 
			
@@ -398,20 +383,19 @@ def _apply_eta_cutoff(
 
				     logits: torch.Tensor,
			
 
				     eta_cutoff: torch.Tensor,
			
 
				 ) -> torch.Tensor:
			
 
				-    eta = torch.tensor(eta_cutoff, dtype=logits.dtype,
			
 
				-                       device=logits.device) * 1e-4
			
 
				     shifted_logits = torch.log_softmax(logits, dim=-1)
			
 
				     probs = shifted_logits.exp()
			
 
				 
			
 
				     neg_entropy = (probs * shifted_logits).nansum(dim=-1)
			
 
				-    eps = torch.min(eta,
			
 
				-                    torch.sqrt(eta) * torch.exp(neg_entropy)).unsqueeze(dim=1)
			
 
				+    eps = torch.min(eta_cutoff,
			
 
				+                    torch.sqrt(eta_cutoff) *
			
 
				+                    torch.exp(neg_entropy)).unsqueeze(dim=1)
			
 
				 
			
 
				     eta_mask = probs < eps
			
 
				 
			
 
				-    if torch.all(eta_mask):  # guard against nulling out all the logits
			
 
				-        topk_prob, _ = torch.max(probs, dim=-1)
			
 
				-        eta_mask = probs < topk_prob
			
 
				+    # guard against nulling out all the logits
			
 
				+    top_idx = torch.argmax(probs, dim=1, keepdim=True)
			
 
				+    eta_mask.scatter_(dim=1, index=top_idx, value=False)
			
 
				 
			
 
				     logits[eta_mask] = -float("inf")
			
 
				     return logits
			
@@ -421,16 +405,13 @@ def _apply_epsilon_cutoff(
 
				     logits: torch.Tensor,
			
 
				     epsilon_cutoff: torch.Tensor,
			
 
				 ) -> torch.Tensor:
			
 
				-    eps = torch.tensor(epsilon_cutoff,
			
 
				-                       dtype=logits.dtype,
			
 
				-                       device=logits.device).unsqueeze(dim=1)
			
 
				     probs = logits.softmax(dim=-1)
			
 
				 
			
 
				-    eps_mask = probs < (eps * 1e-4)
			
 
				+    eps_mask = probs < epsilon_cutoff.unsqueeze(dim=1)
			
 
				 
			
 
				-    if torch.all(eps_mask):  # guard against nulling out all the logits
			
 
				-        topk_prob, _ = torch.max(probs, dim=-1)
			
 
				-        eps_mask = probs < topk_prob
			
 
				+    # guard against nulling out all the logits
			
 
				+    top_idx = torch.argmax(probs, dim=1, keepdim=True)
			
 
				+    eps_mask.scatter_(dim=1, index=top_idx, value=False)
			
 
				 
			
 
				     logits[eps_mask] = -float("inf")
			
 
				     return logits
			
@@ -440,7 +421,6 @@ def _apply_typical_sampling(
 
				     logits: torch.Tensor,
			
 
				     typical_p: torch.Tensor,
			
 
				 ) -> torch.Tensor:
			
 
				-    typ_p = torch.tensor(typical_p, dtype=logits.dtype, device=logits.device)
			
 
				     shifted_logits = torch.log_softmax(logits, dim=-1)
			
 
				     probs = shifted_logits.exp()
			
 
				 
			
@@ -449,7 +429,8 @@ def _apply_typical_sampling(
 
				     surprisal_deviations = (neg_entropy - shifted_logits).abs()
			
 
				     _, indices = torch.sort(surprisal_deviations)
			
 
				     reordered_probs = probs.gather(-1, indices)
			
 
				-    typ_mask_sorted = reordered_probs.cumsum(dim=-1) >= typ_p.unsqueeze(dim=1)
			
 
				+    typ_mask_sorted = reordered_probs.cumsum(dim=-1) >= typical_p.unsqueeze(
			
 
				+        dim=1)
			
 
				 
			
 
				     min_tokens_to_keep = 1
			
 
				     # Keep at least min_tokens_to_keep
			
@@ -493,8 +474,9 @@ def _apply_temperature(
 
				 
			
 
				 def _apply_quadratic_sampling(
			
 
				     logits: torch.Tensor,
			
 
				-    smoothing_factors: torch.Tensor,
			
 
				-    smoothing_curves: torch.Tensor,
			
 
				+    indices: torch.Tensor,
			
 
				+    factors: torch.Tensor,
			
 
				+    curves: torch.Tensor,
			
 
				 ) -> torch.Tensor:
			
 
				     """
			
 
				     Applies a quadratic transformation to the logits based on the
			
@@ -508,9 +490,11 @@ def _apply_quadratic_sampling(
 
				 
			
 
				     params:
			
 
				         logits (torch.Tensor): The logits to be transformed.
			
 
				-        smoothing_factors (torch.Tensor): The factors to scale the quadratic
			
 
				+        indices (torch.Tensor): Indices to project `logits` down to 
			
 
				+            the other tensor's lengths.
			
 
				+        factors (torch.Tensor): The factors to scale the quadratic
			
 
				             term in the transformation.
			
 
				-        smoothing_curves (torch.Tensor): The factors to scale the cubic term
			
 
				+        curves (torch.Tensor): The factors to scale the cubic term
			
 
				             in the transformation.
			
 
				 
			
 
				     returns:
			
@@ -518,20 +502,20 @@ def _apply_quadratic_sampling(
 
				 
			
 
				     Credits: @kalomaze
			
 
				     """
			
 
				-    max_logits = logits.max(dim=-1, keepdim=True).values
			
 
				-    diff = logits - max_logits
			
 
				-    smoothing_factors.unsqueeze_(dim=1)
			
 
				-    smoothing_curves.unsqueeze_(dim=1)
			
 
				-
			
 
				-    k = (3 - smoothing_curves) / 2
			
 
				-    s = (smoothing_curves - 1) / 2
			
 
				-
			
 
				-    mask = smoothing_factors > 0
			
 
				-    mask = mask.flatten()
			
 
				-    transformed_logits = torch.where(
			
 
				-        logits != float('-inf'), -(k * smoothing_factors * diff**2) +
			
 
				-        (s * smoothing_factors * diff**3) + max_logits, logits)
			
 
				-    logits[mask, :] = transformed_logits[mask, :]
			
 
				+    factors.unsqueeze_(dim=1)
			
 
				+    curves.unsqueeze_(dim=1)
			
 
				+    k = factors * (3 - curves) / 2
			
 
				+    s = factors * (curves - 1) / 2
			
 
				+
			
 
				+    quadlogits = logits[indices]  # project to only relevant logits
			
 
				+    max_logits = quadlogits.max(dim=-1, keepdim=True).values
			
 
				+
			
 
				+    # Construct the delta from each logit to its new value
			
 
				+    diff = quadlogits - max_logits
			
 
				+    diff -= diff**2 * (s * diff - k)
			
 
				+    diff[diff != diff] = 0  # Eliminate NaNs from infs
			
 
				+
			
 
				+    logits[indices] -= diff
			
 
				     return logits
			
 
				 
			
 
				 
			
@@ -539,7 +523,6 @@ def _greedy_sample(
 
				     selected_seq_groups: List[Tuple[List[int], SamplingParams]],
			
 
				     samples: torch.Tensor,
			
 
				 ) -> List[Tuple[List[int], List[int]]]:
			
 
				-    samples = samples.tolist()
			
 
				     sample_idx = 0
			
 
				     results = []
			
 
				     for seq_group in selected_seq_groups:
			
@@ -548,7 +531,7 @@ def _greedy_sample(
 
				         assert num_parent_seqs == 1, (
			
 
				             "Greedy sampling should have only one seq.")
			
 
				         parent_ids = list(range(num_parent_seqs))
			
 
				-        next_token_ids = [samples[sample_idx]]
			
 
				+        next_token_ids = [samples[sample_idx].item()]
			
 
				         results.append((next_token_ids, parent_ids))
			
 
				         sample_idx += num_parent_seqs
			
 
				     return results
			
@@ -671,6 +654,10 @@ def _sample(
 
				     logprobs: torch.Tensor,
			
 
				     sampling_metadata: SamplingMetadata,
			
 
				 ) -> List[Tuple[List[int], List[int]]]:
			
 
				+    """Returns list of (selected_tokens, parent_seq_ids) tuples
			
 
				+    corresponding to sampling_metadata.seq_groups."""
			
 
				+    assert sampling_metadata.seq_groups is not None
			
 
				+    assert sampling_metadata.categorized_sample_indices is not None
			
 
				     categorized_seq_group_ids = {t: [] for t in SamplingType}
			
 
				     categorized_sample_indices = sampling_metadata.categorized_sample_indices
			
 
				     for i, seq_group in enumerate(sampling_metadata.seq_groups):
			
@@ -860,92 +847,88 @@ def _build_sampler_output(
 
				     sample_logprobs: List[SampleLogprobs],
			
 
				     output_metadata: OutputMetadata,
			
 
				 ) -> SamplerOutput:
			
 
				+    assert sampling_metadata.seq_groups is not None
			
 
				     sampler_output = []
			
 
				     for (seq_group, sample_result, group_prompt_logprobs,
			
 
				          group_sample_logprobs) in zip(sampling_metadata.seq_groups,
			
 
				                                        sample_results, prompt_logprobs,
			
 
				                                        sample_logprobs):
			
 
				         seq_ids, _ = seq_group
			
 
				-        next_token_ids, parent_ids = sample_result
			
 
				-        seq_outputs = []
			
 
				-        for parent_id, next_token_id, logprobs in zip(parent_ids,
			
 
				-                                                      next_token_ids,
			
 
				-                                                      group_sample_logprobs):
			
 
				-            seq_outputs.append(
			
 
				-                SequenceOutput(seq_ids[parent_id], next_token_id, logprobs,
			
 
				-                               output_metadata.get(seq_ids[parent_id])))
			
 
				+        seq_outputs = [
			
 
				+            SequenceOutput(seq_ids[parent_id], token_id, logprobs,
			
 
				+                           output_metadata.get(seq_ids[parent_id], idx))
			
 
				+            for idx, (token_id, parent_id, logprobs) in enumerate(
			
 
				+                zip(*sample_result, group_sample_logprobs))
			
 
				+        ]
			
 
				+
			
 
				         sampler_output.append(
			
 
				             SequenceGroupOutput(seq_outputs, group_prompt_logprobs))
			
 
				     return sampler_output
			
 
				 
			
 
				 
			
 
				-def _miro_store_args(seqids: List[int], mus: List[float],
			
 
				-                     output_metadata: OutputMetadata) -> None:
			
 
				-    for sid, mu in zip(seqids,
			
 
				-                       mus.tolist()):  # tolist might be premature optimization
			
 
				-        output_metadata.add(sid, "miro_mu", mu)
			
 
				+def _apply_mirostat_v2(logits: torch.Tensor,
			
 
				+                       sampling_tensors: SamplingTensors) -> torch.Tensor:
			
 
				+    # Reduce our view to just the affected logits
			
 
				+    logit_view = logits[sampling_tensors.miro_indices]
			
 
				 
			
 
				+    # Calculate surprise value per token
			
 
				+    #  Convert nats to bits for compatibility with ooba/kobold parameters.
			
 
				+    logit_surprise = torch.log_softmax(logit_view, dim=-1) / -math.log(2)
			
 
				 
			
 
				-def _apply_mirostat_v2(
			
 
				-        logits: torch.Tensor,
			
 
				-        taus: torch.Tensor,  # AKA the targeted surprise
			
 
				-        etas: torch.Tensor,  # AKA the learning rate
			
 
				-        mus: torch.
			
 
				-    Tensor,  # AKA the accumulator that always tries to approach [tau]
			
 
				-) -> torch.Tensor:
			
 
				-
			
 
				-    logit_surprise = torch.softmax(
			
 
				-        logits, dim=-1).log2_().neg_()  # Calculate surprise value per token
			
 
				-    # For compatibility with ooba/kobold, done in unit of bits(log base 2)
			
 
				-    # not nats(ln).
			
 
				-    # Ideally this would be a log_softmax, for numerical stability and
			
 
				-    # elegance purposes.
			
 
				-    # logit_surprise = torch.log_softmax(logits, dim=-1).neg_()
			
 
				-
			
 
				-    miro_mask = logit_surprise > mus.unsqueeze(
			
 
				-        dim=-1)  # Mask out "too-surprising" tokens (above mu)
			
 
				-    mininds = torch.argmin(logit_surprise, dim=-1)
			
 
				-    miro_mask.scatter_(
			
 
				-        1, mininds.unsqueeze(dim=-1), False
			
 
				-    )  # Force at least one outcome to be possible, ideally the most likely one
			
 
				-
			
 
				-    logits[miro_mask] = -float("inf")
			
 
				-
			
 
				-    probs = torch.softmax(logits, dim=-1,
			
 
				-                          dtype=logits.dtype)  # Get probs, post-mask
			
 
				-
			
 
				-    # NOTE: Mirostat updates its `mu` values based on the sample chosen.
			
 
				-    # The silly approach here is to just sample it and make the logits one-hot.
			
 
				-    # This breaks fine grained seeding, but we don't have that yet.
			
 
				-    # TODO: FIX when it gets added
			
 
				-    next_token_ids = _multinomial(probs, num_samples=1)
			
 
				-
			
 
				-    # Calculation new `mu` values
			
 
				-    # NOTE: If we can know the logit values of the PREVIOUS iteration,
			
 
				-    # it should be possible to update `mu` before applying mirostat each
			
 
				-    # iteration, thus letting us keep _sample as the last thing that happens.
			
 
				-    picked_surprises = torch.gather(logit_surprise,
			
 
				-                                    dim=-1,
			
 
				-                                    index=next_token_ids)
			
 
				-    eps = picked_surprises.squeeze() - taus
			
 
				-    mus.sub_(etas * eps)
			
 
				-
			
 
				-    logits.fill_(-float("inf"))
			
 
				-    # This value doesn't actually matter, so long as it's not -inf.
			
 
				-    # Vectors are now one-hot, after all.
			
 
				-    logits.scatter_(1, next_token_ids, 1.0)
			
 
				-    return logits
			
 
				+    # Mask out "too-surprising" tokens (surprisal > mu)
			
 
				+    mus = sampling_tensors.miro_mus
			
 
				+    miro_mask = logit_surprise > mus.unsqueeze(dim=-1)
			
 
				 
			
 
				+    # Unmask most-likely logit to guarantee a selection.
			
 
				+    maxinds = torch.argmax(logit_view, dim=-1, keepdim=True)
			
 
				+    miro_mask.scatter_(dim=1, index=maxinds, value=False)
			
 
				 
			
 
				-def _mirostat(logits: torch.Tensor, sampling_tensors: SamplingTensors,
			
 
				-              output_metadata: OutputMetadata) -> torch.Tensor:
			
 
				-    idx = sampling_tensors.miro_indices
			
 
				-    seqids = sampling_tensors.miro_seqids
			
 
				-    taus = sampling_tensors.miro_taus
			
 
				-    etas = sampling_tensors.miro_etas
			
 
				-    mus = sampling_tensors.miro_mus
			
 
				+    # Apply logit mask (effectively a top-k filter).
			
 
				+    logit_view[miro_mask] = -float("inf")
			
 
				 
			
 
				-    logits[idx] = _apply_mirostat_v2(logits[idx], taus, etas,
			
 
				-                                     mus)  # mus is an i/o param, :vomit:
			
 
				-    _miro_store_args(seqids, mus, output_metadata)
			
 
				+    # Project logit changes made to the view onto the original.
			
 
				+    # I think this step might be redundant.
			
 
				+    logits[sampling_tensors.miro_indices] = logit_view
			
 
				     return logits
			
 
				+
			
 
				+
			
 
				+def _mirostat_store_args(logits: torch.Tensor, args: SamplingTensors,
			
 
				+                         sample_results: List[Tuple[List[int], List[int]]],
			
 
				+                         sampling_metadata: SamplingMetadata,
			
 
				+                         output_metadata: OutputMetadata) -> None:
			
 
				+    """Based on whichever token was finally sampled, we calculate the
			
 
				+    final surprisal values to update the mus.
			
 
				+    
			
 
				+    Because a single sequence can have multiple samples, we must fork
			
 
				+    the mu accordingly."""
			
 
				+    assert sampling_metadata.seq_groups is not None
			
 
				+    seqid_to_tokens = {}
			
 
				+    seqid_to_indices = {}
			
 
				+    for (sids, _), (toks, parents) in zip(sampling_metadata.seq_groups,
			
 
				+                                          sample_results):
			
 
				+        for idx, (token, parent) in enumerate(zip(toks, parents)):
			
 
				+            seqid_to_tokens.setdefault(sids[parent], []).append(token)
			
 
				+            seqid_to_indices.setdefault(sids[parent], []).append(idx)
			
 
				+
			
 
				+    seqids = args.miro_seqids
			
 
				+
			
 
				+    picked_tokens = torch.tensor([seqid_to_tokens[x] for x in seqids],
			
 
				+                                 device=logits.device,
			
 
				+                                 dtype=torch.long)
			
 
				+
			
 
				+    # Clumsily, we recalculate token surprisals.
			
 
				+    logits_view = logits[args.miro_indices]
			
 
				+    picked_surprise = torch.gather(torch.log_softmax(logits_view, dim=-1),
			
 
				+                                   dim=-1,
			
 
				+                                   index=picked_tokens) / -math.log(2)
			
 
				+
			
 
				+    taus = args.miro_taus.unsqueeze(dim=-1)  # AKA target surprisals
			
 
				+    etas = args.miro_etas.unsqueeze(dim=-1)  # AKA accumulation rates
			
 
				+    mus = args.miro_mus.unsqueeze(dim=-1)  # AKA surprisal accumulators
			
 
				+    nu_mus = mus - (picked_surprise - taus) * etas
			
 
				+
			
 
				+    # Record updated mu values for use in the next iteration
			
 
				+    # Note how each mu is split into multiple based on the number of samples.
			
 
				+    for seqid, seq_mus in zip(seqids, nu_mus):
			
 
				+        for sample_idx, mu in zip(seqid_to_indices[seqid], seq_mus):
			
 
				+            output_metadata.add(seqid, sample_idx, "miro_mu", mu)
			
--- a/aphrodite/modeling/sampling_metadata.py
+++ b/aphrodite/modeling/sampling_metadata.py
@@ -1,5 +1,5 @@
 
				 from dataclasses import dataclass
			
 
				-from typing import Dict, List, Tuple, Optional
			
 
				+from typing import Dict, List, Tuple, Optional, TypeVar, Callable
			
 
				 
			
 
				 import torch
			
 
				 
			
@@ -15,16 +15,26 @@ class PersistentMetadata:
 
				     def __init__(self, metadata: Optional[Dict[int, dict]] = None):
			
 
				         self._metadata: Dict[int, dict] = metadata or {}
			
 
				 
			
 
				-    def get(self, seq_id: int) -> dict:
			
 
				-        return self._metadata.get(seq_id, {})
			
 
				+    def get(self, seq_id: int, key, default=None):
			
 
				+        return self._metadata.get(seq_id, {}).get(key, default)
			
 
				 
			
 
				 
			
 
				-class OutputMetadata(PersistentMetadata):
			
 
				+class OutputMetadata():
			
 
				+    """Not symmetrical with PersistentMetadata because the process of
			
 
				+    sampling can produce unique metadata per sample, per sequence.
			
 
				+    
			
 
				+    The appropriate conversion would be `output[seq][sample](dict)` to
			
 
				+    `persist[new_seq_for_sample](dict)`"""
			
 
				 
			
 
				-    def add(self, seq_id: int, key, val) -> None:
			
 
				-        if seq_id not in self._metadata:
			
 
				-            self._metadata[seq_id] = {}
			
 
				-        self._metadata[seq_id][key] = val
			
 
				+    def __init__(self):
			
 
				+        self._metadata: Dict[int, Dict[int, dict]] = {}
			
 
				+
			
 
				+    def add(self, seq_id: int, sample_id: int, key, val) -> None:
			
 
				+        (self._metadata.setdefault(seq_id, {}).setdefault(sample_id,
			
 
				+                                                          {})[key]) = val
			
 
				+
			
 
				+    def get(self, seq_id: int, sample_id: int) -> dict:
			
 
				+        return self._metadata.get(seq_id, {}).get(sample_id, {})
			
 
				 
			
 
				 
			
 
				 class SamplingMetadata:
			
@@ -89,9 +99,9 @@ class SamplingTensors:
 
				     top_ks: torch.Tensor
			
 
				     top_as: torch.Tensor
			
 
				     min_ps: torch.Tensor
			
 
				-    presence_penalties: torch.Tensor
			
 
				-    frequency_penalties: torch.Tensor
			
 
				-    repetition_penalties: torch.Tensor
			
 
				+    pres_penalties: torch.Tensor
			
 
				+    freq_penalties: torch.Tensor
			
 
				+    rep_penalties: torch.Tensor
			
 
				     tfss: torch.Tensor
			
 
				     eta_cutoffs: torch.Tensor
			
 
				     epsilon_cutoffs: torch.Tensor
			
@@ -100,333 +110,158 @@ class SamplingTensors:
 
				     miro_etas: torch.Tensor
			
 
				     miro_mus: torch.Tensor
			
 
				     miro_indices: torch.Tensor
			
 
				-    miro_seqids: List[int]  # state writeback done CPU side
			
 
				+    miro_seqids: List[int]
			
 
				     dynatemp_mins: torch.Tensor
			
 
				     dynatemp_maxs: torch.Tensor
			
 
				     dynatemp_exps: torch.Tensor
			
 
				+    smoothing_indices: torch.Tensor
			
 
				     smoothing_factors: torch.Tensor
			
 
				     smoothing_curves: torch.Tensor
			
 
				     prompt_tokens: torch.Tensor
			
 
				     output_tokens: torch.Tensor
			
 
				 
			
 
				-    @classmethod
			
 
				-    def from_sampling_metadata(
			
 
				-        cls, sampling_metadata: "SamplingMetadata", vocab_size: int,
			
 
				-        device: torch.device, dtype: torch.dtype
			
 
				-    ) -> Tuple["SamplingTensors", bool, bool, bool, bool, bool, bool, bool,
			
 
				-               bool, bool, bool, bool, bool]:
			
 
				-        prompt_tokens: List[List[int]] = []
			
 
				-        output_tokens: List[List[int]] = []
			
 
				-        top_ks: List[int] = []
			
 
				-        temperatures: List[float] = []
			
 
				-        top_ps: List[float] = []
			
 
				-        top_as: List[float] = []
			
 
				-        min_ps: List[float] = []
			
 
				-        presence_penalties: List[float] = []
			
 
				-        frequency_penalties: List[float] = []
			
 
				-        repetition_penalties: List[float] = []
			
 
				-        tfss: List[float] = []
			
 
				-        eta_cutoffs: List[float] = []
			
 
				-        epsilon_cutoffs: List[float] = []
			
 
				-        typical_ps: List[float] = []
			
 
				-        miro_taus: List[float] = []
			
 
				-        miro_etas: List[float] = []
			
 
				-        miro_mus: List[float] = []
			
 
				-        miro_indices: List[int] = []
			
 
				-        miro_seqids: List[int] = []
			
 
				-        dynatemp_mins: List[float] = []
			
 
				-        dynatemp_maxs: List[float] = []
			
 
				-        dynatemp_exps: List[float] = []
			
 
				-        smoothing_factors: List[float] = []
			
 
				-        smoothing_curves: List[float] = []
			
 
				-        index = 0  # temporary, needed for building miro_indices
			
 
				-        do_temperatures = False
			
 
				-        do_penalties = False
			
 
				-        do_topks = False
			
 
				-        do_topps = False
			
 
				-        do_topas = False
			
 
				-        do_minps = False
			
 
				-        do_tfss = False
			
 
				-        do_eta_cutoffs = False
			
 
				-        do_epsilon_cutoffs = False
			
 
				-        do_typical_ps = False
			
 
				-        do_quadratic = False
			
 
				-        do_mirostat = False
			
 
				-        for i, seq_group in enumerate(sampling_metadata.seq_groups):
			
 
				-            seq_ids, sampling_params = seq_group
			
 
				-            temperature = sampling_params.temperature
			
 
				-            p = sampling_params.presence_penalty
			
 
				-            f = sampling_params.frequency_penalty
			
 
				-            r = sampling_params.repetition_penalty
			
 
				-            top_p = sampling_params.top_p
			
 
				-            # k should not be greater than the vocab size
			
 
				-            top_k = min(sampling_params.top_k, vocab_size)
			
 
				-            top_k = vocab_size if top_k == -1 else top_k
			
 
				-            top_a = sampling_params.top_a
			
 
				-            min_p = sampling_params.min_p
			
 
				-            tfs = sampling_params.tfs
			
 
				-            eta_cutoff = sampling_params.eta_cutoff
			
 
				-            epsilon_cutoff = sampling_params.epsilon_cutoff
			
 
				-            typical_p = sampling_params.typical_p
			
 
				-            miro_tau = sampling_params.mirostat_tau
			
 
				-            miro_eta = sampling_params.mirostat_eta
			
 
				-            dynatemp_min = sampling_params.dynatemp_min
			
 
				-            dynatemp_max = sampling_params.dynatemp_max
			
 
				-            dynatemp_exp = sampling_params.dynatemp_exponent
			
 
				-            smoothing_factor = sampling_params.smoothing_factor
			
 
				-            smoothing_curve = sampling_params.smoothing_curve
			
 
				-
			
 
				-            if do_temperatures is False and temperature > _SAMPLING_EPS:
			
 
				-                do_temperatures = True
			
 
				-            if not do_penalties and (abs(p) >= _SAMPLING_EPS
			
 
				-                                     or abs(f) >= _SAMPLING_EPS
			
 
				-                                     or abs(r - 1.0) >= _SAMPLING_EPS):
			
 
				-                do_penalties = True
			
 
				-            if do_topks is False and top_k != vocab_size:
			
 
				-                do_topks = True
			
 
				-            if do_topps is False and top_p < 1.0 - _SAMPLING_EPS:
			
 
				-                do_topps = True
			
 
				-            if do_topas is False and top_a > 0.0:
			
 
				-                do_topas = True
			
 
				-            if do_minps is False and min_p > _SAMPLING_EPS:
			
 
				-                do_minps = True
			
 
				-            if do_tfss is False and tfs < 1.0 - _SAMPLING_EPS:
			
 
				-                do_tfss = True
			
 
				-            if do_eta_cutoffs is False and eta_cutoff > _SAMPLING_EPS:
			
 
				-                do_eta_cutoffs = True
			
 
				-            if do_epsilon_cutoffs is False and epsilon_cutoff > _SAMPLING_EPS:
			
 
				-                do_epsilon_cutoffs = True
			
 
				-            if do_typical_ps is False and typical_p < 1.0 - _SAMPLING_EPS:
			
 
				-                do_typical_ps = True
			
 
				-            if do_quadratic is False and (smoothing_factor > _SAMPLING_EPS
			
 
				-                                          or smoothing_curve > 1.0):
			
 
				-                do_quadratic = True
			
 
				-            if do_mirostat is False and sampling_params.mirostat_mode == 2:
			
 
				-                do_mirostat = True
			
 
				-
			
 
				-            if (i < sampling_metadata.num_prompts
			
 
				-                    and sampling_params.prompt_logprobs is not None):
			
 
				-                # For tokens in the prompt that we only need to get their
			
 
				-                # logprobs
			
 
				-                prompt_len = sampling_metadata.prompt_lens[i]
			
 
				-                index += sampling_metadata.prompt_lens[i] - 1
			
 
				-                temperatures += [temperature] * (prompt_len - 1)
			
 
				-                top_ps += [top_p] * (prompt_len - 1)
			
 
				-                top_ks += [top_k] * (prompt_len - 1)
			
 
				-                top_as += [top_a] * (prompt_len - 1)
			
 
				-                min_ps += [min_p] * (prompt_len - 1)
			
 
				-                presence_penalties += [0] * (prompt_len - 1)
			
 
				-                frequency_penalties += [0] * (prompt_len - 1)
			
 
				-                repetition_penalties += [1] * (prompt_len - 1)
			
 
				-                tfss += [1] * (prompt_len - 1)
			
 
				-                eta_cutoffs += [0] * (prompt_len - 1)
			
 
				-                epsilon_cutoffs += [0] * (prompt_len - 1)
			
 
				-                typical_ps += [1] * (prompt_len - 1)
			
 
				-                dynatemp_mins += [dynatemp_min] * (prompt_len - 1)
			
 
				-                dynatemp_maxs += [dynatemp_max] * (prompt_len - 1)
			
 
				-                dynatemp_exps += [dynatemp_exp] * (prompt_len - 1)
			
 
				-                smoothing_factors += [smoothing_factor] * (prompt_len - 1)
			
 
				-                smoothing_curves += [smoothing_curve] * (prompt_len - 1)
			
 
				-                prompt_tokens.extend([] for _ in range(prompt_len - 1))
			
 
				-                output_tokens.extend([] for _ in range(prompt_len - 1))
			
 
				-            for seq_id in seq_ids:
			
 
				-                seq_data = sampling_metadata.seq_data[seq_id]
			
 
				-                prompt_tokens.append(seq_data.prompt_token_ids)
			
 
				-                output_tokens.append(seq_data.output_token_ids)
			
 
				-            temperatures += [temperature] * len(seq_ids)
			
 
				-            top_ps += [top_p] * len(seq_ids)
			
 
				-            top_ks += [top_k] * len(seq_ids)
			
 
				-            top_as += [top_a] * len(seq_ids)
			
 
				-            min_ps += [min_p] * len(seq_ids)
			
 
				-            presence_penalties += [p] * len(seq_ids)
			
 
				-            frequency_penalties += [f] * len(seq_ids)
			
 
				-            repetition_penalties += [r] * len(seq_ids)
			
 
				-            tfss += [tfs] * len(seq_ids)
			
 
				-            eta_cutoffs += [eta_cutoff] * len(seq_ids)
			
 
				-            epsilon_cutoffs += [epsilon_cutoff] * len(seq_ids)
			
 
				-            typical_ps += [typical_p] * len(seq_ids)
			
 
				-            dynatemp_mins += [dynatemp_min] * len(seq_ids)
			
 
				-            dynatemp_maxs += [dynatemp_max] * len(seq_ids)
			
 
				-            dynatemp_exps += [dynatemp_exp] * len(seq_ids)
			
 
				-            smoothing_factors += [smoothing_factor] * len(seq_ids)
			
 
				-            smoothing_curves += [smoothing_curve] * len(seq_ids)
			
 
				-            if sampling_params.mirostat_mode == 2:
			
 
				-                miro_indices += [(index + i) for i in range(len(seq_ids))]
			
 
				-                miro_seqids += seq_ids
			
 
				-                miro_taus += [miro_tau] * len(seq_ids)
			
 
				-                miro_etas += [miro_eta] * len(seq_ids)
			
 
				-                miro_mus += [
			
 
				-                    sampling_metadata.persistent_metadata.get(sid).get(
			
 
				-                        "miro_mu", sampling_params.mirostat_tau * 2)
			
 
				-                    for sid in seq_ids
			
 
				-                ]
			
 
				-            index += len(seq_ids)
			
 
				-
			
 
				-        sampling_tensors = SamplingTensors.from_lists(
			
 
				-            temperatures, top_ps, top_ks, top_as, min_ps, presence_penalties,
			
 
				-            frequency_penalties, repetition_penalties, tfss, eta_cutoffs,
			
 
				-            epsilon_cutoffs, typical_ps, dynatemp_mins, dynatemp_maxs,
			
 
				-            dynatemp_exps, miro_taus, miro_etas, miro_mus, miro_indices,
			
 
				-            miro_seqids, smoothing_factors, smoothing_curves, prompt_tokens,
			
 
				-            output_tokens, vocab_size, device, dtype)
			
 
				-        return (sampling_tensors, do_temperatures, do_penalties, do_topks,
			
 
				-                do_topps, do_topas, do_minps, do_tfss, do_eta_cutoffs,
			
 
				-                do_epsilon_cutoffs, do_typical_ps, do_quadratic, do_mirostat)
			
 
				+    do_temperatures: bool
			
 
				+    do_dynatemps: bool
			
 
				+    do_penalties: bool
			
 
				+    do_top_ks: bool
			
 
				+    do_top_ps: bool
			
 
				+    do_top_as: bool
			
 
				+    do_min_ps: bool
			
 
				+    do_tfss: bool
			
 
				+    do_eta_cutoffs: bool
			
 
				+    do_epsilon_cutoffs: bool
			
 
				+    do_typical_ps: bool
			
 
				+    do_quadratic: bool
			
 
				+    do_mirostat: bool
			
 
				 
			
 
				     @classmethod
			
 
				-    def from_lists(cls, temperatures: List[float], top_ps: List[float],
			
 
				-                   top_ks: List[int], top_as: List[float], min_ps: List[float],
			
 
				-                   presence_penalties: List[float],
			
 
				-                   frequency_penalties: List[float],
			
 
				-                   repetition_penalties: List[float], tfss: List[float],
			
 
				-                   eta_cutoffs: List[float], epsilon_cutoffs: List[float],
			
 
				-                   typical_ps: List[float], dynatemp_mins: List[float],
			
 
				-                   dynatemp_maxs: List[float], dynatemp_exps: List[float],
			
 
				-                   miro_taus: List[float], miro_etas: List[float],
			
 
				-                   miro_mus: List[float], miro_indices: List[int],
			
 
				-                   miro_seqids: List[int], smoothing_factors: List[float],
			
 
				-                   smoothing_curves: List[float],
			
 
				-                   prompt_tokens: List[List[int]],
			
 
				-                   output_tokens: List[List[int]], vocab_size: int,
			
 
				-                   device: torch.device,
			
 
				-                   dtype: torch.dtype) -> "SamplingTensors":
			
 
				-        # Note that the performance will be very bad without
			
 
				-        # pinned memory.
			
 
				+    def from_sampling_metadata(cls, sampling_metadata: "SamplingMetadata",
			
 
				+                               vocab_size: int, tgt_device: torch.device,
			
 
				+                               float_dtype: torch.dtype) -> "SamplingTensors":
			
 
				+        prompt_lens = sampling_metadata.prompt_lens or []
			
 
				+        groups = sampling_metadata.seq_groups or []
			
 
				+        seq_data = sampling_metadata.seq_data or {}
			
 
				+        persistent = sampling_metadata.persistent_metadata
			
 
				+
			
 
				+        # Flattened list of (params, sid) matching the logits tensor.
			
 
				+        # `sid < 0` implies a prompt seq.
			
 
				+        unrolled_seqs: List[Tuple[SamplingParams, int]] = []
			
 
				+        group_plens = prompt_lens + [0] * (len(groups) - len(prompt_lens))
			
 
				+        for (ids, params), prompt_len in zip(groups, group_plens):
			
 
				+            if prompt_len and params.prompt_logprobs is not None:
			
 
				+                unrolled_seqs.extend([(params, -1)] * (prompt_len - 1))
			
 
				+            unrolled_seqs.extend([(params, sid) for sid in ids])
			
 
				+
			
 
				+        T = TypeVar('T')
			
 
				+
			
 
				+        def _unroll(fn_val: Callable[[SamplingParams], T],
			
 
				+                    prompt: Optional[T] = None) -> List[T]:
			
 
				+            """`fn_val` for every seq, with an override for prompt seqs."""
			
 
				+            return [
			
 
				+                prompt if sid < 0 and prompt is not None else fn_val(p)
			
 
				+                for p, sid in unrolled_seqs
			
 
				+            ]
			
 
				+
			
 
				+        def _index(fn_mask: Callable[[SamplingParams], bool],
			
 
				+                   prompt: Optional[bool] = None) -> List[int]:
			
 
				+            """Index for every seq where `fn_mask` is true, with an override
			
 
				+            for prompt seqs."""
			
 
				+            return [
			
 
				+                i for i, (p, sid) in enumerate(unrolled_seqs)
			
 
				+                if (fn_mask(p) if prompt is None else (
			
 
				+                    prompt if sid < 0 else fn_mask(p)))
			
 
				+            ]
			
 
				+
			
 
				+        def _filter(arr: List[T], indices: List[int]) -> List[T]:
			
 
				+            """Return only the elements of `arr` accessed by `indices`."""
			
 
				+            return [arr[i] for i in indices]
			
 
				+
			
 
				+        miro_inds = _index(lambda p: p.mirostat_mode == 2, prompt=False)
			
 
				+        _miro_seqs = _filter(unrolled_seqs, miro_inds)
			
 
				+
			
 
				+        quad_inds = _index(lambda p: p.smoothing_factor != 0)
			
 
				+        _quad_seqs = _filter(unrolled_seqs, quad_inds)
			
 
				+
			
 
				+        fvars = {  # noqa
			
 
				+            "temperatures": _unroll(lambda p: p.temperature),
			
 
				+            "top_ps": _unroll(lambda p: p.top_p),
			
 
				+            "top_as": _unroll(lambda p: p.top_a),
			
 
				+            "min_ps": _unroll(lambda p: p.min_p),
			
 
				+            "tfss": _unroll(lambda p: p.tfs, prompt=1),
			
 
				+            "eta_cutoffs": _unroll(lambda p: p.eta_cutoff * 1e-4, prompt=0),
			
 
				+            "epsilon_cutoffs": _unroll(lambda p: p.epsilon_cutoff * 1e-4, 0),
			
 
				+            "typical_ps": _unroll(lambda p: p.typical_p, prompt=1),
			
 
				+            "pres_penalties": _unroll(lambda p: p.presence_penalty, prompt=0),
			
 
				+            "freq_penalties": _unroll(lambda p: p.frequency_penalty, prompt=0),
			
 
				+            "rep_penalties": _unroll(lambda p: p.repetition_penalty, prompt=1),
			
 
				+
			
 
				+            "dynatemp_mins": _unroll(lambda p: p.dynatemp_min),
			
 
				+            "dynatemp_maxs": _unroll(lambda p: p.dynatemp_max),
			
 
				+            "dynatemp_exps": _unroll(lambda p: p.dynatemp_exponent),
			
 
				+
			
 
				+            "miro_taus": [p.mirostat_tau for p, _ in _miro_seqs],
			
 
				+            "miro_etas": [p.mirostat_eta for p, _ in _miro_seqs],
			
 
				+            "miro_mus": [persistent.get(sid, "miro_mu", p.mirostat_tau * 2)
			
 
				+                         for p, sid in _miro_seqs],
			
 
				+
			
 
				+            "smoothing_factors": [p.smoothing_factor for p, _ in _quad_seqs],
			
 
				+            "smoothing_curves": [p.smoothing_curve for p, _ in _quad_seqs],
			
 
				+        }
			
 
				+        ivars = {  # noqa
			
 
				+            "top_ks": _unroll(lambda p: vocab_size
			
 
				+                              if p.top_k == -1 else min(p.top_k, vocab_size)),
			
 
				+            "miro_indices": miro_inds,
			
 
				+            "smoothing_indices": quad_inds,
			
 
				+        }
			
 
				+
			
 
				+        prompt_tokens = [[] if sid < 0 else seq_data[sid].prompt_token_ids
			
 
				+                         for _, sid in unrolled_seqs]
			
 
				+        output_tokens = [[] if sid < 0 else seq_data[sid].output_token_ids
			
 
				+                         for _, sid in unrolled_seqs]
			
 
				+
			
 
				+        def _unjagged(arrs: List[List[T]], padval: T) -> List[List[T]]:
			
 
				+            max_len = max(len(arr) for arr in arrs)
			
 
				+            return [arr + [padval] * (max_len - len(arr)) for arr in arrs]
			
 
				+
			
 
				+        # Note that the performance will be very bad without pinned memory.
			
 
				+        # Pinned memory allows non-blocking transfers to device.
			
 
				         pin_memory = not in_wsl()
			
 
				-        prompt_max_len = max(len(tokens) for tokens in prompt_tokens)
			
 
				-        prompt_padded_tokens = [
			
 
				-            tokens + [vocab_size] * (prompt_max_len - len(tokens))
			
 
				-            for tokens in prompt_tokens
			
 
				-        ]
			
 
				-        output_max_len = max(len(tokens) for tokens in output_tokens)
			
 
				-        output_padded_tokens = [
			
 
				-            tokens + [vocab_size] * (output_max_len - len(tokens))
			
 
				-            for tokens in output_tokens
			
 
				-        ]
			
 
				-
			
 
				-        temperatures_t = torch.tensor(temperatures,
			
 
				-                                      device="cpu",
			
 
				-                                      dtype=dtype,
			
 
				-                                      pin_memory=pin_memory)
			
 
				-        top_ps_t = torch.tensor(top_ps,
			
 
				-                                device="cpu",
			
 
				-                                dtype=dtype,
			
 
				-                                pin_memory=pin_memory)
			
 
				-        top_ks_t = torch.tensor(top_ks,
			
 
				-                                device="cpu",
			
 
				-                                dtype=torch.int,
			
 
				-                                pin_memory=pin_memory)
			
 
				-        top_as_t = torch.tensor(top_as,
			
 
				-                                device="cpu",
			
 
				-                                dtype=dtype,
			
 
				-                                pin_memory=pin_memory)
			
 
				-        min_ps_t = torch.tensor(min_ps,
			
 
				-                                device="cpu",
			
 
				-                                dtype=dtype,
			
 
				-                                pin_memory=pin_memory)
			
 
				-        presence_penalties_t = torch.tensor(presence_penalties,
			
 
				-                                            device="cpu",
			
 
				-                                            dtype=dtype,
			
 
				-                                            pin_memory=pin_memory)
			
 
				-        frequency_penalties_t = torch.tensor(frequency_penalties,
			
 
				-                                             device="cpu",
			
 
				-                                             dtype=dtype,
			
 
				-                                             pin_memory=pin_memory)
			
 
				-        repetition_penalties_t = torch.tensor(repetition_penalties,
			
 
				-                                              device="cpu",
			
 
				-                                              dtype=dtype,
			
 
				-                                              pin_memory=pin_memory)
			
 
				-        tfss_t = torch.tensor(tfss,
			
 
				-                              device="cpu",
			
 
				-                              dtype=dtype,
			
 
				-                              pin_memory=pin_memory)
			
 
				-        eta_cutoffs_t = torch.tensor(eta_cutoffs,
			
 
				-                                     device="cpu",
			
 
				-                                     dtype=dtype,
			
 
				-                                     pin_memory=pin_memory)
			
 
				-        epsilon_cutoffs_t = torch.tensor(epsilon_cutoffs,
			
 
				-                                         device="cpu",
			
 
				-                                         dtype=dtype,
			
 
				-                                         pin_memory=pin_memory)
			
 
				-        typical_ps_t = torch.tensor(typical_ps,
			
 
				-                                    device="cpu",
			
 
				-                                    dtype=dtype,
			
 
				-                                    pin_memory=pin_memory)
			
 
				-        dynatemp_mins_t = torch.tensor(dynatemp_mins,
			
 
				-                                       device="cpu",
			
 
				-                                       dtype=dtype,
			
 
				-                                       pin_memory=pin_memory)
			
 
				-        dynatemp_maxs_t = torch.tensor(dynatemp_maxs,
			
 
				-                                       device="cpu",
			
 
				-                                       dtype=dtype,
			
 
				-                                       pin_memory=pin_memory)
			
 
				-        dynatemp_exps_t = torch.tensor(dynatemp_exps,
			
 
				-                                       device="cpu",
			
 
				-                                       dtype=dtype,
			
 
				-                                       pin_memory=pin_memory)
			
 
				-        smoothing_factors_t = torch.tensor(smoothing_factors,
			
 
				-                                           device="cpu",
			
 
				-                                           dtype=dtype,
			
 
				-                                           pin_memory=pin_memory)
			
 
				-        smoothing_curves_t = torch.tensor(smoothing_curves,
			
 
				-                                          device="cpu",
			
 
				-                                          dtype=dtype,
			
 
				-                                          pin_memory=pin_memory)
			
 
				-        miro_taus_t = torch.tensor(miro_taus,
			
 
				-                                   device="cpu",
			
 
				-                                   dtype=dtype,
			
 
				-                                   pin_memory=pin_memory)
			
 
				-        miro_etas_t = torch.tensor(miro_etas,
			
 
				-                                   device="cpu",
			
 
				-                                   dtype=dtype,
			
 
				-                                   pin_memory=pin_memory)
			
 
				-        miro_mus_t = torch.tensor(miro_mus,
			
 
				-                                  device="cpu",
			
 
				-                                  dtype=dtype,
			
 
				-                                  pin_memory=pin_memory)
			
 
				-        miro_indices_t = torch.tensor(miro_indices,
			
 
				-                                      device="cpu",
			
 
				-                                      dtype=torch.int,
			
 
				-                                      pin_memory=pin_memory)
			
 
				-        prompt_tensor = torch.tensor(prompt_padded_tokens,
			
 
				-                                     device=device,
			
 
				-                                     dtype=torch.long,
			
 
				-                                     pin_memory=pin_memory)
			
 
				-        output_tensor = torch.tensor(output_padded_tokens,
			
 
				-                                     device=device,
			
 
				-                                     dtype=torch.long,
			
 
				-                                     pin_memory=pin_memory)
			
 
				-        # Because the memory is pinned, we can do non-blocking
			
 
				-        # transfer to device.
			
 
				+
			
 
				+        def _tensor(contents: list, dtype) -> torch.Tensor:
			
 
				+            loc_t = torch.tensor(contents,
			
 
				+                                 dtype=dtype,
			
 
				+                                 device="cpu",
			
 
				+                                 pin_memory=pin_memory)
			
 
				+            return loc_t.to(device=tgt_device, non_blocking=True)
			
 
				+
			
 
				         return cls(
			
 
				-            temperatures=temperatures_t.to(device=device, non_blocking=True),
			
 
				-            top_ps=top_ps_t.to(device=device, non_blocking=True),
			
 
				-            top_ks=top_ks_t.to(device=device, non_blocking=True),
			
 
				-            top_as=top_as_t.to(device=device, non_blocking=True),
			
 
				-            min_ps=min_ps_t.to(device=device, non_blocking=True),
			
 
				-            presence_penalties=presence_penalties_t.to(device=device,
			
 
				-                                                       non_blocking=True),
			
 
				-            frequency_penalties=frequency_penalties_t.to(device=device,
			
 
				-                                                         non_blocking=True),
			
 
				-            repetition_penalties=repetition_penalties_t.to(device=device,
			
 
				-                                                           non_blocking=True),
			
 
				-            tfss=tfss_t.to(device=device, non_blocking=True),
			
 
				-            eta_cutoffs=eta_cutoffs_t.to(device=device, non_blocking=True),
			
 
				-            epsilon_cutoffs=epsilon_cutoffs_t.to(device=device,
			
 
				-                                                 non_blocking=True),
			
 
				-            dynatemp_mins=dynatemp_mins_t.to(device=device, non_blocking=True),
			
 
				-            dynatemp_maxs=dynatemp_maxs_t.to(device=device, non_blocking=True),
			
 
				-            dynatemp_exps=dynatemp_exps_t.to(device=device, non_blocking=True),
			
 
				-            smoothing_factors=smoothing_factors_t.to(device=device,
			
 
				-                                                     non_blocking=True),
			
 
				-            smoothing_curves=smoothing_curves_t.to(device=device,
			
 
				-                                                   non_blocking=True),
			
 
				-            miro_taus=miro_taus_t.to(device=device, non_blocking=True),
			
 
				-            miro_etas=miro_etas_t.to(device=device, non_blocking=True),
			
 
				-            miro_mus=miro_mus_t.to(device=device, non_blocking=True),
			
 
				-            miro_indices=miro_indices_t.to(device=device, non_blocking=True),
			
 
				-            miro_seqids=miro_seqids,
			
 
				-            typical_ps=typical_ps_t.to(device=device, non_blocking=True),
			
 
				-            prompt_tokens=prompt_tensor.to(device=device, non_blocking=True),
			
 
				-            output_tokens=output_tensor.to(device=device, non_blocking=True),
			
 
				+            #  Flags and non-tensor fields
			
 
				+            do_temperatures=any(x != 1 for x in fvars["temperatures"]),
			
 
				+            do_dynatemps=(any(fvars["dynatemp_mins"])
			
 
				+                          or any(fvars["dynatemp_maxs"])),
			
 
				+            do_top_ks=any(x != vocab_size for x in ivars["top_ks"]),
			
 
				+            do_top_ps=any(x != 1 for x in fvars["top_ps"]),
			
 
				+            do_top_as=any(fvars["top_as"]),
			
 
				+            do_min_ps=any(fvars["min_ps"]),
			
 
				+            do_tfss=any(x != 1 for x in fvars["tfss"]),
			
 
				+            do_eta_cutoffs=any(fvars["eta_cutoffs"]),
			
 
				+            do_epsilon_cutoffs=any(fvars["epsilon_cutoffs"]),
			
 
				+            do_typical_ps=any(x != 1 for x in fvars["typical_ps"]),
			
 
				+            do_penalties=(any(fvars["pres_penalties"])
			
 
				+                          or any(fvars["freq_penalties"])
			
 
				+                          or any(x != 1 for x in fvars["rep_penalties"])),
			
 
				+            do_quadratic=len(quad_inds) > 0,
			
 
				+            do_mirostat=len(miro_inds) > 0,
			
 
				+            miro_seqids=_filter([s for _, s in unrolled_seqs], miro_inds),
			
 
				+            # Float tensors
			
 
				+            **{n: _tensor(vals, float_dtype)
			
 
				+               for n, vals in fvars.items()},
			
 
				+            # Integer tensors
			
 
				+            **{n: _tensor(vals, torch.int)
			
 
				+               for n, vals in ivars.items()},
			
 
				+            # Token ID tensors
			
 
				+            prompt_tokens=_tensor(_unjagged(prompt_tokens, vocab_size),
			
 
				+                                  torch.long),
			
 
				+            output_tokens=_tensor(_unjagged(output_tokens, vocab_size),
			
 
				+                                  torch.long),
			
 
				         )