AlpinDale 349a612338 chore: bump bitsandbytes version to latest; enable cuda graphs for 4bit bnb (#1123) 5 ngày trước cách đây
..
__init__.py 89a2c6dee1 chore: refactor `MultiModalConfig` initialization and profiling (#745) 4 tháng trước cách đây
loader.py 349a612338 chore: bump bitsandbytes version to latest; enable cuda graphs for 4bit bnb (#1123) 5 ngày trước cách đây
neuron.py 145e554a4d neuron: add 8bit quantization for Neuron (#994) 1 tháng trước cách đây
openvino.py 0dfa6b60ec core: support logprobs with multi-step scheduling (#963) 1 tháng trước cách đây
tensorizer.py 5b03d67abb Core: add output streaming support to multi-step + async (#1112) 2 tuần trước cách đây
utils.py 9f3e7c86e2 feat: add fused Marlin MoE kernel (#934) 1 tháng trước cách đây
weight_utils.py 3e6addcc2c LLM: enable batched inference for llm.chat() API (#1120) 5 ngày trước cách đây