Commit History

Автор SHA1 Съобщение Дата
  AlpinDale d9d3640165 make ShardedStateLoader work with HF downloads преди 7 месеца
  AlpinDale 94ba676ee0 fix: torch.uniform_ doesn't support FP8, fix for dummy weights преди 7 месеца
  AlpinDale 0aaf2dfc6b improve parallel logging преди 7 месеца
  AlpinDale 24a2d9c2c8 minor llava refactoring преди 7 месеца
  AlpinDale 93cffaf446 add flash_attn back преди 7 месеца
  AlpinDale f970f3f3fb add base class for VLMs преди 7 месеца
  AlpinDale 9e73559eba make use of batched rotary embedding kernels to support long context lora преди 7 месеца
  AlpinDale 1b86cf6164 navi21 fallback to naive attention преди 7 месеца
  AlpinDale 0dc8492188 relax tiktoken version преди 7 месеца
  AlpinDale 676322dd62 qwen2_moe: mlp_only_layers преди 7 месеца
  AlpinDale 14a2d6f624 fix rope error when loading models with different dtypes преди 7 месеца
  AlpinDale 0c15965621 fix fp8 kv преди 7 месеца
  AlpinDale 2313c97e3d add cutlass w8a8 kernels (#556) преди 7 месеца
  AlpinDale d4edba99f9 add lora dims for Qwen1.5-32B преди 7 месеца
  AlpinDale eaa06fdd14 fix some f-strings преди 7 месеца
  AlpinDale c58589318f remove the graph mode func преди 7 месеца
  AlpinDale 8e11259e90 missing triton autoconfig for rocm flash attn преди 7 месеца
  AlpinDale c66b1b57b1 Marlin 2:4 sparsity (#555) преди 7 месеца
  AlpinDale ad1c6b86a1 gptq_marlin: enable bfloat16 преди 7 месеца
  AlpinDale 2ecfa98da9 re-fix mistral nemo преди 7 месеца
  AlpinDale 9f3d6205ce fix ray gpu executor преди 7 месеца
  AlpinDale 236be273e5 feat: tensor parallel speculative decoding (#554) преди 7 месеца
  AlpinDale 072b30fb42 measure end time within the cuda memory profiler преди 7 месеца
  AlpinDale 7bcff4ac03 implement sharded state dict преди 7 месеца
  AlpinDale 13e5ffd456 fix distributed_executor_backend in args преди 7 месеца
  AlpinDale a94de94c44 refactor: combine the prefill and decode into a single API (#553) преди 7 месеца
  AlpinDale fe431bb840 check for next port if current is unavailable преди 7 месеца
  AlpinDale 033797fd55 refactor throughput benchmark script преди 7 месеца
  AlpinDale c6a501f682 add multiprocessing executor; make ray optional преди 7 месеца
  AlpinDale 342346afda improve hashing function преди 7 месеца