---
🔗 **[Show HN : Tiny-vLLM - C + +和CUDA中的高性能LLM推理引擎](https://github.com/jmaczan/tiny-vllm)**

> Show HN: Tiny-vLLM – high performance LLM inference engine in C++ and CUDA
📊 68投票 · 投稿者: yu3zhou4
🏷️ 来源: Hacker News
⏱️ 2026-05-30 08:00