大規模言語モデル推論エンジン「vLLM」のv0.18.0がリリースされた。gRPCによるサービング、GPUを必要としないマルチモーダルレンダリング、FlashAttention 4バックエンド統合など多数の新機能を搭載。PyTorch 2.10.0へのアップグレードを含む破壊的変更も実施。Read the postvLLM v0.18.0リリース:gRPC対応、GPUなしマルチモーダルレンダリングなど新機能多数