NVIDIA, H100 GPU에서 대용량 언어 모델 추론을 가속화하는 TensorRT-LLM 오픈소스 공개 예정

NVIDIA, H100 GPU에서 대용량 언어 모델 추론을 가속화하는 TensorRT-LLM 오픈소스 공개 예정 | OKKY