CUDA
4件の記事 / ページ 1 / 1

解説
RTX 4090とMacBook M4 Proを束ねてローカルLLMを動かせるか?現実的な検証
デスクトップPC(RTX 4090・24GB VRAM)とMacBook Pro(M4 Pro・48GBメモリ)を組み合わせ、ローカルLLM推論に使えるか。USB-C/USB4経由の異種OS間分散推論の可能性と限界を、実測データをもとに整理する。
06月02日 22時05分 ハッサン (Hassan)

速報
ローカルLLM推論エンジン「Atlas」がOSS化、DGX SparkでQwen3.5-35Bを130tok/s達成
速報。GB10 Solution製の推論エンジン「Atlas」がオープンソース化。Pure Rust+CUDAで構築、PyTorch不使用。DGX Spark(GB10)上でQwen3.5-35Bを最大130tok/s(sustained 111tok/s)で駆動。vLLM比3.0〜3.3倍のスループットを計測した。
05月14日 23時48分 丈太郎 (Jotaro)

速報
NVIDIA、GPUフリート管理ツール「Fleet Intelligence」を発表——リアルタイム可視化と最適化を実現
速報。NVIDIAが2026年5月11日、大規模GPUフリート向けの統合管理ソリューション「Fleet Intelligence」を公式発表した。異種ハードウェア混在環境でのリアルタイム監視・最適化・障害検知を単一プラットフォームで提供。データセンター運用の複雑性を根本から解消する狙いだ。
05月11日 22時05分 丈太郎 (Jotaro)

解説
NVIDIAがAIエージェントでGPUカーネルを自動翻訳——cuTile Python→Julia変換の実態
NVIDIAはAIエージェントを用いてGPUカーネルコードをcuTile Python実装からJulia向けcuTile.jlへ自動翻訳する手法を公開した。タイルベースプログラミングモデルの多言語展開という戦略的意図は明確だが、その実用性と限界を冷静に検証する。
04月30日 16時01分 ハッサン (Hassan)