解説/ deep-tech

15件の記事 / ページ 1 / 1

技術深掘り・論文解説・コード例

RTX 4090とMacBook M4 Proを束ねてローカルLLMを動かせるか？現実的な検証

デスクトップPC（RTX 4090・24GB VRAM）とMacBook Pro（M4 Pro・48GBメモリ）を組み合わせ、ローカルLLM推論に使えるか。USB-C/USB4経由の異種OS間分散推論の可能性と限界を、実測データをもとに整理する。

06月02日 22時05分ハッサン (Hassan)

解説

失敗データを組織知に変える――ギリアがマルチモーダルLLM統合プラットフォームを提供開始

ギリアは3Dモデルや解析結果をマルチモーダルLLMで統合し、設計現場の暗黙知を形式知化する新プラットフォームの提供を開始した。不採用案や失敗の文脈まで組織資産として検索・活用できる仕組みで、RAGでは届かない製造現場の課題に切り込む。

05月27日 22時01分ハッサン (Hassan)

解説

MI100 vs RX 9700：ローカルLLM用途でどちらを選ぶべきか

ローカルLLM・Whisper・画像／動画生成を目的にGPU選定を検討しているユーザーの間で、AMD MI100とRX 9700の比較が話題になっている。ただしソース情報は極めて限定的であり、現時点で判断できる材料は乏しい。

05月23日 22時01分ハッサン (Hassan)

解説

21GPU実測：TTS推論ベンチマークが示すコスパの現実

コンシューマーGPU21種をTTSモデル「OmniVoice」で実測したベンチマークが公開された。VRAMピーク5GBという現実的な条件下で、各GPUのリアルタイム倍率（xRT）を冷静に並べると、「最新＝最強」という単純な図式が崩れる場面が随所に見える。投資対効果を重視するなら、この数字を直視すべきだ。

05月22日 19時10分ハッサン (Hassan)

解説

DropboxエンジニアがSQLite上に構築したローカルセマンティック検索「Witchcraft」、20ms以下の応答速度を実現

Dropboxのエンジニアがオープンソースで公開した「Witchcraft」は、StanfordのXTR-WARPをSafe Rustで再実装したローカルセマンティック検索エンジンだ。単一SQLiteファイルをバッキングストレージとし、APIキー不要・ベクターDB不要で、Apple M2 Max上でp.95レイテンシ20msという数字を叩き出している。

05月22日 18時57分ハッサン (Hassan)

解説

「なくなれば産業が止まる」──Armとは何者か、その支配構造を冷静に読む

ソフトバンクGが3.3兆円で買収し、孫正義が「AI時代の中核」と位置づけるArm。スマートフォンから車載、データセンターまで設計IPを供給するこの企業の実態と、その支配力の本質を数字と構造から読み解く。

05月22日 16時47分ハッサン (Hassan)

解説

OpenAIがWindows向けCodexに安全なサンドボックスを構築——その設計思想と技術的実態

OpenAIは2025年5月、WindowsプラットフォームでのCodex動作を支えるセキュアなサンドボックス環境の構築プロセスを公式ブログで公開した。ファイルアクセス制御とネットワーク制限を軸に設計されたこのアーキテクチャは、コーディングエージェントの「安全な自律実行」を実現しようとするものだ。

05月16日 10時54分ハッサン (Hassan)

解説

AMD MI300X上でCNC加工性検証マルチエージェントシステム「MachinaCheck」が登場

AMD MI300X GPUを基盤に、CNC製造の加工性検証をマルチエージェントAIで自動化する「MachinaCheck」が開発された。LabLab.ai主催のAMDデベロッパーハッカソン発のプロジェクトであり、製造業向けAI実装の新たな事例として注目される。その実態を冷静に見ていく。

05月10日 22時05分ハッサン (Hassan)

解説

Sarvam MoEがllama.cppに対応：インド語22言語対応の30B/105Bモデルをローカル実行へ

インドのAIスタートアップSarvamが開発したMixture-of-Expertsモデル「Sarvam-30B」および「Sarvam-105B」が、llama.cppへのアーキテクチャ統合PRを通じてローカル実行環境への対応を進めている。22のインド言語に対応し、リソース制約環境での実用展開を主眼に設計された点が特徴だ。

05月09日 22時05分ハッサン (Hassan)

解説

Red Hat、Qwen3.6-27B のFP8量子化モデルを公開——デュアル RTX 3090 環境向けの現実解

Red Hat AI チームが Qwen3.6-27B の FP8 量子化版を Hugging Face 上で公開した。ターゲットは明確で、デュアル RTX 3090（VRAM 合計 48GB）構成のローカル推論ユーザーだ。「革命」でも何でもない、精度と搭載メモリのトレードオフを地道に詰めた量子化エンジニアリングの話だ。

05月04日 07時59分ハッサン (Hassan)

解説

A100 80GB vs DGX Spark：4〜5万ドル級ローカルLLM環境の選択肢を冷静に解剖する

ローカルLLM推論・トレーニング環境に4,000〜5,200ドルを投じる際、DGX Spark系オールインワン機とA100 80GB SXM4のPCIe変換構成はどちらが合理的か。帯域幅・VRAM・ROIの数字を並べて判断する。

05月04日 07時52分ハッサン (Hassan)

解説

AMD「Halo Box」実機写真が流出——Ryzen AI Max+ 395搭載128GB統合メモリ機の正体

AMDのRyzen AI Max+ 395を搭載し、128GBの統合メモリを備えるデスクトップ筐体「Halo Box」の実機写真がRedditに投稿された。Ubuntu動作確認済みのデモ機であり、プログラマブルなLEDライトストリップも確認されている。ローカルLLM用途を狙った高帯域幅メモリ統合アーキテクチャの実態を冷静に検証する。

05月04日 07時36分ハッサン (Hassan)

解説

NVIDIAがAIエージェントでGPUカーネルを自動翻訳——cuTile Python→Julia変換の実態

NVIDIAはAIエージェントを用いてGPUカーネルコードをcuTile Python実装からJulia向けcuTile.jlへ自動翻訳する手法を公開した。タイルベースプログラミングモデルの多言語展開という戦略的意図は明確だが、その実用性と限界を冷静に検証する。

04月30日 16時01分ハッサン (Hassan)

解説

ROCm vs Vulkan、RX 6900 XTで実測：どちらが速いのか数字で見る

AMD Radeon RX 6900 XTを使い、llama.cppをROCm 6.4.2とVulkanの両バックエンドでビルドしてGemma 4およびQwen 3.5のベンチマークを実施したユーザー報告が公開された。プリフィル速度ではモデルによって優劣が逆転し、トークン生成速度ではVulkanが一貫してROCmを上回るという、単純ではない結果が出ている。

04月28日 19時15分ハッサン (Hassan)

解説

AMD RDNA向けLLM推論エンジン「hipfire」でHFQ4プリフィルが最大3.87倍高速化

AMD Strix Halo（gfx1151）上で動作するRDNA特化LLM推論エンジン「hipfire」に、MMQスタイルのプリフィル最適化パスが実験的に追加された。環境変数一つで有効化でき、Qwen3.5 9Bモデルでのプリフィルスループットが310〜340 tok/sから最大1260 tok/sへと跳ね上がる。

04月28日 07時13分ハッサン (Hassan)

UNIWIRE