124. AI時代のGPUクラスタ、DCネットワーク w/ markunet, aztecher_
2024年12月27日
内容紹介
LINEヤフーのKobayashiさん、Michishitaさんをゲストに、GPUネットワークやGPUクラスタの仮想化の複雑さなどについて語っていただいたエピソードです。
出演者
話したネタ
- EthernetベースのGPUクラスタ導入による学びと展望
- GPUクラスタとその必要性
- GPUクラスタの運用上の課題
- 自社でGPUを運用するメリットとデメリット
- GPUを自前で運用する際の課題と対策
- GPUネットワークと従来のネットワークとの違い
- CLOS
- RDMA(Remote Direct Memory Access)とその特性
- TCP/IPとの比較、およびRDMAの利点
- GPU間通信のための専用物理GPUネットワーク
- GPUネットワークにおける輻輳制御とその課題
- ロスレスイーサネット
- RoCEv2
- 仮想化による複雑性とネットワーク構成への影響
- 仮想化環境でのGPUとNICの扱い
- JANOG55
- LINEヤフー Tech Blog