fukabori.fm

技術・組織・マネジメントなどを深掘りして楽しむPodcastです。

124. AI時代のGPUクラスタ、DCネットワーク w/ markunet, aztecher_

2024年12月27日

MP3ファイルをダウンロード

内容紹介

LINEヤフーのKobayashiさん、Michishitaさんをゲストに、GPUネットワークやGPUクラスタの仮想化の複雑さなどについて語っていただいたエピソードです。

出演者

iwashi
iwashi
Masayuki Kobayashi
Masayuki Kobayashi
Mikiya Michishita
Mikiya Michishita

話したネタ

  • EthernetベースのGPUクラスタ導入による学びと展望
  • GPUクラスタとその必要性
  • GPUクラスタの運用上の課題
  • 自社でGPUを運用するメリットとデメリット
  • GPUを自前で運用する際の課題と対策
  • GPUネットワークと従来のネットワークとの違い
  • CLOS
  • RDMA(Remote Direct Memory Access)とその特性
  • TCP/IPとの比較、およびRDMAの利点
  • GPU間通信のための専用物理GPUネットワーク
  • GPUネットワークにおける輻輳制御とその課題
  • ロスレスイーサネット
  • RoCEv2
  • 仮想化による複雑性とネットワーク構成への影響
  • 仮想化環境でのGPUとNICの扱い
  • JANOG55
  • LINEヤフー Tech Blog