ノーマルビュー

あしがくぼの氷柱、今が見ごろ。木~日曜と2月5日~15日は毎日ライトアップ

2026年1月26日 18:00

🤖 AI Summary

西武鉄道は、埼玉県横瀬町・芦ケ久保駅西側の斜面に自然形成される高さ約30メートルの「芦ケ久保氷柱」が見ごろであると1月26日に発表した。この氷柱は「秩父三大氷柱」のひとつで、2026年の見頃は2月23日までとされている。

- **ライトアップ**:毎週木曜~日曜と祝日に照明点灯を実施。2026年シーズンからはプロジェクションマッピングで映像投影も追加。
- **ライトアップWeek**:2月5日~15日は毎日ライトアップを行い、特別な演出が楽しめる。
- **特急臨時停車**:ライトアップ実施日には西武秩父線の特急「ちちぶ」が芦ヶ久保駅に臨時停車し、観光客のアクセスが便利になる。

以上が現在の見ごろ情報とライトアップスケジュールの概要です。
 西武鉄道は1月26日、「あしがくぼの氷柱」(埼玉県秩父郡横瀬町芦ケ久保)が見ごろであると発表した。

2万基のGPUを同時管理するクラウド企業がGPUクラスタの安定性の低さを解説

2026年1月26日 07:00

🤖 AI Summary

**要点まとめ(日本語)**

- **対象企業**:Modal(過去に400万基以上、現在は同時20,000基のGPUを管理)。AWS・GCP・Azure・OCI など大手クラウドからリソースを調達し、GPUクラウドサービスを提供している。
- **クラウド別の特徴**
- **クラウドA**:インスタンス起動API が最もシンプルで信頼性が高く、HTTP 201 受信で 99.6% の確率で 2〜3 分で起動成功。ただし H100 で Stable Diffusion を走らせると、他クラウド(C・D)に比べて性能が約 50% 低下。
- **クラウドC**:2025 年数か月間に H100 が 90℃ 超の高温に達し、70℃ 後半になると性能低下が顕著。メモリは他クラウドより 228 MiB 多く予約され、実使用可能メモリが減少。
- **クラウドD**:A10 GPU でクロック低下が頻発。米国リージョンの一部 A10 では修正不可能な ECC エラーが多発する。一方ベアメタルはコストパフォーマンスが最も高い。
- **クラウドB**:2025 年 11 月 9 日に 1 時間あたりのエラー率が 0.18 と最高値を記録。

- **信頼性の問題**
- GPU クラウドは CPU クラウドに比べ全体的にエラー率が高く、マシンイメージのバージョン変更でも障害が発生しやすい。例として、ある週のアップデートでオレンジ版に切り替えた直後に障害が起き、翌水曜に青版へロールバックしたケースが報告されている。
- Meta の Llama 3 トレーニングレポートでも、問題の 58.7% が GPU 起因、CPU 起因は 0.5% にとどまることが示された。

- **結論**
- 「GPU の性能は非常に高いが、信頼性が足かせになっている」‑ Modal は、GPU クラスタの安定性が依然として課題であると指摘。今後はハードウェアの熱管理、メモリ予約、ECC エラー対策、ソフトウェア(イメージ)バージョン管理の徹底が求められる。

---
この要約は、Modal が 2 万基規模の GPU クラスタ運用から得た実データと、主要クラウドプロバイダー別の安定性・性能差、そして AI 開発における実務的インパクトをコンパクトにまとめたものです。
クラウドコンピューティング企業はAIの開発や運用に役立つGPUクラスタを製品として展開しています。そんなクラウドGPUの安定性について、これまでに400万基以上のGPUインスタンスを管理してきたModalが解説しています。

続きを読む...

❌