> ## Documentation Index
> Fetch the complete documentation index at: https://wb-21fd5541-mintlify-bbaa8558.mintlify.site/llms.txt
> Use this file to discover all available pages before exploring further.

# Launch queue を監視する

> インタラクティブなダッシュボードで Launch queue のワークロードを監視し、非効率なジョブを特定して、リソース使用状況を分析します。

インタラクティブな**キュー監視ダッシュボード**を使用すると、launch queue が高負荷なのかアイドル状態なのかを確認し、実行中のワークロードを可視化して、非効率なジョブを特定できます。launch queue ダッシュボードは、計算ハードウェアやクラウドリソースを効果的に使用できているかどうかを判断するのに役立ちます。

より詳細に分析するには、このページから W\&B の実験管理 Workspace や、Datadog、NVIDIA Base Command、クラウドコンソールなどの外部インフラストラクチャー監視プロバイダーへのリンクを利用できます。

<Note>
  キュー監視ダッシュボードは、W\&B Multi-tenant Cloud のデプロイオプションでのみ利用できます。
</Note>

<div id="dashboard-and-plots">
  ## ダッシュボードとプロット
</div>

**Monitor** タブを使用すると、過去7日間に発生したキューのアクティビティを確認できます。左側のパネルでは、時間範囲、グループ化、フィルターを設定できます。

ダッシュボードには、パフォーマンスと効率に関するよくある疑問に答える複数のプロットが含まれています。以下のセクションでは、キューのダッシュボードのUI要素について説明します。

<div id="job-status">
  ### ジョブステータス
</div>

**ジョブステータス** プロットには、各時間間隔における実行中、保留中、キュー内、または完了済みのジョブ数が表示されます。キューがアイドル状態になっている時間帯を特定するには、**ジョブステータス** プロットを使用します。

<Frame>
  <img src="https://mintcdn.com/wb-21fd5541-mintlify-bbaa8558/4IGG8hSLqOTmgfgz/images/launch/launch_obs_jobstatus.png?fit=max&auto=format&n=4IGG8hSLqOTmgfgz&q=85&s=31d15aff143e44e714264f358b760019" alt="ジョブステータスのタイムライン" width="2550" height="650" data-path="images/launch/launch_obs_jobstatus.png" />
</Frame>

たとえば、固定リソース (DGX BasePod など) を使用しているとします。固定リソースでキューがアイドル状態になっている場合は、sweeps などの優先度が低いプリエンプティブルな Launch ジョブを実行する余地がある可能性があります。

一方、クラウドリソースを使用していて、アクティビティが周期的に集中している場合もあります。このような周期的なアクティビティの集中は、特定の時間帯にリソースを予約することでコストを削減できる可能性を示唆します。

プロットの右側には、どの色が[Launch ジョブのステータス](./launch-view-jobs#check-the-status-of-a-job)を表すかを示す凡例があります。

<Note>
  `Queued` の項目は、ワークロードを別のキューに振り分ける余地があることを示している可能性があります。失敗の急増は、Launch ジョブのセットアップで支援が必要なユーザーを特定する手がかりになります。
</Note>

<div id="queued-time">
  ### キュー時間
</div>

**キュー時間**プロットには、指定した日付または時間範囲において、Launch ジョブ がキューに入っていた時間の長さ (秒) が表示されます。

<Frame>
  <img src="https://mintcdn.com/wb-21fd5541-mintlify-bbaa8558/4IGG8hSLqOTmgfgz/images/launch/launch_obs_queuedtime.png?fit=max&auto=format&n=4IGG8hSLqOTmgfgz&q=85&s=f55728925693ab0777711dcc609aac9b" alt="キュー時間のメトリクス" width="2384" height="618" data-path="images/launch/launch_obs_queuedtime.png" />
</Frame>

x軸には指定した時間が表示され、y軸には Launch ジョブ が Launch queue に入っていた時間 (秒) が表示されます。たとえば、ある日に 10 件の Launch ジョブ がキューに入っているとします。これら 10 件の Launch ジョブ がそれぞれ平均 60 秒待機した場合、**Queue time**プロットには 600 秒と表示されます。

<Note>
  **キュー時間**プロットを使用すると、キュー時間の長さによる影響を受けているUsersを特定できます。
</Note>

左側のバーにある **Grouping** コントロールを使用して各ジョブの色をカスタマイズすると、キュー容量の不足によるしわ寄せを受けているUsersやジョブを特定する際に、特に役立ちます。

<div id="job-runs">
  ### ジョブの実行状況
</div>

**ジョブの実行状況**プロットには、一定期間内に実行されたすべてのジョブの開始時刻と終了時刻が表示され、各 run は異なる色で示されます。これにより、特定の時点でキューがどのワークロードを処理していたかを一目で把握できます。

<Frame>
  <img src="https://mintcdn.com/wb-21fd5541-mintlify-bbaa8558/4IGG8hSLqOTmgfgz/images/launch/launch_obs_jobruns2.png?fit=max&auto=format&n=4IGG8hSLqOTmgfgz&q=85&s=5925d91b41e63616af78c23500afcbc6" alt="ジョブ実行のタイムライン" width="2390" height="720" data-path="images/launch/launch_obs_jobruns2.png" />
</Frame>

下の表に詳細を表示するには、パネル右下の **Select** tool を使用してジョブの範囲をドラッグして選択します。

<div id="cpu-and-gpu-usage">
  ### CPU と GPU の使用状況
</div>

**ジョブごとの GPU 使用率**、**ジョブごとの CPU 使用率**、**ジョブごとの GPU メモリ**、**ジョブごとのシステムメモリ**のプロットを使用して、Launch ジョブの効率を確認できます。

<Frame>
  <img src="https://mintcdn.com/wb-21fd5541-mintlify-bbaa8558/4IGG8hSLqOTmgfgz/images/launch/launch_obs_gpu.png?fit=max&auto=format&n=4IGG8hSLqOTmgfgz&q=85&s=fc30833307b48ab4846250eecceafa10" alt="GPU 使用状況メトリクス" width="2672" height="1696" data-path="images/launch/launch_obs_gpu.png" />
</Frame>

たとえば、**ジョブごとの GPU メモリ**のプロットを使うと、W\&B run の完了に時間がかかっていたかどうかや、CPU コアの使用率が低かったかどうかを確認できます。

各プロットの x 軸には、W\&B run (Launch ジョブによって作成された) の実行時間が秒単位で表示されます。データポイントにマウスオーバーすると、run ID、その run が属するプロジェクト、その W\&B run を作成した Launch ジョブなど、W\&B run に関する情報を確認できます。

<div id="errors">
  ### Errors
</div>

**Errors** パネルには、指定した launch queue で発生したエラーが表示されます。具体的には、エラーの発生時刻、そのエラーの発生元である Launch ジョブ の名、作成されたエラーメッセージが表示されます。デフォルトでは、エラーは新しいものから古いものの順に並びます。

<Frame>
  <img src="https://mintcdn.com/wb-21fd5541-mintlify-bbaa8558/4IGG8hSLqOTmgfgz/images/launch/launch_obs_errors.png?fit=max&auto=format&n=4IGG8hSLqOTmgfgz&q=85&s=680774fdde37d9b507351123c6521a59" alt="エラーログパネル" width="2532" height="834" data-path="images/launch/launch_obs_errors.png" />
</Frame>

**Errors** パネルを使用して、影響を受けているユーザーを特定し、問題を解消できます。

<div id="external-links">
  ## 外部リンク
</div>

キュー可観測性ダッシュボードのビューは、すべてのキュータイプで共通していますが、環境固有のモニターに直接移動できると便利な場合がよくあります。そのためには、コンソールでキュー可観測性ダッシュボードから直接リンクを追加します。

外部リンクを追加するには、**Manage Links** をクリックしてパネルを開きます。追加したいページの完全な URL を入力します。次に、ラベルを追加します。追加したリンクは、**外部リンク** セクションに表示されます。
