データサイエンスプロジェクトでの作業

Red Hat OpenShift AI Cloud Service 1

プロジェクトとワークベンチでの作業内容の整理、ノートブックの作成とコラボレーション、モデルのトレーニングとデプロイ、モデルサーバーの設定、パイプラインの実装

概要

プロジェクトやワークベンチでの作業内容の整理、ノートブックの作成とコラボレーション、モデルのトレーニングとデプロイ、モデルサーバーの設定、パイプラインの実装を行います。

第1章 ノートブックの作成およびインポート

空のノートブックを作成したり、さまざまなソースからノートブックをインポートしたりできます。

1.1. 新規ノートブックの作成

既存のノートブックコンテナーイメージから新規の Jupyter ノートブックを作成し、そのリソースおよびプロパティーにアクセスできます。Notebook server control panel には、単一ユーザーのノートブックサーバーとして実行できる利用可能なコンテナーイメージの一覧が含まれます。

前提条件

  • Red Hat OpenShift AI にログインしている。
  • ノートブックサーバーを起動し、Jupyter にログインしていることを確認している。
  • ノートブックイメージがレジストリー、イメージストリームに存在し、アクセス可能である。

手順

  1. FileNewNotebook の順にクリックします。
  2. プロンプトが表示されたら、リストからノートブックのカーネルを選択します。

    カーネルを使用する場合は、Select をクリックします。カーネルを使用しない場合は、No Kernel をクリックします。

検証

  • ノートブックファイルが JupyterLab に表示されることを確認します。

1.1.1. データサイエンティスト向けのノートブックイメージ

Red Hat OpenShift AI には、データサイエンスの作業に必要な業界をリードするツールやライブラリーで最適化された Jupyter ノートブックイメージが含まれます。モデル開発に一貫性のある安定したプラットフォームを提供するために、すべてのノートブックイメージには、同じバージョンの Python が含まれます。Red Hat OpenShift AI で利用可能なノートブックイメージは事前に構築されており、OpenShift AI のインストールまたはアップグレード後すぐに使用できるようになります。

ノートブックイメージは、少なくとも 1 年間サポートされます。事前設定されたノートブックイメージのメジャー更新は、約 6 か月ごとに行われます。したがって、通常は、サポートされている 2 つのノートブックイメージバージョンをいつでも利用できます。このサポート期間を使用して、利用可能な最新のノートブックイメージからコンポーネントを使用するようにコードを更新できます。レガシーノートブックイメージバージョン (最新の 2 つのバージョンではない) も引き続き選択できる場合があります。レガシーイメージのバージョンには、イメージが古いことを示すラベルが含まれています。最新のパッケージバージョンを使用するには、最後に追加されたノートブックイメージを使用することが推奨されます。必要な場合は、サポートされなくなった場合でも、レジストリーから古いノートブックイメージにアクセスできます。次に、古いノートブックイメージをカスタムノートブックイメージとして追加し、プロジェクトの特定の要件に対応できます。

これらのイメージに含まれるパッケージおよびバージョンの完全なリストは、ノートブックサーバー環境のオプション の表を参照してください。

Red Hat OpenShift AI には、デフォルトで使用可能な以下のノートブックイメージが含まれています。

重要

この表の (Technology Preview) が付いているノートブックイメージは、Red Hat 製品サポートのサービスレベルアグリーメント (SLA) の対象外であり、機能的に完全ではない可能性があります。Red Hat は、本番環境でテクノロジープレビュー機能を使用することを推奨していません。テクノロジープレビューの機能は、最新の製品機能をいち早く提供して、開発段階で機能のテストを行いフィードバックを提供していただくことを目的としています。Red Hat のテクノロジープレビュー機能のサポート範囲に関する詳細は、「テクノロジープレビュー機能のサポート範囲」を参照してください。

表1.1 デフォルトのノートブックイメージ

イメージ名説明

CUDA

GPU サポートを必要とするコンピュート集約型データサイエンスモデルを使用している場合は、Compute Unified Device Architecture (CUDA) ノートブックイメージを使用して NVIDIA CUDA Toolkit にアクセスします。このツールキットを使用すると、GPU アクセラレーションライブラリーおよび最適化ツールを使用して作業を最適化できます。

Standard Data Science

TensorFlow または PyTorch を必要としないモデルには、Standard Data Science ノートブックイメージを使用します。このイメージには、機械学習モデルの開発に役立つ、一般的に使用されるライブラリーが含まれています。

TensorFlow

TensorFlow は、機械学習のためのオープンソースプラットフォームです。TensorFlow を使用すると、マシンラーニングモデルを構築し、トレーニングし、デプロイできます。TensorFlow には、計算グラフの視覚化など、高度なデータ可視化機能が含まれています。また、モデルの進捗を簡単に監視し、追跡することもできます。

PyTorch

Pytorch は、ディープラーニング向けに最適化されたオープンソース機械学習ライブラリーです。コンピュータービジョンまたは自然言語処理モデルを使用している場合は、Pytorch ノートブックイメージを使用してください。

Minimal Python

高度な機械学習機能や、計算量の多いデータサイエンス作業のための追加のリソースが必要ない場合は、Minimal Python イメージを使用してモデルを開発できます。

TrustyAI

TrustyAI ノートブックイメージを使用して、モデルの説明可能性、トレースと説明可能性、およびランタイム監視を使用したデータサイエンスの作業を活用します。

HabanaAI

HabanaAI ノートブックイメージは、Habana Gaudi デバイスを使用した高性能ディープラーニング (DL) を最適化します。Habana Gaudi デバイスは、DL トレーニングのワークロードを加速し、トレーニングのスループットと効率を最大化します。

code-server (テクノロジープレビュー)

code-server ノートブックイメージを使用すると、さまざまなエクステンションを使用してニーズに合わせてノートブック環境をカスタマイズし、新しい言語、テーマ、デバッガーを追加したり、追加のサービスに接続したりできます。構文の強調表示、自動インデント、括弧の一致、およびシームレスな自動化のための自動タスクランナーにより、データサイエンス作業の効率が向上します。詳細は、GitHub の code-server を参照してください。

注記

Elyra ベースのパイプラインは、code-server ノートブックイメージでは使用できません。

RStudio Server (テクノロジープレビュー)

RStudio Server ノートブックイメージを使用して、統計コンピューティングおよびグラフィックス用のプログラミング言語である R の統合開発環境である RStudio IDE にアクセスします。詳細は、RStudio Server のサイト を参照してください。

RStudio Server ノートブックイメージを使用するには、まずシークレットを作成し、BuildConfig をトリガーしてイメージをビルドします。次に、rstudio-rhel9 イメージストリームを編集して OpenShift AI UI でイメージを有効にする必要があります。詳細は、RStudio Server ノートブックイメージのビルド を参照してください。

重要

免責事項:
Red Hat は、OpenShift AI のワークベンチの管理をサポートしています。ただし、Red Hat は RStudio ソフトウェアのサポートを提供していません。RStudio Server は https://rstudio.org/ から入手できます。RStudio Server には RStudio のライセンス条項が適用されます。このサンプルワークベンチを使用する前に、ライセンス条項を確認してください。

CUDA - RStudio Server (テクノロジープレビュー)

CUDA - RStudio Server ノートブックイメージを使用して、RStudio IDE および NVIDIA CUDA Toolkit にアクセスします。RStudio は、統計コンピューティングおよびグラフィックス用のプログラミング言語である R の統合開発環境です。NVIDIA CUDA Toolkit を使用すると、GPU により高速化されたライブラリーと最適化ツールを使用して作業を最適化できます。詳細は、RStudio Server のサイト を参照してください。

CUDA - RStudio Server ノートブックイメージを使用するには、まずシークレットを作成し、BuildConfig をトリガーしてイメージをビルドします。次に、cuda-rstudio-rhel9 イメージストリームを編集して OpenShift AI UI でイメージを有効にする必要があります。詳細は、RStudio Server ノートブックイメージのビルド を参照してください。

重要

免責事項:
Red Hat は、OpenShift AI のワークベンチの管理をサポートしています。ただし、Red Hat は RStudio ソフトウェアのサポートを提供していません。RStudio Server は https://rstudio.org/ から入手できます。RStudio Server には RStudio のライセンス条項が適用されます。このサンプルワークベンチを使用する前に、ライセンス条項を確認してください。

CUDA - RStudio Server ノートブックイメージには、NVIDIA CUDA テクノロジーが含まれています。CUDA のライセンス情報は https://docs.nvidia.com/cuda/ で入手できます。このサンプルワークベンチを使用する前に、ライセンス条項を確認してください。

1.2. ローカルストレージからの既存のノートブックのアップロード

ローカルストレージから JupyterLab に既存のノートブックを読み込んで作業を継続したり、新しいユースケースに合わせてプロジェクトを調整したりできます。

前提条件

  • Jupyter にログインするための認証情報。
  • 起動済みで実行中のノートブックサーバー。
  • ノートブックファイルがローカルストレージにある。

手順

  1. JupyterLab インターフェイスの左サイドバーにある File Browser で、Upload Files ( Upload Files ) をクリックします。
  2. ノートブックファイルを見つけ、これを選択して Open をクリックします。

    ファイルは File Browser に表示されます。

検証

  • ノートブックファイルは、JupyterLab インターフェイスの左側のサイドバーの File Browser に表示されます。
  • JupyterLab でノートブックファイルを開くことができます。

1.3. JupyterLab を使用した Git リポジトリーからの既存ノートブックファイルのアップロード

JupyterLab ユーザーインターフェイスを使用して Git リポジトリーのクローンをワークスペースに作成し、そのまま作業を継続したり、外部プロジェクトのファイルを統合したりできます。

前提条件

  • 起動済みで実行中の Jupyter サーバー。
  • クローンを作成する Git リポジトリーの読み取りアクセス。

手順

  1. Git リポジトリーの HTTPS URL をコピーします。

    • GitHub で ⤓ CodeHTTPS をクリックし、Clipboard ボタンをクリックします。
    • GitLab で Clone をクリックし、Clone with HTTPS の下にある Clipboard ボタンをクリックします。
  2. JupyterLab インターフェイスで、Git Clone ボタン ( Git Clone button ) をクリックします。

    メニューで GitClone a repository をクリックするか、Git アイコン ( Git button ) をクリックして Clone a repository ボタンをクリックすることもできます。

    Clone a repo ダイアログが表示されます。

  3. ノートブックを格納するリポジトリーの HTTPS URL を入力します。
  4. CLONE をクリックします。
  5. プロンプトが表示されたら、Git リポジトリーのユーザー名とパスワードを入力します。

検証

  • リポジトリーの内容が JupyterLab のファイルブラウザーに表示されるか、ターミナルで ls コマンドを実行して、リポジトリーがディレクトリーとして表示されることを確認します。

1.4. コマンドラインインターフェイスを使用した Git リポジトリーから既存のノートブックファイルのアップロード

コマンドラインインターフェイスを使用して Git リポジトリーをワークスペースにクローンし、そのまま作業を継続したり、外部プロジェクトのファイルを統合したりできます。

前提条件

  • 起動済みで実行中の Jupyter サーバー。

手順

  1. Git リポジトリーの HTTPS URL をコピーします。

    • GitHub で ⤓ CodeHTTPS をクリックし、Clipboard ボタンをクリックします。
    • GitLab で Clone をクリックし、Clone with HTTPS の下にある Clipboard ボタンをクリックします。
  2. JupyterLab で FileNewTerminal の順にクリックして、ターミナルウィンドウを開きます。
  3. git clone コマンドを入力します。

    git clone <git-clone-URL>

    `<git-clone-URL>` は HTTPS URL に置き換えます。以下に例を示します。

    [1234567890@jupyter-nb-jdoe ~]$ git clone https://github.com/example/myrepo.git
    Cloning into myrepo...
    remote: Enumerating objects: 11, done.
    remote: Counting objects: 100% (11/11), done.
    remote: Compressing objects: 100% (10/10), done.
    remote: Total 2821 (delta 1), reused 5 (delta 1), pack-reused 2810
    Receiving objects: 100% (2821/2821), 39.17 MiB | 23.89 MiB/s, done.
    Resolving deltas: 100% (1416/1416), done.

検証

  • リポジトリーの内容が JupyterLab のファイルブラウザーに表示されるか、ターミナルで ls コマンドを実行して、リポジトリーがディレクトリーとして表示されることを確認します。

1.5. 関連情報

第2章 Git を使用したノートブックでの連携

ノートブックまたはその他のファイルが Git バージョン制御に保存される場合は、Git リポジトリーからノートブックサーバーにインポートして JupyterLab で使用できます。準備が整ったら、変更を Git リポジトリーに再びプッシュし、他のユーザーがモデルをレビューしたり、使用したりできるようにします。

2.1. JupyterLab を使用した Git リポジトリーからの既存ノートブックファイルのアップロード

JupyterLab ユーザーインターフェイスを使用して Git リポジトリーのクローンをワークスペースに作成し、そのまま作業を継続したり、外部プロジェクトのファイルを統合したりできます。

前提条件

  • 起動済みで実行中の Jupyter サーバー。
  • クローンを作成する Git リポジトリーの読み取りアクセス。

手順

  1. Git リポジトリーの HTTPS URL をコピーします。

    • GitHub で ⤓ CodeHTTPS をクリックし、Clipboard ボタンをクリックします。
    • GitLab で Clone をクリックし、Clone with HTTPS の下にある Clipboard ボタンをクリックします。
  2. JupyterLab インターフェイスで、Git Clone ボタン ( Git Clone button ) をクリックします。

    メニューで GitClone a repository をクリックするか、Git アイコン ( Git button ) をクリックして Clone a repository ボタンをクリックすることもできます。

    Clone a repo ダイアログが表示されます。

  3. ノートブックを格納するリポジトリーの HTTPS URL を入力します。
  4. CLONE をクリックします。
  5. プロンプトが表示されたら、Git リポジトリーのユーザー名とパスワードを入力します。

検証

  • リポジトリーの内容が JupyterLab のファイルブラウザーに表示されるか、ターミナルで ls コマンドを実行して、リポジトリーがディレクトリーとして表示されることを確認します。

2.2. コマンドラインインターフェイスを使用した Git リポジトリーから既存のノートブックファイルのアップロード

コマンドラインインターフェイスを使用して Git リポジトリーをワークスペースにクローンし、そのまま作業を継続したり、外部プロジェクトのファイルを統合したりできます。

前提条件

  • 起動済みで実行中の Jupyter サーバー。

手順

  1. Git リポジトリーの HTTPS URL をコピーします。

    • GitHub で ⤓ CodeHTTPS をクリックし、Clipboard ボタンをクリックします。
    • GitLab で Clone をクリックし、Clone with HTTPS の下にある Clipboard ボタンをクリックします。
  2. JupyterLab で FileNewTerminal の順にクリックして、ターミナルウィンドウを開きます。
  3. git clone コマンドを入力します。

    git clone <git-clone-URL>

    `<git-clone-URL>` は HTTPS URL に置き換えます。以下に例を示します。

    [1234567890@jupyter-nb-jdoe ~]$ git clone https://github.com/example/myrepo.git
    Cloning into myrepo...
    remote: Enumerating objects: 11, done.
    remote: Counting objects: 100% (11/11), done.
    remote: Compressing objects: 100% (10/10), done.
    remote: Total 2821 (delta 1), reused 5 (delta 1), pack-reused 2810
    Receiving objects: 100% (2821/2821), 39.17 MiB | 23.89 MiB/s, done.
    Resolving deltas: 100% (1416/1416), done.

検証

  • リポジトリーの内容が JupyterLab のファイルブラウザーに表示されるか、ターミナルで ls コマンドを実行して、リポジトリーがディレクトリーとして表示されることを確認します。

2.3. リモート Git リポジトリーからの変更を含むプロジェクトの更新

他のユーザーが作成した変更をリモート Git リポジトリーからデータサイエンスプロジェクトにプルできます。

前提条件

  • リモート Git リポジトリーを設定している。
  • Git リポジトリーを JupyterLab にインポートしており、リポジトリーの内容が JupyterLab のファイルブラウザーに表示される。
  • リモート Git リポジトリーからローカルリポジトリーにファイルをプルするパーミッションがある。
  • Jupyter にログインするための認証情報がある。
  • Jupyter サーバーを起動して実行している。

手順

  1. JupyterLab インターフェイスで、Git ボタン ( Git button ) をクリックします。
  2. Pull latest changes ボタン ( Pull latest changes button ) をクリックします。

検証

  • Git ペインの History タブで、リモートリポジトリーからプルした変更を表示できます。

2.4. プロジェクトの変更を Git リポジトリーにプッシュ

実稼働環境でアプリケーションをビルドし、デプロイするには、作業をリモート Git リポジトリーにアップロードします。

前提条件

  • JupterLab インターフェイスでノートブックを開いている。
  • 関連する Git リポジトリーがノートブックサーバーに追加されている。
  • 関連する Git リポジトリーに変更をプッシュするパーミッションがある。
  • Git バージョン制御拡張がインストールされている。

手順

  1. FileSave All をクリックして、保存していない変更を保存します。
  2. Git アイコン ( Git button ) をクリックし、JupyterLab インターフェイスで Git ペインを開きます。
  3. 変更したファイルが Changed に表示されることを確認します。

    変更したファイルが Untracked にある場合は、GitSimple Staging をクリックして簡素化された Git プロセスを有効にします。

  4. 変更をコミットします。

    1. Changed の下にあるすべてのファイルに、青いチェックマークが付いていることを確認します。
    2. Summary フィールドに、加えた変更の簡単な説明を入力します。
    3. Commit をクリックします。
  5. GitPush to Remote をクリックして、変更をリモートリポジトリーにプッシュします。
  6. プロンプトが表示されたら、Git 認証情報を入力し、OK をクリックします。

検証

  • 最近プッシュされた変更は、リモート Git リポジトリーに表示されます。

第3章 データサイエンスプロジェクトでの作業

データサイエンティストは、データサイエンスの作業を 1 つのプロジェクトにまとめることができます。OpenShift AI のデータサイエンスプロジェクトは、次のコンポーネントで設定されます。

ワークベンチ
ワークベンチを作成すると、Jupyter ノートブックをプロジェクトに追加できます。
クラスターストレージ
データを保持する必要があるデータサイエンスプロジェクトの場合は、クラスターストレージをプロジェクトに追加できます。
データ接続
プロジェクトにデータ接続を追加すると、データ入力をワークベンチに接続できます。
Pipelines
機械学習ワークフローを標準化および自動化し、データサイエンスモデルをさらに強化してデプロイメントできるようにします。
モデルおよびモデルサーバー
トレーニング済みのデータサイエンスモデルをデプロイして、インテリジェントなアプリケーションを提供します。モデルは、アプリケーションがモデルにリクエストを送信できるようにするエンドポイントを使用してデプロイされます。
重要

OpenShift AI ユーザーインターフェイスの外で OpenShift プロジェクトを作成した場合、そのプロジェクトは Data science projects ページに表示されません。また、標準の OpenShift プロジェクトでワークベンチやモデルサービスなどの OpenShift AI 専用機能は使用できません。

OpenShift プロジェクトをデータサイエンスプロジェクトとして分類し、OpenShift AI 専用機能を使用可能にするには、プロジェクト namespace に opendatahub.io/dashboard: 'true' ラベルを追加する必要があります。このラベルを追加すると、プロジェクトが Data science projects ページに表示されます。

3.1. データサイエンスプロジェクトの使用

3.1.1. データサイエンスプロジェクトの作成

データサイエンスの作業を開始するには、データサイエンスプロジェクトを作成します。プロジェクトを作成すると、作業を 1 カ所で整理できます。次の機能を追加して、データサイエンスプロジェクトを強化することもできます。

  • ワークベンチ
  • プロジェクトのクラスター用のストレージ
  • データ接続
  • データサイエンスパイプライン
  • モデルサーバー

前提条件

  • Red Hat OpenShift AI にログインしている。
  • 特殊な OpenShift AI グループを使用している場合は、OpenShift のユーザーグループ、または、管理者グループ (rhods-usersrhods-admins など) に属している。

手順

  1. OpenShift AI ダッシュボードから、Data Science Projects をクリックします。

    Data science projects のページが開きます。

  2. Create data science project をクリックします。

    Create a data science project ダイアログが開きます。

  3. データサイエンスプロジェクトの name を入力します。
  4. オプション: データサイエンスプロジェクトの リソース名 を編集します。リソース名は、小文字の英数字 - で設定され、英数字で開始および終了する必要があります。
  5. データサイエンスプロジェクトの 説明 を入力します。
  6. Create をクリックします。

    プロジェクトの詳細ページが開きます。このページから、ワークベンチの作成、クラスターストレージとデータ接続の追加、パイプラインのインポート、モデルのデプロイを行うことができます。

検証

  • 作成したプロジェクトが Data science projects ページに表示されます。

3.1.2. データサイエンスプロジェクトの更新

プロジェクトの名前と説明テキストを変更することで、データサイエンスプロジェクトの詳細を更新できます。

前提条件

  • Red Hat OpenShift AI にログインしている。
  • 特殊な OpenShift AI グループを使用している場合は、OpenShift のユーザーグループ、または、管理者グループ (rhoai-usersrhoai-admins など) に属している。
  • データサイエンスプロジェクトを作成している。

手順

  1. OpenShift AI ダッシュボードから、Data Science Projects をクリックします。

    Data science projects のページが開きます。

  2. 詳細を更新するプロジェクトの横にあるアクションメニュー () をクリックし、Edit project をクリックします。

    Edit data science project ダイアログが開きます。

  3. オプション: データサイエンスプロジェクトの name を更新します。
  4. オプション: データサイエンスプロジェクトの 説明 を更新します。
  5. Update をクリックします。

検証

  • 更新したデータサイエンスプロジェクトが Data science projects ページに表示されます。

3.1.3. データサイエンスプロジェクトの削除

不要になったプロジェクトが OpenShift AI Data science projects ページに表示されないように、データサイエンスプロジェクトを削除できます。

前提条件

  • Red Hat OpenShift AI にログインしている。
  • 特殊な OpenShift AI グループを使用している場合は、OpenShift のユーザーグループ、または、管理者グループ ({oai-user-group} など) に属している。
  • データサイエンスプロジェクトを作成している。

手順

  1. OpenShift AI ダッシュボードから、Data Science Projects をクリックします。

    Data science projects のページが開きます。

  2. 削除するプロジェクトの横にあるアクションメニュー () をクリックし、Delete project をクリックします。

    Delete project ダイアログが開きます。

  3. テキストフィールドにプロジェクトの名前を入力して、プロジェクトを削除することを確認します。
  4. プロジェクトの削除 をクリックします。

検証

  • 削除したデータサイエンスプロジェクトは、Data science projects ページに表示されなくなります。
  • データサイエンスプロジェクトを削除すると、関連するすべてのワークベンチ、データサイエンスパイプライン、クラスターストレージ、およびデータ接続が削除されます。このデータは完全に削除され、復元できません。

3.2. プロジェクトワークベンチの使用

3.2.1. プロジェクトワークベンチの作成

孤立した領域でモデルを調べて操作するために、ワークベンチを作成できます。このワークベンチを使用して、既存のノートブックコンテナーイメージから Jupyter ノートブックを作成し、そのリソースとプロパティーにアクセスできます。データ保持が必要なデータサイエンスプロジェクトの場合は、作成しているワークベンチにコンテナーストレージを追加できます。大規模なデータセットを使用するために追加のパワーが必要な場合は、ワークベンチにアクセラレーターを割り当ててパフォーマンスを最適化できます。

前提条件

  • Red Hat OpenShift AI にログインしている。
  • 特殊な OpenShift AI グループを使用する場合は、OpenShift のユーザーグループ、または、管理者グループ (rhods-usersrhods-admins など) に属している。
  • ワークベンチを追加できるデータサイエンスプロジェクトを作成している。

手順

  1. OpenShift AI ダッシュボードから、Data Science Projects をクリックします。

    Data science projects のページが開きます。

  2. ワークベンチを追加するプロジェクトの名前をクリックします。

    プロジェクトの詳細ページが開きます。

  3. Workbenches タブをクリックします。
  4. Create workbench をクリックします。

    Create workbench ページが開きます。

  5. 作成するワークベンチのプロパティーを設定します。

    1. Name フィールドに、ワークベンチの名前を入力します。
    2. オプション: Description フィールドに、ワークベンチを定義する説明を入力します。
    3. ノートブックイメージ セクションで、フィールドに値を入力して、ワークベンチで使用するノートブックイメージを指定します。

      1. Image selection リストから、ノートブックイメージを選択します。
    4. Deployment size セクションで、デプロイメントインスタンスのサイズを指定します。

      1. Container size リストから、サーバーのコンテナーサイズを選択します。
      2. オプション: Accelerator リストからアクセラレーターを選択します。
      3. 前述の手順でアクセラレーターを選択した場合は、使用するアクセラレーターの数を指定します。
    5. オプション: 新規の environment variables の値を選択し、指定します。
  1. OpenShift AI クラスターのストレージを設定します。

    1. OpenShift AI からログアウトした後に保持されるストレージを作成するには、Create new persistent storage を選択します。関連するフィールドに入力してストレージを定義します。
    2. 既存のストレージを再利用するには、Use existing persistent storage を選択し、Persistent storage リストからストレージを選択します。
  2. データ接続を使用するには、Data connections セクションで、Use a data connection チェックボックスを選択します。

    • 以下のように新しいデータ接続を作成します。

      1. Create new data connection を選択します。
      2. Name フィールドに、データ接続の一意の名前を入力します。
      3. Access key フィールドに、S3 互換オブジェクトストレージプロバイダーのアクセスキー ID を入力します。
      4. Secret key フィールドに、指定した S3 互換オブジェクトストレージアカウントのシークレットアクセスキーを入力します。
      5. Endpoint フィールドに、S3 互換オブジェクトストレージバケットのエンドポイントを入力します。
      6. Region フィールドに、S3 互換オブジェクトストレージアカウントのデフォルトのリージョンを入力します。
      7. Bucket フィールドに、S3 互換オブジェクトストレージバケットの名前を入力します。
    • 以下のように既存のデータ接続を使用します。

      1. Use existing data connection を選択します。
      2. Data connection リストから、以前に定義したデータ接続を選択します。
    1. Create workbench をクリックします。

検証

  • 作成したワークベンチは、プロジェクトの Workbenches タブに表示されます。
  • 作成プロセス中にワークベンチに関連付けたクラスターストレージは、プロジェクトの Cluster storage タブに表示されます。
  • Workbenches タブの Status 列には、ワークベンチサーバーの起動時に Starting のステータスが表示され、ワークベンチが正常に起動した場合は Running のステータスが表示されます。

3.2.2. ワークベンチの開始

プロジェクトの詳細ページの Workbenches タブから、データサイエンスプロジェクトのワークベンチを手動で開始できます。デフォルトでは、ワークベンチは作成後すぐに起動します。

前提条件

  • Red Hat OpenShift AI にログインしている。
  • 特殊な OpenShift AI グループを使用している場合は、OpenShift のユーザーグループ、または、管理者グループ (rhoai-usersrhoai-admins など) に属している。
  • ワークベンチを含むデータサイエンスプロジェクトを作成している。

手順

  1. OpenShift AI ダッシュボードから、Data Science Projects をクリックします。

    Data science projects のページが開きます。

  2. ワークベンチを開始するプロジェクトの名前をクリックします。

    プロジェクトの詳細ページが開きます。

  3. Workbenches タブをクリックします。
  4. 関連するワークベンチの Status 列のトグルをクリックして、実行されていないワークベンチを起動します。

    起動したワークベンチのステータスが Stopped から Running に変わります。ワークベンチが起動したら、Open をクリックしてワークベンチのノートブックを開きます。

検証

  • 起動したワークベンチは、プロジェクトの Workbenches タブに表示され、ステータスが Running になります。

3.2.3. プロジェクトワークベンチの更新

データサイエンスの作業でワークベンチのノートブックイメージ、コンテナーサイズ、または識別情報を変更する必要がある場合は、プロジェクトのワークベンチのプロパティーを更新できます。大規模なデータセットを使用するために追加のパワーが必要な場合は、ワークベンチにアクセラレーターを割り当ててパフォーマンスを最適化できます。

前提条件

  • Red Hat OpenShift AI にログインしている。
  • 特殊な OpenShift AI グループを使用する場合は、OpenShift のユーザーグループ、または、管理者グループ (rhods-usersrhods-admins など) に属している。
  • ワークベンチを含むデータサイエンスプロジェクトを作成している。

手順

  1. OpenShift AI ダッシュボードから、Data Science Projects をクリックします。

    Data science projects のページが開きます。

  2. ワークベンチを更新するプロジェクトの名前をクリックします。

    プロジェクトの詳細ページが開きます。

  3. Workbenches タブをクリックします。
  4. 更新するワークベンチの横にあるアクションメニュー()をクリックし、Edit workbench をクリックします。

    Edit workbench ページが開きます。

  5. ワークベンチのプロパティーを更新してから、Update workbench をクリックします。

検証

  • 更新したワークベンチがプロジェクトの Workbenches タブに表示されます。

3.2.4. データサイエンスプロジェクトからのワークベンチの削除

データサイエンスプロジェクトからワークベンチを削除して、作業に関連しなくなった Jupyter ノートブックを削除できます。

前提条件

  • Red Hat OpenShift AI にログインしている。
  • 特殊な OpenShift AI グループを使用している場合は、OpenShift のユーザーグループ、または、管理者グループ (rhoai-usersrhoai-admins など) に属している。
  • ワークベンチを使用してデータサイエンスプロジェクトを作成している。

手順

  1. OpenShift AI ダッシュボードから、Data Science Projects をクリックします。

    Data science projects のページが開きます。

  2. ワークベンチを削除するプロジェクトの名前をクリックします。

    プロジェクトの詳細ページが開きます。

  3. Workbenches タブをクリックします。
  4. 削除するワークベンチの横にあるアクションメニュー()をクリックし、Delete workbench をクリックします。

    Delete workbench ダイアログが開きます。

  5. ワークベンチの名前をテキストフィールドに入力して、削除することを確認します。
  6. Delete workbench をクリックします。

検証

  • 削除したワークベンチは、プロジェクトの Workbenches タブに表示されなくなります。
  • ワークベンチの Jupyter ノートブックに関連付けられているカスタムリソース (CR) が削除されます。

3.3. データ接続の使用

3.3.1. データサイエンスプロジェクトへのデータ接続の追加

データソースへの接続を追加することで、データサイエンスプロジェクトを強化できます。非常に大規模なデータセットを操作する場合は、ローカルストレージがいっぱいにならないように、S3 互換オブジェクトストレージバケットにデータを保存できます。まだ接続されていない既存のワークベンチにデータ接続を関連付けるオプションもあります。

前提条件

  • Red Hat OpenShift AI にログインしている。
  • 特殊な OpenShift AI グループを使用している場合は、OpenShift のユーザーグループ、または、管理者グループ (rhods-usersrhods-admins など) に属している。
  • データ接続を追加できるデータサイエンスプロジェクトを作成している。
  • S3 互換オブジェクトストレージにアクセスできる。
  • 既存のワークベンチにデータ接続を追加する場合は、作業が失われないように、データをワークベンチに保存している。

手順

  1. OpenShift AI ダッシュボードから、Data Science Projects をクリックします。

    Data science projects のページが開きます。

  2. データ接続を追加するプロジェクトの名前をクリックします。

    プロジェクトの詳細ページが開きます。

  3. Data connections タブをクリックします。
  4. Add data connection をクリックします。

    Add data connection ダイアログが開きます。

  5. データ接続の name を入力します。
  6. Access key フィールドに、S3 互換オブジェクトストレージプロバイダーのアクセスキー ID を入力します。
  7. Secret key フィールドに、指定した S3 互換オブジェクトストレージアカウントのシークレットアクセスキーを入力します。
  8. Endpoint フィールドに、S3 互換オブジェクトストレージバケットのエンドポイントを入力します。
  9. Region フィールドに、S3 互換オブジェクトストレージアカウントのデフォルトのリージョンを入力します。
  10. Bucket フィールドに、S3 互換オブジェクトストレージバケットの名前を入力します。
  11. オプション: Connected workbench リストから、接続するワークベンチを選択します。
  12. Add data connection をクリックします。

検証

  • 追加したデータ接続は、プロジェクトの Data connections タブに表示されます。
  • ワークベンチを選択した場合、ワークベンチはプロジェクトの Data connections タブの Connected workbenches 列に表示されます。

3.3.2. データ接続の削除

データサイエンスプロジェクトからデータ接続を削除して、作業に関連しなくなった接続を削除できます。

前提条件

  • Red Hat OpenShift AI にログインしている。
  • 特殊な OpenShift AI グループを使用している場合は、OpenShift のユーザーグループ、または、管理者グループ (rhoai-usersrhoai-admins など) に属している。
  • データ接続を使用してデータサイエンスプロジェクトを作成している。

手順

  1. OpenShift AI ダッシュボードから、Data Science Projects をクリックします。

    Data science projects のページが開きます。

  2. データ接続を削除するプロジェクトの名前をクリックします。

    プロジェクトの詳細ページが開きます。

  3. Data connections タブをクリックします。
  4. 削除するデータ接続の横にあるアクションメニュー()をクリックし、Delete data connection をクリックします。

    Delete data connection ダイアログが開きます。

  5. テキストフィールドにデータ接続の名前を入力して、削除することを確認します。
  6. Delete data connection をクリックします。

検証

  • 削除したデータ接続は、プロジェクトの Data connections タブに表示されなくなります。

3.3.3. 接続されたデータソースの更新

別のワークベンチで既存のデータソースを使用するには、プロジェクトのワークベンチに接続されているデータソースを変更できます。

前提条件

  • Red Hat OpenShift AI にログインしている。
  • 特殊な OpenShift AI グループを使用している場合は、OpenShift のユーザーグループ、または、管理者グループ (rhoai-usersrhoai-admins など) に属している。
  • データサイエンスプロジェクトを作成し、ワークベンチを作成し、データ接続を定義している。

手順

  1. OpenShift AI ダッシュボードから、Data Science Projects をクリックします。

    Data science projects のページが開きます。

  2. データソースを変更するプロジェクトの名前をクリックします。

    プロジェクトの詳細ページが開きます。

  3. Data connections タブをクリックします。
  4. 変更するデータソースの横にあるアクションメニュー()をクリックし、Edit data connection をクリックします。

    Edit data connection ダイアログが開きます。

  5. Connected workbench セクションで、一覧から既存のワークベンチを選択します。
  6. Update data connection をクリックします。

検証

  • 更新されたデータ接続は、プロジェクトの Data connections タブに表示されます。
  • 接続されたワークベンチで環境変数を使用して S3 データソースにアクセスできます。

3.4. クラスターストレージの設定

3.4.1. データサイエンスプロジェクトへのクラスターストレージの追加

データを保持する必要があるデータサイエンスプロジェクトの場合は、クラスターストレージをプロジェクトに追加できます。さらに、クラスターストレージを特定のプロジェクトのワークベンチに接続することもできます。

前提条件

  • Red Hat OpenShift AI にログインしている。
  • 特殊な OpenShift AI グループを使用している場合は、OpenShift のユーザーグループ、または、管理者グループ (rhoai-usersrhoai-admins など) に属している。
  • クラスターストレージを追加できるデータサイエンスプロジェクトを作成している。

手順

  1. OpenShift AI ダッシュボードから、Data Science Projects をクリックします。

    Data science projects のページが開きます。

  2. クラスターストレージを追加するプロジェクトの名前をクリックします。

    プロジェクトの詳細ページが開きます。

  3. Cluster storage タブをクリックします。
  4. Add cluster storage をクリックします。

    Add storage ダイアログが開きます。

  5. クラスターストレージの name を入力します。
  6. クラスターストレージの description を入力します。
  7. Persistent storage size で、新しいサイズをギビバイト単位で入力します。最小サイズは 1 GiB、最大サイズは 16384 GiB です。
  8. オプション: リストから ワークベンチ を選択して、クラスターストレージを既存のワークベンチに接続します。
  9. ストレージを接続するワークベンチを選択した場合は、Mount folder フィールドにストレージディレクトリーを入力します。
  10. Add storage をクリックします。

検証

  • 追加したクラスターストレージは、プロジェクトの Cluster storage タブに表示されます。
  • 定義したストレージサイズで、新しい永続ボリューム要求 (PVC) が作成されます。
  • 永続ボリューム要求(PVC)は、プロジェクトの Workbenches タブに接続されたストレージとして表示されます。

3.4.2. クラスターストレージの更新

データサイエンスの作業で、プロジェクトのクラスターストレージまたはストレージが接続されているワークベンチの識別情報を変更する必要がある場合は、プロジェクトのクラスターストレージを更新してこれらのプロパティーを変更できます。

前提条件

  • Red Hat OpenShift AI にログインしている。
  • 特殊な OpenShift AI グループを使用している場合は、OpenShift のユーザーグループ、または、管理者グループ (rhoai-usersrhoai-admins など) に属している。
  • クラスターストレージを含むデータサイエンスプロジェクトを作成している。

手順

  1. OpenShift AI ダッシュボードから、Data Science Projects をクリックします。

    Data science projects のページが開きます。

  2. ストレージを更新するプロジェクトの名前をクリックします。

    プロジェクトの詳細ページが開きます。

  3. Cluster storage タブをクリックします。
  4. 更新するストレージの横にあるアクションメニュー()をクリックし、Edit storage をクリックします。

    Edit storage ページが開きます。

  5. ストレージのプロパティーを更新します。

    1. 該当する場合は、ストレージの name を更新します。
    2. 該当する場合は、ストレージの description を更新します。
    3. 必要に応じて、ストレージの Persistent storage size を増やします。

      増加できるのはストレージサイズのみであることに注意してください。ストレージサイズを更新すると、ワークベンチが再起動され、通常はサイズの変更に比例して一定期間使用できなくなります。

    4. 該当する場合は、ストレージが接続されている ワークベンチ を更新します。
    5. ストレージを接続する新しいワークベンチを選択した場合は、Mount folder フィールドにストレージディレクトリーを入力します。
  6. Update storage をクリックします。

ストレージサイズを増やした場合、ワークベンチが再起動され、通常はサイズの変更に比例して一定期間使用できなくなります。

検証

  • 更新したストレージは、プロジェクトの Cluster storage タブに表示されます。

3.4.3. データサイエンスプロジェクトからのクラスターストレージの削除

データサイエンスプロジェクトからクラスターストレージを削除すると、リソースを解放し、不要なストレージスペースを削除できます。

前提条件

  • Red Hat OpenShift AI にログインしている。
  • 特殊な OpenShift AI グループを使用している場合は、OpenShift のユーザーグループ、または、管理者グループ (rhods-usersrhods-admins など) に属している。
  • クラスターストレージを使用してデータサイエンスプロジェクトを作成している。

手順

  1. OpenShift AI ダッシュボードから、Data Science Projects をクリックします。

    Data science projects のページが開きます。

  2. ストレージを削除するプロジェクトの名前をクリックします。

    プロジェクトの詳細ページが開きます。

  3. Cluster storage タブをクリックします。
  4. 削除するストレージの横にあるアクションメニュー()をクリックし、Delete storage をクリックします。

    Delete storage ダイアログが開きます。

  5. テキストフィールドにストレージの名前を入力して、削除することを確認します。
  6. Delete storage をクリックします。

検証

  • 削除したストレージは、プロジェクトの Cluster storage タブに表示されなくなります。
  • クラスターストレージに関連付けられている永続ボリューム (PV) と永続ボリューム要求 (PVC) は両方とも完全に削除されます。このデータは回復できません。

3.5. データサイエンスパイプラインの設定

3.5.1. パイプラインサーバーの設定

OpenShift AI でパイプラインを正常に作成するには、パイプラインサーバーを設定する必要があります。これには、パイプラインアーティファクトとデータの保存場所の設定が含まれます。

注記

したがって、パイプラインサーバーのデータ接続を設定するときに、ストレージディレクトリーを指定する必要はありません。パイプラインをインポートすると、パイプラインの YAML ファイルを含む、バケットの ルート フォルダーに /pipelines フォルダーが作成されます。同じパイプラインの新しいバージョンをアップロードすると、別の ID を持つ新しい YAML ファイルが /pipelines フォルダーに追加されます。

パイプラインを実行すると、アーティファクトはバケットの ルート ディレクトリーの /pipeline-name フォルダーに保存されます。

重要

外部 MySQL データベースを使用し、DSP 2.0 で OpenShift AI にアップグレードした場合、データベースは DSP 2.0 形式に移行され、以前のバージョンの OpenShift AI と互換性がありません。

前提条件

  • Red Hat OpenShift AI にログインしている。
  • 特殊な OpenShift AI グループを使用している場合は、OpenShift のユーザーグループ、または、管理者グループ (rhods-usersrhods-admins など) に属している。
  • パイプラインサーバーを追加できるデータサイエンスプロジェクトが作成されている。
  • 既存の S3 互換オブジェクトストレージバケットがあり、ストレージアカウントに S3 バケットへの書き込みアクセスが設定されている。
  • 外部 MySQL データベースを使用してパイプラインサーバーを設定している場合、データベースは MySQL バージョン 5.x を使用する必要があります。

手順

  1. OpenShift AI ダッシュボードから、Data Science Projects をクリックします。

    Data science projects のページが開きます。

  2. パイプラインサーバーを設定するプロジェクトの名前をクリックします。

    プロジェクトの詳細ページが開きます。

  3. Pipelines タブをクリックします。
  4. Configure pipeline server をクリックします。

    Configure pipeline server ダイアログが表示されます。

  5. Object storage connection セクションで、必須フィールドに値を入力します。

    1. Access key フィールドに、S3 互換オブジェクトストレージプロバイダーのアクセスキー ID を入力します。
    2. Secret key フィールドに、指定した S3 互換オブジェクトストレージアカウントのシークレットアクセスキーを入力します。
    3. Endpoint フィールドに、S3 互換オブジェクトストレージバケットのエンドポイントを入力します。
    4. Region フィールドに、S3 互換オブジェクトストレージアカウントのデフォルトのリージョンを入力します。
    5. Bucket フィールドに、S3 互換オブジェクトストレージバケットの名前を入力します。

      重要

      間違ったデータ接続設定を指定した場合は、同じパイプラインサーバー上でこれらの設定を更新できません。したがって、パイプラインサーバーを削除し、別のパイプラインサーバーを設定する必要があります。

  6. Database セクションで、Show advanced database options をクリックしてパイプラインデータを保存するデータベースを指定し、次の一連のアクションのいずれかを選択します。

    • プロジェクトに MariaDB データベースをデプロイするには、Use default database stored on your cluster を選択します。
    • Connect to external MySQL database を選択して、パイプラインサーバーがアクセスできる外部データベースに新しい接続を追加します。

      1. Host フィールドにデータベースのホスト名を入力します。
      2. Port フィールドにデータベースのポートを入力します。
      3. Username フィールドに、データベースに接続するデフォルトのユーザー名を入力します。
      4. Password フィールドに、デフォルトのユーザーアカウントのパスワードを入力します。
      5. Database フィールドにデータベース名を入力します。
  7. Configure pipeline server をクリックします。

検証

プロジェクトの Pipelines タブで、以下を実行します。

  • Import pipeline ボタンを使用できる。
  • アクションメニュー()をクリックしてから View pipeline server configuration をクリックすると、パイプラインサーバーの詳細が表示されます。

3.5.2. パイプラインの定義

Kubeflow Pipelines SDK を使用すると、エンドツーエンドの機械学習とデータパイプラインを定義できます。最新の Kubeflow Pipelines 2.0 SDK を使用して、Python コードでデータサイエンスパイプラインを構築します。パイプラインを構築したら、SDK を使用して Intermediate Representation (IR) YAML ファイルにコンパイルします。パイプラインを定義した後、YAML ファイルを OpenShift AI ダッシュボードにインポートして、その実行設定を設定できるようにします。

Elyra JupyterLab 拡張機能を使用して、JupyterLab 内でデータサイエンスパイプラインを作成して実行することもできます。JupyterLab でのパイプラインの作成に関する詳細は、JupyterLab でのパイプラインの使用 を参照してください。Elyra JupyterLab 拡張機能の詳細は、Elyra ドキュメンテーション を参照してください。

3.5.3. データサイエンスパイプラインのインポート

OpenShift AI でデータサイエンスパイプラインの操作を開始できるように、パイプラインのコードを含む YAML ファイルをアクティブなパイプラインサーバーにインポートするか、URL から YAML ファイルをインポートできます。このファイルには、Kubeflow コンパイラーを使用してコンパイルされた Kubeflow パイプラインが含まれています。パイプラインをパイプラインサーバーにインポートしたら、パイプライン実行を作成してパイプラインを実行できます。

前提条件

  • Red Hat OpenShift AI にログインしている。
  • 特殊な OpenShift AI グループを使用している場合は、OpenShift のユーザーグループ、または、管理者グループ (rhods-usersrhods-admins など) に属している。
  • 設定されたパイプラインサーバーを含む利用可能なデータサイエンスプロジェクトを作成している。
  • Kubeflow コンパイラーでパイプラインをコンパイルし、結果の YAML ファイルにアクセスできる。
  • URL からパイプラインをアップロードする場合、URL はパブリックにアクセスできます。

手順

  1. OpenShift AI ダッシュボードから、Data Science PipelinesPipelines をクリックします。
  2. Pipelines ページで、パイプラインをインポートする プロジェクト を選択します。
  3. Import pipeline をクリックします。
  4. Import pipeline ダイアログで、インポートするパイプラインの詳細を入力します。

    1. Pipeline name フィールドに、インポートするパイプラインの名前を入力します。
    2. Pipeline description フィールドに、インポートするパイプラインの説明を入力します。
    3. 以下のアクションのいずれかを実行して、パイプラインのインポート元の場所を選択します。

      • Upload a file を選択して、ローカルマシンのファイルシステムからパイプラインをアップロードします。upload をクリックするか、ファイルをドラッグアンドドロップしてパイプラインをインポートします。
      • Import by url を選択してパイプラインを URL からアップロードし、テキストボックスに URL を入力します。
    4. Import pipeline をクリックします。

検証

  • インポートしたパイプラインは、Pipelines ページと、Project details ページの Pipelines タブに表示されます。

OpenShift AI でのパイプラインの使用の詳細は、データサイエンスパイプラインの使用 を参照してください。

3.6. データサイエンスプロジェクトへのアクセスの設定

3.6.1. データサイエンスプロジェクトへのアクセスの設定

データサイエンスプロジェクトで他のユーザーと共同作業できるようにするために、プロジェクトへのアクセスを共有できます。プロジェクトを作成した後、OpenShift AI ユーザーインターフェイスから適切なアクセス許可を設定できます。

次のアクセス許可レベルをデータサイエンスプロジェクトに割り当てることができます。

  • Admin: 詳細 (プロジェクト名と説明)、コンポーネント、アクセス許可など、プロジェクトのすべての領域を変更できます。
  • Edit: ワークベンチなどのプロジェクトのコンポーネントを変更できますが、プロジェクトのアクセス権限や詳細 (プロジェクト名と説明) を編集できません。

3.6.2. データサイエンスプロジェクトへのアクセス共有

組織が共同作業できるようにするために、データサイエンスプロジェクトへのアクセスを他のユーザーやグループと共有できます。

前提条件

  • Red Hat OpenShift AI にログインしている。
  • 特殊な OpenShift AI グループを使用している場合は、OpenShift のユーザーグループ、または、管理者グループ (rhoai-usersrhoai-admins など) に属している。
  • データサイエンスプロジェクトを作成している。

手順

  1. OpenShift AI ダッシュボードから、Data Science Projects をクリックします。

    Data science projects のページが開きます。

  2. データサイエンスプロジェクトのリストから、アクセスを共有するデータサイエンスプロジェクトの名前をクリックします。

    プロジェクトの詳細ページが開きます。

  3. Permissions タブをクリックします。

    プロジェクトの Permissions ページが開きます。

  4. 1 人以上のユーザーにプロジェクトへのアクセス権を付与します。

    1. Users セクションで、Add plan をクリックします。
    2. Name フィールドに、プロジェクトへのアクセスを許可するユーザーのユーザー名を入力します。
    3. Permissions リストから、次のいずれかのアクセス権限レベルを選択します。

      • 管理者: このアクセスレベルを持つユーザーは、プロジェクトの詳細を編集し、プロジェクトへのアクセスを管理できます。
      • 編集: このアクセスレベルを持つユーザーは、ワークベンチ、データ接続、ストレージなどのプロジェクトコンポーネントを表示および編集できます。
    4. 入力内容を確認するには、Confirm ( The Confirm icon ) をクリックします。
    5. オプション: さらにユーザーを追加するには、Add user をクリックしてプロセスを繰り返します。
  5. 1 つ以上の OpenShift グループにプロジェクトへのアクセスを提供します。

    1. Groups セクションで、Add group をクリックします。
    2. Name リストから、プロジェクトへのアクセスを提供するグループを選択します。

      注記

      cluster-admin 権限または dedicated-admin 権限がない場合は、名前 リストが表示されません。代わりに、グループ権限を設定できる入力フィールドが表示されます。

    3. Permissions リストから、次のいずれかのアクセス権限レベルを選択します。

      • 管理者: このアクセス許可レベルを持つグループは、プロジェクトの詳細を編集し、プロジェクトへのアクセスを管理できます。
      • 編集: このアクセス許可レベルを持つグループは、ワークベンチ、データ接続、ストレージなどのプロジェクトコンポーネントを表示および編集できます。
    4. 入力内容を確認するには、Confirm ( The Confirm icon ) をクリックします。
    5. オプション: さらにグループを追加するには、グループの追加 をクリックしてプロセスを繰り返します。

検証

  • プロジェクトへのアクセスを許可されたユーザーは、アクセス許可レベルで許可されたアクションのみを実行できます。
  • Permissions タブの UsersGroups セクションには、プロジェクトへのアクセス権を付与したそれぞれのユーザーとグループが表示されます。

3.6.3. データサイエンスプロジェクトへのアクセスの更新

データサイエンスプロジェクトのコラボレーションのレベルを変更するには、プロジェクトにアクセスできるユーザーとグループのアクセス権限を更新します。

前提条件

  • Red Hat OpenShift AI にログインしている。
  • 特殊な OpenShift AI グループを使用している場合は、OpenShift のユーザーグループ、または、管理者グループ (rhoai-usersrhoai-admins など) に属している。
  • データサイエンスプロジェクトを作成している。
  • 以前にプロジェクトへのアクセスを他のユーザーまたはグループと共有している。
  • 管理者権限を持っているか、プロジェクト所有者である。

手順

  1. OpenShift AI ダッシュボードから、Data Science Projects をクリックします。

    Data science projects のページが開きます。

  2. アクセス権限を変更するプロジェクト名をクリックします。

    プロジェクトの詳細ページが開きます。

  3. Permissions タブをクリックします。

    プロジェクトの Permissions ページが開きます。

  4. プロジェクトに対するユーザーのアクセス権限を更新します。

    1. Name フィールドで、プロジェクトへのアクセスを許可するユーザーのユーザー名を更新します。
    2. Permissions リストから、次のいずれかを選択してユーザーのアクセス権限を更新します。

      • 管理者: このアクセスレベルを持つユーザーは、プロジェクトの詳細を編集し、プロジェクトへのアクセスを管理できます。
      • 編集: このアクセスレベルを持つユーザーは、ワークベンチ、データ接続、ストレージなどのプロジェクトコンポーネントを表示および編集できます。
    3. エントリーの更新を確認するには、Confirm ( The Confirm icon ) をクリックします。
  5. プロジェクトへの OpenShift グループのアクセス権限を更新します。

    1. Name リストから別のグループを選択して、プロジェクトにアクセスできるグループを更新します。

      注記

      cluster-admin 権限または dedicated-admin 権限がない場合は、名前 リストが表示されません。代わりに、グループ権限を設定できる入力フィールドが表示されます。

    2. Permissions リストから、次のいずれかを選択してグループのアクセス権限を更新します。

      • 管理者: このアクセス許可レベルを持つグループは、プロジェクトの詳細を編集し、プロジェクトへのアクセスを管理できます。
      • 編集: このアクセス許可レベルを持つグループは、ワークベンチ、データ接続、ストレージなどのプロジェクトコンポーネントを表示および編集できます。
    3. エントリーの更新を確認するには、Confirm ( The Confirm icon ) をクリックします。

検証

  • Permissions タブの UsersGroups セクションには、プロジェクトのアクセス権限を変更したそれぞれのユーザーとグループが表示されます。

3.6.4. データサイエンスプロジェクトへのアクセスの削除

データサイエンスプロジェクトで共同作業する必要がなくなった場合は、以前にプロジェクトへのアクセスを許可したユーザーとグループを削除することで、プロジェクトへのアクセスを制限できます。

前提条件

  • Red Hat OpenShift AI にログインしている。
  • 特殊な OpenShift AI グループを使用している場合は、OpenShift のユーザーグループ、または、管理者グループ (rhods-usersrhods-admins など) に属している。
  • データサイエンスプロジェクトを作成している。
  • 以前にプロジェクトへのアクセスを他のユーザーまたはグループと共有している。
  • 管理者権限を持っているか、プロジェクト所有者である。

手順

  1. OpenShift AI ダッシュボードから、Data Science Projects をクリックします。

    Data science projects のページが開きます。

  2. アクセス権限を変更するプロジェクト名をクリックします。

    プロジェクトの詳細ページが開きます。

  3. Permissions タブをクリックします。

    プロジェクトの Permissions ページが開きます。

  4. アクセス権限を取り消すユーザーまたはグループの横にあるアクションメニュー () をクリックし、Delete をクリックします。

検証

  • アクセスを取り消されたユーザーは、アクセス許可レベルで許可されていたアクションを実行できなくなります。

3.7. ノートブックサーバーにインストールされている Python パッケージの表示

ノートブックセルで pip ツールを実行して、ノートブックサーバーにインストールされている Python パッケージおよびパッケージのバージョンを確認できます。

前提条件

  • Jupyter にログインし、ノートブックを開いている。

手順

  1. ノートブックの新しいセルに、以下のコマンドを入力します。

    !pip list
  2. セルを実行します。

検証

  • 出力には、インストールされているすべての Python パッケージとそのバージョンがアルファベット順に表示されます。たとえば、Minimal イメージを使用してノートブックサーバーを作成した後すぐにこのコマンドを使用する場合に、表示される最初のパッケージは以下のようになります。

    Package                           Version
    --------------------------------- ----------
    aiohttp                           3.7.3
    alembic                           1.5.2
    appdirs                           1.4.4
    argo-workflows                    3.6.1
    argon2-cffi                       20.1.0
    async-generator                   1.10
    async-timeout                     3.0.1
    attrdict                          2.0.1
    attrs                             20.3.0
    backcall                          0.2.0

3.8. ノートブックサーバーへの Python パッケージのインストール

パッケージとバージョンを requirements.txt ファイルに追加し、ノートブックセルで pip install コマンドを実行すると、デフォルトのノートブックサーバーイメージには含まれない Python パッケージをインストールできます。

注記

パッケージを直接インストールすることもできますが、Red Hat は、requirements.txt ファイルを使用して、ファイルに記載されているパッケージを異なるノートブック間で簡単に再利用できるようにすることが推奨されます。さらに、requirements.txt ファイルを使用すると、S2I ビルドを使用してモデルをデプロイする場合にも役立ちます。

前提条件

  • Jupyter にログインし、ノートブックを開いている。

手順

  1. 以下の方法のいずれかを使用して、新規テキストファイルを作成します。

    • + をクリックして新規ランチャーを開き、Text file をクリックします。
    • FileNewText File の順にクリックします。
  2. テキストファイルの名前を requirements.txt に変更します。

    1. ファイルの名前を右クリックし、Rename Text をクリックします。Rename File ダイアログが開きます。
    2. New Name フィールドに requirements.txt を入力し、Rename をクリックします。
  3. Requirements.txt ファイルにインストールするパッケージを追加します。

    altair

    == (に等しい) 演算子を使用して、インストールするバージョンを指定できます。以下はその例です。

    altair==4.1.0
    注記

    Red Hat は、時間が経過してもノートブックサーバーの高い安定性を確保するために、正確なパッケージバージョンを指定することが推奨されます。新しいパッケージバージョンは、お使いの環境における動作に対し、望ましくない/予期しない変更を加える可能性があります。

    複数のパッケージを同時にインストールする場合は、各パッケージを別々の行に配置します。

  4. ノートブックセルを使用して、requirements.txt のパッケージをサーバーにインストールします。

    1. ノートブックに新しいセルを作成し、以下のコマンドを入力します。

      !pip install -r requirements.txt
    2. Shift と Enter を押してセルを実行します。
    重要

    このコマンドでは、ノートブックサーバーにパッケージがインストールされますが、コードセルで import ディレクティブを実行してコード内のパッケージを使用する必要があります。

    import altair

検証

3.9. サーバーの再起動によるノートブックサーバー設定の更新

ノートブックサーバーを停止して再起動することで、ノートブックサーバーの設定を更新できます。たとえば、サーバーのメモリーが不足する場合は、サーバーを再起動してコンテナーのサイズを大きくできます。

前提条件

  • 実行中のノートブックサーバー。
  • Jupyter にログインしている。

手順

  1. FileHub Control Panel をクリックします。

    Notebook server control panel が開きます。

  2. Stop notebook server ボタンをクリックします。

    Stop server ダイアログが開きます。

  3. Stop server をクリックして、決定内容を確認します。

    Start a notebook server ページが表示されます。

  4. 関連するノートブックサーバー設定を更新し、Start server をクリックします。

検証

  • ノートブックサーバーが起動し、更新された設定が含まれます。

第4章 データサイエンスパイプラインの使用

データサイエンティストは、Docker コンテナーを使用して、データサイエンスパイプラインを備えたポータブル機械学習 (ML) ワークフローを構築することで、OpenShift AI でデータサイエンスプロジェクトを強化できます。これにより、機械学習ワークフローを標準化および自動化し、データサイエンスモデルを開発およびデプロイできるようになります。

たとえば、機械学習ワークフローのステップには、データ抽出、データ処理、機能抽出、モデルトレーニング、モデル検証、モデルサービスなどの項目が含まれる場合があります。これらのアクティビティーを自動化すると、組織は新しく受信したデータに基づいてモデルを再トレーニングおよび更新する継続的なプロセスを開発できるようになります。これは、統合された機械学習デプロイメントの構築と実稼働環境の継続的な運用に関連する課題に対処するのに役立ちます。

Elyra JupyterLab 拡張機能を使用して、JupyterLab 内でデータサイエンスパイプラインを作成して実行することもできます。詳細は、JupyterLab でのパイプラインの操作 を参照してください。

OpenShift AI のデータサイエンスパイプラインは、KubeFlow Pipelines (KFP)バージョン 2.0 に基づいています。詳細は、Data Science Pipelines 2.0 の有効化 を参照してください。

OpenShift AI のデータサイエンスパイプラインは、次のコンポーネントで設定されます。

  • パイプラインサーバー: データサイエンスプロジェクトに接続され、データサイエンスパイプラインをホストするサーバー。
  • パイプライン: パイプラインは、機械学習ワークフローの設定と、ワークフロー内の各コンポーネント間の関係を定義します。

    • パイプラインコード:YAML ファイル内のパイプラインの定義。
    • パイプライングラフ: パイプライン実行で実行されるステップとステップ間の関係をグラフィカルに示したもの。
  • パイプラインの実行: パイプラインの実行

    • アクティブな実行:実行フェーズにあるパイプライン実行、または停止されている。
    • スケジュールされた実行: 少なくとも 1 回実行するようにスケジュールされたパイプライン実行
    • アーカイブされた実行:実行アーカイブに存在し、不要となったパイプライン実行。

この機能は Kubeflow Pipelines v1 に基づいています。最新の Kubeflow Pipelines 2.0 SDK を使用して、Python コードでデータサイエンスパイプラインを構築します。パイプラインを構築したら、SDK を使用して Intermediate Representation (IR) YAML ファイルにコンパイルします。OpenShift AI ユーザーインターフェイスを使用すると、パイプラインとパイプラインの実行を追跡および管理できます。バージョン管理を使用すると、OpenShift AI のパイプラインに対する増分変更を管理できます。これにより、パイプラインをイテレーティブに開発およびデプロイし、変更の記録を保存できます。

ローカルストレージを消費しないように、パイプラインアーティファクトを S3 互換オブジェクトストレージバケットに保存できます。これを行うには、はじめにストレージアカウントで S3 バケットへの書き込みアクセスを設定する必要があります。

4.1. データサイエンスパイプラインの実現

OpenShift AI のデータサイエンスパイプラインは、KubeFlow Pipelines (KFP)バージョン 2.0 に基づいています。DSP 2.0 はデフォルトで有効になっており、OpenShift AI にデプロイされます。

注記

PipelineConf クラスは非推奨となり、同等の KFP 2.0 はありません。

重要

Data Science Pipelines (DSP) 2.0 には、Argo Workflow のインストールが含まれています。OpenShift AI は、Argo Workflow のこのインストールにおけるお客様の直接の使用をサポートしていません。

DSP 2.0 を使用して OpenShift AI をインストールまたはアップグレードするには、クラスターに OpenShift AI によってインストールされていない Argo Workflows の既存のインストールがないことを確認します。

OpenShift AI によって作成された Argo Workflows リソースの argoproj.io グループの Administration > CustomResourceDefinitions の下の OpenShift コンソールには、次のラベルがあります。

 labels:
    app.kubernetes.io/part-of: data-science-pipelines-operator
    app.opendatahub.io/data-science-pipelines-operator: 'true'

4.1.1. DSP 2.0 を使用した OpenShift AI のインストール

DSP 2.0 を使用して OpenShift AI をインストールするには、クラスターに DSP によってインストールされていない Argo ワークフローがインストールされていないことを確認し、OpenShift AI Cloud Service のインストールとアンインストール で説明されているインストール手順に従います。

クラスターに DSP によってインストールされていない Argo ワークフローの既存のインストールがある場合、OpenShift AI のインストール後に DSP は無効になります。

データサイエンスパイプラインを有効にするには、クラスターから Argo Workflows の個別のインストールを削除します。Data Science Pipelines は自動的に有効になります。

4.1.2. DSP 2.0 へのアップグレード

重要

DSP 2.0 で OpenShift AI にアップグレードすると、DSP 1.0 で作成されたパイプラインは引き続き実行されますが、OpenShift AI ダッシュボードからはアクセスできなくなります。新しいパイプラインソリューションに移行する準備が整うまで、現在の DSP ユーザーは DSP 2.0 を使用する OpenShift AI にアップグレードしないことを推奨します。

DSP 2.0 にアップグレードするには、以下の手順に従います。

  1. クラスターに、OpenShift AI によってインストールされていない Argo Workflows の既存のインストールがないことを確認してから、OpenShift AI AI Cloud Service のアップグレード で説明されているアップグレード手順に従います。

    DSP 2.0 が有効な OpenShift AI にアップグレードし、クラスターの DSP によってインストールされていない Argo Workflows の既存のインストールがある場合、OpenShift AI コンポーネントはアップグレードされません。コンポーネントのアップグレードを完了するには、DSP を無効にするか、クラスターから Argo Workflow の個別のインストールを削除します。コンポーネントのアップグレードは自動的に完了します。

  2. ノートブックイメージバージョン 2024.1 以降を使用するようにワークベンチを更新します。詳細は、プロジェクトワークベンチの更新 を 参照してください。
  3. パイプラインを DSP 1.0 から 2.0 に手動で移行します。詳細は、Migrating pipelines from DSP 1.0 to 2.0 を 参照してください。

4.1.3. パイプラインの DSP 1.0 から 2.0 への移行

OpenShift AI は、既存の DSP 1.0 インスタンスを 2.0 に自動的に移行しません。DSP 2.0 で既存のパイプラインを使用するには、手動で移行する必要があります。

  1. DSP 2.0 を使用する OpenShift AI で、新しいデータサイエンスプロジェクトを作成します。
  2. 新規パイプラインサーバーを設定します。
  3. KFP SDK v1: v1 から v2 への移行手順、変更の破損 の説明に従って、DSP 1.0 パイプラインを更新し て再コンパイルします。

    DSP 2.0 does not use the `kfp-tekton` library. In most cases, you can replace usage of `kfp-tekton` with the `kfp` library.
  4. 更新されたパイプラインを新しい DSP 2.0 ベースのデータサイエンスプロジェクトにインポートします。
  5. (オプション)DSP 1.0 パイプラインサーバーを削除します。
重要

Data Science Pipelines 1.0 は kfp-tekton Python ライブラリーを使用していました。Data Science Pipelines 2.0 は kfp-tekton を使用しません。クラスターで使用されている残りの DSP 1.0 パイプラインサーバーがない場合は、kfp-tekton をアンインストールできます。

Data Science Pipelines 2.0 の場合は、KFP SDK の最新バージョンを使用します。詳細は、Kubeflow Pipelines SDK API Reference を参照してください。

4.1.4. DSP 1.0 パイプラインおよび履歴へのアクセス

過去の DSP 1.0 パイプライン実行情報は、OpenShift コンソールの Pipelines > Project > PipelineRuns で確認できます。

パイプラインおよびパイプライン実行履歴へのプログラムによるアクセスにプログラムによるアクセスに kfp-tekton SDK を使用して、引き続き KFP API サーバーに接続できます。詳細は、Kubeflow Pipelines SDK for Tekton を参照してください。

4.1.5. OpenShift Pipelines Operator のアンインストール

DSP 2.0 への移行が完了し、Data Science Pipelines 1.0 以外の目的で OpenShift パイプラインを使用していない場合は、OpenShift Pipelines Operator を削除できます。

重要

OpenShift Pipelines Operator を削除する前に、DSP 1.0 パイプラインの 2.0 への移行が完了し、クラスターで使用されている残りの DSP 1.0 パイプラインサーバーがないことを確認します。

4.2. データサイエンスパイプラインの管理

4.2.1. パイプラインサーバーの設定

OpenShift AI でパイプラインを正常に作成するには、パイプラインサーバーを設定する必要があります。これには、パイプラインアーティファクトとデータの保存場所の設定が含まれます。

注記

したがって、パイプラインサーバーのデータ接続を設定するときに、ストレージディレクトリーを指定する必要はありません。パイプラインをインポートすると、パイプラインの YAML ファイルを含む、バケットの ルート フォルダーに /pipelines フォルダーが作成されます。同じパイプラインの新しいバージョンをアップロードすると、別の ID を持つ新しい YAML ファイルが /pipelines フォルダーに追加されます。

パイプラインを実行すると、アーティファクトはバケットの ルート ディレクトリーの /pipeline-name フォルダーに保存されます。

重要

外部 MySQL データベースを使用し、DSP 2.0 で OpenShift AI にアップグレードした場合、データベースは DSP 2.0 形式に移行され、以前のバージョンの OpenShift AI と互換性がありません。

前提条件

  • Red Hat OpenShift AI にログインしている。
  • 特殊な OpenShift AI グループを使用している場合は、OpenShift のユーザーグループ、または、管理者グループ (rhods-usersrhods-admins など) に属している。
  • パイプラインサーバーを追加できるデータサイエンスプロジェクトが作成されている。
  • 既存の S3 互換オブジェクトストレージバケットがあり、ストレージアカウントに S3 バケットへの書き込みアクセスが設定されている。
  • 外部 MySQL データベースを使用してパイプラインサーバーを設定している場合、データベースは MySQL バージョン 5.x を使用する必要があります。

手順

  1. OpenShift AI ダッシュボードから、Data Science Projects をクリックします。

    Data science projects のページが開きます。

  2. パイプラインサーバーを設定するプロジェクトの名前をクリックします。

    プロジェクトの詳細ページが開きます。

  3. Pipelines タブをクリックします。
  4. Configure pipeline server をクリックします。

    Configure pipeline server ダイアログが表示されます。

  5. Object storage connection セクションで、必須フィールドに値を入力します。

    1. Access key フィールドに、S3 互換オブジェクトストレージプロバイダーのアクセスキー ID を入力します。
    2. Secret key フィールドに、指定した S3 互換オブジェクトストレージアカウントのシークレットアクセスキーを入力します。
    3. Endpoint フィールドに、S3 互換オブジェクトストレージバケットのエンドポイントを入力します。
    4. Region フィールドに、S3 互換オブジェクトストレージアカウントのデフォルトのリージョンを入力します。
    5. Bucket フィールドに、S3 互換オブジェクトストレージバケットの名前を入力します。

      重要

      間違ったデータ接続設定を指定した場合は、同じパイプラインサーバー上でこれらの設定を更新できません。したがって、パイプラインサーバーを削除し、別のパイプラインサーバーを設定する必要があります。

  6. Database セクションで、Show advanced database options をクリックしてパイプラインデータを保存するデータベースを指定し、次の一連のアクションのいずれかを選択します。

    • プロジェクトに MariaDB データベースをデプロイするには、Use default database stored on your cluster を選択します。
    • Connect to external MySQL database を選択して、パイプラインサーバーがアクセスできる外部データベースに新しい接続を追加します。

      1. Host フィールドにデータベースのホスト名を入力します。
      2. Port フィールドにデータベースのポートを入力します。
      3. Username フィールドに、データベースに接続するデフォルトのユーザー名を入力します。
      4. Password フィールドに、デフォルトのユーザーアカウントのパスワードを入力します。
      5. Database フィールドにデータベース名を入力します。
  7. Configure pipeline server をクリックします。

検証

プロジェクトの Pipelines タブで、以下を実行します。

  • Import pipeline ボタンを使用できる。
  • アクションメニュー()をクリックしてから View pipeline server configuration をクリックすると、パイプラインサーバーの詳細が表示されます。

4.2.2. パイプラインの定義

Kubeflow Pipelines SDK を使用すると、エンドツーエンドの機械学習とデータパイプラインを定義できます。最新の Kubeflow Pipelines 2.0 SDK を使用して、Python コードでデータサイエンスパイプラインを構築します。パイプラインを構築したら、SDK を使用して Intermediate Representation (IR) YAML ファイルにコンパイルします。パイプラインを定義した後、YAML ファイルを OpenShift AI ダッシュボードにインポートして、その実行設定を設定できるようにします。

Elyra JupyterLab 拡張機能を使用して、JupyterLab 内でデータサイエンスパイプラインを作成して実行することもできます。JupyterLab でのパイプラインの作成に関する詳細は、JupyterLab でのパイプラインの使用 を参照してください。Elyra JupyterLab 拡張機能の詳細は、Elyra ドキュメンテーション を参照してください。

4.2.3. データサイエンスパイプラインのインポート

OpenShift AI でデータサイエンスパイプラインの操作を開始できるように、パイプラインのコードを含む YAML ファイルをアクティブなパイプラインサーバーにインポートするか、URL から YAML ファイルをインポートできます。このファイルには、Kubeflow コンパイラーを使用してコンパイルされた Kubeflow パイプラインが含まれています。パイプラインをパイプラインサーバーにインポートしたら、パイプライン実行を作成してパイプラインを実行できます。

前提条件

  • Red Hat OpenShift AI にログインしている。
  • 特殊な OpenShift AI グループを使用している場合は、OpenShift のユーザーグループ、または、管理者グループ (rhods-usersrhods-admins など) に属している。
  • 設定されたパイプラインサーバーを含む利用可能なデータサイエンスプロジェクトを作成している。
  • Kubeflow コンパイラーでパイプラインをコンパイルし、結果の YAML ファイルにアクセスできる。
  • URL からパイプラインをアップロードする場合、URL はパブリックにアクセスできます。

手順

  1. OpenShift AI ダッシュボードから、Data Science PipelinesPipelines をクリックします。
  2. Pipelines ページで、パイプラインをインポートする プロジェクト を選択します。
  3. Import pipeline をクリックします。
  4. Import pipeline ダイアログで、インポートするパイプラインの詳細を入力します。

    1. Pipeline name フィールドに、インポートするパイプラインの名前を入力します。
    2. Pipeline description フィールドに、インポートするパイプラインの説明を入力します。
    3. 以下のアクションのいずれかを実行して、パイプラインのインポート元の場所を選択します。

      • Upload a file を選択して、ローカルマシンのファイルシステムからパイプラインをアップロードします。upload をクリックするか、ファイルをドラッグアンドドロップしてパイプラインをインポートします。
      • Import by url を選択してパイプラインを URL からアップロードし、テキストボックスに URL を入力します。
    4. Import pipeline をクリックします。

検証

  • インポートしたパイプラインは、Pipelines ページと、Project details ページの Pipelines タブに表示されます。

4.2.4. データサイエンスパイプラインのダウンロード

以前に OpenShift AI にアップロードしたデータサイエンスパイプラインにさらに変更を加えるには、ユーザーインターフェイスからパイプラインのコードをダウンロードできます。

前提条件

  • OpenShift Pipelines Operator がインストールされている。
  • Red Hat OpenShift AI にログインしている。
  • 特殊な OpenShift AI グループを使用している場合は、OpenShift のユーザーグループ、または、管理者グループ (rhoai-usersrhoai-admins など) に属している。
  • 設定されたパイプラインサーバーを含む利用可能なデータサイエンスプロジェクトを作成している。
  • パイプラインを作成し、ダウンロードできるアクティブなパイプラインサーバーにインポートしている。

手順

  1. OpenShift AI ダッシュボードから、Data Science PipelinesPipelines をクリックします。

    Pipelines ページが開きます。

  2. Project リストから、パイプラインをダウンロードするプロジェクトを選択します。
  3. Pipeline name 列で、ダウンロードするパイプラインの名前をクリックします。

    Pipeline details ページが開き、Graph タブが表示されます。

  4. YAML タブをクリックします。

    ページがリロードされ、パイプラインコードを示す埋め込み YAML エディターが表示されます。

  5. Download ボタン ( rhoai download icon ) をクリックして、パイプラインのコードを含む YAML ファイルをローカルマシンにダウンロードします。

検証

  • パイプラインコードは、ブラウザーのダウンロードファイル用のデフォルトディレクトリーにダウンロードされます。

4.2.5. データサイエンスパイプラインの削除

ダッシュボード上のデータサイエンスパイプラインへのアクセスが必要なくなった場合は、これを削除して、Data Science Pipelines ページに表示されないことができます。

前提条件

  • Red Hat OpenShift AI にログインしている。
  • 特殊な OpenShift AI グループを使用している場合は、OpenShift のユーザーグループ、または、管理者グループ (rhoai-usersrhoai-admins など) に属している。
  • Pipelines ページにアクティブなパイプラインが表示される。
  • 削除するパイプラインには、パイプラインバージョンが含まれていません。
  • 削除するパイプラインには、パイプラインバージョンが含まれていません。詳細は、パイプラインサーバーの削除 を参照してください。

手順

  1. OpenShift AI ダッシュボードから、Data Science PipelinesPipelines をクリックします。
  2. Pipelines ページで、Project リストから削除するパイプラインを含むプロジェクトを選択します。
  3. 削除するパイプラインの横にあるアクションメニュー () をクリックし、Delete pipeline の削除をクリックします。
  4. Delete pipeline ダイアログでテキストフィールドにパイプライン名を入力して、削除することを確認します。
  5. Delete pipeline をクリックします。

検証

  • 削除したデータサイエンスパイプラインは、Pipelines ページに表示されなくなります。

4.2.6. パイプラインサーバーの削除

データサイエンスパイプラインの実行が終了したら、パイプラインサーバーを削除できます。パイプラインサーバーを削除すると、関連付けられているパイプライン、パイプラインバージョン、および実行がすべて自動的に削除されます。パイプラインデータがデータベースに保存されている場合は、データベースもそのメタデータとともに削除されます。さらに、パイプラインサーバーを削除した後は、別のパイプラインサーバーを作成するまで、新しいパイプラインを作成したり、パイプラインを実行したりできません。

前提条件

  • Red Hat OpenShift AI にログインしている。
  • 特殊な OpenShift AI グループを使用している場合は、OpenShift のユーザーグループ、または、管理者グループ (rhoai-usersrhoai-admins など) に属している。
  • パイプラインサーバーを含む利用可能なデータサイエンスプロジェクトを作成している。

手順

  1. OpenShift AI ダッシュボードから、Data Science PipelinesPipelines をクリックします。
  2. Pipelines ページで、削除するパイプラインサーバーの プロジェクト を選択します。
  3. Pipeline server actions リストから、Delete pipeline server を選択します。
  4. Delete pipeline server ダイアログで、パイプラインサーバーの名前をテキストフィールドに入力し、削除することを確認します。
  5. Delete をクリックします。

検証

  • 削除されたパイプラインサーバーに以前に割り当てられていたパイプラインは、関連するデータサイエンスプロジェクトの Pipelines ページに表示されなくなります。
  • 削除されたパイプラインサーバーに以前に割り当てられていたパイプライン実行は、関連するデータサイエンスプロジェクトの Runs ページに表示されなくなります。

4.2.7. パイプラインサーバーの詳細の表示

パイプラインのデータ接続の詳細やそのデータの保存場所など、OpenShift AI で設定されたパイプラインサーバーの詳細を表示できます。

前提条件

  • Red Hat OpenShift AI にログインしている。
  • 以前に、アクティブで使用可能なパイプラインサーバーを含むデータサイエンスプロジェクトを作成している。
  • 特殊な OpenShift AI グループを使用している場合は、OpenShift のユーザーグループ、または、管理者グループ (rhoai-usersrhoai-admins など) に属している。

手順

  1. OpenShift AI ダッシュボードから、Data Science PipelinesPipelines をクリックします。
  2. Pipelines ページが開き、パイプラインサーバーを表示する プロジェクト を選択します。
  3. Pipeline server actions リストから、View pipeline server configuration を選択します。

検証

  • View pipeline server ダイアログで、関連するパイプラインサーバーの詳細を表示できます。

4.2.8. 既存のパイプラインの表示

Red Hat OpenShift AI にインポートしたパイプラインの詳細(パイプラインの最後の実行、作成日、パイプラインの実行済み実行、関連するパイプラインバージョンの詳細など)を表示できます。

前提条件

  • Red Hat OpenShift AI にログインしている。
  • 特殊な OpenShift AI グループを使用している場合は、OpenShift のユーザーグループ、または、管理者グループ (rhoai-usersrhoai-admins など) に属している。
  • パイプラインサーバーを含む利用可能なデータサイエンスプロジェクトを作成している。
  • パイプラインをアクティブなパイプラインサーバーにインポートしている。
  • 既存のパイプラインが利用可能である。

手順

  1. OpenShift AI ダッシュボードから、Data Science PipelinesPipelines をクリックします。
  2. Pipelines ページで、表示するパイプラインに関連する プロジェクト を選択します。
  3. リストにあるパイプラインを調べてください。
  4. オプション:関連する行の Expand ( rhoai expand icon )をクリックし、パイプラインに関連付けられたパイプラインバージョンの詳細を表示します。

検証

  • 以前に作成したデータサイエンスパイプラインのリストが Pipelines ページに表示されます。

4.2.9. パイプラインのバージョンの概要

バージョン管理を使用すると、OpenShift AI のパイプラインに対する増分変更を管理できます。これにより、パイプラインをイテレーティブに開発およびデプロイし、変更の記録を保存できます。OpenShift AI ダッシュボードで変更を追跡および管理できるため、パイプラインの利用可能なすべてのバージョンに対して実行をスケジュールして実行できます。

4.2.10. パイプラインバージョンのアップロード

YAML ファイルは、パイプラインの最新バージョンを含むアクティブなパイプラインサーバーにアップロードしたり、URL から YAML ファイルをアップロードしたりできます。YAML ファイルは、Kubeflow コンパイラーを使用してコンパイルされた Kubeflow パイプラインで設定される必要があります。パイプラインバージョンをパイプラインサーバーにアップロードした後、パイプライン実行を作成することでそのバージョンを実行できます。

前提条件

  • Red Hat OpenShift AI にログインしている。
  • 特殊な OpenShift AI グループを使用している場合は、OpenShift のユーザーグループ、または、管理者グループ (rhods-usersrhods-admins など) に属している。
  • 設定されたパイプラインサーバーを含む利用可能なデータサイエンスプロジェクトを作成している。
  • 利用可能なパイプラインバージョンがあり、アップロードする準備ができている。
  • URL からパイプラインバージョンをアップロードしている場合、URL はパブリックにアクセスできます。

手順

  1. OpenShift AI ダッシュボードから、Data Science PipelinesPipelines をクリックします。
  2. Pipelines ページで、パイプラインバージョンをアップロードする プロジェクト を選択します。
  3. Import pipeline ドロップダウンリストをクリックし、Upload new version を選択します。
  4. Upload new version ダイアログで、アップロードするパイプラインバージョンの詳細を入力します。

    1. Pipeline リストから、パイプラインバージョンをアップロードするパイプラインを選択します。
    2. Pipeline version name フィールドでパイプラインバージョンの名前を確認し、必要に応じて名前を変更します。
    3. Pipeline version description フィールドに、パイプラインバージョンの説明を入力します。
    4. 以下のアクションのいずれかを実行して、パイプラインバージョンをアップロードする場所を選択します。

      • Upload a file を選択して、ローカルマシンのファイルシステムからパイプラインバージョンをアップロードします。upload をクリックするか、ファイルをドラッグアンドドロップしてパイプラインバージョンをインポートします。
      • Import by url を選択してパイプラインバージョンを URL からアップロードし、テキストボックスに URL を入力します。
    5. Upload をクリックします。

検証

  • アップロードしたパイプラインのバージョンが Pipelines ページに表示されます。パイプラインを含む行の Expand ( rhoai expand icon ) をクリックすると、そのバージョンが表示されます。
  • Pipelines ページにアップロードしたパイプラインバージョンを含む行の Version 列により、1 ずつ増えます。

4.2.11. パイプラインバージョンの削除

パイプラインの特定のバージョンが必要なくなった場合は、削除できます。デフォルトのパイプラインバージョンを削除すると、デフォルトのパイプラインバージョンが 2 番目に最新のバージョンに自動的に変更されます。パイプラインバージョンが存在しない場合、パイプラインはデフォルトのバージョンなしで保持されます。

前提条件

  • Red Hat OpenShift AI にログインしている。
  • 特殊な OpenShift AI グループを使用している場合は、OpenShift のユーザーグループ、または、管理者グループ (rhoai-usersrhoai-admins など) に属している。
  • パイプラインサーバーを含む利用可能なデータサイエンスプロジェクトを作成している。
  • パイプラインをアクティブなパイプラインサーバーにインポートしている。

手順

  1. OpenShift AI ダッシュボードから、Data Science PipelinesPipelines をクリックします。

    Pipelines ページが開きます。

  2. 不要になったパイプラインのバージョンを削除します。

    • 単一のパイプラインバージョンを削除するには、以下を実行します。

      1. Project リストから、削除するパイプラインのバージョンを含むプロジェクトを選択します。
      2. パイプラインを含む行の Expand ( rhoai expand icon ) をクリックします。
      3. 削除するプロジェクトバージョンの横にあるアクションメニュー()をクリックし、Delete pipeline version をクリックします。

        Delete pipeline version ダイアログが開きます。

      4. パイプラインバージョンの名前をテキストフィールドに入力して、削除することを確認します。
      5. Delete をクリックします。
    • 複数のパイプラインバージョンを削除するには、以下を実行します。

      1. 削除するパイプラインバージョンを含む行のチェックボックスをオンにします。
      2. Import pipeline ドロップダウンの横にあるアクションメニュー (⋮) をクリックし、リストから Delete selected を選択します。

検証

  • 削除したパイプラインバージョンは、Pipelines ページまたはデータサイエンスプロジェクトの Pipelines タブに表示されなくなった。

4.2.12. パイプラインバージョンの表示

Pipelines ページでパイプラインのすべてのバージョンを表示できます。

前提条件

  • OpenShift Pipelines Operator がインストールされている。
  • Red Hat OpenShift AI にログインしている。
  • 特殊な OpenShift AI グループを使用している場合は、OpenShift のユーザーグループ、または、管理者グループ (rhoai-usersrhoai-admins など) に属している。
  • パイプラインサーバーを含む利用可能なデータサイエンスプロジェクトを作成している。
  • アクティブで使用可能なパイプラインサーバーにパイプラインが存在する。

手順

  1. OpenShift AI ダッシュボードから、Data Science PipelinesPipelines をクリックします。

    Pipelines ページが開きます。

  2. Project リストから、表示するパイプラインバージョンを含むプロジェクトを選択します。
  3. バージョンを表示するパイプラインを含む行の Expand ( rhoai expand icon ) をクリックします。

検証

  • パイプラインのバージョンは、Pipelines ページで確認できます。

4.2.13. パイプラインバージョンの詳細の表示

Red Hat OpenShift AI にアップロードしたパイプラインバージョンの詳細 (グラフや YAML コードなど) を表示できます。

前提条件

  • Red Hat OpenShift AI にログインしている。
  • 特殊な OpenShift AI グループを使用している場合は、OpenShift のユーザーグループ、または、管理者グループ (rhoai-usersrhoai-admins など) に属している。
  • パイプラインサーバーを含む利用可能なデータサイエンスプロジェクトを作成している。
  • アクティブで使用可能なパイプラインサーバーにパイプラインが存在する。

手順

  1. OpenShift AI ダッシュボードから、Data Science PipelinesPipelines をクリックします。

    Pipelines ページが開きます。

  2. Project リストから、詳細を表示するパイプラインバージョンを含むプロジェクトを選択します。
  3. バージョンを表示するパイプラインを含む行の Expand ( rhoai expand icon ) をクリックします。
  4. 詳細を表示するパイプラインバージョンをクリックします。

    Pipeline details ページが開き、Graph タブと YAML タブが表示されます。

検証

  • Pipeline details ページで、パイプライングラフと YAML コードを表示できます。

4.3. パイプライン実行の管理

4.3.1. パイプライン実行の概要

パイプラインの実行は、データサイエンスパイプラインの 1 回の実行です。データサイエンティストは、OpenShift AI を使用して、データサイエンスパイプラインの実行を定義、管理、追跡できます。OpenShift AI ユーザーインターフェイスの Runs ページから、以前に実行されたもの、スケジュール済み、およびアーカイブされた実行の記録を表示できます。

移植性のためにパイプライン実行の使用を最適化できます。パイプライン実行のクローンを作成して、必要に応じて再現してスケーリングしたり、実行の記録を保持する場合にアーカイブしたりできます。保持したくないアーカイブされた実行を削除したり、以前の状態に復元したりできます。

実行は 1 回、つまり、作成直後に実行することも、定期的な実行で実行することもできます。定期的な実行は、すべてのパラメーター値を含むパイプラインのコピーと実行トリガーで設定されます。実行トリガーは、定期的な実行のタイミングを示します。次の実行トリガーを定義できます。

  • 定期的: 一定の間隔で実行するようにスケジュールを設定するために使用されます。
  • Cron: cron ジョブとして実行をスケジュールするために使用されます。

1 - 10 の範囲から同時に実行するように、同じ実行のインスタンスを複数設定することもできます。実行すると、OpenShift AI ユーザーインターフェイスの実行の Details ページから実行の進行状況を追跡できます。ここから、実行のグラフと出力アーティファクトを表示できます。パイプライン実行は、以下のいずれかの状態になります。

  • スケジュールされた実行: 少なくとも 1 回実行するようにスケジュールされたパイプライン実行
  • アクティブな実行:実行フェーズにあるパイプライン実行、または停止されている。
  • アーカイブされた実行:実行アーカイブに存在し、不要となったパイプライン実行。

catch run を使用すると、パイプライン実行が一時停止時にスケジュールに永続的に遅れないようにできます。たとえば、一時停止された定期的な実行を再度有効にすると、run scheduler は失敗した実行間隔ごとにバックフィルします。キャッチ実行を無効にし、実行間隔をスケジュールしている場合、実行スケジューラーは実行間隔を最新の実行間隔でのみスケジュールします。キャッチアップ実行はデフォルトで有効になっています。ただし、パイプラインがバックフィルを内部で処理する場合、Red Hat では、重複したバックフィルを回避するためにキャッチアップを無効にすることを推奨します。

アクティブなパイプライン実行で、各ステップのログを確認し、分析できます。ログビューアーを使用すると、特定のログメッセージを検索し、各ステップのログを表示し、ステップログをローカルマシンにダウンロードできます。

4.3.2. アクティブなパイプライン実行の表示

OpenShift AI で以前に実行されたパイプライン実行のリストを表示できます。このリストから、実行が属するパイプラインバージョン、実行ステータス、期間、実行開始時間など、パイプライン実行に関連する詳細を表示できます。

前提条件

  • Red Hat OpenShift AI にログインしている。
  • 特殊な OpenShift AI グループを使用している場合は、OpenShift のユーザーグループ、または、管理者グループ (rhods-usersrhods-admins など) に属している。
  • パイプラインサーバーを含む利用可能なデータサイエンスプロジェクトを作成している。
  • パイプラインをアクティブなパイプラインサーバーにインポートしている。
  • 以前にパイプライン実行を実行している。

手順

  1. OpenShift AI ダッシュボードから、Data Science PipelinesRuns をクリックします。
  2. Runs ページで、表示するアクティブなパイプライン実行の プロジェクト を選択します。
  3. Run details ページで、Active タブをクリックします。

    実行が完了すると、表の Status 列に実行のステータスが表示され、実行が成功したか失敗したかが示されます。

検証

  • アクティブな実行のリストが、Runs ページの Active タブに表示されます。

4.3.3. パイプライン実行

作成直後に実行されるアクティブなパイプライン実行を作成することにより、パイプラインの単一の実行をインスタンス化できます。

前提条件

  • Red Hat OpenShift AI にログインしている。
  • 特殊な OpenShift AI グループを使用している場合は、OpenShift のユーザーグループ、または、管理者グループ (rhoai-usersrhoai-admins など) に属している。
  • 設定されたパイプラインサーバーを含む利用可能なデータサイエンスプロジェクトを作成している。
  • パイプラインをアクティブなパイプラインサーバーにインポートしている。

手順

  1. OpenShift AI ダッシュボードから、Data Science PipelinesRuns をクリックします。
  2. Runs ページで、実行を作成する プロジェクト を選択します。
  3. Create run をクリックします。
  4. Create run ページで、実行を設定します。

    1. Name フィールドには、実行の名前を入力します。
    2. Description フィールドには、実行の説明を入力します。
    3. Pipeline リストから、実行を作成するパイプラインを選択します。または、新しいパイプラインを作成するには、Create new pipeline をクリックし、Import pipeline ダイアログの関連フィールドに値を入力します。
    4. Pipeline version リストから、実行を作成するパイプラインバージョンを選択します。または、新しいバージョンをアップロードするには、Upload new version をクリックし、Upload new version ダイアログの関連フィールドに入力します。
    5. リストからパラメーターを選択して、実行の入力パラメーターを設定します。
    6. Create run をクリックします。

検証

  • 作成したパイプライン実行は、Runs ページの Active タブに表示されます。

4.3.4. アクティブなパイプライン実行の停止

トリガーされたパイプライン実行の継続が必要なくなった場合は、定義された終了日の前に実行を停止できます。

前提条件

  • Red Hat OpenShift AI にログインしている。
  • 特殊な OpenShift AI グループを使用している場合は、OpenShift のユーザーグループ、または、管理者グループ (rhoai-usersrhoai-admins など) に属している。
  • パイプラインサーバーを含む、以前に作成されたデータサイエンスプロジェクトが利用できるようになっている。
  • パイプラインをアクティブなパイプラインサーバーにインポートしている。
  • アクティブなパイプライン実行が現在実行されています。

手順

  1. OpenShift AI ダッシュボードから、Data Science PipelinesRuns をクリックします。
  2. Runs ページで、アクティブ実行を停止するパイプラインを含む プロジェクト を選択します。
  3. Active タブで、削除するアクティブな実行の横にあるアクションメニュー()をクリックし、Stop をクリックします。

    実行が停止するまでに短い遅延が発生する可能性があります。

検証

  • アクティブな実行のリストでは、実行のステータスは stopped になります。

4.3.5. アクティブなパイプライン実行の複製

同じ設定でパイプライン実行を迅速に実行しやすくするために、それらを複製できます。

前提条件

  • Red Hat OpenShift AI にログインしている。
  • 特殊な OpenShift AI グループを使用している場合は、OpenShift のユーザーグループ、または、管理者グループ (rhoai-usersrhoai-admins など) に属している。
  • 設定されたパイプラインサーバーを含む利用可能なデータサイエンスプロジェクトを作成している。
  • パイプラインをアクティブなパイプラインサーバーにインポートしている。
  • アクティブな実行は、Runs ページの Active タブで複製できます。

手順

  1. OpenShift AI ダッシュボードから、Data Science PipelinesRuns をクリックします。
  2. Runs ページで、複製するパイプライン実行のある プロジェクト を選択します。
  3. 関連するアクティブな実行の横にあるアクションメニュー()をクリックし、Duplicate をクリックします。
  4. Duplicate run ページで、重複した実行を設定します。

    1. Name フィールドに、重複する実行の名前を入力します。
    2. Description フィールドには、重複した実行の説明を入力します。
    3. Pipeline リストから、重複した実行を含むパイプラインを選択します。
    4. Pipeline version リストから、重複した実行を含むパイプラインのバージョンを選択します。
    5. Parameters セクションで、リストから適切なパラメーターを選択して、クローンを作成する実行の入力パラメーターを設定します。
    6. Create run をクリックします。

検証

  • 重複するパイプライン実行は、Runs ページの Active タブに表示されます。

4.3.6. スケジュールされたパイプライン実行の表示

OpenShift AI で実行がスケジュールされているパイプライン実行のリストを表示できます。このリストから、実行が属するパイプラインのバージョンなど、パイプライン実行に関連する詳細を表示できます。実行ステータス、実行頻度、スケジュールを表示することもできます。

前提条件

  • Red Hat OpenShift AI にログインしている。
  • 特殊な OpenShift AI グループを使用している場合は、OpenShift のユーザーグループ、または、管理者グループ (rhods-usersrhods-admins など) に属している。
  • パイプラインサーバーを含む利用可能なデータサイエンスプロジェクトを作成している。
  • パイプラインをアクティブなパイプラインサーバーにインポートしている。
  • 表示可能なパイプライン実行をスケジュールしている。

手順

  1. OpenShift AI ダッシュボードから、Data Science PipelinesRuns をクリックします。

    Runs ページが開きます。

  2. Project リストから、スケジュールされたパイプライン実行を表示するプロジェクトを選択します。
  3. Schedules タブをクリックします。
  4. スケジュールされた実行のリストを示す表を調べてください。

    実行がスケジュールされると、実行のステータスは実行の準備ができているか、実行できないかを示します。実行の可用性を変更するには、実行の ステータス アイコンをクリックします。

検証

  • スケジュールされた実行のリストは、Runs ページの Schedules タブに表示されます。

4.3.7. cron ジョブを使用してパイプライン実行をスケジュールする

cron ジョブを使用して、パイプライン実行を特定の時間に実行するようにスケジュールできます。Cron ジョブは、定期的なタスクや繰り返しのタスクを作成する場合に便利です。また、アクティビティーが少ない期間に実行をスケジュールする場合など、特定の時間に個々のタスクをスケジュールすることもできます。OpenShift AI で正常に実行するには、サポートされている形式を使用する必要があります。詳細は、Cron 式の形式 を参照してください。

次の例は正しい形式を示しています。

実行頻度Cron 形式

5 分ごと

@every 5m

10 分ごと

0 */10 * * * *

毎日 16:16 UTC

0 16 16 * * *

毎日 15 分ごと

0 0,15,30,45 * * * *

月曜日と火曜日の 15:40 UTC

0 40 15 * * MON,TUE

関連情報

4.3.8. パイプライン実行のスケジュール設定

パイプラインを繰り返し実行するには、スケジュールされたパイプライン実行を作成できます。

前提条件

  • Red Hat OpenShift AI にログインしている。
  • 特殊な OpenShift AI グループを使用している場合は、OpenShift のユーザーグループ、または、管理者グループ (rhoai-usersrhoai-admins など) に属している。
  • 設定されたパイプラインサーバーを含む利用可能なデータサイエンスプロジェクトを作成している。
  • パイプラインをアクティブなパイプラインサーバーにインポートしている。

手順

  1. OpenShift AI ダッシュボードから、Data Science PipelinesRuns をクリックします。

    Runs ページが開きます。

  2. Project リストから、実行をスケジュールするプロジェクトを選択します。
  3. Schedules タブをクリックします。
  4. Schedule run をクリックします。
  5. Schedule run ページで、スケジューリングする実行を設定します。

    1. Name フィールドには、実行の名前を入力します。
    2. Description フィールドには、実行の説明を入力します。
    3. Trigger type リストから、次のいずれかのオプションを選択します。

      • Periodic を選択して実行頻度を指定します。Run every フィールドに数値を入力し、一覧から実行頻度を選択します。
      • cron 形式で実行スケジュールを指定するには、Cron を選択します。これにより、実行用の cron ジョブが作成されます。Copy ボタン () をクリックして、cron ジョブスケジュールをクリップボードにコピーします。一番左のフィールドは秒を表します。サポートされている cron 形式を使用したタスクのスケジュールの詳細は、Cron Expression Format を参照してください。
    4. Maximum concurrent runs フィールドに、1 から 10 の範囲から同時に実行できる実行の数を指定します。
    5. Start date には、実行の開始日を指定します。Calendar を使用して開始日を選択し、時間のリストから開始時間を選択します。
    6. End date には、実行の終了日を指定します。Calendar を使用して終了日を選択し、時間のリストから終了時刻を選択します。
    7. Catch up の場合は、キャッチアップ実行を有効または無効にします。catch run を使用すると、パイプライン実行が一時停止時にスケジュールに永続的に遅れないようにできます。たとえば、一時停止された定期的な実行を再度有効にすると、run scheduler は失敗した実行間隔ごとにバックフィルします。
    8. Pipeline リストから、実行を作成するパイプラインを選択します。または、新しいパイプラインを作成するには、Create new pipeline をクリックし、Import pipeline ダイアログの関連フィールドに値を入力します。
    9. Pipeline version リストから、実行を作成するパイプラインバージョンを選択します。または、新しいバージョンをアップロードするには、Upload new version をクリックし、Upload new version ダイアログの関連フィールドに入力します。
    10. リストからパラメーターを選択して、実行の入力パラメーターを設定します。
    11. Schedule run をクリックします。

検証

  • 作成したパイプライン実行は、Runs ページの Schedules タブに表示されます。

4.3.9. スケジュールされたパイプライン実行の複製

パイプライン設定の一部として実行するように実行をスケジュールしやすくするために、スケジュールされた既存の実行をクローンして複製できます。

前提条件

  • Red Hat OpenShift AI にログインしている。
  • 特殊な OpenShift AI グループを使用している場合は、OpenShift のユーザーグループ、または、管理者グループ (rhoai-usersrhoai-admins など) に属している。
  • 設定されたパイプラインサーバーを含む利用可能なデータサイエンスプロジェクトを作成している。
  • パイプラインをアクティブなパイプラインサーバーにインポートしている。
  • スケジュールされた実行は、Runs ページの Schedules タブで複製できます。

手順

  1. OpenShift AI ダッシュボードから、Data Science PipelinesRuns をクリックします。
  2. Runs ページで、複製するパイプライン実行のある プロジェクト を選択します。
  3. Schedules タブをクリックします。
  4. 複製する実行の横にあるアクションメニュー()をクリックし、Duplicate をクリックします。
  5. Duplicate schedule ページで、重複した実行を設定します。

    1. Name フィールドに、重複する実行の名前を入力します。
    2. Description フィールドには、重複した実行の説明を入力します。
    3. Trigger type リストから、次のいずれかのオプションを選択します。

      • Periodic を選択して実行頻度を指定します。Run every フィールドに数値を入力し、一覧から実行頻度を選択します。
      • cron 形式で実行スケジュールを指定するには、Cron を選択します。これにより、実行用の cron ジョブが作成されます。Copy ボタン () をクリックして、cron ジョブスケジュールをクリップボードにコピーします。一番左のフィールドは秒を表します。サポートされている cron 形式を使用したタスクのスケジュールの詳細は、Cron Expression Format を参照してください。
    4. 最大同時実行 の場合は、1 から 10 の範囲から同時に実行できる実行の数を指定します。
    5. Start date には、重複する実行の開始日を指定します。Calendar を使用して開始日を選択し、時間のリストから開始時間を選択します。
    6. End date には、重複した実行の終了日を指定します。Calendar を使用して終了日を選択し、時間のリストから終了時刻を選択します。
    7. Catch up の場合は、キャッチアップ実行を有効または無効にします。catch run を使用すると、パイプライン実行が一時停止時にスケジュールに永続的に遅れないようにできます。たとえば、一時停止された定期的な実行を再度有効にすると、run scheduler は失敗した実行間隔ごとにバックフィルします。
    8. Pipeline リストから、重複した実行を作成するパイプラインを選択します。または、新しいパイプラインを作成するには、Create new pipeline をクリックし、Import pipeline ダイアログの関連フィールドに値を入力します。
    9. Pipeline version リストから、重複した実行を作成するパイプラインのバージョンを選択します。または、新しいバージョンをアップロードするには、Upload new version をクリックし、Upload new version ダイアログの関連フィールドに入力します。
    10. リストからパラメーターを選択して、実行の入力パラメーターを設定します。
    11. Schedule run をクリックします。

検証

  • 複製したパイプライン実行は、Runs ページの Schedules タブに表示されます。

4.3.10. スケジュールされたパイプライン実行の削除

そのパイプライン実行を削除して、Runs ページに表示されないように、以前にスケジュールしたものの不要になったパイプライン実行を破棄できます。

前提条件

  • Red Hat OpenShift AI にログインしている。
  • 特殊な OpenShift AI グループを使用している場合は、OpenShift のユーザーグループ、または、管理者グループ (rhoai-usersrhoai-admins など) に属している。
  • 設定されたパイプラインサーバーを含む利用可能なデータサイエンスプロジェクトを作成している。
  • パイプラインをアクティブなパイプラインサーバーにインポートしている。
  • 削除可能な実行をスケジュールしている。

手順

  1. OpenShift AI ダッシュボードから、Data Science PipelinesRuns をクリックします。

    Runs ページが開きます。

  2. Project リストから、スケジュールされた実行を削除するパイプラインを含むプロジェクトを選択します。

    ページが更新されて、パイプラインのスケジュールされた実行が Scheduled タブに表示されます。

  3. 削除するスケジュールされた実行の横にあるアクションメニュー () をクリックし、Delete をクリックします。

    Delete schedule ダイアログが開きます。

  4. テキストフィールドに実行の名前を入力して、プロジェクトを削除することを確認します。
  5. Delete をクリックします。

検証

  • Schedules タブに、削除した実行が表示されなくなった。

4.3.11. パイプライン実行の詳細の表示

パイプライン実行をより明確に理解するために、グラフ、実行の詳細、実行出力など、以前にトリガーされたパイプライン実行の詳細を表示できます。

前提条件

  • Red Hat OpenShift AI にログインしている。
  • 特殊な OpenShift AI グループを使用している場合は、OpenShift のユーザーグループ、または、管理者グループ (rhoai-usersrhoai-admins など) に属している。
  • パイプラインサーバーを含む利用可能なデータサイエンスプロジェクトを作成している。
  • パイプラインをアクティブなパイプラインサーバーにインポートしている。
  • パイプラインの実行をトリガーしている。

手順

  1. OpenShift AI ダッシュボードから、Data Science PipelinesPipelines をクリックします。
  2. Pipelines ページで、実行の詳細を表示する プロジェクト を選択します。
  3. 実行の詳細を表示するパイプラインの Expand ( rhoai expand icon ) をクリックします。
  4. パイプラインバージョンのアクションメニュー()をクリックし、View runs をクリックします。
  5. Runs ページで、詳細を表示する実行の名前をクリックします。

検証

  • Run details ページで、実行のグラフ、実行の詳細、入力パラメーター、ステップログ、および実行出力を表示できます。

4.3.12. アーカイブされたパイプライン実行の表示

アーカイブしたパイプライン実行のリストを表示できます。パイプラインのバージョン、実行ステータス、期間、実行開始日など、アーカイブされたパイプライン実行の詳細を表示できます。

前提条件

  • Red Hat OpenShift AI にログインしている。
  • 特殊な OpenShift AI グループを使用している場合は、OpenShift のユーザーグループ、または、管理者グループ (rhods-usersrhods-admins など) に属している。
  • パイプラインサーバーを含む利用可能なデータサイエンスプロジェクトを作成している。
  • パイプラインをアクティブなパイプラインサーバーにインポートしている。
  • アーカイブされたパイプライン実行が存在する。

手順

  1. OpenShift AI ダッシュボードから、Data Science PipelinesRuns をクリックします。
  2. Runs ページで、表示するアーカイブされたパイプライン実行の プロジェクト を選択します。
  3. Archived タブをクリックします。

検証

  • アーカイブされた実行のリストは、Runs ページの Archived タブに表示されます。

4.3.13. パイプライン実行のアーカイブ

Pipeline 実行のレコードをアーカイブして保持できます。必要に応じて、アーカイブから復元して再利用したり、不要になった実行を削除したりできます。

前提条件

  • Red Hat OpenShift AI にログインしている。
  • 特殊な OpenShift AI グループを使用している場合は、OpenShift のユーザーグループ、または、管理者グループ (rhods-usersrhods-admins など) に属している。
  • パイプラインサーバーを含む利用可能なデータサイエンスプロジェクトを作成している。
  • パイプラインをアクティブなパイプラインサーバーにインポートしている。
  • 利用可能なパイプライン実行を実行している。

手順

  1. OpenShift AI ダッシュボードから、Data Science PipelinesRuns をクリックします。
  2. Runs ページで、Project リストからアーカイブするパイプライン実行のプロジェクトを選択します。
  3. Run details ページで、アーカイブする実行の横にあるアクションメニュー()をクリックし、Archive をクリックします。
  4. Archiving run ダイアログで、テキストフィールドに実行名を入力し、アーカイブすることを確認します。
  5. Archive をクリックします。

検証

  • アーカイブされた実行は Active タブには表示されず、代わりに Runs ページの Archived タブに表示されます。

4.3.14. アーカイブされたパイプライン実行の復元

アーカイブされた実行をアクティブな状態に復元できます。

前提条件

  • Red Hat OpenShift AI にログインしている。
  • 特殊な OpenShift AI グループを使用している場合は、OpenShift のユーザーグループ、または、管理者グループ (rhods-usersrhods-admins など) に属している。
  • パイプラインサーバーを含む利用可能なデータサイエンスプロジェクトを作成している。
  • パイプラインをアクティブなパイプラインサーバーにインポートしている。
  • アーカイブされた実行がプロジェクトに存在する。

手順

  1. OpenShift AI ダッシュボードから、Data Science PipelinesRuns をクリックします。
  2. Runs ページで、復元するアーカイブされたパイプライン実行の プロジェクト を選択します。
  3. Run details ページで Archived タブをクリックします。
  4. 復元する実行の横にあるアクションメニュー()をクリックし、Restore をクリックします。
  5. Restore run ダイアログでテキストフィールドに実行名を入力して、復元することを確認します。
  6. Restore をクリックします。

検証

  • 復元された実行は、Runs ページの Active タブに表示されます。

4.3.15. アーカイブされたパイプライン実行の削除

OpenShift AI 実行アーカイブからパイプライン実行を削除できます。

前提条件

  • Red Hat OpenShift AI にログインしている。
  • 特殊な OpenShift AI グループを使用している場合は、OpenShift のユーザーグループ、または、管理者グループ (rhods-usersrhods-admins など) に属している。
  • パイプラインサーバーを含む利用可能なデータサイエンスプロジェクトを作成している。
  • パイプラインをアクティブなパイプラインサーバーにインポートしている。
  • Pipeline 実行をアーカイブしている。

手順

  1. OpenShift AI ダッシュボードから、Data Science PipelinesRuns をクリックします。
  2. Runs ページで、削除するアーカイブされたパイプライン実行の プロジェクト を選択します。
  3. Run details ページで Archived をクリックします。
  4. 削除する実行の横にあるアクションメニュー()をクリックし、Delete をクリックします。
  5. Delete run ダイアログでテキストフィールドに実行名を入力して、削除することを確認します。
  6. Delete をクリックします。

検証

  • 削除したアーカイブされた実行は、Runs ページの Archived タブに表示されなくなりました。

4.3.16. アーカイブされたパイプライン実行の複製

アーカイブで実行しているのと同じ設定で再現を容易にするには、複製できます。

前提条件

  • Red Hat OpenShift AI にログインしている。
  • 特殊な OpenShift AI グループを使用している場合は、OpenShift のユーザーグループ、または、管理者グループ (rhoai-usersrhoai-admins など) に属している。
  • 設定されたパイプラインサーバーを含む利用可能なデータサイエンスプロジェクトを作成している。
  • パイプラインをアクティブなパイプラインサーバーにインポートしている。
  • アーカイブされた実行は、Runs ページの Archived タブで複製できます。

手順

  1. OpenShift AI ダッシュボードから、Data Science PipelinesRuns をクリックします。
  2. Runs ページで、複製するパイプライン実行のある プロジェクト を選択します。
  3. Archived タブをクリックします。
  4. 関連するアーカイブされた実行の横にあるアクションメニュー()をクリックし、Duplicate をクリックします。
  5. Duplicate run ページで、重複した実行を設定します。

    1. Name フィールドに、重複する実行の名前を入力します。
    2. Description フィールドには、重複した実行の説明を入力します。
    3. Pipeline リストから、重複した実行を含むパイプラインを選択します。
    4. Pipeline version リストから、重複した実行を含むパイプラインのバージョンを選択します。
    5. Parameters セクションで、リストから適切なパラメーターを選択して、クローンを作成する実行の入力パラメーターを設定します。
    6. Create run をクリックします。

検証

  • 重複するパイプライン実行は、Runs ページの Active タブに表示されます。

4.4. パイプラインログの操作

4.4.1. パイプラインログについて

トリガーされたパイプライン実行の各ステップのステップログを確認および分析できます。

パイプラインのトラブルシューティングと監査に役立てるために、OpenShift AI ダッシュボードのログビューアーを使用して、各ステップのステップログを確認および分析できます。ログビューアーから、特定のログメッセージを検索し、各ステップのログを表示し、ステップログをローカルマシンにダウンロードできます。

ステップログファイルがその容量を超えると、ログビューアーの上に、ログウィンドウに表示されている内容は一部であるという旨の警告が表示されます。警告を展開すると、ログビューアーが 3 秒ごとに更新される仕組みや、受信したログメッセージの最後の 500 行が各ステップログに表示されることなどの詳細情報が表示されます。さらに、download all step logs をクリックして、すべてのステップログをローカルマシンにダウンロードできます。

各ステップには一連のコンテナーログがあります。これらのコンテナーログを表示するには、ログビューアーの Steps リストからコンテナーを選択します。Step-main コンテナーログは、ステップのログ出力で構成されています。step-copy-artifact コンテナーログは、S3 互換ストレージに送信されたアーティファクトデータに関連する出力で構成されています。パイプラインのステップ間で転送されるデータが 3 KB を超える場合、通常は 5 つのコンテナーログにアクセスできます。これらのログには、永続ボリューム要求 (PVC) 間で転送されるデータに関連する出力が含まれます。

4.4.2. パイプラインステップログの表示

パイプラインのトラブルシューティングと監査に役立てるために、ログビューアーを使用して各パイプラインステップのログを確認および分析できます。ログビューアーから、特定のログメッセージを検索し、パイプラインの各ステップのログをダウンロードできます。パイプラインが実行中の場合は、ログビューアーからログを一時停止および再開することもできます。

前提条件

  • Red Hat OpenShift AI にログインしている。
  • 特殊な OpenShift AI グループを使用している場合は、OpenShift のユーザーグループ、または、管理者グループ (rhoai-usersrhoai-admins など) に属している。
  • パイプラインサーバーを含む利用可能なデータサイエンスプロジェクトを作成している。
  • パイプラインをアクティブなパイプラインサーバーにインポートしている。
  • パイプラインの実行をトリガーしている。

手順

  1. OpenShift AI ダッシュボードから、Data Science PipelinesPipelines をクリックします。
  2. Pipelines ページで、ログを表示する プロジェクト を選択します。
  3. ログを表示するパイプラインの Expand ( rhoai expand icon ) をクリックします。
  4. パイプラインログを表示するプロジェクトバージョンを含む行にあるアクションメニュー()をクリックし、View execution をクリックします
  5. Runs ページで、ログを表示する実行の名前をクリックします。
  6. Run details ページのグラフで、ログを表示するパイプラインステップをクリックします。
  7. Logs タブをクリックします。
  8. 別のパイプラインステップのログを表示するには、Steps リストからログを表示するステップを選択します。
  9. ログビューアーを使用してログを分析します。

    • 特定のログメッセージを検索するには、検索バーにメッセージの少なくとも一部を入力します。
    • 別のブラウザーウィンドウで完全なログを表示するには、アクションメニュー (⋮) をクリックし、View raw logs を選択します。または、ログビューアーのサイズを拡大するには、アクションメニュー (⋮) をクリックし、Expand を選択します。

検証

  • パイプラインの各ステップのログを表示できます。

4.4.3. パイプラインステップログのダウンロード

OpenShift AI ダッシュボードのログビューアーを使用してパイプライン実行のステップログを表示する代わりに、詳細な分析のために、ステップログをダウンロードすることができます。パイプライン内のすべてのステップに属するログをダウンロードすることも、ログビューアーに表示されているステップログのみをダウンロードすることもできます。

前提条件

  • Red Hat OpenShift AI にログインしている。
  • 特殊な OpenShift AI グループを使用している場合は、OpenShift のユーザーグループ、または、管理者グループ (rhoai-usersrhoai-admins など) に属している。
  • パイプラインサーバーを含む利用可能なデータサイエンスプロジェクトを作成している。
  • パイプラインをアクティブなパイプラインサーバーにインポートしている。
  • パイプラインの実行をトリガーしている。

手順

  1. OpenShift AI ダッシュボードから、Data Science PipelinesPipelines をクリックします。
  2. Pipelines ページで、ログをダウンロードする プロジェクト を選択します。
  3. ログをダウンロードするパイプラインの Expand ( rhoai expand icon ) をクリックします。
  4. ログをダウンロードするパイプラインバージョンを含む行の View runs をクリックします。
  5. Runs ページで、ログをダウンロードする実行の名前をクリックします。
  6. Run details ページのグラフで、ログをダウンロードするパイプラインステップをクリックします。
  7. Logs タブをクリックします。
  8. ログビューアーで、Download ボタン( rhoai download icon )をクリックします。

    1. 現在のパイプラインステップのログをダウンロードするには、Download current stop log を選択します。
    2. パイプライン実行の全ステップのログをダウンロードするには、Download all step logs を選択します。

検証

  • ステップログは、ブラウザーのダウンロードファイル用のデフォルトディレクトリーにダウンロードされます。

4.5. JupyterLab でのパイプラインの使用

4.5.1. JupyterLab のパイプラインの概要

Elyra を使用して、JupyterLab で視覚的なエンドツーエンドのパイプラインワークフローを作成できます。Elyra は、OpenShift AI で実行できるパイプラインワークフローを作成するための Pipelines Editor を提供する JupyterLab の拡張機能です。

以下のノートブックイメージのいずれかの最新バージョンを作成すると、JupyterHub 内の Elyra 拡張にアクセスできます。

  • Standard Data Science
  • PyTorch
  • TensorFlow
  • TrustyAI
  • HabanaAI

Pipeline Editor を使用してパイプラインを視覚的に設計できるため、パイプラインを作成および実行するのに最小限のコーディングが必要になります。Elyra の詳細 は、Elyra ドキュメンテーション を参照してください。Pipeline Editor の詳細は、Visual Pipeline Editor を参照してください。パイプラインを作成したら、JupyterLab でローカルに実行することも、OpenShift AI のデータサイエンスパイプラインを使用してリモートで実行することもできます。

パイプライン作成プロセスは次のタスクで設定されます。

  • ワークベンチを含むデータサイエンスプロジェクトを作成する。
  • パイプラインサーバーを作成する。
  • JupyterLab の Pipeline Editor で新規パイプラインを作成する。
  • Python ノートブックまたは Python スクリプトを追加し、それらのランタイムプロパティーを定義してパイプラインを開発する。
  • 実行の依存関係を定義する。
  • Pipeline を実行するか、エクスポートする。

JupyterLab でパイプラインを実行するには、パイプラインインスタンスにランタイム設定が含まれている必要があります。ランタイム設定は、パイプラインインスタンスと S3 互換のクラウドストレージの接続情報を定義します。

データサイエンスプロジェクトの一部としてワークベンチを作成すると、デフォルトのランタイム設定が自動的に作成されます。ただし、OpenShift AI ダッシュボードの Jupyter タイルからノートブックを作成する場合は、JupyterLab でパイプラインを実行する前にランタイム設定を作成する必要があります。ランタイム設定の詳細は、Runtime Configuration を参照してください。前提条件として、ワークベンチを作成する前に、ワークベンチと同じデータサイエンスプロジェクト内にパイプラインサーバーを作成および設定していることを確認します。

S3 互換のクラウドストレージを使用すると、ノートブックやスクリプトの実行中にデータを利用できるようになります。クラウドストレージには、JupyterLab を実行するデプロイメント内のマシン、および Data Science Pipelines をホストするクラスターからアクセスできる必要があります。JupyterLab でパイプラインを作成して実行する前に、s3 互換ストレージの認証情報がすぐに利用できることを確認してください。

4.5.2. パイプラインエディターへのアクセス

Elyra を使用して、JupyterLab で視覚的なエンドツーエンドのパイプラインワークフローを作成できます。Elyra は、OpenShift AI で実行できるパイプラインワークフローを作成するための Pipelines Editor を提供する JupyterLab の拡張機能です。

前提条件

  • Red Hat OpenShift AI にログインしている。
  • 特殊な OpenShift AI グループを使用している場合は、OpenShift のユーザーグループ、または、管理者グループ (rhoai-usersrhoai-admins など) に属している。
  • データサイエンスプロジェクトを作成している。
  • Standard Data Science ノートブックイメージを使用してワークベンチを作成しました。
  • ワークベンチを含むデータサイエンスプロジェクト内にパイプラインサーバーを作成して設定している。
  • Elyra 拡張機能 (Standard データサイエンス、TensorFlow、TrustyAI、PyTorch、または HabanaAI) を含むノートブックイメージから Jupyter サーバーを作成し、起動している。
  • S3 互換ストレージにアクセスできる。

手順

  1. JupyterLab を開くと、JupyterLab ランチャーが自動的に表示されることを確認します。
  2. JupyterLab ランチャーの Elyra セクションで、Pipeline Editor タイルをクリックします。

    Pipeline Editor が開きます。

検証

  • JupyterLab で Pipeline Editor を表示できます。

4.5.3. ランタイム設定の作成

データサイエンスプロジェクトの一部としてワークベンチを作成すると、デフォルトのランタイム設定が自動的に作成されます。ただし、OpenShift AI ダッシュボードの Jupyter タイルからノートブックを作成する場合は、JupyterLab でパイプラインを実行する前にランタイム設定を作成する必要があります。これにより、パイプラインインスタンスと S3 互換のクラウドストレージの接続情報を指定できます。

前提条件

  • Red Hat OpenShift AI にログインしている。
  • 特殊な OpenShift AI グループを使用している場合は、OpenShift のユーザーグループ、または、管理者グループ (rhods-usersrhods-admins など) に属している。
  • S3 互換のクラウドストレージにアクセスできる。
  • ワークベンチを含むデータサイエンスプロジェクトを作成している。
  • ワークベンチを含むデータサイエンスプロジェクト内にパイプラインサーバーを作成して設定している。
  • Elyra 拡張機能 (Standard データサイエンス、TensorFlow、TrustyAI、PyTorch、または HabanaAI) を含むノートブックイメージから Jupyter サーバーを作成し、起動している。

手順

  1. JupyterLab の左側のサイドバーで、Runtimes ( The Runtimes icon ) をクリックします。
  2. Create new runtime configuration ボタン ( Create new runtime configuration ) をクリックします。

    Add new Data Science Pipelines runtime configuration ページが開きます。

  3. 関連フィールドに入力してランタイム設定を完了します。

    1. Display Name フィールドに、ランタイム設定の名前を入力します。
    2. オプション: Description フィールドに、ランタイム設定を定義する説明を入力します。
    3. オプション: Tags フィールドで、Add Tag をクリックして、パイプラインインスタンスのカテゴリーを定義します。タグの名前を入力し、Enter キーを押します。
    4. データサイエンスパイプラインの認証情報を定義します。

      1. Data Science Pipelines API Endpoint フィールドに、データサイエンスパイプラインの API エンドポイントを入力します。このフィールドにはパイプラインの namespace を指定しないでください。
      2. Public Data Science Pipelines API Endpoint フィールドに、データサイエンスパイプラインのパブリック API エンドポイントを入力します。

        重要

        ダッシュボードの Data Science PipelinesRuns ページから Data Science Pipelines API エンドポイントを取得できます。関連するエンドポイントをコピーし、Public Data Science Pipelines API Endpoint フィールドに入力します。

      3. オプション: Data Science Pipelines User Namespace フィールドに、パイプラインを実行するための関連するユーザー namespace を入力します。
      4. Authentication Type リストから、パイプラインの認証に必要な認証タイプを選択します。

        重要

        ダッシュボードの Jupyter タイルから直接ノートブックを作成した場合は、Authentication Type リストから EXISTING_BEARER_TOKEN を選択します。

      5. Data Science Pipelines API Endpoint Username フィールドに、認証タイプに必要なユーザー名を入力します。
      6. Data Science Pipelines API Endpoint Password Or Token に、認証タイプに必要なパスワードまたはトークンを入力します。

        重要

        Data Science Pipelines API エンドポイントトークンを取得するには、OpenShift Web コンソールの右上隅にあるユーザー名をクリックし、Copy login command を選択します。ログインしたら、Display token をクリックし、Log in with this token コマンドから --token= の値をコピーします。

    5. S3 互換ストレージの接続情報を定義します。

      1. Cloud Object Storage Endpoint フィールドに、S3 互換ストレージのエンドポイントを入力します。Amazon s3 エンドポイントの詳細は、Amazon Simple Storage Service エンドポイントおよびクォータ を参照してください。
      2. オプション: Public Cloud Object Storage Endpoint フィールドに、S3 互換ストレージの URL を入力します。
      3. Cloud Object Storage Bucket Name フィールドに、パイプラインアーティファクトが保存されているバケットの名前を入力します。バケット名が存在しない場合は、自動的に作成されます。
      4. Cloud Object Storage Authentication Type リストから、S3 互換クラウドストレージへのアクセスに必要な認証タイプを選択します。AWS S3 バケットを使用する場合は、一覧から KUBERNETES_SECRET を選択します。
      5. Cloud Object Storage Credentials Secret フィールドに、ストレージのユーザー名とパスワードを含むシークレットを入力します。このシークレットは、該当する場合、関連するユーザー namespace で定義されます。さらに、パイプラインランタイムをホストするクラスターに保存する必要があります。
      6. Cloud Object Storage Username フィールドに、S3 互換クラウドストレージに接続するためのユーザー名を入力します (該当する場合)。AWS S3 バケットを使用する場合は、AWS Secret Access Key ID を入力します。
      7. Cloud Object Storage Password フィールドに、S3 互換クラウドストレージに接続するためのパスワードを入力します (該当する場合)。AWS S3 バケットを使用する場合は、AWS Secret Access Key を入力します。
    6. Save & Close をクリックします。

検証

  • 作成したランタイム設定は、JupyterLab の左側のサイドバーにある Runtimes タブ ( The Runtimes icon ) をクリックします。

4.5.4. ランタイム設定の更新

ランタイム設定が正確で更新されていることを確認するには、既存のランタイム設定の設定を変更します。

前提条件

  • Red Hat OpenShift AI にログインしている。
  • 特殊な OpenShift AI グループを使用している場合は、OpenShift のユーザーグループ、または、管理者グループ (rhoai-usersrhoai-admins など) に属している。
  • S3 互換ストレージにアクセスできる。
  • ワークベンチを含むデータサイエンスプロジェクトを作成している。
  • ワークベンチを含むデータサイエンスプロジェクト内にパイプラインサーバーを作成して設定している。
  • 以前に作成したランタイム設定が JupyterLab インターフェイスで利用できる。
  • Elyra 拡張機能 (Standard データサイエンス、TensorFlow、TrustyAI、PyTorch、または HabanaAI) を含むノートブックイメージから Jupyter サーバーを作成し、起動している。

手順

  1. JupyterLab の左側のサイドバーで、Runtimes ( The Runtimes icon ) をクリックします。
  2. 更新するランタイム設定の上にカーソルを置き、Edit ボタン ( Edit runtime configuration ) をクリックします。

    Data Science Pipelines runtime configuration ページが開きます。

  3. 関連フィールドに入力してランタイム設定を更新します。

    1. 必要に応じて、Display Name フィールドでランタイム設定の名前を更新します。
    2. オプション: 必要に応じて、Description フィールドでランタイム設定の説明を更新します。
    3. オプション: Tags フィールドで、Add Tag をクリックして、パイプラインインスタンスのカテゴリーを定義します。タグの名前を入力し、Enter キーを押します。
    4. データサイエンスパイプラインの認証情報を定義します。

      1. Data Science Pipelines API Endpoint フィールドで、データサイエンスパイプラインの API エンドポイントを更新します (該当する場合)。このフィールドにはパイプラインの namespace を指定しないでください。
      2. Public Data Science Pipelines API Endpoint フィールドで、データサイエンスパイプラインの API エンドポイントを更新します (該当する場合)。
      3. オプション: 該当する場合、Data Science Pipelines User Namespace フィールドで、パイプラインを実行するために関連するユーザー namespace を更新します。
      4. 該当する場合は、Authentication Type リストから、パイプラインの認証に必要な新しい認証タイプを選択します。

        重要

        ダッシュボードの Jupyter タイルから直接ノートブックを作成した場合は、Authentication Type リストから EXISTING_BEARER_TOKEN を選択します。

      5. Data Science Pipelines API Endpoint Username フィールドで、認証タイプに必要なユーザー名を更新します (該当する場合)。
      6. Data Science Pipelines API Endpoint Password Or Token で、認証タイプに必要なパスワードまたはトークンを更新します (該当する場合)。

        重要

        Data Science Pipelines API エンドポイントトークンを取得するには、OpenShift Web コンソールの右上隅にあるユーザー名をクリックし、Copy login command を選択します。ログインしたら、Display token をクリックし、Log in with this token コマンドから --token= の値をコピーします。

    5. S3 互換ストレージの接続情報を定義します。

      1. 該当する場合は、Cloud Object Storage Endpoint フィールドで、S3 互換ストレージのエンドポイントを更新します。Amazon s3 エンドポイントの詳細は、Amazon Simple Storage Service エンドポイントおよびクォータ を参照してください。
      2. オプション: Public Cloud Object Storage Endpoint フィールドで、S3 互換ストレージの URL を更新します (該当する場合)。
      3. 必要に応じて、Cloud Object Storage Bucket Name フィールドで、パイプラインアーティファクトが保存されているバケットの名前を更新します。バケット名が存在しない場合は、自動的に作成されます。
      4. 該当する場合は、Cloud Object Storage Authentication Type リストから、S3 互換クラウドストレージへのアクセスに必要な認証タイプを更新します。AWS S3 バケットを使用する場合は、リストから USER_CREDENTIALS を選択する必要があります。
      5. オプション: Cloud Object Storage Credentials Secret フィールドで、ストレージのユーザー名とパスワードを含むシークレットを更新します (該当する場合)。このシークレットは、関連するユーザー namespace で定義されます。パイプラインランタイムをホストするクラスターにシークレットを保存する必要があります。
      6. オプション: Cloud Object Storage Username フィールドで、S3 互換クラウドストレージに接続するためのユーザー名を更新します (該当する場合)。AWS S3 バケットを使用する場合は、AWS Secret Access Key ID を更新します。
      7. オプション: Cloud Object Storage Password フィールドで、S3 互換のクラウドストレージに接続するためのパスワードを更新します (該当する場合)。AWS S3 バケットを使用する場合は、AWS Secret Access Key を更新します。
    6. Save & Close をクリックします。

検証

  • 更新したランタイム設定は、JupyterLab の左側のサイドバーにある Runtimes タブ ( The Runtimes icon ) をクリックします。

4.5.5. ランタイム設定の削除

ランタイム設定の使用が終了したら、JupyterLab インターフェイスからランタイム設定を削除できます。ランタイム設定を削除した後は、別のランタイム設定を作成するまで JupyterLab でパイプラインを実行できません。

前提条件

  • Red Hat OpenShift AI にログインしている。
  • 特殊な OpenShift AI グループを使用している場合は、OpenShift のユーザーグループ、または、管理者グループ (rhoai-usersrhoai-admins など) に属している。
  • ワークベンチを含むデータサイエンスプロジェクトを作成している。
  • ワークベンチを含むデータサイエンスプロジェクト内にパイプラインサーバーを作成して設定している。
  • 以前に作成したランタイム設定が JupyterLab インターフェイスに表示されている。
  • Elyra 拡張機能 (Standard データサイエンス、TensorFlow、TrustyAI、PyTorch、または HabanaAI) を含むノートブックイメージから Jupyter サーバーを作成し、起動している。

手順

  1. JupyterLab の左側のサイドバーで、Runtimes ( The Runtimes icon ) をクリックします。
  2. 削除するランタイム設定の上にカーソルを置き、Delete Item ボタン ( Delete item ) をクリックします。

    実行時設定の削除を確認するダイアログボックスが表示されます。

  3. OK をクリックします。

検証

  • 削除したランタイム設定は、JupyterLab の左側のサイドバーにある Runtimes タブ ( The Runtimes icon ) に表示されなくなります。

4.5.6. ランタイム設定の複製

全体的に同様の値を持つランタイム設定が再作成されないようにするために、JupyterLab インターフェイスで既存のランタイム設定を複製できます。

前提条件

  • Red Hat OpenShift AI にログインしている。
  • 特殊な OpenShift AI グループを使用している場合は、OpenShift のユーザーグループ、または、管理者グループ (rhods-usersrhods-admins など) に属している。
  • ワークベンチを含むデータサイエンスプロジェクトを作成している。
  • ワークベンチを含むデータサイエンスプロジェクト内にパイプラインサーバーを作成して設定している。
  • 以前に作成したランタイム設定が JupyterLab インターフェイスに表示されている。
  • Elyra 拡張機能 (Standard データサイエンス、TensorFlow、TrustyAI、PyTorch、または HabanaAI) を含むノートブックイメージから Jupyter サーバーを作成し、起動している。

手順

  1. JupyterLab の左側のサイドバーで、Runtimes ( The Runtimes icon ) をクリックします。
  2. 複製するランタイム設定の上にカーソルを置き、Duplicate ボタン ( Duplicate ) をクリックします。

検証

  • 複製したランタイム設定が、JupyterLab の左側のサイドバーにある Runtimes タブ ( The Runtimes icon ) をクリックします。

4.5.7. JupyterLab でパイプラインの実行

Pipeline Editor ユーザーインターフェイスから JupyterLab で作成したパイプラインを実行できます。パイプラインを実行する前に、データサイエンスプロジェクトとパイプラインサーバーを作成する必要があります。パイプラインサーバーを作成したら、パイプラインサーバーと同じプロジェクト内にワークベンチを作成する必要があります。JupyterLab のパイプラインインスタンスにはランタイム設定が含まれている必要があります。データサイエンスプロジェクトの一部としてワークベンチを作成すると、デフォルトのランタイム設定が自動的に作成されます。ただし、OpenShift AI ダッシュボードの Jupyter タイルからノートブックを作成する場合は、JupyterLab でパイプラインを実行する前にランタイム設定を作成する必要があります。ランタイム設定は、パイプラインインスタンスと S3 互換のクラウドストレージの接続情報を定義します。

前提条件

  • Red Hat OpenShift AI にログインしている。
  • 特殊な OpenShift AI グループを使用している場合は、OpenShift のユーザーグループ、または、管理者グループ (rhoai-usersrhoai-admins など) に属している。
  • S3 互換ストレージにアクセスできる。
  • JupyterLab でパイプラインを作成している。
  • JupyterLab の Pipeline Editor でパイプラインを開いている。
  • パイプラインインスタンスにはランタイム設定が含まれている。
  • ワークベンチを含むデータサイエンスプロジェクト内にパイプラインサーバーを作成して設定している。
  • Elyra 拡張機能 (Standard データサイエンス、TensorFlow、TrustyAI、PyTorch、または HabanaAI) を含むノートブックイメージから Jupyter サーバーを作成し、起動している。

手順

  1. Pipeline Editor ユーザーインターフェイスで Run Pipeline ( The Runtimes icon ) をクリックします。

    Run Pipeline ダイアログが表示されます。Pipeline Name フィールドには、パイプラインファイル名が自動的に入力されます。

    重要

    一意のパイプライン名を入力する必要があります。入力するパイプライン名は、以前に実行されたパイプラインの名前と一致してはなりません。

  2. パイプライン実行の設定を定義します。

    1. Runtime Configuration リストから、パイプラインを実行するための関連するランタイム設定を選択します。
    2. オプション: 必要に応じて、パイプラインパラメーターを設定します。パイプラインにパイプラインパラメーターを参照するノードが含まれている場合は、デフォルトのパラメーター値を変更できます。パラメーターが必須でデフォルト値がない場合は、値を入力する必要があります。
  3. OK をクリックします。

検証

  • パイプライン実行の出力アーティファクトを表示できます。アーティファクトは、指定されたオブジェクトストレージバケットに保存されます。

4.5.8. JupyterLab でのパイプラインのエクスポート

JupyterLab で作成したパイプラインをエクスポートできます。パイプラインをエクスポートすると、パイプラインは後で実行できるように準備されますが、すぐにアップロードまたは実行されるわけではありません。エクスポートプロセス中に、パッケージの依存関係はすべて S3 互換ストレージにアップロードされます。また、ターゲットランタイム用にパイプラインコードが生成されます。

パイプラインをエクスポートする前に、データサイエンスプロジェクトとパイプラインサーバーを作成する必要があります。パイプラインサーバーを作成したら、パイプラインサーバーと同じプロジェクト内にワークベンチを作成する必要があります。さらに、JupyterHub のパイプラインインスタンスにはランタイム設定が含まれている必要があります。データサイエンスプロジェクトの一部としてワークベンチを作成すると、デフォルトのランタイム設定が自動的に作成されます。ただし、OpenShift AI ダッシュボードの Jupyter タイルからノートブックを作成する場合は、JupyterLab でパイプラインをエクスポートする前にランタイム設定を作成する必要があります。ランタイム設定は、パイプラインインスタンスと S3 互換のクラウドストレージの接続情報を定義します。

前提条件

  • Red Hat OpenShift AI にログインしている。
  • 特殊な OpenShift AI グループを使用している場合は、OpenShift のユーザーグループ、または、管理者グループ (rhods-usersrhods-admins など) に属している。
  • ワークベンチを含むデータサイエンスプロジェクトを作成している。
  • ワークベンチを含むデータサイエンスプロジェクト内にパイプラインサーバーを作成して設定している。
  • S3 互換ストレージにアクセスできる。
  • JupyterLab でパイプラインを作成している。
  • JupyterLab の Pipeline Editor でパイプラインを開いている。
  • パイプラインインスタンスにはランタイム設定が含まれている。
  • Elyra 拡張機能 (Standard データサイエンス、TensorFlow、TrustyAI、PyTorch、または HabanaAI) を含むノートブックイメージから Jupyter サーバーを作成し、起動している。

手順

  1. Pipeline Editor ユーザーインターフェイスで、Export Pipeline ( Export pipeline ) をクリックします。

    Export Pipeline ダイアログが表示されます。Pipeline Name フィールドには、パイプラインファイル名が自動的に入力されます。

  2. パイプラインをエクスポートするための設定を定義します。

    1. Runtime Configuration リストから、パイプラインをエクスポートする関連するランタイム設定を選択します。
    2. Export Pipeline as から適切なファイル形式を選択します。
    3. Export Filename フィールドに、エクスポートされたパイプラインのファイル名を入力します。
    4. Replace if file already exists チェックボックスをオンにして、エクスポートするパイプラインと同じ名前の既存のファイルを置換します。
    5. オプション: 必要に応じて、パイプラインパラメーターを設定します。パイプラインにパイプラインパラメーターを参照するノードが含まれている場合は、デフォルトのパラメーター値を変更できます。パラメーターが必須でデフォルト値がない場合は、値を入力する必要があります。
  3. OK をクリックします。

検証

  • 指定したオブジェクトストレージバケットにエクスポートしたパイプラインを含むファイルを表示できます。

4.6. 関連情報

第5章 アクセラレーターの使用

NVIDIA GPU や Habana Gaudi デバイスなどのアクセラレーターを使用して、エンドツーエンドのデータサイエンスワークフローのパフォーマンスを最適化します。

5.1. アクセラレーターの概要

大規模なデータセットを扱う場合は、アクセラレーターを使用して OpenShift AI のデータサイエンスモデルのパフォーマンスを最適化できます。アクセラレーターを使用すると、作業を拡張し、待ち時間を短縮し、生産性を向上させることができます。OpenShift AI のアクセラレーターを使用して、データサイエンティストによる次のタスクを支援できます。

  • 自然言語処理 (NLP)
  • 推論
  • ディープニュラルネットワークのトレーニング
  • データクレンジングとデータ処理

OpenShift AI は次のアクセラレーターをサポートしています。

  • NVIDIA グラフィックスプロセッシングユニット (GPU)

    • モデルで計算負荷の高いワークロードを使用するには、OpenShift AI で NVIDIA グラフィックスプロセッシングユニット (GPU) を有効にしてください。
    • OpenShift で GPU を有効にするには、NVIDIA GPU Operator をインストールする必要があります。
  • Habana Gaudi デバイス (HPU)

    • Intel 企業の Habana は、深層学習ワークロード向けのハードウェアアクセラレーターを提供しています。ノートブックから利用できる Habana ライブラリーと、Habana Gaudi デバイスに関連付けられたソフトウェアを使用できます。
    • OpenShift AI で Habana Gaudi デバイスを有効にする前に、デプロイメントで HabanaAI ワークベンチイメージの HabanaAI ワークベンチイメージに一致する依存関係と HabanaAI Operator のバージョンをインストールする必要があります。Habana Gaudi デバイス用に OpenShift 環境を有効にする方法の詳細は、HabanaAI Operator v1.10 for OpenShift および HabanaAI Operator v1.13 for OpenShift を参照してください。
    • Habana Gaudi デバイスは、オンプレミスで、または AWS インスタンス上の AWS DL1 コンピューティングノードで有効化できます。

OpenShift AI でアクセラレーターを使用するには、OpenShift インスタンスに関連するアクセラレータープロファイルが含まれている必要があります。これまでデプロイメントしたことのないアクセラレーターの場合は、コンテキスト内でアクセラレーターのアクセラレータープロファイルを設定する必要があります。OpenShift AI ダッシュボードの SettingsAccelerator profiles ページから、アクセラレータープロファイルを作成できます。デプロイメントに、関連付けられたアクセラレータープロファイルがすでに設定されている既存のアクセラレーターが含まれている場合、OpenShift AI の最新バージョンにアップグレードした後、アクセラレータープロファイルが自動的に作成されます。

5.2. アクセラレータープロファイルの使用

データサイエンティストが OpenShift AI で使用できるようにアクセラレーターを設定するには、関連するアクセラレータープロファイルを作成する必要があります。アクセラレータープロファイルとは、AcceleratorProfile リソースを持ち、アクセラレーターの仕様を定義する OpenShift 上のカスタムリソース定義 (CRD) のことです。OpenShift AI ダッシュボードで SettingsAccelerator profiles を選択することで、アクセラレータープロファイルを作成および管理できます。

これまでデプロイメントしたことのないアクセラレーターの場合は、アクセラレーターごとにプロファイルを手動で設定する必要があります。アップグレード前にデプロイメントにアクセラレーターが含まれている場合、関連するアクセラレータープロファイルはアップグレード後も保持されます。特定のアクセラレータープロファイルをカスタムノートブックイメージに割り当てることにより、データサイエンティストに表示されるアクセラレーターを管理できます。この例は、Habana Gaudi 1 アクセラレータープロファイルのコードを示しています。

---
apiVersion: dashboard.opendatahub.io/v1alpha
kind: AcceleratorProfile
metadata:
  name: hpu-profile-first-gen-gaudi
spec:
  displayName: Habana HPU - 1st Gen Gaudi
  description: First Generation Habana Gaudi device
  enabled: true
  identifier: habana.ai/gaudi
  tolerations:
    - effect: NoSchedule
      key: habana.ai/gaudi
      operator: Exists
---

アクセラレータープロファイルコードは、AcceleratorProfile カスタムリソース定義 (CRD) の詳細ページの Instances タブに表示されます。アクセラレータープロファイル属性の詳細は、次の表を参照してください。

表5.1 アクセラレータープロファイル属性

属性必須説明

displayName

String

必須

アクセラレータープロファイルの表示名。

description

String

任意

アクセラレータープロファイルを定義する説明テキスト。

identifier

String

必須

アクセラレーターリソースを定義する一意の識別子。

enabled

Boolean

必須

アクセラレータが OpenShift AI に表示されるかどうかを決定します。

tolerations

アレイ

任意

アクセラレーターを使用するノートブックおよびサービス提供ランタイムに適用できる容認。OpenShift AI がサポートする許容属性の詳細は、Toleration v1 core を参照してください。

5.2.1. アクセラレータープロファイルの表示

OpenShift AI のアクセラレータープロファイルを定義している場合は、Accelerator profiles ページからそれらを表示、有効化、無効化できます。

前提条件

  • Red Hat OpenShift AI にログインしている。
  • OpenShift クラスターの cluster-admin または dedicated-admin ユーザーグループに属している。dedicated-admins ユーザーグループは、OpenShift Dedicated にのみ当てはまります。
  • デプロイメントには、既存のアクセラレータープロファイルが含まれています。

手順

  1. OpenShift AI ダッシュボードから、SettingsAccelerator profiles をクリックします。

    Accelerator profiles ページが表示され、既存のアクセラレータープロファイルが表示されます。

  2. アクセラレータープロファイルのリストを調べます。アクセラレータープロファイルを有効または無効にするには、アクセラレータープロファイルを含む行で、Enable 列のトグルをクリックします。

検証

  • Accelerator profiles ページが表示され、既存のアクセラレータープロファイルが表示されます。

5.2.2. アクセラレータープロファイルの作成

データサイエンティストが OpenShift AI で使用できるようにアクセラレーターを設定するには、関連するアクセラレータープロファイルを作成する必要があります。

前提条件

  • Red Hat OpenShift AI にログインしている。
  • OpenShift クラスターの cluster-admin または dedicated-admin ユーザーグループに属している。dedicated-admins ユーザーグループは、OpenShift Dedicated にのみ当てはまります。

手順

  1. OpenShift AI ダッシュボードから、SettingsAccelerator profiles をクリックします。

    Accelerator profiles ページが表示され、既存のアクセラレータープロファイルが表示されます。既存のアクセラレータープロファイルを有効または無効にするには、関連するアクセラレータープロファイルを含む行で、Enable 列のトグルをクリックします。

  2. Create accelerator profile をクリックします。

    Create accelerator profile ダイアログが表示されます。

  3. Name フィールドに、アクセラレータープロファイルの名前を入力します。
  4. Identifier フィールドに、アクセラレータープロファイルに関連付けられたハードウェアアクセラレーターを識別する一意の文字列を入力します。
  5. オプション: Description フィールドに、アクセラレータープロファイルの説明を入力します。
  6. 作成直後にアクセラレータープロファイルを有効または無効にするには、Enable 列のトグルをクリックします。
  7. オプション: Pod に容認を追加し、その Pod が一致するテイントにスケジュールされるようにします。

    1. Add toleration をクリックします。

      Add toleration ダイアログが開きます。

    2. Operator リストから、次のオプションのいずれかを選択します。

      • Equal - key/value/effect のパラメーターが一致する必要があります。これはデフォルトになります。
      • Exists - key/effect パラメーターが一致する必要があります。値パラメーターは、どの値にも一致する空白のままにする必要があります。
    3. Effect リストから、次のオプションのいずれかを選択します。

      • なし
      • NoSchedule - テイントと一致しない新しい Pod は、そのノードにスケジュールされません。ノードの既存 Pod はそのままになります。
      • PreferNoSchedule - テイントに一致しない新しい Pod がそのノードにスケジュールされる可能性はありますが、スケジューラーは試行しません。ノードの既存 Pod はそのままになります。
      • NoExecute - テイントに一致しない新しい Pod をそのノードにスケジュールすることはできません。一致する容認を持たないノードの既存 Pod は削除されます。
    4. Key フィールドに、容認キーを入力します。キーは、最大 253 文字までの任意の文字列になります。キーは文字または数字で開始する必要があり、文字、数字、ハイフン、ドットおよびアンダースコアを含めることができます。
    5. Value フィールドに容認値を入力します。値は最大 63 文字までの任意の文字列になります。値は文字または数字で開始する必要があり、文字、数字、ハイフン、ドットおよびアンダースコアを含めることができます。
    6. Toleration Seconds セクションで、次のオプションのいずれかを選択して、ノード条件があるノードに Pod がバインドされ続ける時間を指定します。

      • Forever - Pod はノードに永続的にバインドされたままになります。
      • Custom value - 値を秒単位で入力して、ノード条件を持つノードに Pod がバインドされ続ける時間を定義します。
    7. Add をクリックします。
  8. Create accelerator profile をクリックします。

検証

  • アクセラレータープロファイルは、Accelerator profiles ページに表示されます。
  • Accelerator 一覧が Start a notebook server ページに表示されます。アクセラレーターを選択すると、Number of accelerators フィールドが表示され、これを使用してノートブックサーバーのアクセラレーターの数を選択できます。
  • アクセラレータープロファイルは、AcceleratorProfile カスタムリソース定義 (CRD) の詳細ページの インスタンス タブに表示されます。

5.2.3. アクセラレータープロファイルの更新

デプロイメントにある既存のアクセラレータープロファイルを更新できます。表示名、識別子、説明などの重要な識別情報を変更できます。

前提条件

  • Red Hat OpenShift AI にログインしている。
  • OpenShift クラスターの cluster-admin または dedicated-admin ユーザーグループに属している。dedicated-admins ユーザーグループは、OpenShift Dedicated にのみ当てはまります。
  • アクセラレータープロファイルはデプロイメント内に存在します。

手順

  1. OpenShift AI ダッシュボードから、SettingsNotebook images をクリックします。

    Notebook images ページが表示されます。以前にインポートしたノートブックのイメージが表示されます。以前にインポートしたノートブックイメージを有効または無効にするには、関連するノートブックイメージを含む行で、Enabled 列のトグルをクリックします。

  2. アクションメニュー (⋮) をクリックし、リストから Edit を選択します。

    Edit accelerator profile ダイアログが開きます。

  3. Name フィールドで、アクセラレータープロファイル名を更新します。
  4. Identifier フィールドで、アクセラレータープロファイルに関連付けられたハードウェアアクセラレーターを識別する一意の文字列を更新します (該当する場合)。
  5. オプション: Description フィールドで、アクセラレータープロファイルを更新します。
  6. 作成直後にアクセラレータープロファイルを有効または無効にするには、Enable 列のトグルをクリックします。
  7. オプション: Pod に容認を追加し、その Pod が一致するテイントにスケジュールされるようにします。

    1. Add toleration をクリックします。

      Add toleration ダイアログが開きます。

    2. Operator リストから、次のオプションのいずれかを選択します。

      • Equal - key/value/effect のパラメーターが一致する必要があります。これはデフォルトになります。
      • Exists - key/effect パラメーターが一致する必要があります。値パラメーターは、どの値にも一致する空白のままにする必要があります。
    3. Effect リストから、次のオプションのいずれかを選択します。

      • なし
      • NoSchedule - テイントと一致しない新しい Pod は、そのノードにスケジュールされません。ノードの既存 Pod はそのままになります。
      • PreferNoSchedule - テイントに一致しない新しい Pod がそのノードにスケジュールされる可能性はありますが、スケジューラーは試行しません。ノードの既存 Pod はそのままになります。
      • NoExecute - テイントに一致しない新しい Pod をそのノードにスケジュールすることはできません。一致する容認を持たないノードの既存 Pod は削除されます。
    4. Key フィールドに、容認キーを入力します。キーは、最大 253 文字までの任意の文字列になります。キーは文字または数字で開始する必要があり、文字、数字、ハイフン、ドットおよびアンダースコアを含めることができます。
    5. Value フィールドに容認値を入力します。値は最大 63 文字までの任意の文字列になります。値は文字または数字で開始する必要があり、文字、数字、ハイフン、ドットおよびアンダースコアを含めることができます。
    6. Toleration Seconds セクションで、次のオプションのいずれかを選択して、ノード条件があるノードに Pod がバインドされ続ける時間を指定します。

      • Forever - Pod はノードに永続的にバインドされたままになります。
      • Custom value - 値を秒単位で入力して、ノード条件を持つノードに Pod がバインドされ続ける時間を定義します。
    7. Add をクリックします。
  8. アクセラレータープロファイルに既存の容認が含まれている場合は、それらを編集できます。

    1. 編集する容認を含む行のアクションメニュー (⋮) をクリックし、リストから Edit を選択します。
    2. 該当するフィールドに入力して、容認の詳細を更新します。
    3. Update をクリックします。
  9. Update accelerator profile をクリックします。

検証

  • アクセラレータープロファイルに新しい識別情報がある場合は、この情報が Start a notebook server ページの Accelerator 一覧に表示されます。

5.2.4. アクセラレータープロファイルの削除

不要になったアクセラレータープロファイルを破棄するには、そのプロファイルを削除してダッシュボードに表示されないようにします。

前提条件

  • Red Hat OpenShift AI にログインしている。
  • OpenShift クラスターの cluster-admin または dedicated-admin ユーザーグループに属している。dedicated-admins ユーザーグループは、OpenShift Dedicated にのみ当てはまります。
  • 削除するアクセラレータープロファイルは、デプロイメント内に存在します。

手順

  1. OpenShift AI ダッシュボードから、SettingsAccelerator profiles をクリックします。

    Accelerator profiles ページが表示され、既存のアクセラレータープロファイルが表示されます。

  2. 削除するアクセラレータープロファイルの横にあるアクションメニュー () をクリックし、Delete をクリックします。

    Delete accelerator profile ダイアログが開きます。

  3. アクセラレータープロファイルの名前をテキストフィールドに入力して、削除することを確定します。
  4. Delete をクリックします。

検証

  • アクセラレータープロファイルは Accelerator profiles ページに表示されなくなりました。

5.3. Habana Gaudi の統合

高性能ディープラーニング (DL) モデルを高速化するために、Habana Gaudi デバイスを OpenShift AI に統合できます。OpenShift AI には、OpenShift AI のインストールまたはアップグレード後にデータサイエンティストが使用できるように事前に構築され、準備が整っている HabanaAI ワークベンチイメージも含まれます。

OpenShift AI で Habana Gaudi デバイスを有効にする前に、デプロイメントで HabanaAI ワークベンチイメージの HabanaAI ワークベンチイメージに一致する依存関係と HabanaAI Operator のバージョンをインストールする必要があります。これにより、データサイエンティストは、Habana Gaudi デバイスに関連付けられた Habana ライブラリーとソフトウェアをノートブックから使用できるようになります。

Habana Gaudi デバイス用に OpenShift 環境を有効にする方法の詳細は、HabanaAI Operator v1.10 for OpenShift および HabanaAI Operator v1.13 for OpenShift を参照してください。

重要

現在、Habana Gaudi 統合は OpenShift 4.12 でのみサポートされています。

Habana Gaudi Operator のバージョン 1.10.0 を使用して、OpenShift AI で Habana Gaudi アクセラレーターを使用できます。インストールする HabanaAI Operator のバージョンは、デプロイメント内の HabanaAI ワークベンチイメージの Habana バージョンと一致する必要があります。これは、一度に 1 つのバージョンの HabanaAI ワークベンチイメージしか機能しないことを意味します。

Habana Gaudi Operator のバージョン 1.10 および 1.13 のサポートされる設定については、Support Matrix v1.10.0 および Support Matrix v 1.13.0 を参照してください。

OpenShift の Amazon EC2 DL1 インスタンスにある Habana Gaudi デバイスを使用できます。したがって、OpenShift プラットフォームは EC2 DL1 インスタンスをサポートする必要があります。Habana Gaudi アクセラレーターは、データサイエンティストがワークベンチインスタンスを作成したり、モデルを提供したりできます。

デプロイメントに存在する Habana Gaudi デバイスを特定するには、lspci ユーティリティーを使用します。詳細は、lspci (8)- Linux の man ページ を参照してください。

重要

lspci ユーティリティーが、デプロイメント内に Habana Gaudi デバイスが存在することを示した場合でも、必ずしもデバイスが使用できる状態であるわけではありません。

Habana Gaudi デバイスを使用する前に、OpenShift 環境でそのデバイスを有効にし、デバイスごとにアクセラレータープロファイルを設定する必要があります。Habana Gaudi デバイス用に OpenShift 環境を有効にする方法は、HabanaAI Operator for OpenShift を参照してください。

5.3.1. Habana Gaudi デバイスの有効化

OpenShift AI で Habana Gaudi デバイスを使用する前に、必要な依存関係をインストールし、HabanaAI Operator をデプロイする必要があります。

前提条件

  • OpenShift にログインしている。
  • OpenShift の cluster-admin ロールを持っている。

手順

  1. OpenShift AI で Habana Gaudi デバイスを有効にするには、HabanaAI Operator for OpenShift の手順に従ってください。
  2. OpenShift AI ダッシュボードから、SettingsAccelerator profiles をクリックします。

    Accelerator profiles ページが表示され、既存のアクセラレータープロファイルが表示されます。既存のアクセラレータープロファイルを有効または無効にするには、関連するアクセラレータープロファイルを含む行で、Enable 列のトグルをクリックします。

  3. Create accelerator profile をクリックします。

    Create accelerator profile ダイアログが開きます。

  4. Name フィールドに、Habana Gaudi デバイスの名前を入力します。
  5. Identifier フィールドに、Habana Gaudi デバイスを識別する一意の文字列 (例: habana.ai/gaudi) を入力します。
  6. オプション: Description フィールドに、Habana Gaudi デバイスの説明を入力します。
  7. 作成直後に Habana Gaudi デバイスのアクセラレータープロファイルを有効または無効にするには、Enable 列のトグルをクリックします。
  8. オプション: Pod に容認を追加し、その Pod が一致するテイントにスケジュールされるようにします。

    1. Add toleration をクリックします。

      Add toleration ダイアログが開きます。

    2. Operator リストから、次のオプションのいずれかを選択します。

      • Equal - key/value/effect のパラメーターが一致する必要があります。これはデフォルトになります。
      • Exists - key/effect パラメーターが一致する必要があります。値パラメーターは、どの値にも一致する空白のままにする必要があります。
    3. Effect リストから、次のオプションのいずれかを選択します。

      • なし
      • NoSchedule - テイントと一致しない新しい Pod は、そのノードにスケジュールされません。ノードの既存 Pod はそのままになります。
      • PreferNoSchedule - テイントに一致しない新しい Pod がそのノードにスケジュールされる可能性はありますが、スケジューラーは試行しません。ノードの既存 Pod はそのままになります。
      • NoExecute - テイントに一致しない新しい Pod をそのノードにスケジュールすることはできません。一致する容認を持たないノードの既存 Pod は削除されます。
    4. Key フィールドに、容認キー habana.ai/gaudi を入力します。キーは、最大 253 文字までの任意の文字列になります。キーは文字または数字で開始する必要があり、文字、数字、ハイフン、ドットおよびアンダースコアを含めることができます。
    5. Value フィールドに容認値を入力します。値は最大 63 文字までの任意の文字列になります。値は文字または数字で開始する必要があり、文字、数字、ハイフン、ドットおよびアンダースコアを含めることができます。
    6. Toleration Seconds セクションで、次のオプションのいずれかを選択して、ノード条件があるノードに Pod がバインドされ続ける時間を指定します。

      • Forever - Pod はノードに永続的にバインドされたままになります。
      • Custom value - 値を秒単位で入力して、ノード条件を持つノードに Pod がバインドされ続ける時間を定義します。
    7. Add をクリックします。
  9. Create accelerator profile をクリックします。

検証

  • Administrator パースペクティブから、次の Operator が OperatorsInstalled Operators ページに表示されます。

    • HabanaAI
    • Node Feature Discovery (NFD)
    • カーネルモジュール管理 (KMM)
  • Accelerator リストには、Start a notebook server ページに Habana Gaudi アクセラレーターが表示されます。アクセラレーターを選択すると、Number of accelerators フィールドが表示され、これを使用してノートブックサーバーのアクセラレーターの数を選択できます。
  • アクセラレータープロファイルが Accelerator profiles ページに表示されます。
  • アクセラレータープロファイルは、AcceleratorProfile カスタムリソース定義 (CRD) の詳細ページの インスタンス タブに表示されます。

第6章 Jupyter での一般的な問題の管理者向けトラブルシューティング

Jupyter、そのノートブック、またはノートブックサーバーに関連する Red Hat OpenShift AI でエラーが発生した場合は、このセクションを読み、問題の原因と解決方法を確認してください。

該当する問題が、このドキュメントやリリースノートに記載されていない場合は、Red Hat サポートに連絡してください。

6.1. ユーザーが Jupyter にログインすると、404: Page not found エラーが表示される

問題

OpenShift AI の特殊なユーザーグループを設定している場合は、ユーザー名が、OpenShift AI のデフォルトのユーザーグループに追加されていない可能性があります。

診断

ユーザーがデフォルトユーザーグループの一部であるかどうかを確認します。

  1. Jupyter へのアクセスが許可されるグループ名を見つけます。

    1. OpenShift Web コンソールにログインします。
    2. User ManagementGroups をクリックします。
    3. ユーザーグループの名前 (例: rhoai-users) をクリックします。

      そのグループの Group details ページが表示されます。

  2. グループの Details タブをクリックし、関連するグループの Users セクションに、Jupyter へのアクセス権限があるユーザーが含まれていることを確認します。

解決方法

  • ユーザーが Jupyter へのアクセスが許可されるグループに追加されていない場合は、OpenShift AI でのユーザーの追加 に従ってユーザーを追加します。
  • Jupyter へのアクセス権限があるグループにユーザーがすでに追加されている場合は、Red Hat サポートにお問い合わせください。

6.2. ユーザーのノートブックサーバーが起動しない

問題

ユーザーのノートブックサーバーをホストする OpenShift クラスターが十分なリソースにアクセスできないか、Jupyter Pod に障害が発生した可能性があります。

診断

  1. OpenShift Web コンソールにログインします。
  2. このユーザーのノートブックサーバー Pod を削除して再起動します。

    1. WorkloadsPods をクリックし、Projectrhods-notebooks に設定します。
    2. このユーザーに属するノートブックサーバー Pod (例: jupyter-nb-<username>-*) を検索します。

      ノートブックサーバー Pod が存在する場合は、ノートブックサーバー Pod で障害が断続的に発生した可能性があります。

      ユーザーのノートブックサーバー Pod が存在しない場合は、診断を続行します。

  3. 選択したノートブックサーバーイメージで必要なリソースに対して、OpenShift クラスターで現在利用可能なリソースを確認します。

    クラスター内でのスケジューリングに CPU および RAM が十分にあるワーカーノードが利用可能な場合は、診断を続行します。

  4. Jupyter Pod の状態を確認します。

解決方法

  • ノートブックサーバー Pod で断続的に障害が発生した場合は、以下を行います。

    1. ユーザーに属するノートブックサーバー Pod を削除します。
    2. ユーザーにノートブックサーバーを再度開始するよう依頼します。
  • ノートブックサーバーに、選択したノートブックサーバーイメージを実行するのに十分なリソースがない場合は、OpenShift クラスターにリソースを追加するか、小規模なイメージサイズを選択します。
  • Jupyter Pod が FAILED 状態にある場合は、以下を実行します。

    1. jupyter-nb-* Pod のログを取得し、詳細な評価のために Red Hat サポートに送信します。
    2. jupyter-nb-* Pod を削除します。
  • 以前の解決策がない場合は、Red Hat サポートにお問い合わせください。

6.3. ノートブックセルの実行時に database or disk is full エラーまたは no space left on device エラーが表示される

問題

ノートブックサーバーのストレージ領域を使い果たした可能性があります。

診断

  1. Jupyter にログインし、問題のあるユーザーに属するノートブックサーバーを起動します。ノートブックサーバーが起動しない場合は、以下の手順を実行して、ユーザーのストレージ領域が不足しているかどうかを確認します。

    1. OpenShift Web コンソールにログインします。
    2. WorkloadsPods をクリックし、Projectrhods-notebooks に設定します。
    3. このユーザーに属するノートブックサーバー Pod (例: jupyter-nb-<idp>-<username>-*) をクリックします。
    4. Logs をクリックします。以下のような行が表示された場合は、ユーザーが利用可能な容量を超えています。

      Unexpected error while saving file: XXXX database or disk is full

解決方法

  • 永続ボリュームを拡張して、ユーザーの使用可能なストレージを増やします (永続ボリュームの拡張)。
  • ユーザーと連携し、ノートブックサーバーの /opt/app-root/src ディレクトリーから削除できるファイルを特定し、既存のストレージ領域を解放します。
注記

JupyterLab ファイルエクスプローラーを使用してファイルを削除すると、ファイルはノートブックの永続ストレージにある非表示の /opt/app-root/src/.local/share/Trash/files フォルダーに移動します。ノートブック用のストレージ領域を解放するには、これらのファイルを完全に削除する必要があります。

第7章 Jupyter での一般的な問題のトラブルシューティング

Jupyter、ノートブック、またはノートブックサーバーに関連する Red Hat OpenShift AI のエラーが表示される場合は、このセクションを読み、問題が発生する可能性があるかどうかを確認します。

その問題がこのドキュメントまたはリリースノートに記載されていない場合は、Red Hat サポートに連絡してください。

7.1. Jupyter にログインすると 403: Forbidden エラーが表示される

問題

管理者が OpenShift AI の特殊なユーザーグループを設定している場合は、ユーザー名が、OpenShift AI のデフォルトのユーザーグループまたはデフォルトの管理者グループに追加されていない可能性があります。

解決方法

Contact your administrator so that they can add you to the correct group/s.

7.2. ノートブックサーバーが起動しない

問題

ノートブックサーバーをホストする OpenShift クラスターが十分なリソースにアクセスできないか、Jupyter Pod に障害が発生した可能性があります。

解決方法

OpenShift Container Platform の Events セクションのログで、問題に関連するエラーメッセージの有無を確認します。以下に例を示します。

Server requested
2021-10-28T13:31:29.830991Z [Warning] 0/7 nodes are available: 2 Insufficient memory,
2 node(s) had taint {node-role.kubernetes.io/infra: }, that the pod didn't tolerate, 3 node(s) had taint {node-role.kubernetes.io/master: },
that the pod didn't tolerate.

追加のチェックを実行できるように、関連するエラーメッセージの詳細を管理者に連絡してください。

7.3. ノートブックセルの実行時に database or disk is full エラーまたは no space left on device エラーが表示される

問題

ノートブックサーバーでストレージ領域が不足している可能性があります。

解決方法

詳細を確認できるように管理者に問い合わせてください。

法律上の通知

Copyright © 2024 Red Hat, Inc.
The text of and illustrations in this document are licensed by Red Hat under a Creative Commons Attribution–Share Alike 3.0 Unported license ("CC-BY-SA"). An explanation of CC-BY-SA is available at http://creativecommons.org/licenses/by-sa/3.0/. In accordance with CC-BY-SA, if you distribute this document or an adaptation of it, you must provide the URL for the original version.
Red Hat, as the licensor of this document, waives the right to enforce, and agrees not to assert, Section 4d of CC-BY-SA to the fullest extent permitted by applicable law.
Red Hat, Red Hat Enterprise Linux, the Shadowman logo, the Red Hat logo, JBoss, OpenShift, Fedora, the Infinity logo, and RHCE are trademarks of Red Hat, Inc., registered in the United States and other countries.
Linux® is the registered trademark of Linus Torvalds in the United States and other countries.
Java® is a registered trademark of Oracle and/or its affiliates.
XFS® is a trademark of Silicon Graphics International Corp. or its subsidiaries in the United States and/or other countries.
MySQL® is a registered trademark of MySQL AB in the United States, the European Union and other countries.
Node.js® is an official trademark of Joyent. Red Hat is not formally related to or endorsed by the official Joyent Node.js open source or commercial project.
The OpenStack® Word Mark and OpenStack logo are either registered trademarks/service marks or trademarks/service marks of the OpenStack Foundation, in the United States and other countries and are used with the OpenStack Foundation's permission. We are not affiliated with, endorsed or sponsored by the OpenStack Foundation, or the OpenStack community.
All other trademarks are the property of their respective owners.