Red Hat OpenShift Data Science スタートガイド

Red Hat OpenShift Data Science 1

OpenShift Data Science 環境での使用方法を学ぶ

概要

ログインし、ノートブックサーバーを起動して、Jupyter のノートブックの使用を開始します。

第1章 OpenShift Data Science へのログイン

Jupyter およびデータサイエンスプロジェクトへのアクセスを容易にするため、ブラウザーから OpenShift Data Science にログインします。

手順

  1. OpenShift Data Science インスタンス URL を参照し、Log in with OpenShift をクリックします。

    • データサイエンティストユーザーの場合、管理者は OpenShift Data Science インスタンス URL を提供する必要があります (例: https://rhods-dashboard-redhat-ods-applications.apps.example.abc1.p1.openshiftapps.com/)
    • OpenShift Dedicated にアクセスできる場合は、OpenShift Dedicated Web コンソールを参照し、Application Launcher ( The application launcher ) → Red Hat OpenShift Data Science をクリックできます。
  2. アイデンティティープロバイダーの名前 (GitHub など) をクリックします。
  3. 認証情報を入力し、Log in (または、お使いのアイデンティティープロバイダーでの類似アイコン) をクリックします。

検証

  • OpenShift Data Science が Enabled applications ページで開きます。

トラブルシューティング

  • ログインを試みて An authentication error occurred または Could not create user が表示される場合は、以下を確認します。

    • 認証情報が正しく入力されていない可能性があります。認証情報が正しいことを確認します。
    • 複数の設定済みのアイデンティティープロバイダーにアカウントがある可能性があります。以前に別のアイデンティティープロバイダーでログインしている場合は、そのアイデンティティープロバイダーで再度ログインしてみてください。

第2章 OpenShift Data Science ユーザーインターフェイス

Red Hat OpenShift Data Science インターフェイスは OpenShift Web コンソールユーザーインターフェイスに基づいています。

Red Hat OpenShift Data Science ユーザーインターフェイスは、複数のエリアに分類されます。

  • グローバルナビゲーションバー。ヘルプ通知 など、便利なコントロール機能にアクセスできます。

    図2.1 グローバルナビゲーションバー

    The global navigation bar
  • サイドのナビゲーションメニュー。OpenShift Data Science で利用可能なさまざまなページのカテゴリーが含まれます。

    図2.2 サイドナビゲーションメニュー

    The side navigation menu
  • メイン表示エリア。現在のページを表示し、通知やクイックスタートガイドなど、現在情報を表示しているドロワーと領域を共有します。メイン表示領域には Notebook サーバーのコントロールパネル も表示され、ノートブックサーバーを起動して設定することで Jupyter を起動できます。管理者は、Notebook サーバーのコントロールパネル を使用して、他のユーザーのノートブックサーバーを管理することもできます。

    図2.3 メイン表示エリア

    The main display area

2.2. サイドナビゲーション

サイドナビゲーションには、3 つの主要なセクションがあります。

Applications → Enabled

Enabled ページには、有効で、OpenShift Data Science で使用できる状態のアプリケーションが表示されます。このページは、OpenShift Data Science のデフォルトのランディングページです。

アプリケーションカードの Launch application ボタンをクリックし、新規タブでアプリケーションインターフェイスを開きます。アプリケーションに関連するクイックスタートツアーがある場合は、アプリケーションのカードのドロップダウンメニューをクリックし、Open quick start を選択してこれにアクセスします。このページには、管理者によって無効にされたアプリケーションおよびコンポーネントも表示されます。無効になっているアプリケーションは、アプリケーションのカードに Disabled と表示されます。アプリケーションのカードで Disabled をクリックしてリンクにアクセスすると、カード自体を削除したり、ライセンスの有効期限が切れている場合はそのライセンスを再検証したりできます。

Applications → Explore
Explore ページには、OpenShift Data Science で使用できるアプリケーションが表示されます。カードをクリックしてアプリケーションの詳細を確認するか、Enable ボタンにアクセスします。Enable ボタンは、アプリケーションが OpenShift Operator のインストールを必要としない場合にのみ表示されます。 
Data science projects
Data science projects ページでは、データサイエンスの作業を 1 つのプロジェクトにまとめることができます。このページから、データサイエンスプロジェクトを作成および管理できます。ワークベンチの追加、プロジェクトのクラスターへのストレージの追加、データ接続の追加、およびモデルサーバーの追加によって、データサイエンスプロジェクトの機能を強化することもできます。
Data Science Pipelines → Pipelines
Pipelines ページでは、データサイエンスパイプラインをインポート、管理、追跡、および表示できます。Red Hat OpenShift Data Science パイプラインを使用すると、機械学習ワークフローを標準化および自動化し、データサイエンスモデルを開発およびデプロイできるようになります。
Data Science Pipelines → Runs
Runs ページでは、データサイエンスパイプラインの実行を定義、管理、追跡できます。パイプラインの実行は、データサイエンスパイプラインの 1 回の実行です。データサイエンスプロジェクトについて、以前に実行された実行およびスケジュールされた実行の記録を表示することもできます。
Model Serving
Model Serving ページでは、デプロイされたモデルのステータスを管理および表示できます。このページを使用して、データサイエンスモデルをデプロイしてインテリジェントなアプリケーションを提供したり、既存のデプロイ済みモデルを表示したりできます。デプロイされたモデルの推論エンドポイントを決定することもできます。
Resources
Resources ページには、ドキュメント、How to 資料、クイックスタートツアーなどの学習リソースが表示されます。左側に表示されるオプションを使用するか、検索バーに用語を入力して、表示可能なリソースを絞り込むことができます。
Settings → Notebook images
Notebook image settings ページでは、プロジェクトの特定要件に対応するカスタムノートブックイメージを設定できます。カスタムノートブックイメージを OpenShift Data Science のデプロイメントに追加した後、ノートブックサーバーの作成時に選択できます。
Settings → Cluster settings

Cluster settings ページでは、クラスターで以下の管理タスクを実行できます。

  • Red Hat がクラスターでの OpenShift Data Science の使用に関するデータを収集する機能を有効または無効にします。
  • クラスターの永続ボリューム要求 (PVC) のデフォルトサイズを変更して、リソースがどのようにクラスター内で要求されるかを設定します。
  • アイドル状態のノートブックサーバーを停止することにより、OpenShift Data Science デプロイメントのリソース使用量を減らします。
  • 容認を追加して、テイントのマークが付けられたノードでノートブック Pod をスケジュールします。
Settings → User management
User and group settings ページでは、OpenShift Data Science ユーザーグループと管理者グループのメンバーシップを定義できます。

第3章 OpenShift Data Science の通知

Red Hat OpenShift Data Science は、クラスターでの重要なイベントの発生時に通知を表示します。

通知メッセージが発行されると、メッセージは Red Hat OpenShift Data Science インターフェイスの左下隅に表示されます。

通知メッセージが見つからない場合は、通知 ボタン ( Notifications icon ) をクリックして Notifications ドロワーを開き、未読メッセージを表示します。

図3.1 Notification ドロワー

The OpenShift Data Science interface with the Notifications drawer visible

第4章 データサイエンスプロジェクトの作成

データサイエンスの作業を開始するには、データサイエンスプロジェクトを作成します。プロジェクトを作成すると、作業を 1 カ所で整理できます。ワークベンチの追加、プロジェクトのクラスターへのストレージの追加、データ接続の追加、およびモデルサーバーの追加によって、データサイエンスプロジェクトの機能を強化することもできます。

前提条件

  • Red Hat OpenShift Data Science にログインしている。
  • 特殊な OpenShift Data Science グループを使用している場合は、OpenShift のユーザーグループ、または、管理者グループ (rhods-usersrhods-admins など) に属している。

手順

  1. OpenShift Data Science ダッシュボードから、Data Science Projects をクリックします。

    Data science projects のページが開きます。

  2. Create data science project をクリックします。

    Create a data science project ダイアログが開きます。

  3. データサイエンスプロジェクトの name を入力します。
  4. オプション: データサイエンスプロジェクトの リソース名 を編集します。リソース名は、小文字の英数字 - で設定され、英数字で開始および終了する必要があります。
  5. データサイエンスプロジェクトの 説明 を入力します。
  6. Create をクリックします。

    プロジェクトの詳細ページが開きます。ここから、ワークベンチを作成し、クラスターストレージを追加し、プロジェクトにデータ接続を追加できます。

検証

  • 作成したデータサイエンスプロジェクトが Data science projects ページに表示されます。

第5章 プロジェクトワークベンチの作成

孤立した領域でデータモデルを調べて操作するために、ワークベンチを作成できます。このワークベンチを使用すると、既存のノートブックコンテナーイメージから新しい Jupyter ノートブックを作成して、そのリソースとプロパティーにアクセスできます。データの保持が必要なデータサイエンスプロジェクトの場合は、作成中のワークベンチにコンテナーストレージを追加できます。

前提条件

  • Red Hat OpenShift Data Science にログインしている。
  • 特殊な OpenShift Data Science グループを使用している場合は、OpenShift のユーザーグループ、または、管理者グループ (rhods-usersrhods-admins など) に属している。
  • ワークベンチを追加できるデータサイエンスプロジェクトを作成している。

手順

  1. OpenShift Data Science ダッシュボードから、Data Science Projects をクリックします。

    Data science projects のページが開きます。

  2. ワークベンチを追加するプロジェクトの名前をクリックします。

    プロジェクトの Details ページが開きます。

  3. Workbenches セクションで Create workbench をクリックします。

    Create workbench ページが開きます。

  4. 作成するワークベンチのプロパティーを設定します。

    1. ワークベンチの name を入力します。
    2. ワークベンチの description を入力します。
    3. ワークベンチサーバーに使用する notebook image を選択します。
    4. サーバーの container size を選択します。
    5. オプション: 新規の 環境変数 の値を選択し、指定します。
    6. OpenShift Data Science クラスターのストレージを設定します。

      1. OpenShift Data Science からログアウトした後に保持されるストレージを作成するには、Create new persistent storage を選択します。関連するフィールドに入力してストレージを定義します。
      2. 既存のストレージを再利用するには、Use existing persistent storage を選択し、Persistent storage リストからストレージを選択します。
  5. Create workbench をクリックします。

検証

  • 作成したワークベンチがプロジェクトの Details ページに表示されます。
  • 作成プロセス中にワークベンチに関連付けたクラスターストレージは、プロジェクトの Details ページに表示されます。
  • Details ページの Workbenches セクションにある Status 列には、ワークベンチサーバーが起動している場合は Starting のステータスが表示され、ワークベンチが正常に起動した場合は Running のステータスが表示されます。

5.1. Jupyter の起動およびノートブックサーバーの起動

Jupyter を起動してノートブックサーバーを起動し、ノートブックの使用を開始します。

前提条件

  • Red Hat OpenShift Data Science にログインしている。
  • ノートブックサーバー環境の環境変数 (例: AWS_SECRET_ACCESS_KEY) に使用する名前と値を把握している。
  • 非常に大きなデータセットを使用する場合は、管理者と連携して、ノートブックサーバーのストレージ容量を事前に増やしておく。

手順

  1. Enabled applications ページで Jupyter カードを見つけます。
  2. Launch application をクリックします。

    Access permission needed のメッセージが表示される場合、OpenShift Data Science のデフォルトのユーザーグループまたはデフォルトの管理者グループには属していません。OpenShift Data Science のユーザーの追加 を使用して適切なグループに追加できるように管理者に問い合わせます。

    jupyter-nb-<username> サービスアカウントを許可していない場合は、Authorize Access ページが表示され、承認を指定するよう要求されます。デフォルトで選択したパーミッションを検査し、Allow selected permissions ボタンをクリックします。

    認証情報が許可されると、Notebook server コントロールパネル が開き、Start a notebook server ページが表示されます。

  3. ノートブックサーバーを起動します。

    Jupyter を以前に開いたことがある場合、これは必要ありません。

    1. サーバーに使用する ノートブックイメージ を選択します。
    2. ノートブックイメージに複数のバージョンが含まれている場合は、Version セクションからノートブックイメージのバージョンを選択します。

      注記

      ノートブックイメージの新規バージョンがリリースされても、以前のバージョンは引き続き利用でき、クラスターでサポートされます。これにより、作業をノートブックイメージの最新バージョンに移行する時間ができます。

    3. サーバーの コンテナーサイズ を選択します。
    4. オプション: サーバーの Number of GPUs (Graphics Processing Units) を選択します。

      重要

      GPU を使用したワークロードの高速化は、PyTorch、TensorFlow、および CUDA ノートブックサーバーイメージでのみサポートされます。さらに、クラスターで GPU が有効になっている場合に限り、ノートブックサーバーに必要な GPU の数を指定できます。GPU サポートを有効にする方法は、OpenShift Data Science での GPU サポートの有効化 を参照してください。

    5. オプション: 新しい Environment variables の値を選択し、指定します。

      インターフェイスにはこれらの変数が保存されるため、入力が必要なのは 1 回だけです。頻繁に統合される環境やフレームワーク (例: Amazon Web Services (AWS)) における一般的な環境変数の変数名のサンプルは、自動的に提供されます。

      重要

      パスワードなど、非公開しておく必要のある機密性の高い値を含む変数は、必ず Secret チェックボックスを選択してください。

    6. オプション: 必要に応じて、Start server in current tab チェックボックスを選択します。
    7. Start server をクリックします。

      Starting server 進捗インジケーターが表示されます。Expand event log をクリックして、サーバー作成プロセスに関する追加情報を表示します。要求したデプロイメントのサイズおよびリソースによっては、サーバーの起動に数分間かかることがあります。サーバーの作成をキャンセルするには、Cancel をクリックします。

      サーバーが起動すると、以下のいずれかの動作が見られます。

      • Start server in current tab チェックボックスを選択している場合は、Web ブラウザーの現在のタブで JupyterLab インターフェイスが開きます。
      • Start server in current tab チェックボックスを選択していない場合は、Starting server ダイアログボックスで新しいブラウザータブまたは現在のタブでサーバーを開くように求められます。

        JupyterLab インターフェイスは、指定されたとおりに開きます。

検証

  • JupyterLab インターフェイスが開きます。

トラブルシューティング

  • エラーメッセージ "Unable to load notebook server configuration options" が表示される場合は管理者に連絡し、Jupyter Pod に関連付けられたログを確認し、問題の詳細を確認できるようにします。

5.2. ノートブックサーバー環境のオプション

Jupyter を初めて起動する時、またはノートブックサーバーを停止した後に、使用するソフトウェアおよび変数がサーバーで利用できるように、Start a notebook server ウィザードでサーバーオプションを選択する必要があります。このセクションでは、Start a notebook server ウィザードで利用可能なオプションの詳細を説明します。

Start a notebook server ページは複数のセクションに分けられます。

ノートブックイメージ

ノートブックサーバーが基になるコンテナーイメージを指定します。ノートブックイメージが異なれば、デフォルトで異なるパッケージがインストールされます。ノートブックイメージに複数のバージョンが含まれている場合は、Versions セクションから使用するノートブックイメージのバージョンを選択できます。

注記

ノートブックイメージは、少なくとも 1 年間サポートされます。事前に設定されたノートブックイメージへのメジャー更新は、約 6 カ月ごとに行われます。したがって、サポートされている 2 つのノートブックイメージはいつでも利用できます。最新のパッケージバージョンを使用するには、最後に追加されたノートブックイメージを使用することが推奨されます。

ノートブックイメージを起動したら、ノートブックセルで pip ツールを実行して、ノートブックサーバーにインストールされている Python パッケージとパッケージのバージョンを確認できます。

以下の表は、利用可能なノートブックイメージで使用されるパッケージバージョンを示しています。

表5.1 ノートブックイメージオプション

イメージ名イメージのバージョンインストール済みパッケージ

CUDA

2 (推奨)

  • Python 3.9
  • CUDA 11.8
  • JupyterLab 3.5
  • Notebook 6.5

1

  • Python 3.8
  • CUDA 11.4
  • JupyterLab 3.2
  • Notebook 6.4

最小の Python (デフォルト)

2 (推奨)

  • Python 3.9
  • JupyterLab 3.5
  • Notebook 6.5

1

  • Python 3.8
  • JupyterLab 3.2
  • Notebook 6.4

PyTorch

2 (推奨)

  • Python 3.9
  • JupyterLab 3.5
  • Notebook 6.5
  • PyTorch 1.13
  • CUDA 11.7
  • TensorBoard 2.11
  • Boto3 1.26
  • Kafka-Python 2.0
  • Matplotlib 3.6
  • Numpy 1.24
  • Pandas 1.5
  • Scikit-learn 1.2
  • SciPy 1.10

1

  • Python 3.8
  • JupyterLab 3.2
  • Notebook 6.4
  • PyTorch 1.8
  • CUDA 10.2
  • TensorBoard 2.6
  • Boto3 1.17
  • Kafka-Python 2.0
  • Matplotlib 3.4
  • Numpy 1.19
  • Pandas 1.2
  • Scikit-learn 0.24
  • SciPy 1.6

Standard Data Science

2 (推奨)

  • Python 3.9
  • JupyterLab 3.5
  • Notebook 6.5
  • Boto3 1.26
  • Kafka-Python 2.0
  • Matplotlib 3.6
  • Pandas 1.5
  • Numpy 1.24
  • Scikit-learn 1.2
  • SciPy 1.10

1

  • Python 3.8
  • JupyterLab 3.2
  • Notebook 6.4
  • Boto3 1.17
  • Kafka-Python 2.0
  • Matplotlib 3.4
  • Pandas 1.2
  • Numpy 1.19
  • Scikit-learn 0.24
  • SciPy 1.6

TensorFlow

2 (推奨)

  • Python 3.9
  • JupyterLab 3.5
  • Notebook 6.5
  • TensorFlow 2.11
  • TensorBoard 2.11
  • CUDA 11.8
  • Boto3 1.26
  • Kafka-Python 2.0
  • Matplotlib 3.6
  • Numpy 1.24
  • Pandas 1.5
  • Scikit-learn 1.2
  • SciPy 1.10

1

  • Python 3.8
  • JupyterLab 3.2
  • Notebook 6.4
  • TensorFlow 2.7
  • TensorBoard 2.6
  • CUDA 11.4
  • Boto3 1.17
  • Kafka-Python 2.0
  • Matplotlib 3.4
  • Numpy 1.19
  • Pandas 1.2
  • Scikit-learn 0.24
  • SciPy 1.6

TrustyAI

1

  • Python 3.9
  • JupyterLab 3.5
  • Notebook 6.5
  • TrustyAI 0.2
  • Boto3 1.26
  • Kafka-Python 2.0
  • Matplotlib 3.6
  • Numpy 1.24
  • Pandas 1.5
  • Scikit-learn 1.2
  • SciPy 1.10
デプロイメントサイズ

ノートブックサーバーで利用可能なコンピュートリソースを指定します。

コンテナーサイズ は、CPU の数、メモリー量、コンテナーの最小および最大要求容量を制御します。

GPU の数 は、コンテナーに割り当てられたグラフィックプロセッシングユニットの数を指定します。

重要

GPU を使用したワークロードの高速化は、PyTorch、TensorFlow、および CUDA ノートブックサーバーイメージでのみサポートされます。さらに、クラスターで GPU が有効になっている場合に限り、ノートブックサーバーに必要な GPU の数を指定できます。GPU サポートを有効にする方法は、OpenShift Data Science での GPU サポートの有効化 を参照してください。

環境変数

ノートブックサーバーに設定される変数の名前と値を指定します。サーバーの起動時に環境変数を設定すると、ノートブックのボディーや Jupyter コマンドラインインターフェイスを使用して定義する必要はありません。以下の表に、推奨される環境変数を示します。

表5.2 推奨の環境変数

環境変数オプション推奨される変数名

AWS

  • AWS_ACCESS_KEY_ID は、Amazon Web Services のアクセスキー ID を指定します。
  • AWS_SECRET_ACCESS_KEY は、AWS_ACCESS_KEY_ID で指定されるアカウントのシークレットアクセスキーを指定します。

第6章 データサイエンティストのチュートリアル

すぐに始められるように、Red Hat OpenShift Data Science とそのサポートされるアプリケーションに関する学習リソースにアクセスできます。これらのリソースは、Red Hat OpenShift Data Science ユーザーインターフェイスの Resources タブで利用できます。

表6.1 チュートリアル

リソース名説明

Numba による Python 科学ワークロードの高速化

Python コードを高速で実行する方法に関するビデオをご覧ください。

Python でのインタラクティブな可視化およびダッシュボードの構築

複数のノートブックにまたがるさまざまなデータを確認し、完全なダッシュボードおよびアプリケーションをデプロイする方法を説明します。

scikit-learn を使用した機械学習モデルの構築

監督者のいる学習、監督者のいない学習、分類問題について、scikit を使用して機械学習モデルを構築する方法を学習します。

バイナリー分類モデルの構築

顧客が銀行の企画にサブスクライブする可能性が高いかどうかを予測するようにモデルをトレーニングします。

データ視覚化に使用する Python ツールの選択

PyViz.org の Web サイトを使用して、最適なオープンソースの Python データ可視化ツールを選択できるようにします。

データサイエンス向けの Anaconda の検討

Python および R プログラミング言語のフリーミアムオープンソースディストリビューションである Anaconda を学習します。

Pachyderm コンセプトのスタートガイド

いくつかのイメージでエッジ検出を実行するパイプラインを作成して、Pachyderm の主なコンセプトを学習します。

Numba を使用した Python での GPU コンピューティング

Numba を使用して GPU アクセラレーション関数を作成する方法を説明します。

Python ノートブックを実行して、IBM Watson OpenScale で結果を生成

Python ノートブックを実行して、機械学習モデルを作成、トレーニングし、デプロイします。

AutoAI 実験の実行によるモデルの構築

マーケティングキャンペーン向けバイナリー分類モデルの構築に関するビデオを視聴します。

Pachyderm 回帰モデルのトレーニング

実験の実施、データの分析、および回帰の設定を行うために、Pachyderm クラスターを使用してハウジングデータリポジトリーのサンプルを作成する方法を学習します。

並列データ分析での Dask の使用

既存の Python エコシステムを拡張する並列コンピューティングライブラリーである Dask を使用して、中規模のデータセットを並列にローカルで解析します。

Watson Studio での Jupyter ノートブックの使用

Watson Studio での Jupyter ノートブックの使用に関するビデオを視聴します。

Python のデータ分析用 Pandas の使用

Python プログラミング言語のデータ分析ライブラリーである pandas の使用方法を学習します。

表6.2 クイックスタートガイド

リソース名説明

Jupyter ノートブックの作成

JupyterLab で Jupyter ノートブックを作成します。

NVIDIA GPU アドオンを使用した機械学習モデルの作成

利用可能にした GPU を使用する機械学習モデルを Jupyter に作成します。

Anaconda 対応の Jupyter ノートブックの作成

Anaconda 対応の Jupyter ノートブックを作成し、セキュリティーと互換性のために取りまとめられた Anaconda パッケージにアクセスします。

Watson Studio でのモデルのデプロイ

Watson Studio でノートブックをインポートし、AutoAI を使用してモデルを構築し、デプロイします。

Flask および OpenShift を使用したサンプル Python アプリケーションのデプロイ

Jupyter ノートブックからデータサイエンスモデルを Flask アプリケーションにデプロイし、開発用サンドボックスとして使用します。

Pachyderm ビギナー向けチュートリアルノートブックのインポート

Pachyderm のビギナー向けチュートリアルのノートブックを読み込み、Pachyderm の主な概念 (データリポジトリー、パイプライン、セルからの pachctl CLI の使用) を学習します。

NVIDIA GPU アドオンのインストールおよび検証

ここでは、Jupyter が使用可能な GPU を検出し、検証する方法を説明します。

カナリアデプロイメントを使用した SKLearn モデルの起動および更新

SKLearn モデルを起動し、カナリアデプロイメント手法を使用して更新します。

Starburst Galaxy を使用したデータのクエリー

Jupyter ノートブックから Starburst Galaxy を使用してデータをクエリーする方法を説明します。

Red Hat OpenShift API Management を使用してデプロイされたモデルのセキュリティー保護

Red Hat OpenShift API Management を使用してモデルサービス API を保護します。

Intel® oneAPI AI Analytics Toolkit (AI Kit) ノートブックの使用

Intel® oneAPI AI Analytics Toolkit でデータサイエンスノートブックのサンプルを実行します。

OpenVINO ツールキットの使用

OpenVINO モデルを使用して ONNX コンピュータービジョンモデルを量子化し、結果をノートブックからの推論に使用します。

表6.3 How to ガイド

リソース名説明

ノートブックランタイム環境オプションの選択方法

ノートブックランタイム環境の設定に利用可能なオプションを確認します。

データのクリーニング、成形、可視化方法

IBM Watson Studio データ精製ツールを使用して、表形式のデータをクリーニングおよび成形する方法を学習します。

データにアクセスするための接続の作成方法

プラットフォーム全体のさまざまなデータソースへの接続を作成する方法を学習します。

デプロイメント領域の作成方法

機械学習用のデプロイメント領域の作成方法を学習します。

Watson Studio におけるノートブックの作成方法

Watson Studio で基本的な Jupyter ノートブックを作成する方法を学習します。

Watson Studio におけるプロジェクトの作成方法

Watson Studio で解析プロジェクトを作成する方法を学習します。

Git と統合するプロジェクトの作成方法

Git リポジトリーからのアセットをプロジェクトに追加する方法を学習します。

ノートブックサーバーへの Python パッケージのインストール方法

ノートブックサーバーに追加の Python パッケージをインストールする方法を学習します。

Jupyter ノートブックへのデータの読み込み方法

データを読み込んで Jupyter ノートブックにデータソースを統合する方法を学習します。

OpenVINO Model Server を使用したモデルの提供方法

OpenVINO カスタムリソースを使用して OpenVINO Model Server で最適化されたモデルをデプロイする方法を学習します。

Watson OpenScale のセットアップ方法

OpenScale を使用してモデルからの結果を追跡し、測定する方法を学習します。

ノートブックサーバー設定の更新方法

ノートブックサーバーの設定またはノートブックイメージを更新する方法を学習します。

Amazon S3 バケットのデータの使用方法

環境変数を使用して S3 ストレージのデータに接続する方法を学習します。

ノートブックサーバーにインストールされているパッケージの表示方法

実行中のノートブックサーバーにインストールされているパッケージを確認する方法を学習します。

6.1. チュートリアルへのアクセス

Red Hat OpenShift Data Science とサポートされるアプリケーションに関する学習リソースにアクセスできます。

前提条件

  • Red Hat OpenShift Data Science にログインしている。
  • OpenShift Dedicated Web コンソールにログインしている。

手順

  1. Red Hat OpenShift Data Science のホームページで、Resources をクリックします。

    Resources ページが開きます。

  2. 該当するカードの Access tutorial をクリックします。

検証

  • Red Hat OpenShift Data Science とサポートされるアプリケーションに関する学習リソースが表示され、それにアクセスできます。

関連情報

第7章 OpenShift Data Science に接続されているサービスの有効化

Red Hat OpenShift Data Science で使用する前に、Anaconda Professional Edition などの SaaS ベースのサービスを有効にする必要があります。オンクラスターサービスは自動的に有効になります。

通常、以下のいずれかの方法を使用して、サービスをインストールするか、OpenShift Data Science に接続されているサービスを有効にできます。

  • 次の手順で説明されているように、OpenShift Data Science ダッシュボードの Explore ページからサービスを有効にします。
  • OperatorHub からサービスの Operator をインストールします。OperatorHub は、クラスター管理者がクラスター上にインストールする Operator を検出し、選択するための Web コンソールです。OpenShift Container Platform ではデフォルトでデプロイされます (Web コンソールを使用した OperatorHub からのインストール)。

    注記

    OperatorHub からインストールされた Operator を含むデプロイメントは、Red Hat では完全にサポートされない可能性があります。

  • Red Hat Marketplace からのサービスの Operator のインストール (Operator のインストール)
  • サービスをアドオンとして OpenShift Dedicated クラスターにインストールします (クラスターへの Operator の追加)。

一部のサービス (Jupyter など) では、サービスエンドポイントは OpenShift Data Science の Enabled ページにあるサービスのタイルで利用できます。特定のサービスは、タイルから直接アクセスできません。たとえば、OpenVINO および Anaconda は Jupyter で使用するノートブックイメージを提供しますが、タイルからのエンドポイントリンクを提供しません。さらに、ノートブック環境で簡単に参照できるように、これらのエンドポイント URL を環境変数として保存すると便利な場合があります。

Resources ページのサービスのラーニングリソースおよびドキュメントにアクセスするか、Enabled ページのサービスのタイルにあるリンクをクリックすると、すぐに開始できます。

前提条件

  • OpenShift Data Science にログインしている。
  • 管理者が OpenShift クラスターにサービスをインストールまたは設定している。

手順

  1. OpenShift Data Science ホームページで Explore をクリックします。

    Explore ページが開きます。

  2. 有効にするサービスのカードをクリックします。
  3. サービスのドロワーで Enable をクリックします。
  4. プロンプトが表示されたら、サービスのキーを入力し、Connect をクリックします。
  5. Enable をクリックして、サービスを有効にしていることを確認します。

検証

  • 有効にしたサービスが Enabled ページに表示されます。
  • サービスエンドポイントは、Enabled ページのサービスのタイルに表示されます。

第8章 OpenShift Data Science に接続されているアプリケーションの無効化

アプリケーションとコンポーネントを無効にして、データサイエンティストがアプリケーションを使用しなくなったときや、アプリケーションのライセンスの有効期限が切れたときなど、OpenShift Data Science ダッシュボードに表示されないようにすることができます。

未使用のアプリケーションを無効にすると、データサイエンティストは、OpenShift Data Science ダッシュボードからこれらのアプリケーションカードを手動で削除して、使用する可能性が最も高いアプリケーションに集中できるようになります。アプリケーションカードを手動で削除する方法の詳細は、OpenShift Data Science からの無効なアプリケーションの削除 を参照してください。

重要

次のアプリケーションを無効にするときは、この手順に従わないでください。

  • Anaconda Professional Edition。Anaconda Professional Edition を手動で無効にできません。ライセンスの有効期限が切れた場合にのみ自動的に無効になります。
  • Red Hat OpenShift API Management。Red Hat OpenShift API Mnagement は Openshift Cluster Manager からのみアンインストールできます。
  • OpenShift Dedicated Web コンソールにログインしている。
  • OpenShift Dedicated の cluster-admins ユーザーグループに属している。
  • OpenShift Dedicated クラスターにサービスをインストールまたは設定している。
  • 無効にするアプリケーションまたはコンポーネントが有効になり、Enabled ページに表示されている。

手順

  1. OpenShift Dedicated Web コンソールで、Administrator パースペクティブに切り替えます。
  2. redhat-ods-applications プロジェクトに変更します。
  3. OperatorsInstalled Operators をクリックします。
  4. アンインストールする Operator をクリックします。Filter by name フィールドにキーワードを入力すると、Operator をすばやく見つけることができます。
  5. Operator インターフェイスのタブを使用して、Operator リソースまたはインスタンスを削除します。

    一部の Operator は、インストール中に、Operator インターフェイスのタブを使用して、リソースを作成するか、プロセスインスタンスを開始するように管理者に要求します。Operator が正しくアンインストールする前に、これを削除する必要があります。

  6. Operator Details ページで、Actions ドロップダウンメニューをクリックし、Uninstall Operator を選択します。

    Uninstall Operator? ダイアログボックスが表示されます。

  7. Uninstall を選択して、Operator、Operator のデプロイメント、および Pod をアンインストールします。これが完了すると、Operator は実行を停止し、更新を受け取らなくなります。
重要

Operator を削除しても、Operator のカスタムリソース定義またはマネージドリソースは削除されません。カスタムリソース定義とマネージドリソースはまだ存在しているため、手動でクリーンアップする必要があります。Operator によってデプロイされたアプリケーションおよび設定されたオフクラスターリソースは引き続き実行されるため、手動でクリーンアップする必要があります。

検証

  • Operator は、ターゲットクラスターからアンインストールされます。
  • Operator は、Installed Operators ページに表示されなくなります。
  • 無効にされたアプリケーションは、データサイエンティストが使用できなくなり、OpenShift Data Science ダッシュボードの Enabled ページで Disabled マークがつきます。Operator の削除後、このアクションが実行されるまでに数分かかる場合があります。

8.1. OpenShift Data Science からの無効化されたアプリケーション削除

管理者が未使用のアプリケーションを無効にしたら、そのアプリケーションを Red Hat OpenShift Data Science ダッシュボードから手動で削除できます。未使用のアプリケーションを無効にして削除すると、使用する可能性が最も高いアプリケーションに集中できます。

前提条件

  • Red Hat OpenShift Data Science にログインしている。
  • OpenShift Dedicated Web コンソールにログインしている。
  • 管理者は、削除するアプリケーションを無効にしている。

手順

  1. OpenShift Data Science インターフェイスで、Enabled をクリックします。

    Enabled ページが開きます。無効になっているアプリケーションは、アプリケーションのカードで Disabled と表示されます。

  2. 削除するアプリケーションのカードで Disabled をクリックします。
  3. リンクをクリックして、アプリケーションカードを削除します。

検証

  • 無効にされたアプリケーションのカードは、Enabled ページに表示されなくなります。

第9章 サポートの要件および制限

このセクションをよく読み、Red Hat サポートの要件と Red Hat OpenShift Data Science の Red Hat サポートに対する制限を確認してください。

9.1. サポート対象のブラウザー

Red Hat OpenShift Data Science は、以下のブラウザーの最新バージョンをサポートします。

  • Google Chrome
  • Mozilla Firefox
  • Safari

9.2. サポート対象のサービス

Red Hat OpenShift Data Science は、以下のサービスをサポートします。

表9.1 サポート対象のサービス

サービス名説明

Anaconda Professional Edition

Anaconda Professional Edition は、一般的なオープンソースパッケージディストリビューションで、商業用途に最適化された管理エクスペリエンスを提供します。

IBM Watson Studio

IBM Watson Studio は、AI と機械学習をビジネスに組み込み独自のデータでカスタムモデルを作成するためのプラットフォームです。

Intel® oneAPI AI Analytics Toolkits

AI Kit は、Intel® アーキテクチャーでエンドツーエンドのデータサイエンスと分析パイプラインを高速化する AI ソフトウェアツール群です。

Jupyter

Jupyter は、企業、クラスルーム、研究ラボ向けに設計された、マルチユーザーバージョンのノートブックです。

重要

Red Hat OpenShift Data Science が OpenShift ノードの障害、アップグレード、同様の中断を伴う操作からもすぐに復旧できるように努めていますが、このような状況においては、個人のノートブック環境が中断される可能性があります。OpenShift ノードが再起動または利用できなくなると、そのノードのノートブック環境は別のノードで再起動します。これが発生すると、ユーザーのノートブック環境で実行している継続的なプロセスが中断され、ユーザーは環境が再び利用可能になった時点でこれを再実行する必要があります。

Red Hat では、このような制限があるため、中断に対応できないプロセスは、OpenShift Data Science の Jupyter ノートブックサーバー環境で実行しないように推奨しています。

Pachyderm

Pachyderm のデータバージョン管理、パイプライン、改行機能を使用して機械学習ライフサイクルを自動化し、機械学習操作を最適化します。

注記

Pachyderm が 意図的に 作成する pachd Pod は、OpenShift Web コンソールからのターミナルアクセスを提供しません。pachd Pod のターミナルビューにアクセスしようとすると、エラーが表示されます。この動作は想定されています。

Red Hat OpenShift API Management

OpenShift API Management は、価値実現までの時間を短縮し、API ファーストのマイクロサービスベースのアプリケーションを提供する際のコストを削減するサービスです。

OpenVINO

OpenVINO はオープンソースのツールキットで、ディープラーニングのパフォーマンスを最適化し、推論エンジンを使用して Intel ハードウェアにデプロイできるように支援します。

Starburst Galaxy

Starburst Galaxy は、SQL を使用してさまざまなデータソースにわたって高パフォーマンスのクエリーを実行するための、完全に管理されたサービスです。

9.3. サポート対象のパッケージ

Red Hat OpenShift Data Science でサポートされる最新のノートブックサーバーイメージは、デフォルトで Python とともにインストールされます。これらのイメージに含まれるパッケージおよびバージョンの完全なリストは、ノートブックサーバー環境のオプション の表を参照してください。

サポート対象のバージョンの Python と互換性のあるパッケージを、そのパッケージが必要とするバイナリーを持つノートブックサーバーにインストールできます。使用するノートブックサーバーイメージに必要なバイナリーが含まれていない場合は、Red Hat サポートに連絡して、バイナリーを含めることを検討するようリクエストしてください。

pip install コマンドを使用すると、パッケージを一時的にインストールできます。requirements.txt ファイルを使用して、pip install コマンドにパッケージリストを指定することもできます。詳細は、ノートブックサーバーへの Python パッケージのインストール を参照してください。

ノートブックサーバーを起動するたびに、これらのパッケージを再インストールする必要があります。

pip uninstall コマンドを使用して、パッケージを削除できます。

第10章 よくある質問

ドキュメントのほかにも、Red Hat は、OpenShift Data Science とサポートされるアプリケーションに対して学習リソースのセットを提供します。

OpenShift Data Science ダッシュボードの Resources ページでは、カテゴリーリンクを使用して、データサイエンスワークフローのさまざまな段階のリソースをフィルターできます。たとえば、Model serving カテゴリーをクリックすると、モデルをデプロイするさまざまな方法を説明するリソースが表示されます。すべてのカテゴリーのリソースを表示するには、All items をクリックします。

選択したカテゴリーに対して、追加のオプションを適用して、利用可能なリソースをフィルタリングできます。たとえば、ハウツー記事、クイックスタート、チュートリアルなどのタイプでフィルタリングできます。これらのリソースは、一般的な質問に対する答えを提供します。

第11章 Jupyter での一般的な問題の管理者向けトラブルシューティング

Jupyter、そのノートブック、またはノートブックサーバーに関連する Red Hat OpenShift Data Science でエラーが発生した場合は、このセクションを読み、問題の原因と解決方法を確認してください。

該当する問題が、このドキュメントやリリースノートに記載されていない場合は、Red Hat サポートに連絡してください。

11.1. ユーザーが Jupyter にログインすると、404: Page not found エラーが表示される

問題

専用の OpenShift Data Science ユーザーグループを設定している場合は、ユーザー名が、OpenShift Data Science のデフォルトのユーザーグループに追加されていない可能性があります。

診断

ユーザーがデフォルトユーザーグループの一部であるかどうかを確認します。

  1. Jupyter へのアクセスが許可されるグループ名を見つけます。
  1. OpenShift Dedicated Web コンソールにログインします。
  1. User ManagementGroups をクリックします。
  2. ユーザーグループの名前 (rhods-users など) をクリックします。

    そのグループの Group details ページが表示されます。

    1. グループの Details タブをクリックし、関連するグループの Users セクションに、Jupyter へのアクセス権限があるユーザーが含まれていることを確認します。

解決方法

  • ユーザーが Jupyter へのアクセスが許可されるグループに追加されていない場合は、Adding users for OpenShift Data Science に従ってユーザーを追加します。
  • Jupyter へのアクセスが許可されるグループにユーザーがすでに追加されている場合は、Red Hat サポートにお問い合わせください。

11.2. ユーザーのノートブックサーバーが起動しない

ユーザーのノートブックサーバーをホストする OpenShift Dedicated クラスターが十分なリソースにアクセスできないか、Jupyter Pod に障害が発生した可能性があります。

  1. OpenShift Dedicated Web コンソールにログインします。
  1. このユーザーのノートブックサーバー Pod を削除して再起動します。

    1. WorkloadsPods をクリックし、Projectrhods-notebooks に設定します。
    2. このユーザーに属するノートブックサーバー Pod (例: jupyter-nb-<username>-*) を検索します。

      ノートブックサーバー Pod が存在する場合は、ノートブックサーバー Pod で障害が断続的に発生した可能性があります。

      ユーザーのノートブックサーバー Pod が存在しない場合は、診断を続行します。

  2. 選択したノートブックサーバーイメージで必要なリソースに対して、OpenShift クラスターで現在利用可能なリソースを確認します。

    クラスター内でのスケジューリングに CPU および RAM が十分にあるワーカーノードが利用可能な場合は、診断を続行します。

  3. Jupyter Pod の状態を確認します。

解決方法

  • ノートブックサーバー Pod で断続的に障害が発生した場合は、以下を行います。

    1. ユーザーに属するノートブックサーバー Pod を削除します。
    2. ユーザーにノートブックサーバーを再度開始するよう依頼します。
  • ノートブックサーバーに、選択したノートブックサーバーイメージを実行するのに十分なリソースがない場合は、OpenShift クラスターにリソースを追加するか、小規模なイメージサイズを選択します。
  • Jupyter Pod が FAILED 状態にある場合は、以下を実行します。

    1. jupyter-nb-* Pod のログを取得し、詳細な評価のために Red Hat サポートに送信します。
    2. jupyter-nb-* Pod を削除します。
  • 以前の解決策がない場合は、Red Hat サポートにお問い合わせください。

11.3. ノートブックセルの実行時に database or disk is full エラーまたは no space left on device エラーが表示される

問題

ノートブックサーバーのストレージ領域を使い果たした可能性があります。

診断

  1. Jupyter にログインし、問題のあるユーザーに属するノートブックサーバーを起動します。ノートブックサーバーが起動しない場合は、以下の手順を実行して、ユーザーのストレージ領域が不足しているかどうかを確認します。
  1. OpenShift Dedicated Web コンソールにログインします。
  1. WorkloadsPods をクリックし、Projectrhods-notebooks に設定します。
  2. このユーザーに属するノートブックサーバー Pod (例: jupyter-nb-<idp>-<username>-*) をクリックします。
  3. Logs をクリックします。以下のような行が表示された場合は、ユーザーが利用可能な容量を超えています。

    Unexpected error while saving file: XXXX database or disk is full

解決方法

  • 永続ボリュームを拡張し、ユーザーで利用可能なストレージを拡張します (永続ボリュームの拡張)。
  • ユーザーと連携し、ノートブックサーバーの /opt/app-root/src ディレクトリーから削除できるファイルを特定し、既存のストレージ領域を解放します。

第12章 Jupyter での一般的な問題のトラブルシューティング

Jupyter、ノートブック、またはノートブックサーバーに関連する Red Hat OpenShift Data Science のエラーが表示される場合は、このセクションを読み、問題が発生する可能性があるかどうかを確認します。

その問題がこのドキュメントまたはリリースノートに記載されていない場合は、Red Hat サポートに連絡してください。

12.1. Jupyter にログインすると 403: Forbidden エラーが表示される

問題

管理者が専用の OpenShift Data Science ユーザーグループを設定している場合は、ユーザー名が、OpenShift Data Science のデフォルトのユーザーグループまたはデフォルトの管理者グループに追加されていない可能性があります。

解決方法

Contact your administrator so that they can add you to the correct group/s.

12.2. ノートブックサーバーが起動しない

ノートブックサーバーをホストする OpenShift Dedicated クラスターが十分なリソースにアクセスできないか、Jupyter Pod に障害が発生した可能性があります。

解決方法

OpenShift Container Platform の Events セクションのログで、問題に関連するエラーメッセージの有無を確認します。以下に例を示します。

Server requested
2021-10-28T13:31:29.830991Z [Warning] 0/7 nodes are available: 2 Insufficient memory,
2 node(s) had taint {node-role.kubernetes.io/infra: }, that the pod didn't tolerate, 3 node(s) had taint {node-role.kubernetes.io/master: },
that the pod didn't tolerate.

追加のチェックを実行できるように、関連するエラーメッセージの詳細を管理者に連絡してください。

12.3. ノートブックセルの実行時に database or disk is full エラーまたは no space left on device エラーが表示される

問題

ノートブックサーバーでストレージ領域が不足している可能性があります。

解決方法

詳細を確認できるように管理者に問い合わせてください。

法律上の通知

Copyright © 2023 Red Hat, Inc.
The text of and illustrations in this document are licensed by Red Hat under a Creative Commons Attribution–Share Alike 3.0 Unported license ("CC-BY-SA"). An explanation of CC-BY-SA is available at http://creativecommons.org/licenses/by-sa/3.0/. In accordance with CC-BY-SA, if you distribute this document or an adaptation of it, you must provide the URL for the original version.
Red Hat, as the licensor of this document, waives the right to enforce, and agrees not to assert, Section 4d of CC-BY-SA to the fullest extent permitted by applicable law.
Red Hat, Red Hat Enterprise Linux, the Shadowman logo, the Red Hat logo, JBoss, OpenShift, Fedora, the Infinity logo, and RHCE are trademarks of Red Hat, Inc., registered in the United States and other countries.
Linux® is the registered trademark of Linus Torvalds in the United States and other countries.
Java® is a registered trademark of Oracle and/or its affiliates.
XFS® is a trademark of Silicon Graphics International Corp. or its subsidiaries in the United States and/or other countries.
MySQL® is a registered trademark of MySQL AB in the United States, the European Union and other countries.
Node.js® is an official trademark of Joyent. Red Hat is not formally related to or endorsed by the official Joyent Node.js open source or commercial project.
The OpenStack® Word Mark and OpenStack logo are either registered trademarks/service marks or trademarks/service marks of the OpenStack Foundation, in the United States and other countries and are used with the OpenStack Foundation's permission. We are not affiliated with, endorsed or sponsored by the OpenStack Foundation, or the OpenStack community.
All other trademarks are the property of their respective owners.