发行注记
与本发行版本相关的功能、增强功能、已解决的问题
摘要
第 1 章 OpenShift Data Science 概述
通过使用 Red Hat OpenShift Data Science,用户可以集成数据、智能和机器学习软件,以执行端到端机器学习工作流。OpenShift Data Science 有两个支持的配置:
- 在一个红帽管理的环境(如 Red Hat OpenShift Dedicated 和 Red Hat OpenShift Service on Amazon Web Services (ROSA))中作为一个附加组件安装。
- 在自助管理环境中(如 Red Hat OpenShift Container Platform)作为自我管理的 Operator 安装。
对于数据科学家,OpenShift Data Science 包括 Jupyter 和默认笔记本镜像集合,使用模型开发所需的工具和库以及 TensorFlow 和 PyTorch 框架进行优化。部署并托管您的模型、将模型集成到外部应用程序中,并在任何混合云环境中导出模型以托管它们。您还可以使用图形处理单元(GPU)加快数据科学试验。
对于管理员,OpenShift Data Science 为现有的 Red Hat OpenShift Dedicated 或 ROSA 环境提供了数据科学工作负载功能。使用您现有的 OpenShift 身份提供程序来管理用户,并管理可供笔记本服务器使用的资源,以确保数据科学家具有创建、培训和主机模型所需的内容。
如需更多信息,请参阅 Red Hat OpenShift Data Science 简介。
第 2 章 支持删除
本节论述了对 Red Hat OpenShift Data Science 中面向用户的功能的支持主要变化。
2.1. NVIDIA GPU Operator 替换 NVIDIA GPU 附加组件
在以前的版本中,要启用图形处理单元(GPU)来帮助计算密集型工作负载,您要安装 NVIDIA GPU 附加组件。OpenShift Data Science 不再支持此附加组件。
现在,要启用 GPU 支持,您必须安装 NVIDIA GPU Operator。要了解如何安装 GPU Operator,请参阅 OpenShift 上的 NVIDIA GPU Operator (外部)。
2.2. Kubeflow Notebook Controller 替换 JupyterHub
在 OpenShift Data Science 1.15 及更早版本中,JupyterHub 用于创建和启动笔记本服务器环境。在 OpenShift Data Science 1.16 及更高版本中,JupyterHub 不再包含,其功能由 Kubeflow Notebook Controller 替代。
这个更改有以下优点:
- 用户现在可以立即取消请求,进行更改并重试请求,而不是等待 5+ 分钟,以便初始请求超时。这意味着,当请求失败时,用户不会再等待,例如当笔记本服务器没有正确启动时。
- 架构不再阻止单个用户有多个笔记本服务器会话,从而扩展了将来的功能可能。
- 删除 PostgreSQL 数据库要求允许在 OpenShift Data Science 中未来的扩展环境支持。
但是,此次更新还会创建以下行为更改:
- 对于 IT Operations 管理员,笔记本服务器管理界面目前还不允许登录数据科学家用户笔记本服务器。计划在以后的版本中添加。
- 对于数据科学家,JupyterHub 接口 URL 不再有效。更新书签以指向 OpenShift Data Science 仪表板。
JupyterLab 接口保持不变,数据科学家可以继续使用 JupyterLab 与笔记本文件一起工作。
第 3 章 已解决的问题
本节论述了在 Red Hat OpenShift Data Science 中已解决的显著问题。
ODH-DASHBOARD-1639 - 在仪表板路由中 Wrong TLS 值
在以前的版本中,当在 OpenShift 上为 OpenShift Data Science 仪表板创建路由时,tls.termination
字段具有无效的默认值 Reencrypt
。这个问题现已解决。新值为 reencrypt
。
ODH-DASHBOARD-1638 - Triggered Runs 选项卡中的 Name placeholder shows Scheduled run name
在以前的版本中,当点 Pipelines > Runs,然后选择 Triggered 选项卡来配置触发的运行时,Name 字段中显示的示例值为 Scheduled run 名称
。这个问题现已解决。
ODH-DASHBOARD-1547 - "We could't find that page" 消息在后台安装管道 operator 时显示在仪表板中
在以前的版本中,当使用仪表板的 Data Science Pipelines 页面安装 OpenShift Pipelines Operator 时,当 Operator 安装完成后,刷新的页面以显示 "We could't find that page" 信息。这个问题现已解决。Operator 安装完成后,仪表板会将您重定向到 Pipelines 页面,您可以在其中创建管道服务器。
ODH-DASHBOARD-1545 - 当 Models 选项卡扩展时,仪表板会保持滚动到项目底部
在以前的版本中,在仪表板的 Data Science Projects 页面中,如果您点击 Deployed models 选项卡来扩展它,然后尝试对页面执行其他操作,页面会自动滚动到 Deployed models 部分。这会影响您执行其他操作的能力。这个问题现已解决。
注意BOOKS-156 - Elyra 包括一个称为 Test 的示例运行时
在以前的版本中,Elyra 包括一个示例运行时配置,称为 Test
。如果在运行数据科学项目时选择了此配置,您可能会看到错误。Test
配置现已被删除。
rhODS-8939 - 上一发行版本中创建的 Jupyter 笔记本的默认共享内存会导致运行时错误
从版本 1.3.1 开始,这个问题已被解决,任何新的笔记本的共享内存被设置为节点的大小。
对于在早于 1.3.1 的发行版本中创建的 Jupyter 笔记本,Jupyter 笔记本的默认共享内存被设置为 64 Mb,您无法在笔记本配置中更改此默认值。
要解决这个问题,您必须重新创建笔记本,或按照这些 发行注记的已知问题部分中描述的 流程进行操作。
rhoDS-8932 - 在调度重复管道运行时默认会显示不正确的 cron 格式
当您通过配置 cron 任务调度周期性管道运行时,OpenShift Data Science 界面默认会显示一个不正确的格式。它现在显示正确的格式。
RHODS-9374 - 带有非唯一名称的管道不会出现在数据科学项目用户界面中
如果您从支持 Elyra 的 Jupyter 应用程序启动笔记本,或者提交一个工作台时,带有非唯一名称的管道不会出现在相关数据科学项目页面的 Pipelines 部分或 data Science 管道标题的 Pipelines 标题中。这个问题现已解决。
RHODS-9329 - 部署自定义 model-serving 运行时可能会导致错误消息
在以前的版本中,如果您使用 OpenShift Data Science 仪表板部署自定义 model-serving 运行时,部署过程可能会失败,并显示 Error retrieve Serving Runtime
信息。这个问题现已解决。
rhODS-9064 - 升级后,OpenShift Data Science 仪表板中没有启用 Data Science Pipelines 选项卡
当您从 OpenShift Data Science 1.26 升级到 OpenShift Data Science 1.28 时,OpenShift Data Science 仪表板中没有启用 Data Science Pipelines 选项卡。这个问题已在 OpenShift Data Science 1.29 中解决。
RHODS-9443 - 导出 Elyra 管道以纯文本形式公开 S3 存储凭证
在 OpenShift Data Science 1.28.0 中,当您以 Python DSL 格式或 YAML 格式从 JupyterLab 导出 Elyra 管道时,生成的输出以纯文本形式包含 S3 存储凭证。这个问题已在 OpenShift Data Science 1.28.1 中解决。但是,在升级到 OpenShift Data Science 1.28.1 后,如果您的部署包含带有管道服务器和数据连接的数据科学项目,您必须执行以下额外操作才能使修复生效:
- 刷新浏览器页面。
- 停止部署中运行的工作台,然后重新启动它们。
另外,要确认您的 Elyra 运行时配置包含该修复,请执行以下操作:
-
在 JupyterLab 的左侧边栏中,点 Runtimes (
)。
将光标悬停在您要查看的运行时配置上,并点击 Edit 按钮(
)。
Data Science Pipelines 运行时配置页面 将打开。
-
确认
KUBERNETES_SECRET
定义为 Cloud Object Storage Authentication Type 字段中的值。 - 关闭运行时配置而不更改它。
RHODS-8460 - 编辑共享项目详情时,用户界面会一直处于加载状态,而不会报告错误
当具有编辑项目权限的用户试图编辑其详情时,用户界面会保持在加载状态,且没有显示适当的错误消息。具有编辑项目权限的用户无法编辑项目中的任何字段,如描述。这些用户只能编辑属于项目的组件,如其工作台、数据连接和存储。
用户界面现在显示适当的错误消息,且不会尝试更新项目描述。
rhoDS-8482 - Data Science pipeline 图没有显示运行管道的节点边缘
如果您在其 YAML 代码中运行不包含 Tekton 格式的参数或 when
表达式的管道,OpenShift Data Science 用户界面不会显示与图形节点的连接边缘。例如,如果您使用包含
runAfter
属性或 Workspaces
的管道,用户界面在没有边缘连接的情况下显示所执行管道的图形。OpenShift Data Science 用户界面现在显示连接到图形节点的边缘。
RHODS-8923 - 当您试图创建管道服务器时不会检测到新创建的数据连接
如果您在 Data Science 项目中创建了数据连接,然后尝试创建管道服务器,则 Configure a pipeline server 对话框不会检测到您创建的数据连接。这个问题现已解决。
rhoDS-8461 - 当与其他用户共享项目时,OpenShift Data Science 用户界面文本是误导
当您试图与另一个用户共享 Data Science 项目时,用户界面文本会错误地表示用户可以编辑其所有详情,如描述。但是,用户只能编辑属于某一项目的组件,如其工作台、数据连接和存储。这个问题现已解决,用户界面文本不再有误导,这意味着用户可以编辑所有详情。
rhoDS-8462 - 具有"Edit"权限的用户无法创建模型服务器
具有 "Edit" 权限的用户现在可以创建一个没有令牌授权的 Model Server。用户必须具有"Admin"权限,才能创建具有令牌授权的 Model Server。
rhODS-8796 - OpenVINO Model Server 运行时没有强制 GPU 使用所需的标记
OpenShift Data Science 默认包括 OpenVINO Model Server (OVMS) model-serving 运行时。当您配置新的模型服务器并选择这个运行时时,配置模型服务器 对话框可让您指定要与模型服务器一起使用的 GPU 数。但是,当您完成配置模型服务器并从中部署模型时,模型服务器实际上没有使用任何 GPU。这个问题现已解决,模型服务器使用 GPU。
rhoDS-8861 - 在创建管道运行时更改主机项目会导致可用管道列表不准确
如果您在创建管道运行时更改了主机项目,接口将无法使新主机项目的管道可用。相反,接口会显示属于您最初在 Data Science Pipelines > Runs 页面中选择的项目的管道。这个问题现已解决。您不再从 Create run 页面中选择一个管道。当您点 Create run 按钮(基于当前项目及其管道)时,管道选择会自动更新。
RHODS-8249 - 作为 ConfigMap 上传的环境变量被存储在 Secret 中
在以前的版本中,在 OpenShift Data Science 界面中,当您通过上传 ConfigMap
配置将环境变量添加到工作台时,变量会改为存储在 Secret
对象中。这个问题现已解决。
RHODS-7975 - Workbenches 可以有多个数据连接
在以前的版本中,如果您更改了工作台的数据连接,现有数据连接不会被释放。因此,工作台可以保持连接到多个数据源。这个问题现已解决。
rhoDS-7948 - 上传包含环境变量的 secret 文件会导致双编码值
在以前的版本中,当在数据科学项目中创建工作台时,如果您上传包含环境变量的基于 YAML 的 secret 文件,则环境变量值不会被解码。然后,在这个过程中,编码的值会再次编码。这个问题现已解决。
RHODS-6429 - 使用 Intel OpenVINO 或 Anaconda 专业版镜像创建工作台时会显示一个错误
在以前的版本中,当使用 Intel OpenVINO 或 Anaconda 专业版镜像创建工作台时,创建过程中会出现错误。但是,工作台仍然被成功创建。这个问题现已解决。
rhODS-6372 - Idle notebook culler 没有考虑活跃的终端
在以前的版本中,如果笔记本镜像正在运行,但没有活跃的、运行的内核,闲置 notebook culler 会检测到笔记本并停止终端。这个问题现已解决。
RHODS-5700 - 创建工作台时无法创建或连接到数据连接
在创建工作台时,用户无法创建新数据连接,或者连接到现有数据连接。
RHODS-6281 - 如果从集群中删除了 admin 组,OpenShift Data Science 管理员将无法访问 Settings 页面
在以前的版本中,如果从集群中删除 Red Hat OpenShift Data Science 管理员组,OpenShift Data Science 管理员用户无法访问 OpenShift Data Science 仪表板上的 Settings 页面。特别是,可以看到以下行为:
- 当 OpenShift Data Science 管理员用户访问 Settings → User management 页面时,会出现 "Page Not Found" 错误。
-
集群管理员 不会丢失 对 OpenShift Data Science 仪表板上的 Settings 页面的访问。当集群管理员访问 Settings → User Management 页面时,会出现警告信息,表示 OpenShift 中不再存在已删除的 OpenShift Data Science 管理员组。然后,删除的管理员组已从
OdhDashboardConfig
中删除,管理员访问权限被恢复。
这个问题现已解决。
rhODS-1968 - 删除的用户会一直登录,直到刷新仪表板为止
在以前的版本中,当用户对 Red Hat OpenShift Data Science 仪表板的权限被撤销时,只有在刷新仪表板页面后才会注意到更改。
这个问题现已解决。撤销用户权限时,OpenShift Data Science 仪表板会在 30 秒内锁定用户,而无需刷新。
RHODS-6384 - 创建重复数据连接时,工作台的数据连接被错误地更新
当创建包含与现有数据连接相同的名称的数据连接时,数据连接创建会失败,但相关的工作台仍然重启并连接到错误的数据连接。这个问题已解决。工作台现在连接到正确的数据连接。
rhoDS-6370 - Workbenches 无法接收最新的容限
在以前的版本中,要获取最新的容限,用户必须尝试编辑相关的工作台,不进行任何更改,然后再次保存工作台。用户现在可以通过停止并重启其数据科学项目的工作台来应用最新的容限更改。
RHODS-6779 - 从 OpenShift Data Science 1.20 升级到 OpenShift Data Science 1.21 后模型无法提供
当从 OpenShift Data Science 1.20 升级到 OpenShift Data Science 1.21 时,modelmesh-serving
pod 会尝试拉取不存在的镜像,从而导致镜像拉取错误。因此,无法使用 OpenShift Data Science 中的模型服务功能提供模型。odh-openvino-servingruntime-container-v1.21.0-15
镜像现在可以成功部署。
RHODS-5945 - OpenShift Data Science 无法启用 Anaconda 专业版
在 OpenShift Data Science 中无法启用 Anaconda 专业版。相反,关联的 pod 的 Events 页面中会显示 InvalidImageName
错误。Anaconda 专业版现在可以成功启用。
RHODS-5822 - 当数据科学项目创建的 PVC 超过 90% 和 100% 时,管理员用户不会被警告。
当 PVC 超过其容量的 90% 和 100% 时,未能向 admin 用户显示由数据科学项目创建的 PVC 的警告。管理员用户现在可以查看当 PVC 超过 90% 和从仪表板中其容量的 100% 时的警告。
RHODS-5889 - 如果数据科学笔记本处于"pending"状态,则不会显示 Error 信息
如果无法创建 notebook pod,OpenShift Data Science 界面不会显示错误消息。现在,如果无法生成数据科学笔记本,则会显示错误消息。
rhODS-5886 - 从数据科学工作台返回 Hub Control Panel 仪表板失败
如果您试图通过点 File → Log Out,从工作台 Jupyter 笔记本返回仪表板,您将被重定向到仪表板并保持在"Logging out"页面。同样,如果您尝试通过点 File → Hub Control Panel 以返回仪表板,则您会错误地重定向到 启动笔记本服务器页面。从数据科学工作台返回 Hub Control Panel 仪表板现在可以按预期工作。
rhoDS-6101 - 管理员无法停止所有笔记本服务器
OpenShift Data Science 管理员无法同时停止所有笔记本服务器。管理员现在可以使用 Stop all servers 按钮停止所有笔记本服务器,并通过从相关用户旁的操作菜单中选择 Stop server 来停止单个笔记本。
RHODS-5891 - Workbench 事件日志没有明确可见
在创建工作台时,用户无法在 OpenShift Data Science 界面中轻松找到事件日志窗口。现在,当您将鼠标悬停在其中时,Status 列下的 Starting 标签是下划线的,这表示您可以点它来查看笔记本状态和事件日志。
rhODS-6296 - 使用 Google Chrome 以外的浏览器时,ISV 图标不会被显示
当使用 Google Chrome 以外的浏览器时,不会呈现 Explore 和 Resources 页面下的所有 ISV 图标。ISV 图标现在在所有支持的浏览器中正确显示。
rhODS-3182 - Jupyter 中显示了可用 GPU 的数量
当用户试图在 Jupyter 中创建 notebook 实例时,不会更新用于调度的最大 GPU 数,因为分配了 GPU。Jupyter 现在显示可用 GPU 的正确数量。
RHODS-5890 - 当多个持久性卷挂载到同一目录中时,工作台无法启动
当在同一工作台中将多个持久性卷 (PV) 挂载到同一工作台中的同一挂载文件夹时,创建笔记本 pod 会失败且没有显示错误来指示问题。
RHODS-5768 - Data Science 项目对 Red Hat OpenShift Data Science 的用户不可见
在项目的 Display Name 属性末尾删除 [DSP]
后缀会导致相关的数据科学项目不再可见。用户无法再删除此后缀。
rhoDS-5701 - 数据连接配置详情被覆盖
当数据连接添加到工作台时,这些数据连接的配置详情会保存在环境变量中。添加第二个数据连接时,配置详情使用相同的环境变量保存,这意味着覆盖第一个数据连接的配置。目前,用户可以为每个工作台添加一个数据连接。
RHODS-5252 - 笔记本管理页面没有为用户提供笔记本服务器的管理员访问权限
从 OpenShift Data Science 仪表板访问的笔记本管理页面,并不代表为管理员提供了一个使用用户的笔记本服务器的方法。管理员仅限于启动或停止用户笔记本服务器。
RHODS-2438 - 升级时PyT 和 TensorFlow 镜像不可用
当从 OpenShift Data Science 1.3 升级到更新的版本时,PyTorch 和 TensorFlow 镜像在大约 30 分钟不可用。因此,在升级过程中,用户无法在 Jupyter 中启动 PyTorch 和 TensorFlow 笔记本。这个问题现已解决。
rhODS-5354 - 启动笔记本服务器时环境变量名称不会被验证
在启动笔记本服务器页面中不会验证环境变量名称。如果添加了无效的环境变量,用户无法成功启动笔记本。环境变量名称现在会实时检查。如果输入了无效的环境变量名称,则会显示错误消息表示有效环境变量名称必须包含字母字符、数字、_, -, 或 .,且不得以数字开头。
rhoDS -4617 - 只有在 GPU 可用时才会看到 GPU 数
在以前的版本中,只有 GPU 节点可用时,在 启动笔记本服务器页面 中才会显示 GPU 数。现在,当一个自动扩展集群池在集群中定义,即使当前还没有 GPU 节点可用(这可能会在集群中置备新的 GPU 节点),GPU 的数量 下拉菜单也会正确显示,。
RHODS-5420 - 如果集群管理员是集群中唯一用户,则不会获得管理员访问权限
在以前的版本中,当集群管理员是集群中唯一的用户时,它不会自动获得 Red Hat OpenShift 管理员访问权限。管理员访问权限现在可以正确地分配给管理员用户。
rhODS-4321 - 在笔记本选择过程中显示正确的软件包版本
启动一个笔记本服务器页面为 CUDA 笔记本镜像显示了一个不正确的版本号(11.4 而不是 11.7)。在此页面中不再指定安装的 CUDA 版本。
rhODS-5001 - 管理员用户可以向笔记本 pod 添加无效的容限
admin 用户可以在 Cluster settings 页面中添加非合规容限,而无需触发错误。如果添加了非合规容限,用户无法成功启动笔记本。现在,容限键会实时检查。如果输入了无效的容限名称,则会显示错误消息表示有效容限名称由字母数字字符(-, _, 或 .)组成,必须以字母数字字符开头并以字母数字字符结尾。
RHODS-5100 - 组角色绑定没有应用到集群管理员
在以前的版本中,如果您为组而非特定用户分配了集群管理特权,控制面板无法识别管理组中的用户管理特权。现在,组角色绑定可以正确地应用到集群管理员。
rhoDS-4947 - Old Minimal Python 笔记本镜像在升级后保留
从 OpenShift Data Science 1.14 升级到 1.15 后,Minimal Python 笔记本的旧版本会保留,包括所有关联的软件包版本。升级后,Minimal Python 笔记本的旧版本不再保留。
rhoDS-4935 - Excessive "missing x-forwarded-access-token header" 错误信息显示在仪表板日志中
因为就绪度探测达到 /status
端点,rhods-dashboard
pod 的日志中会包含大量的 "missing x-forwarded-access-token header" 错误消息。这个问题现已解决。
rhoDS-2653 - 在获取示例 Pachyderm 笔记本时出现错误
当用户尝试使用 Jupyter 中的示例 Pachyderm 笔记本获取镜像时会出现一个错误。指示镜像无法找到的错误。Pachyderm 解决了这个问题。
rhoDS-4584 - Jupyter 无法使用 OpenVINO 笔记本镜像启动笔记本服务器
Jupyter 的启动一个笔记本服务器页无法使用 OpenVINO 笔记本镜像启动笔记本服务器。Intel 已经为 OpenVINO 操作器提供了一个更新来更正此问题。
rhoDS-4923 - 禁用使用数据收集后显示的非标准复选框
在 Cluster settings 页面中禁用使用数据收集后,当用户访问 OpenShift Data Science 仪表板的另一个区域,然后返回到 Cluster settings 页面,允许收集使用数据 复选框时应用了非标准类型,因此在选择或清除时不会与其他复选框相同。
rhoDS-4938 - 在 Notebook Images 页面中显示不正确的标题
在 OpenShift Data Science 仪表板上的 Settings 页面中访问 Notebook Images 页面,在用户界面中显示不正确的标题。Notebook image settings 的标题显示 BYON image settings,Import Notebook images 标题显示 Import BYON images。现在,正确的标题会显示如预期。
rhODS-4818 - Jupyter 在安装了 NVIDIA GPU 附加组件时无法显示镜像
在安装 NVIDIA GPU 附加组件后,启动笔记本服务器页面不会显示笔记本镜像。现在,镜像会被正确显示,可以从启动笔记本服务器页面中启动。
rhoDS-4797 - 当用量超过 90% 和 100% 时,PVC 使用限制警报不会被发送
当 PVC 超过容量的 90% 和 100% 时,未能触发和发送相关的警报。现在,这些警告会按预期触发并发送。
rhODS-4366 - 集群设置在 operator 重启时被重置
当 OpenShift Data Science operator pod 重启时,集群设置有时会重置为默认值,删除任何自定义配置。当发布新的 OpenShift Data Science 版本以及运行 Operator 的节点失败时,OpenShift Data Science operator 会被重启。出现这个问题的原因是 Operator 部署的 ConfigMap 不正确。Operator 部署已被更新,这个问题不再会发生。
rhoDS-4318 - OpenVINO 笔记本镜像无法成功构建
OpenVINO notebook 镜像未能成功构建并显示错误消息。这个问题现已解决。
RHODS-3743 - Starburst Galaxy 快速启动没有在指令步骤中提供下载链接
Starburst Galaxy 快速启动(位于仪表板上的 Resources 页面中),要求用户打开 explore-data.ipynb notebook
,但无法提供指令步骤中的链接。相反,链接是在快速启动的介绍中提供的。
rhoDS-1974 - 更改警报通知电子邮件所需的 pod 重启
在 rhods-operator
Pod 和 prometheus-*
Pod 重新启动后,不会应用 Red Hat OpenShift Data Science Add-On 中的通知电子邮件地址列表的更改。
RHODS-2738 - Red Hat OpenShift API Management 1.15.2 附加组件安装无法成功完成
对于与 Red Hat OpenShift API Management 1.15.2 附加组件集成的 OpenShift Data Science 安装,Red Hat OpenShift API Management 安装过程将无法成功获取 SMTP 凭证 secret。因此,安装不会完成。
RHODS-3237 - 仪表板中没有显示 GPU 教程
位于 Gtc2018-numba 的 "GPU 计算"教程不会显示在仪表板上的 Resources 页面中。
RHODS-3069 - 当 GPU 节点不可用时 GPU 选择会保留
如果用户使用 GPU 支持置备笔记本服务器,而使用的 GPU 节点随后会从集群中移除,用户就无法创建笔记本服务器。这是因为最近一次用于附加 GPU 数的设置被默认使用。
RHODS-3181 - Pachyderm 现在与 OpenShift Dedicated 4.10 集群兼容
Pachyderm 最初与 OpenShift Dedicated 4.10 不兼容,因此在 OpenShift Dedicated 4.10 集群中没有提供 OpenShift Data Science。Pachyderm 现在提供与 OpenShift Dedicated 4.10 兼容的版本。
RHODS-2160 - 安装 OpenShift Data Science 和 OpenShift API Management 时卸载过程无法完成
当 OpenShift Data Science 和 OpenShift API 管理在同一集群中安装时,它们使用相同的虚拟私有集群(VPC)。这些附加组件的卸载过程会尝试删除 VPC。在以前的版本中,当同时安装 Add-ons 时,一个服务的卸载过程会被阻断,因为其他服务仍有 VPC 中的资源。清理过程已更新,不会发生此冲突。
RHODS-2747 - 升级 OpenShift Data Science 后镜像被错误地更新
升级 OpenShift Data Science 过程后,Jupyter 无法更新其笔记本镜像。这是因为镜像缓存机制存在问题。现在,在升级后镜像会被正确更新。
RHODS-2425 - 在笔记本选择过程中显示正确 TensorFlow 和 TensorBoard 版本
Start a notebook 服务器 页面显示 TensorFlow 和 TensorBoard 在 TensorFlow 笔记本镜像中显示不正确的版本号(2.4.0)。这些版本已被修正为 TensorFlow 2.7.0 和 TensorBoard 2.6.0。
rhoDS-24339 - 启用的应用程序没有显示快速启动链接
对于某些应用程序,Open quick start 链接无法在 Enabled 页面中的应用程序卡中显示。因此,用户无法直接访问相关应用程序的快速入门。
rhODS-2215 - 在笔记本选择过程中显示不正确的 Python 版本
Start a notebook server 页面显示 TensorFlow 和 PyTorch 笔记本电脑镜像的错误版本 Python。另外,现在不再显示软件包版本号的第三个整数。
rhoDS-1977 - 在笔记本服务器启动失败后等待十分钟
在启动笔记本服务器时,如果 Jupyter leader pod 失败,该用户将无法访问其笔记本服务器,直到 pod 重启前,这需要大约 10 分钟。这个进程已被改进,以便在选择新 leader pod 时将用户重定向到其服务器。如果此过程超时,用户会看到 504 网关超时错误,并且可以刷新以访问其服务器。
第 4 章 已知问题
本节论述了 Red Hat OpenShift Data Science 中已知的问题,以及这些问题的已知方法。
RHODS-11791 - 升级后启用使用数据收集
如果您之前具有 Allow collection usage data
选项(即禁用),则在升级 OpenShift Data Science 时此选项将变为选择(启用)。
- 临时解决方案
手动重置
Allow collection usage data
选项。要做到这一点,请执行以下操作:在 OpenShift Data Science 仪表板中,在左侧菜单中点击 Settings → Cluster settings。
Cluster Settings 页面将打开。
-
在 Usage data collection 部分中,取消选择
Allow collection usage data
。 - 点 Save Changes。
DATA-SCIENCE-PIPELINES-OPERATOR-294 - Scheduled 管道运行(使用 data-passing)可能无法在步骤间传递数据,或者完全失败步骤
使用 S3 对象存储来存储管道工件的调度管道运行可能会失败,并显示以下错误:
Bad value for --endpoint-url "cp": scheme is missing. Must be of the form http://<hostname>/ or https://<hostname>/
出现这个问题的原因是 S3 对象存储端点没有成功传递给调度的管道运行的 pod。
- 临时解决方案
根据要传递的管道工件的大小,您可以通过应用自定义 artifact-passing 脚本,然后重启管道服务器来部分或完全解决这个问题。具体来说,这个临时解决方案会产生以下行为:
- 对于小于 3 KB 的管道工件,管道运行现在可以成功将工件传递给 S3 对象存储。
- 对于大于 3 KB 的管道工件,管道运行仍然 不会将 工件传递给 S3 对象存储。但是,临时解决方案可确保运行继续完成。管道运行的其余部分中的任何较小的工件都会被成功存储。
要应用这个临时解决方案,请执行以下操作:
在文本编辑器中,粘贴以下基于 YAML 的工件传递脚本。该脚本定义
ConfigMap
对象。apiVersion: v1 data: artifact_script: |- #!/usr/bin/env sh push_artifact() { workspace_dir=$(echo $(context.taskRun.name) | sed -e "s/$(context.pipeline.name)-//g") workspace_dest=/workspace/${workspace_dir}/artifacts/$(context.pipelineRun.name)/$(context.taskRun.name) artifact_name=$(basename $2) if [ -f "$workspace_dest/$artifact_name" ]; then echo sending to: ${workspace_dest}/${artifact_name} tar -cvzf $1.tgz -C ${workspace_dest} ${artifact_name} aws s3 --endpoint <Endpoint> cp $1.tgz s3://<Bucket>/artifacts/$PIPELINERUN/$PIPELINETASK/$1.tgz elif [ -f "$2" ]; then tar -cvzf $1.tgz -C $(dirname $2) ${artifact_name} aws s3 --endpoint <Endpoint> cp $1.tgz s3://<Bucket>/artifacts/$PIPELINERUN/$PIPELINETASK/$1.tgz else echo "$2 file does not exist. Skip artifact tracking for $1" fi } push_log() { cat /var/log/containers/$PODNAME*$NAMESPACE*step-main*.log > step-main.log push_artifact main-log step-main.log } strip_eof() { if [ -f "$2" ]; then awk 'NF' $2 | head -c -1 > $1_temp_save && cp $1_temp_save $2 fi } kind: ConfigMap metadata: name: custom-script
- 在脚本中,将出现的任何 < Endpoint> 替换为您的 S3 端点(例如 https://s3.amazonaws.com),并将 < Bucket> 替换为您的 S3 存储桶名称。
-
保存
ConfigMap
对象的 YAML 文件。 应用 YAML 文件。
$ oc apply -f <configmap_file_name>.yaml
重新启动管道服务器。
$ oc project <data_science_project_name> $ oc delete pod $(oc get pods -l app=ds-pipeline-pipelines-definition --no-headers | awk {print $1})
ODH-DASHBOARD-1741 - 无法创建一个以数字开头的工作台
如果您试图创建名称以数字开头的工作台,则工作台不会启动。
- 临时解决方案
- 删除工作台,创建一个以字母开头的名称的新工作台。
ODH-DASHBOARD-1699 - Workbench 在配置更新后不会重启
如果您更新工作台配置(例如,通过更改环境变量值),工作台不会自动重启,且不会看到更改。
- 临时解决方案
- 手动重启工作台。
KUBEFLOW-157 - 如果您已注销 OpenShift Data Science 仪表板,从 JupyterLab 中注销。
如果在退出 JupyterLab 前退出 OpenShift Data Science 仪表板,则从 JupyterLab 注销。例如,如果您知道 Jupyter 笔记本的 URL,您可以在浏览器中再次打开它。
- 临时解决方案
- 退出 OpenShift Data Science 仪表板前,先从 JupyterLab 注销。
RHODS-9789 - 如果 Pipeline 服务器包含数据库名或用户名字段中包含短划线的自定义数据库,则它们无法启动
当您创建一个使用自定义数据库的管道服务器时,如果您为 dbname 字段或 username 字段设置的值中包含短划线,则管道服务器无法启动。
- 临时解决方案
- 编辑管道服务器,从受影响的字段中省略横线。
rhoDS-9764 - 编辑工作台时数据连接详情会被重置
当您编辑具有现有数据连接的工作台,然后选择 Create new data connection 选项时,在指定新的连接详情前,编辑页面可能会恢复到 Use existing data connection 选项。
- 临时解决方案
要临时解决这个问题,请执行以下操作:
- 再次选择 Create new data connection 选项。
- 指定新的连接详情,并在页面恢复到 Use existing data connection 选项前点 Update workbench。
rhoDS-9583 - Data Science 仪表板不会检测现有的 OpenShift Pipelines 安装
当 OpenShift Pipelines Operator 作为全局 Operator 安装在集群中时,Data Science 仪表板无法正确检测到它。
左侧导航栏中的 Data Science Pipelines 选项旁边会出现一个警报图标。打开 Data Science Pipelines 时,您会看到以下信息:"要使用管道,首先安装 Red Hat OpenShift Pipelines Operator"。 但是,当您查看 openshift-operators
项目中安装的 Operator 列表时,您会看到 OpenShift Pipelines 已安装为集群中的全局 Operator。
- 临时解决方案
以具有
cluster-admin
权限的用户身份登录这些步骤:-
使用
oc
客户端登录到集群。 输入以下命令在
redhat-ods-applications
应用程序命名空间中更新OdhDashboardConfig
:$ oc patch OdhDashboardConfig odh-dashboard-config -n redhat-ods-applications --type=merge -p '{"spec": {"dashboardConfig": {"disablePipelines": false}}}'
-
使用
RHODS-9412 - 如果具有编辑权限的用户创建工作台,则 Elyra 管道无法运行
如果被授予项目的编辑权限的用户创建了项目工作台,该用户会看到以下行为:
-
在工作台创建过程中,用户会看到与创建 Kubernetes 角色绑定相关的
Error create workbench
消息。 - 虽然前面的错误消息,OpenShift Data Science 仍然会创建工作台。但是,错误消息意味着用户无法使用工作台来运行 Elyra 数据科学管道。
如果用户尝试使用工作台运行 Elyra 管道,Jupyter 会显示描述失败初始化的错误
请求
消息。- 临时解决方案
- 具有管理员权限(如项目所有者)的用户必须代表具有编辑权限的用户创建工作台。然后,用户可以使用工作台运行 Elyra 管道。
RHODS-9030 - 在删除 kfdefs
资源时,OpenShift Data Science 的卸载过程可能会卡住
卸载 OpenShift Data Science 管理的服务的步骤,请参考 卸载 OpenShift Data Science。
但是,即使您遵循本指南,您可能看到卸载过程无法成功完成。相反,进程会保留在删除 Kubeflow Operator 使用的 kfdefs
资源的步骤。如以下示例所示,redhat-ods-applications
、redhat-ods-monitoring 和
命名空间中可能存在 rhods-
notebookskfdefs
资源:
$ oc get kfdefs.kfdef.apps.kubeflow.org -A NAMESPACE NAME AGE redhat-ods-applications rhods-anaconda 3h6m redhat-ods-applications rhods-dashboard 3h6m redhat-ods-applications rhods-data-science-pipelines-operator 3h6m redhat-ods-applications rhods-model-mesh 3h6m redhat-ods-applications rhods-nbc 3h6m redhat-ods-applications rhods-osd-config 3h6m redhat-ods-monitoring modelmesh-monitoring 3h6m redhat-ods-monitoring monitoring 3h6m rhods-notebooks rhods-notebooks 3h6m rhods-notebooks rhods-osd-config 3h5m
删除 kfdefs
资源失败可能会阻止以后安装 OpenShift Data Science 版本。
- 临时解决方案
-
要手动删除
kfdefs
资源以便可以完成卸载过程,请参阅以下红帽解决方案中的 "Force individual object removal when it have finalizers" 部分: https://access.redhat.com/solutions/4165791
rhODS-8939 - 对于在上一发行版本中创建的 Jupyter 笔记本,默认共享内存可能会导致运行时错误
对于在当前版本之前的发行版本中创建的 Jupyter 笔记本,Jupyter 笔记本的默认共享内存被设置为 64 Mb,您无法在笔记本配置中更改此默认值。
例如,PyTorT 依赖于共享内存,默认大小为 64 Mb 不足以用于大型用例,比如在培训模型或执行繁重数据操作时。Jupyter 报告了一个 "no space left on device" 信息,/dev/smh
为 full。
从版本 1.31 开始,这个问题已被解决,任何新的笔记本的共享内存被设置为节点的大小。
- 临时解决方案
对于在 1.31 之前的发行版本中创建的 Jupyter 笔记本,可以重新创建 Jupyter 笔记本或按照以下步骤操作:
- 在数据科学项目中,创建一个工作台,如 创建项目工作台 中所述。
- 在 data Science 项目页面中,在 Workbenches 部分中,单击工作台的 Status 切换,将其从 Running 改为 Stopped。
- 打开 OpenShift 控制台,然后选择 Administrator。
- 选择 Home → API Explorer。
- 在 Filter by kind 字段中,键入 notebook。
- 选择 kubeflow v1 笔记本。
- 选择 Instances 选项卡,然后选择在第 1 步中创建的工作台的实例。
- 点 YAML 选项卡,然后选择 Actions → Edit Notebook。
编辑 YAML 文件,在配置中添加以下信息:
对于具有 Workbench 笔记本名称的容器,请在
volumeMounts
部分添加以下行:- mountPath: /dev/shm name: shm
例如,如果您的工作台名称是
myworkbench
,请按如下所示更新 YAML 文件:spec: containers: - env ... name: myworkbench ... volumeMounts: - mountPath: /dev/shm name: shm
在 volumes 部分,添加以下示例中显示的行:
volumes: name: shm emptyDir: medium: Memory
备注:另外,您可以指定用于
emptyDir
的内存量的限制。
- 点击 Save。
- 在数据科学项目的 Workbenches 部分中,点工作台的 Status 切换。状态从 Stopped 变为 Starting,然后变为 Running。
- 重启笔记本。
如果您稍后通过 Data Science 仪表板 UI 编辑笔记本的配置,则对笔记本配置的临时解决方案编辑将被清除。
rhODS-8921 - 超过累积字符限制时无法创建管道服务器
当数据科学项目名称和管道服务器名称的累积字符限制超过 62 个字符时,您无法成功创建管道服务器。
- 临时解决方案
- 重命名您的数据科学项目,使其不超过 30 个字符。
rhoDS-8865 - 管道服务器无法启动,除非您指定了 Amazon Web Services (AWS) Simple Storage Service (S3)存储桶资源
当您为数据科学项目创建数据连接时,AWS_S3_BUCKET 字段不会被指定为强制字段。但是,如果您没有为此字段指定值,并且尝试配置管道服务器,管道服务器将无法成功启动。
RHODS-7718 - 没有仪表板权限的用户可以无限期地继续使用其正在运行的笔记本和工作台
当 Red Hat OpenShift Data Science 管理员撤销了用户的权限时,用户可以继续无限期地使用其正在运行的笔记本和工作台。
- 临时解决方案
- 当 OpenShift Data Science 管理员撤销用户权限时,管理员还应停止为该用户运行的任何笔记本和工作台。
RHODS-6907 - 当没有连接到工作台时,尝试增加持久性卷(PV)的大小会失败
尝试增加没有连接到工作台的持久性卷(PV)的大小会失败。在更改数据科学项目的存储时,用户仍然可以在用户界面中编辑 PV 的大小,但此操作没有任何效果。
RHODS-6950 - 在使用集群中的所有 GPU 时,无法缩减工作台的 GPU
如果使用集群中的所有 GPU,则无法缩减工作台的 GPU。这个问题适用于一个工作台使用的 GPU,以及多个工作台使用的 GPU。
- 临时解决方案
要临时解决这个问题,请执行以下步骤:
- 停止所有使用 GPU 的活跃工作台。
- 等待相关 GPU 再次可用。
- 编辑工作台,再缩减 GPU 实例。
rhoDS-6539 - OpenShift Data Science 中无法验证并启用 Anaconda 专业版
无法启用 Anaconda 专业版,因为 Anaconda 专业版的仪表板密钥验证是不可操作的。
RHODS-6346 - 使用无效字符创建数据科学项目时会显示 Unclear 错误消息
当使用无效特殊字符创建数据科学项目的数据连接、工作台或存储连接时,会显示以下出错信息:
the object provided is unrecognized (must be of type Secret): couldn't get version/kind; json parse error: unexpected end of JSON input ({"apiVersion":"v1","kind":"Sec ...)
错误消息无法清楚地指出问题。
rhODS-6955 - 尝试编辑工作台时可能会出现错误
编辑工作台时,可能会出现类似如下的错误:
Error creating workbench Operation cannot be fulfilled on notebooks.kubeflow.org "workbench-name": the object has been modified; please apply your changes to the latest version and try again
RHODS-6913 - 编辑工作台配置设置时,会出现误导性错误消息
当您编辑工作台的配置设置时,会出现一条警告消息,指出工作台会在其配置设置进行任何更改时重新启动。这个警告是误导,因为如果您更改了其环境变量的值,工作台不会自动重启。
rhODS-6383 - 在工作台创建过程中需要时不会显示 ImagePullBackOff 错误消息
Pod 可能会遇到从容器 registry 中拉取容器镜像的问题。如果发生错误,则相关 pod 进入 ImagePullBackOff
状态。在工作台创建过程中,如果发生 ImagePullBackOff
错误,则不会显示适当的消息。
- 临时解决方案
-
检查事件日志以了解更多有关
ImagePullBackOff
错误的信息。为此,请在工作台启动时单击工作台状态。
rhODS-6373 - 超过累积字符限制时无法启动 Workbenches
当数据科学项目的标题和工作台标题的累积字符限制超过 62 个字符时,工作台无法启动。
RHODS-6356 - 笔记本创建过程对于没有登录到仪表板的用户失败
控制面板的笔记本 Administration 页面显示属于 OpenShift 中用户组和 admin 组的用户。但是,如果管理员尝试代表从未登录到仪表板的用户启动笔记本服务器,服务器创建过程会失败,并显示以下错误消息:
Request invalid against a username that does not exist.
- 临时解决方案
- 请求相关用户登录到仪表板。
rhoDS-6216 - ModelMesh oauth-proxy 容器不稳定
因为 ModelMesh oauth-proxy
容器失败,ModelMesh pod 无法正确部署。此问题会间歇性地发生,且只在 ModelMesh 运行时环境中启用了身份验证时发生。当在不同的命名空间中部署了额外的 ModelMesh 实例时,更可能会发生这个问题。
RHODS-5906 - NVIDIA GPU Operator 与 OpenShift 4.11.12 不兼容
在 OpenShift 4.11.12 集群中置备 GPU 节点时,会导致 nvidia-driver-daemonset
pod 处于 CrashLoopBackOff 状态。NVIDIA GPU Operator 与 OpenShift 4.11.9 和 4.11.13 兼容。
rhODS-5763 - 在笔记本选择过程中显示正确的软件包版本
启动一个笔记本服务器页面显示 Anaconda 笔记本镜像 的不正确的版本号。
rhODS-5543 - 使用 NVIDIA GPU Operator 时,超过 Node Autoscaler 创建的节点数量
当因为可用资源不足而无法调度 pod 时,Node Autoscaler 将创建一个新节点。在新创建的节点接收相关 GPU 工作负载前会有一个延迟。因此,pod 无法调度,Node Autoscaler 会不断创建额外的新节点,直到其中一个节点准备好接收 GPU 工作负载。有关此问题的更多信息,请参阅使用 NVIDIA GPU Operator 时,超过 Node Autoscaler 创建的节点数量。
- 临时解决方案
-
在
machineset.spec.template.spec.metadata
中应用cluster-api/accelerator
标签。这会导致自动扩展将这些节点视为未就绪,直到部署了 GPU 驱动程序。
RHODS-5251 - 笔记本服务器管理页面显示已丢失权限的用户
如果以前在 Jupyter 中启动笔记本服务器的用户缺少了他们执行此操作的权限(例如,如果 OpenShift Data Science 管理员更改了用户组设置或从允许组中删除该用户),管理员将继续查看服务器管理页面中的用户。因此,管理员可以重启属于撤销权限的用户的笔记本服务器。
RHODS-4769 - 具有不支持污点的节点上的 GPU 无法分配给笔记本服务器
在创建笔记本服务器时,无法选择带有任何受支持 nvidia.com/gpu 污点的节点上的 GPU。要避免这个问题,请只使用与 OpenShift Data Science 搭配使用的 GPU 节点上的 nvidia.com/gpu 污点。
rhoDS-4799 - Tensorboard 需要手动步骤来查看
当用户有 TensorFlow 或 PyTorchbook 镜像,并希望使用 TensorBoard 显示数据,需要手动步骤在笔记本环境中包含环境变量,并在您的代码中导入这些变量。
- 临时解决方案
- 在启动笔记本服务器时,使用以下代码来设置 TENSORBOARD_PROXY_URL 环境变量的值,以使用您的 OpenShift Data Science 用户 ID。
import os os.environ["TENSORBOARD_PROXY_URL"]= os.environ["NB_PREFIX"]+"/proxy/6006/"
rhoDS-4718 - Intel® oneAPI AI Analytics Toolkits 快速启动引用不存在的示例笔记本
Intel® OneAPI AI Analytics Toolkits 快速开始(位于仪表板上的 Resources 页面中),要求用户以指令步骤的一部分加载示例笔记本,但引用相关存储库中不存在的笔记本。
rhODS-4627 - 负责验证 Anaconda 专业版许可证的 CronJob 已暂停,且不会每天运行
负责验证 Anaconda 专业版许可证的 CronJob 将由 OpenShift Data Science 操作器自动暂停。因此,CronJob 不会每日运行。另外,当 Anaconda 专业版的许可证过期时,Anaconda 专业版在 OpenShift Data Science 仪表板中没有被禁用。
rhODS-4502 - 仪表板中的 NVIDIA GPU Operator 卡显示不必要的按钮
安装 NVIDIA GPU Operator 后,Jupyter 中会自动提供 GPU。因此,在 Explore 页面中的 NVIDIA GPU Operator 中 启用按钮是多余的。另外,点 Enable 按钮将 NVIDIA GPU Operator 卡移到 Enabled 页面,即使 Operator 没有被安装。
rhoDS-3985 - Dashboard 在 ISV operator 卸载后不会显示 *Enabled 页面内容
卸载 ISV 操作器后,仪表板的 Enabled 页没有显示任何内容。相反,会显示以下错误:
Error loading components HTTP request failed
- 临时解决方案
- 等待 30-40 秒,然后在浏览器中刷新页面。
rhODS-3984 - 在笔记本选择过程中显示正确的软件包版本
在 OpenShift Data Science 界面中,启动一个笔记本服务器页面 显示 oneAPI AI Analytics Toolkit 笔记本镜像中包含的 JupyterLab 和 Notebook 软件包的不正确版本号。该页面还可能显示此镜像使用的 Python 版本的错误值。
- 临时解决方案
-
当您启动 oneAPI AI Analytics Toolkit 笔记本服务器时,您可以在笔记本服务器上安装了哪些 Python 软件包,以及在笔记本单元中运行
!pip list
命令的软件包的版本。
RHODS-2956 - 创建笔记本实例时可能会出现错误
在 Jupyter 中创建 notebook 实例时,有时会出现未找到目录
错误。单击 Dismiss 可忽略此错误消息。
rhoDS-2881 - 对仪表板的操作没有明确可见
在仪表板中,重新验证已禁用应用程序的许可证的操作,以及删除禁用应用程序的卡的操纵对于用户没有明确可见。只有在用户点击应用程序卡的 Disabled
标签时,才会出现这些操作。因此,相关的工作流对于用户可能并不明确。
rhoDS-2879 - 许可证重新验证操作没有必要
对于没有许可证验证或激活系统的应用程序,用于重新验证禁用的应用程序的许可证的仪表板操作并不必要。另外,当用户尝试重新验证无法重新验证的许可证时,不会显示说明操作无法完成的原因。
RHODS-2650 - Pachyderm 部署期间可能会出现错误
在创建 Pachyderm operator 的实例时,webhook 错误会出现间歇性错误,从而导致创建过程成功启动。webhook 错误表明,Pachyderm operator 无法进行健康检查,从而导致它重启,或者 Operator 进程超过其容器分配的内存限值,可触发内存不足(OOM)终止。
- 临时解决方案
- 重复 Pachyderm 实例创建过程,直到不再显示错误。
RHODS-2096 - IBM Watson Studio 不在 OpenShift Data Science 中
当在 OpenShift Dedicated 4.9 或更高版本上安装 OpenShift Data Science 时,IBM Watson Studio 不可用,因为它与这些版本的 OpenShift Dedicated 不兼容。联系 Marketplace 支持,以获取在 OpenShift Dedicated 4.9 及更高版本上手动配置 Watson Studio 的帮助。
RHODS-1888 - OpenShift Data Science 超链接在卸载后仍然可见
从 OpenShift Dedicated 集群卸载 OpenShift Data Science Add-on 时,应用程序启动程序菜单中可以看到到 OpenShift Data Science 界面的链接。点击此链接会导致 "Page Not Found" 错误,因为 OpenShift Data Science 不再可用。
第 5 章 产品特性
Red Hat OpenShift Data Science 为数据科学家和 IT 操作管理员提供一组丰富的功能。如需更多信息,请参阅 Red Hat OpenShift Data Science 简介。