使用 Insights for Red Hat Enterprise Linux 评估和监控 RHEL 资源
了解 RHEL 资源使用统计
摘要
第 1 章 公有云系统的资源优化服务
Red Hat Insights for Red Hat Enterprise Linux 资源优化服务可让 RHEL 客户评估和监控其公共 RHEL 云使用和优化。该服务显示以下内容的指标:
- CPU
- 内存
- disk-usage
它分析这些指标,并将它们与公有云供应商推荐的资源限值进行比较。从过去一天利用的数据,资源优化服务以几种不同方式考虑每个资源参数,并返回可操作的数据。通过这些数据,可以更好地分配资源,并帮助您在公有云方面节省创新。
功能
该服务显示以下信息:
- 对于 Red Hat Enterprise Linux 清单中,使用和优化 Insights 中现有系统的数据。
- 公有云中运行的系统范围。
- 系统特性概述。
- 突出显示潜在的问题。
- 为问题解决提供建议。
1.1. 资源优化服务核心概念
1.1.1. 资源优化服务性能配置集
使用资源优化服务查看在受支持的公有云 Amazon Web Services (AWS)中运行的受管主机的性能指标。该服务使用名为 Performance Co-Pilot (PCP)工具包的框架来记录性能指标。这些指标可帮助您做出更好的决策。
Insights 性能配置集
性能配置集是应用于 PCP 收集的数据的一组条件。它们识别以下系统状态:
- undersized.不足状态由检查 CPU、RAM 和磁盘输入/输出(I/O)使用量来确定,并在 24 小时内与 CPU 空闲时间合并。如果这会产生较高的分数,则资源优化服务会为其工作负载将系统标记为太小。每当任何维度不足时,系统都会报告为下划线。
- 过度化.过度化状态通过检查 CPU、RAM 和磁盘 I/O 使用量来确定,并在 24 小时内与 CPU 空闲时间合并。如果这分数较低,则资源优化服务会为其工作负载将系统标记为太大。只有在所有维度都被过度化时,系统才会报告为 oversized。
- 闲置.闲置状态通过检查 CPU、RAM 和磁盘 I/O 使用量来确定,并在 24 小时内与 CPU 空闲时间合并。如果这会产生非常低的利用率,则资源优化服务会根据其工作负载标记系统,但利用率不足。可以将闲置条件视为需要改进的场景。
- 优化.优化的状态由检查 CPU、RAM 和磁盘 I/O 使用量来确定,并在 24 小时内与 CPU 空闲时间合并。如果这会产生一个中间点,则资源优化服务会将系统标记为优化。
- 在压力下。只有启用了内核先决条件(PSI)时,此状态才处于活动状态。在系统优化利用率时,系统被标记为"处于低压力",但会有一些压力状况。
资源优化服务测量系统状态以及您设置所需的性能标准,以便为系统分配分数。
其他资源
有关 PCP 工具包和注册 PAYG 的更多信息,请访问以下链接:
1.1.2. 数据安全性保证资源优化服务
资源优化服务遵循 Red Hat Insights for Red Hat Enterprise Linux 服务的数据和应用程序安全实践。如需了解更多详细信息,请参阅安全。
1.1.3. 资源优化的性能指标
资源优化服务在您的系统上安装 pcp
软件包,并运行两个服务 pmcd
和 pmlogger
。这两个都是 Performance Co-Pilot (PCP)工具包的一部分,它监控并处理您系统上的特定指标。指标存储在存档中,Insights 客户端会上传到 Red Hat Insights for Red Hat Enterprise Linux。
1.1.4. 访问资源优化服务的使用指标
资源优化服务从上一天捕获数据,并在 24 小时后提供系统利用率指标。默认情况下,存档将在本地时间 12:00am +/- 1 一小时内上传到 Insights for Red Hat Enterprise Linux。但是,上传此数据的时间可以在 Performance Co-Pilot (PCP)工具包配置中配置。
第 2 章 安装和配置资源优化组件
安装资源优化涉及安装软件包、配置设置和启用本地服务。这可以手动完成,也可以使用红帽提供的 Ansible playbook。
当您进入时支付(PAYG)客户需要配置 insights-client 以使用基本身份验证。如需了解更多详细信息,请参阅为 Red Hat Insights 配置基本身份验证文档。如果您的 RHEL 系统使用订阅,您可以使用基本身份验证,但这不是必需的;Insights 客户端可以使用已存在的 RHSM 数据。
表 2.1. 兼容性信息
RHEL 版本 | 云供应商 | 资源优化兼容性 |
---|---|---|
8.x-9.x | AWS | 是(x86_64 和 ARM 64 位) |
7.7-7.9 | AWS | 是(x86_64 和 ARM 64 位) |
7.0-7.6 | AWS | 否 |
6.x | AWS | 否 |
先决条件
在使用资源优化服务前,需要安装或确认以下应用程序和配置:
- 配置了云市场 RHEL 实例。
- Insights 客户端已安装在系统上,并可正常运行。
如果要使用 Ansible 安装或卸载资源优化服务:
- 启用 Ansible 存储库,并在每个系统上安装 Ansible 客户端。
- 系统管理员可以运行 Ansible Playbook。
2.1. 安装资源优化组件
安装资源优化组件有几个选项。选择哪些 Ansible 工作流都适用于您的 Ansible 工作流。
2.1.1. 安装 Ansible 并运行资源优化安装 playbook
建议使用 Ansible 来加快安装过程。此流程安装 Ansible 客户端并在您的系统中运行 Ansible Playbook。
Amazon Web Services (AWS) 上的云市场镜像被配置为使用由云供应商托管的存储库。目前,这些存储库不包含 Ansible 客户端,因此您必须执行以下步骤以在云市场上启用 Ansible 存储库 - 受管 RHEL 系统。
在 RHEL 8.6 及更高版本中,以及 RHEL 9.0,红帽建议使用 Ansible Core。如需更多信息,请参阅 在 RHEL 8.6 和 9.0 中使用 Ansible。
先决条件
- 在 RHEL 8 中,启用了 Ansible 存储库。
RHEL 8 的步骤
安装 Ansible:
# yum install ansible -y
RHEL 7 的步骤
启用 Subscription-Manager 存储库并注册系统
# subscription-manager config --rhsm.manage_repos=1 # subscription-manager register
(可选)将您的系统附加到订阅池中
# subscription-manager attach --pool xxxxxxxx
启用所需的 Ansible 存储库。
# subscription-manager repos --enable=rhel-7-server-ansible-2.9-rpms
安装 Ansible:
# yum install ansible -y
如果您使用 RHEL PAYG 并希望只使用 RHUI 更新服务器,请禁用 Subscription-Manager 存储库:
# subscription-manager config --rhsm.manage_repos=0
2.1.2. 在已安装 Ansible 时安装资源优化
安装 Ansible 后,继续完成资源优化服务的安装。
流程
使用以下命令下载 Ansible Playbook:
$ curl -O https://raw.githubusercontent.com/RedHatInsights/ros-backend/v2.0/ansible-playbooks/ros_install_and_set_up.yml
-
通过将行
localhost
附加到/etc/ansible/hosts
,在 Ansible 清单中设置 localhost。 运行 Ansible Playbook:
# ansible-playbook -c local ros_install_and_set_up.yml
系统将立即显示在 Insights 中以"等待数据"状态显示,数据和建议将在注册后立即提供。
验证步骤
含有时间戳的数据文件将显示在 /var/log/pcp/pmlogger/ros
下,并在几分钟后验证是否收集指标:
$ ls -l /var/log/pcp/pmlogger/ros $ pmlogsummary /var/log/pcp/pmlogger/ros/
2.1.3. 在没有安装或使用 Ansible 的情况下安装资源优化
流程
如果选择不使用 Ansible 进行安装,请使用以下手动安装过程:
确保安装了最新版本的 insights-client。
$ yum update insights-client
-
在
/etc/insights-client/insights-client.conf
中设置core_collect=True
安装 Performance Co-Pilot (PCP)工具包。
$ sudo yum install pcp
使用以下内容创建 PCP 配置文件
/var/lib/pcp/config/pmlogger/config.ros
:log mandatory on default { hinv.ncpu mem.physmem mem.util.available disk.dev.total kernel.all.cpu.idle kernel.all.pressure.cpu.some.avg kernel.all.pressure.io.full.avg kernel.all.pressure.io.some.avg kernel.all.pressure.memory.full.avg kernel.all.pressure.memory.some.avg } [access] disallow .* : all; disallow :* : all; allow local:* : enquire;
要将 pmlogger 配置为收集资源优化所需的指标,请将此行添加到
/etc/pcp/pmlogger/control.d/local
:LOCALHOSTNAME n n PCP_LOG_DIR/pmlogger/ros -r -T24h10m -c config.ros -v 100Mb
注意在此流程的早期版本中,这一行以
LOCALHOSTNAME n y
开始。现在,建议您使用LOCALHOSTNAME n n
,它禁用pmsocks
的使用。有关pmsocks
的更多信息,请参阅pmsocks
的man
page。启动并启用所需的 PCP 服务。
$ sudo systemctl enable pmcd pmlogger $ sudo systemctl start pmcd pmlogger
重新注册 insights-client 并上传存档。系统将立即显示在 Insights 中以"等待数据"状态显示,数据和建议将在注册后立即提供。
$ sudo insights-client --register
验证步骤
含有时间戳的数据文件将显示在 /var/log/pcp/pmlogger/ros
下,并在几分钟后验证是否收集指标:
$ ls -l /var/log/pcp/pmlogger/ros $ pmlogsummary /var/log/pcp/pmlogger/ros/
2.2. 启用内核保证工作站信息(PSI)
PSI 提供了在开发时增加资源压力的规范方式。三种主要资源有压力指标:内存、CPU 和输入/输出(I/O)。PSI 在 RHEL 8 及更新的版本中可用,默认是禁用的。
启用 PSI 后,资源优化服务可以增强其发现并提供更多详情和更好的建议。强烈建议启用 PSI 来识别峰值。
流程
-
编辑
/etc/default/grub
文件,并在 GRUB_CMDLINE_LINUX 行末尾附加psi=1
(减引号)。 重新生成 grub 配置文件。
$ sudo grub2-mkconfig -o /boot/grub2/grub.cfg
- 重启系统:
启用 PSI 在 slight (<1%)性能点击中发生。
验证步骤
启用 PSI 后,CPU、内存和 IO 的文件将显示在 /proc/pressure
下。
2.3. 在资源优化服务中启用通知和集成
您可以在 Red Hat Hybrid Cloud Console 上启用通知服务,以便在资源优化服务检测到问题并生成建议时发送通知。使用通知服务可自由地检查 Red Hat Insights for Red Hat Enterprise Linux 仪表板以获取建议。
例如,您可以将通知服务配置为在资源优化服务生成建议时自动发送电子邮件消息。
启用通知服务需要三个主要步骤:
- 首先,机构管理员创建一个带有 Notifications administrator 角色的用户访问组,然后将帐户成员添加到组中。
- 接下来,通知管理员为通知服务中的事件设置行为组。行为组指定每个通知的交付方法。例如,行为组可以指定是否向所有用户发送电子邮件通知,还是只发送给机构管理员。
- 最后,从事件接收电子邮件通知用户必须设置其用户首选项,以便接收每个事件的独立电子邮件。
除了发送电子邮件消息外,您还可以将通知服务配置为以其他方式拉取事件数据:
- 使用经过身份验证的客户端查询 Red Hat Insights API 以了解事件数据。
- 使用 Webhook 将事件发送到接受入站请求的第三方应用程序。
- 将通知与 Splunk 等应用程序集成,将资源优化建议路由到应用程序仪表板。
其他资源
- 有关如何为资源优化建议设置通知的更多信息,请参阅在 Red Hat Hybrid Cloud Console 上配置通知和集成。
第 3 章 查看资源优化报告
提供历史数据报告,可帮助您评估您的优化程度,以便对未来公有云创新做出深入了解决策。
3.1. 查看历史使用数据
资源优化服务可让您了解系统利用率分数在最后 7 到45 天内如何趋势。该服务会显示一个栏图表,它指示 CPU 利用率 和内存利用率百分比。
完成以下步骤以查看、过滤和排序系统历史使用数据:
步骤
- 进入 Business > Resource Optimization 页面。系统状态屏幕将打开。
- 单击页面左侧的 Name 标头,以根据 Name, State 或 Operating system 过滤。使用每个列名称右侧的排序箭头,按 OS、CPU、内存利用率、I/O 输出、Suggestions、State 和 Last Reported 排序。点一次对列进行排序,优化的系统会先显示。单击第二次时间对列进行排序,以便首先显示为 Waiting for data。
- 已分析的系统以蓝色的形式呈现。单击蓝色系统名称以获取更详细的视图。
- 单击 Actions 下拉菜单,以查看 清单中的系统属性,如操作系统、基础架构、配置、BIOS 和其他数据。
- 默认情况下,资源优化系统显示 7 天的利用率结果。单击标有 Last 7 Days 的下拉菜单,以查看 45 天的使用数据。要查看这些天数的特定天数和利用率分数,请使用鼠标 wheel 和按钮在栏图表中分页和缩放。
- 向下滚动以查看该系统的具体建议。
3.2. 下载资源优化服务报告
您可以下载所有注册系统的资源优化报告。报告标识了最后 7- 45 天收集的以下数据:
- 注册的系统。本节详细介绍了最佳、非优化和过时的系统数量。优化的状态由检查 CPU、RAM 和磁盘 I/O 使用量以及 CPU 空闲时间以及 24 小时内来确定。如果计算基于三个因素的评估,则会产生一个中间点,则资源优化服务会按照优化方式标记系统。过时的系统定义为在 7 天内没有将数据提交到资源优化服务的一个过时的系统。
- 内核压力停滞信息(PSI).这是对启用了 PSI 的系统数量以及未启用 PSI 的系统数量进行分析。PSI 允许您获得更好的系统建议,因为它可以在开发时识别资源压力增加。
- 系统性能问题。确定特定性能问题,如 RAM 或 CPU 相关峰值以及发生次数。
- 最常用的当前实例类型。该服务将在所有注册的系统上评估并显示您的前 5 个最常用的实例类型。
- 推荐的实例类型。该服务根据最新的使用指标标识前 5 个经常推荐的实例类型。这表明,为了获得更好的资源分配,可能需要进行一些改变。
- 推荐的实例类型(以 45 天为单位)。此指标根据历史数据的 45 天显示前 5 个经常推荐的实例类型。您还可以查看您最近一次所做的更改。
先决条件
必须满足以下先决条件和条件才能创建 PDF 摘要报告:
- Insights 客户端已安装在系统上,并可正常运行。
- Performance Co-Pilot 已安装并正确配置。
- 至少一个系统被注册,并将数据发送到资源优化。
您的系统在资源优化中发送信息越长,建议更准确且宝贵。
流程
- 导航到 Business > Resource Optimization。
- 在右上角,单击 Download sales report。
- 您将看到一个对话框,其中包含消息 Export successful 并注意到您的任务栏中的 PDF 文件。
其它资源
- 请参阅 3.5 节启用内核保证工作站信息(PSI)
- PCP 工具包网站: PCP 网站
第 4 章 禁用资源优化服务
4.1. 删除资源优化文件和数据
使用 Ansible 禁用资源优化服务
在每个系统中执行以下步骤来禁用和卸载资源优化服务。
流程
使用以下命令下载 Ansible Playbook:
$ curl -O https://raw.githubusercontent.com/RedHatInsights/ros-backend/v1.0/ansible-playbooks/ros_disable.yml
使用以下命令运行 Ansible Playbook:
# ansible-playbook -c local ros_disable_and_clean_up.yml
卸载 playbook 不会停止或删除 Performance Co-Pilot (PCP)工具包。请注意 PCP 可以支持多个应用程序。如果您专门用于资源优化服务,并且希望删除 PCP,则有几个选项。您可以停止和禁用 pmlogger
和 pmcd
服务,或者从系统中卸载 pcp
软件包来完全删除 PCP。
在不使用 Ansible 的情况下手动禁用资源优化服务
建议使用 Ansible 来加快卸载过程。如果您选择不使用 Ansible,请使用以下手动流程:
流程
通过从
/etc/pcp/pmlogger/control.d/local
中删除这一行来禁用资源优化服务指标集合LOCALHOSTNAME n y PCP_LOG_DIR/pmlogger/ros -r -T24h10m -c config.ros -v 100Mb
重启 PCP,以便有效地停止资源优化服务指标集合:
$ sudo systemctl pmcd pmlogger
删除资源优化服务配置文件
$ sudo rm /var/lib/pcp/config/pmlogger/config.ros
从系统中删除资源优化数据
$ sudo rm -rf /var/log/pcp/pmlogger/ros
如果您不将 PCP 用于任何其他操作,您可以将其从系统中删除
$ sudo yum remove pcp
4.2. 禁用内核压力停滞信息(PSI)
流程
-
编辑
/etc/default/grub
文件,并从 GRUB_CMDLINE_LINUX 行中删除psi=1
。 重新生成 grub 配置文件。
[user]$ sudo grub2-mkconfig -o /boot/grub2/grub.cfg
- 重启系统:
验证步骤
禁用 PSI 时,/proc/pressure
不存在。
对红帽文档提供反馈
我们感谢您对我们文档的反馈。要提供反馈,请突出显示文档中的文本并添加注释。
先决条件
- 已登陆到红帽客户门户网站。
- 在红帽客户门户网站中,文档采用 Multi-page HTML 查看格式。
流程
要提供反馈,请执行以下步骤:
点击 文档 右上角的反馈按钮查看现有的反馈。
注意反馈功能仅在多页 HTML 格式中启用。
- 高亮标记您要提供反馈的文档中的部分。
点在高亮文本旁弹出的 Add Feedback。
文本框会出现在页面右侧的反馈部分中。
在文本框中输入您的反馈,然后点 Submit。
已创建一个文档问题。
- 要查看问题,请点击反馈视图中的问题链接。