首頁文章關於報價聯絡我們🌐 EN
返回首頁OpenShift
OpenShift AI:企業 AI/ML 平台完整指南【2026】

OpenShift AI:企業 AI/ML 平台完整指南【2026】

📑 目錄

OpenShift AI:企業 AI/ML 平台完整指南【2026】OpenShift AI:企業 AI/ML 平台完整指南【2026】

OpenShift AI:企業 AI/ML 平台完整指南

AI 很火,但在企業裡跑 AI 跟在 Jupyter Notebook 玩 AI 完全是兩回事。

資料安全、模型治理、GPU 調度、版本控制、CI/CD⋯⋯每一個都是坑。OpenShift AI 試圖把這些坑填起來,提供一個企業級的 AI/ML 平台。

2026 年關鍵更新

本文將完整介紹 OpenShift AI,從平台功能到實際應用,幫助你評估是否適合你的 AI 工作負載。如果你對 OpenShift 還不熟悉,建議先閱讀 OpenShift 完整指南。對於通用 LLM 部署,可參考 LLM API 與本地部署指南



OpenShift AI 簡介

什麼是 OpenShift AI?

OpenShift AI 是 Red Hat 推出的企業級 AI/ML 平台,前身是 Red Hat OpenShift Data Science(RHODS)。

它在 OpenShift 容器平台上,提供完整的機器學習生命週期支援:

產品定位

OpenShift AI 不是要跟 AWS SageMaker 或 GCP Vertex AI 競爭「全託管」市場。它的定位是:

「在你自己的基礎設施上,建立企業級的 AI/ML 平台」

適合:

核心功能總覽(2026 更新)

功能說明2026 更新
Data Science Project團隊協作的工作空間整合 GitOps
WorkbenchesJupyter Notebook 開發環境支援 VSCode Server
Model Serving模型部署與推論服務vLLM、TGI 原生支援
PipelinesML Pipeline 編排Kubeflow Pipelines 2.0
Model Registry模型版本管理正式 GA
LightspeedAI 輔助運維正式 GA
Distributed Training分散式訓練Ray、PyTorch DDP
RAG Integration檢索增強生成Milvus、pgvector


OpenShift AI 架構

平台架構

OpenShift AI 建立在 OpenShift 之上:

┌─────────────────────────────────────────────────┐
│                 OpenShift AI                     │
│  ┌─────────┐ ┌─────────┐ ┌─────────┐           │
│  │Workbench│ │ Serving │ │Pipeline │           │
│  └─────────┘ └─────────┘ └─────────┘           │
├─────────────────────────────────────────────────┤
│                  OpenShift                       │
│  ┌─────────┐ ┌─────────┐ ┌─────────┐           │
│  │   GPU   │ │ Storage │ │ Network │           │
│  │ Support │ │  (ODF)  │ │  (SDN)  │           │
│  └─────────┘ └─────────┘ └─────────┘           │
├─────────────────────────────────────────────────┤
│              基礎設施(雲端/裸機)                 │
└─────────────────────────────────────────────────┘

核心組件

1. Dashboard

Web UI 入口,提供:

2. Notebook Controller

管理 Jupyter Notebook 環境:

3. Model Mesh / KServe

模型推論服務:

4. Data Science Pipelines

基於 Kubeflow Pipelines:

與 OpenShift 整合

OpenShift AI 深度整合 OpenShift 功能:

OpenShift 功能OpenShift AI 用途
RBAC控制誰能存取哪些專案
Network Policy隔離 ML 工作負載
PVC/ODF資料集和模型儲存
GPU OperatorGPU 資源管理
Monitoring模型服務監控


AI/ML 工作流程

完整工作流程

OpenShift AI 支援端到端的 ML 工作流程:

資料準備 → 特徵工程 → 模型訓練 → 模型評估 → 模型部署 → 監控回饋
   │          │          │          │          │         │
   ▼          ▼          ▼          ▼          ▼         ▼
Workbench  Workbench  Training   Registry   Serving  Monitoring
           + Pipeline   Job                 (KServe)

資料準備

在 Workbench 中進行資料探索和準備:

# 連接資料來源
import boto3
from sqlalchemy import create_engine

# S3 資料
s3 = boto3.client('s3',
    endpoint_url=os.environ['S3_ENDPOINT'],
    aws_access_key_id=os.environ['AWS_ACCESS_KEY_ID'],
    aws_secret_access_key=os.environ['AWS_SECRET_ACCESS_KEY']
)

# 資料庫
engine = create_engine(os.environ['DATABASE_URL'])
df = pd.read_sql("SELECT * FROM training_data", engine)

資料可以存在:

模型訓練

單機訓練

在 Workbench 直接訓練(適合小模型):

import torch
from transformers import Trainer, TrainingArguments

training_args = TrainingArguments(
    output_dir="./results",
    num_train_epochs=3,
    per_device_train_batch_size=16,
)

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,
)

trainer.train()

分散式訓練

大型模型使用 Kubernetes 原生的分散式訓練:

apiVersion: kubeflow.org/v1
kind: PyTorchJob
metadata:
  name: distributed-training
spec:
  pytorchReplicaSpecs:
    Master:
      replicas: 1
      template:
        spec:
          containers:
          - name: pytorch
            image: pytorch/pytorch:latest
            resources:
              limits:
                nvidia.com/gpu: 1
    Worker:
      replicas: 4
      template:
        spec:
          containers:
          - name: pytorch
            image: pytorch/pytorch:latest
            resources:
              limits:
                nvidia.com/gpu: 1

Model Serving

訓練好的模型可以透過 KServe 部署:

apiVersion: serving.kserve.io/v1beta1
kind: InferenceService
metadata:
  name: my-model
spec:
  predictor:
    model:
      modelFormat:
        name: sklearn
      storageUri: "s3://models/my-model"

支援的模型格式:



OpenShift Lightspeed

Lightspeed 是 OpenShift AI 的亮點功能,讓管理員用自然語言操作叢集。

功能介紹

Lightspeed 是整合在 OpenShift Console 中的 AI 助手:

使用案例

查詢叢集狀態

你:顯示過去一小時 CPU 使用率最高的 5 個 Pod

Lightspeed:根據 Prometheus 指標,過去一小時 CPU 使用率最高的 Pod 是:
1. ml-training-job-xyz (namespace: ai-project) - 3.2 cores
2. data-pipeline-abc (namespace: data-eng) - 2.8 cores
...

排查問題

你:為什麼 my-deployment 的 Pod 一直 CrashLoopBackOff?

Lightspeed:我查看了 Pod 的日誌和事件,發現以下問題:
1. 容器在啟動時找不到環境變數 DATABASE_URL
2. 建議檢查 ConfigMap 或 Secret 是否正確設定
...

生成設定

你:幫我建立一個 HPA,當 CPU 超過 70% 時擴展 my-deployment,最多 10 個副本

Lightspeed:這是建議的 HorizontalPodAutoscaler 設定:
```yaml
apiVersion: autoscaling/v2
kind: HorizontalPodAutoscaler
metadata:
  name: my-deployment-hpa
spec:
  scaleTargetRef:
    apiVersion: apps/v1
    kind: Deployment
    name: my-deployment
  minReplicas: 1
  maxReplicas: 10
  metrics:
  - type: Resource
    resource:
      name: cpu
      target:
        type: Utilization
        averageUtilization: 70

安全考量

Lightspeed 的設計考慮企業安全需求:

想用 OpenShift Lightspeed 提升維運效率?預約 AI 導入諮詢,讓我們評估你的應用場景。



GPU 支援

AI 工作負載少不了 GPU。OpenShift AI 透過 NVIDIA GPU Operator 提供完整支援。

NVIDIA GPU Operator

GPU Operator 自動處理:

安裝 GPU Operator:

apiVersion: operators.coreos.com/v1alpha1
kind: Subscription
metadata:
  name: gpu-operator
  namespace: nvidia-gpu-operator
spec:
  channel: stable
  name: gpu-operator-certified
  source: certified-operators
  sourceNamespace: openshift-marketplace

GPU 資源調度

在 Workbench 或 Pod 中請求 GPU:

resources:
  limits:
    nvidia.com/gpu: 1

OpenShift 會自動調度到有 GPU 的節點。

多 GPU 訓練

分散式訓練可以使用多個 GPU:

resources:
  limits:
    nvidia.com/gpu: 4  # 單節點多 GPU

或跨節點:

# PyTorchJob 跨節點分散式
spec:
  pytorchReplicaSpecs:
    Worker:
      replicas: 8  # 8 個 Worker,每個 1 GPU

GPU 監控

GPU Operator 自動整合監控:

可在 OpenShift Monitoring 的 Grafana 看到相關指標。



開發環境

Jupyter Notebook 整合

OpenShift AI 的 Workbench 基於 Jupyter:

預設映像檔

自訂映像檔

可以建立自己的 Notebook 映像檔:

FROM quay.io/opendatahub/notebooks:jupyter-pytorch-2024.1

# 安裝額外套件
RUN pip install transformers datasets accelerate

# 複製自訂設定
COPY jupyter_notebook_config.py /opt/app-root/etc/

VS Code Server

除了 Jupyter,也支援 VS Code Server:

環境變數與 Secret

安全地管理 API Key 和認證資訊:

# 建立 Secret
apiVersion: v1
kind: Secret
metadata:
  name: ml-credentials
stringData:
  HUGGINGFACE_TOKEN: "hf_xxx"
  S3_ACCESS_KEY: "xxx"

在 Workbench 中自動注入。



MLOps 實踐

模型版本控制

使用 Data Science Pipelines 追蹤模型版本:

from kfp import dsl

@dsl.component
def train_model(data_path: str, model_output: str):
    # 訓練邏輯
    model.save(model_output)

@dsl.component
def evaluate_model(model_path: str) -> float:
    # 評估邏輯
    return accuracy

@dsl.pipeline
def ml_pipeline():
    train = train_model(data_path="s3://data", model_output="s3://models/v1")
    evaluate = evaluate_model(model_path=train.outputs['model_output'])

CI/CD for ML

整合 OpenShift Pipelines(Tekton):

apiVersion: tekton.dev/v1beta1
kind: Pipeline
metadata:
  name: ml-cicd
spec:
  tasks:
  - name: fetch-code
    taskRef:
      name: git-clone
  - name: run-tests
    taskRef:
      name: pytest
    runAfter: [fetch-code]
  - name: train-model
    taskRef:
      name: ml-training
    runAfter: [run-tests]
  - name: deploy-model
    taskRef:
      name: kserve-deploy
    runAfter: [train-model]

A/B 測試

KServe 支援 Canary 部署:

apiVersion: serving.kserve.io/v1beta1
kind: InferenceService
metadata:
  name: my-model
spec:
  predictor:
    canaryTrafficPercent: 10
    model:
      modelFormat:
        name: sklearn
      storageUri: "s3://models/v2"  # 新版本

10% 流量導到新模型,驗證後再全量切換。



安全與合規

資料安全

資料隔離

存取控制

模型安全

模型存取控制

模型稽核

合規考量

OpenShift AI 幫助滿足合規需求:

需求解決方案
資料落地部署在自己的基礎設施
存取稽核OpenShift 稽核日誌
模型治理Model Registry + Pipeline
可解釋性整合 AI Explainability 工具


部署與設定

安裝 OpenShift AI

從 OperatorHub 安裝:

  1. 搜尋 Red Hat OpenShift AI
  2. 選擇安裝到 redhat-ods-operator namespace
  3. 等待 Operator 就緒

建立 Data Science Cluster

apiVersion: datasciencecluster.opendatahub.io/v1
kind: DataScienceCluster
metadata:
  name: default-dsc
spec:
  components:
    dashboard:
      managementState: Managed
    workbenches:
      managementState: Managed
    datasciencepipelines:
      managementState: Managed
    modelmeshserving:
      managementState: Managed
    kserve:
      managementState: Managed

資源配置

建議的資源配置:

組件CPUMemory說明
Dashboard12Gi低負載
Workbench(小)28Gi輕量開發
Workbench(大)832Gi模型訓練
Model Server依模型而定依模型而定需評估


常見問題 FAQ

Q1:OpenShift AI 跟 AWS SageMaker 有什麼不同?

主要差異是部署位置。SageMaker 是 AWS 的全託管服務,資料和模型都在 AWS。OpenShift AI 可以部署在任何地方——公有雲、私有雲、自建機房。適合有資料主權需求或已經用 OpenShift 的企業。

Q2:需要多少 GPU 才能跑 OpenShift AI?

不一定需要 GPU。資料探索、小型模型訓練可以用 CPU。但如果要訓練深度學習模型或做即時推論,GPU 會快很多。建議:開發測試環境 1-2 張 GPU,生產環境依工作負載規劃。

Q3:OpenShift Lightspeed 會把我的資料送到外部嗎?

可以控制。Lightspeed 支援多種 LLM 後端:(1)Red Hat 託管的 LLM(資料會經過 Red Hat);(2)自建的 LLM(資料完全不出去)。企業可以根據安全需求選擇。

Q4:現有的 Jupyter Notebook 可以直接用嗎?

大部分可以。OpenShift AI 的 Workbench 基於標準 Jupyter,你的 notebook 檔案應該可以直接跑。但如果有特殊套件需求,可能需要用自訂映像檔。

Q5:OpenShift AI 授權怎麼算?

OpenShift AI 有獨立的訂閱授權,不包含在 OpenShift Container Platform 中。具體費用需要聯繫 Red Hat 或合作夥伴。通常按使用的資源(Core)計價。



想在 OpenShift 上跑 AI 工作負載?

從 GPU 設定到 MLOps 流程,選擇很多但坑也很多。

預約 AI 導入諮詢,讓有經驗的人幫你避坑。



參考資源

OpenShiftAWSKubernetesDocker
上一篇
OpenShift 架構解析:Control Plane、Operator 與網路設計【2026】
下一篇
OpenShift 進階功能:ACM、ACS、LDAP、驗證設定完整指南【2026】