GCP AI/ML 與 Vertex AI 完整指南：從模型訓練到生產部署

📅 2026-04-16⏱ 19 min read

📑 目錄

GCP AI/ML 服務生態系總覽
Google Cloud AI 的市場定位與優勢
預訓練 API vs 自訂模型的選擇
AI 服務架構圖解
Vertex AI 平台深度解析
Vertex AI 核心功能介紹
Workbench（Jupyter Notebook 環境）
Model Registry 模型管理
Pipelines 工作流程自動化
Feature Store 特徵工程
AutoML：無程式碼 AI 建模
AutoML 運作原理
AutoML Vision（影像辨識）
AutoML Natural Language（文字分析）
AutoML Tables（結構化資料）
AutoML 適用場景與限制
Gemini API 與生成式 AI
Gemini 模型版本比較（Pro / Flash / Ultra）
API 呼叫與計費方式
Prompt Engineering 最佳實踐
企業應用案例
BigQuery ML：SQL 驅動的機器學習
BQML 支援的模型類型
建立與訓練模型語法
適用場景與效能考量
AI/ML 成本規劃與優化
訓練 vs 推論費用結構
GPU/TPU 選擇與成本比較
批次推論降低成本
企業 AI 導入最佳實踐
從 POC 到 Production 的路徑
MLOps 與模型監控
資料治理與合規考量
想在企業導入 AI？
結論：建構你的 GCP AI 策略
延伸閱讀
圖片說明
參考資料

想在公司導入 AI，但不知道從何開始？

自己訓練模型太複雜，用現成 API 又怕不夠彈性？

GCP 的 AI 服務從「零程式碼」到「完全自訂」都有方案。這篇文章會帶你認識 GCP 的 AI 生態系，從 Vertex AI 平台到 Gemini API，找到最適合你的切入點。

想先了解 GCP 的基礎服務？請參考「GCP 完整指南：從入門概念到企業實戰」。

GCP AI/ML 服務生態系總覽

💡 重點摘要：GCP 的 AI 服務不只一個，而是一整個生態系。

Google Cloud AI 的市場定位與優勢

Google 做 AI 有什麼優勢？

技術根基：

TensorFlow 是 Google 開源的
TPU（Tensor Processing Unit）是 Google 自研的
Transformer 架構（GPT、BERT 的基礎）也是 Google 發明的

實戰經驗：

Google 搜尋、YouTube 推薦、Gmail 垃圾郵件過濾，都在用 ML
這些經驗都反映在 GCP 的 AI 服務設計上

獨特優勢：

最強的資料分析平台（BigQuery）
原生的 AI 基礎設施（TPU）
完整的 MLOps 工具鏈

預訓練 API vs 自訂模型的選擇

GCP AI 服務分兩大類：

預訓練 API（現成的）：

直接呼叫 API 就能用
不需要訓練資料
不需要 ML 知識
適合：常見任務、快速驗證

自訂模型（自己練的）：

用你的資料訓練
可以針對特定需求優化
需要 ML 知識或使用 AutoML
適合：特殊需求、追求最佳效果

怎麼選？

情境	選擇	原因
辨識通用物體	Vision API	已經訓練好了
辨識自家產品瑕疵	AutoML Vision	需要用自己的資料
翻譯常見語言	Translation API	品質已經很好
翻譯專業術語	自訂模型	需要領域知識
快速原型驗證	預訓練 API	快速得到結果
追求最佳效果	自訂模型	針對性優化

AI 服務架構圖解

GCP AI 服務分層：

┌─────────────────────────────────────────────────┐
│            應用層：Gemini API、Agent Builder      │
├─────────────────────────────────────────────────┤
│            平台層：Vertex AI                      │
│  ┌──────────┬──────────┬──────────┬──────────┐ │
│  │ Workbench │ AutoML   │ Pipelines │ Model    │ │
│  │          │          │           │ Garden   │ │
│  └──────────┴──────────┴──────────┴──────────┘ │
├─────────────────────────────────────────────────┤
│            資料層：BigQuery、Cloud Storage        │
├─────────────────────────────────────────────────┤
│            基礎設施：GPU、TPU、Compute Engine     │
└─────────────────────────────────────────────────┘

Vertex AI 平台深度解析

Vertex AI 是 GCP 的統一 AI 平台。所有 ML 工作都可以在這裡完成。

Vertex AI 核心功能介紹

Vertex AI 整合了什麼？

功能	說明	對應舊服務
Workbench	Jupyter Notebook 環境	AI Platform Notebooks
Training	模型訓練服務	AI Platform Training
Prediction	模型部署服務	AI Platform Prediction
AutoML	自動化機器學習	AutoML Vision/NL/Tables
Pipelines	ML 工作流程	Kubeflow Pipelines
Feature Store	特徵管理	新功能
Model Registry	模型版本管理	新功能
Model Garden	預訓練模型庫	新功能

好處：

一個介面管理所有 ML 工作
各工具之間無縫整合
統一的權限和計費管理

Workbench（Jupyter Notebook 環境）

做 ML 的第一步通常是開一個 Notebook 來探索資料。

Workbench 類型：

類型	特色	適合
Managed Notebooks	完全託管、快速啟動	大多數使用者
User-Managed Notebooks	更多控制權	需要自訂配置

建立 Workbench Instance：

gcloud workbench instances create my-notebook \
  --location=asia-east1-b \
  --machine-type=n1-standard-4

預裝工具：

JupyterLab
TensorFlow、PyTorch
Pandas、Scikit-learn
BigQuery 連接器
Git 整合

Model Registry 模型管理

訓練完的模型需要版本管理。

功能：

模型版本追蹤
模型 metadata 管理
部署狀態追蹤
A/B 測試支援

上傳模型到 Registry：

from google.cloud import aiplatform

aiplatform.init(project='my-project', location='asia-east1')

model = aiplatform.Model.upload(
    display_name='my-model',
    artifact_uri='gs://my-bucket/model/',
    serving_container_image_uri='us-docker.pkg.dev/vertex-ai/prediction/tf2-cpu.2-8:latest'
)

Pipelines 工作流程自動化

把整個 ML 流程自動化。

Pipeline 包含什麼：

資料載入
資料前處理
模型訓練
模型評估
模型部署

使用 Kubeflow Pipelines SDK：

from kfp import dsl
from kfp.v2 import compiler

@dsl.pipeline(name='my-pipeline')
def my_pipeline():
    # 定義各個步驟
    data_op = load_data_component()
    train_op = train_model_component(data=data_op.output)
    deploy_op = deploy_model_component(model=train_op.output)

# 編譯並執行
compiler.Compiler().compile(my_pipeline, 'pipeline.json')

Feature Store 特徵工程

特徵是 ML 的核心。Feature Store 幫你管理它們。

解決什麼問題？

訓練和推論用同樣的特徵
特徵可以跨團隊共享
特徵版本管理
時間點正確性（Point-in-time correctness）

使用場景：

用戶特徵（年齡、喜好、行為）
產品特徵（類別、價格、評分）
即時特徵（最近點擊、購物車狀態）

AutoML：無程式碼 AI 建模

不會寫程式也能訓練 ML 模型？AutoML 讓這成為可能。

AutoML 運作原理

AutoML 自動處理：

資料探索和清理
特徵工程
模型架構搜尋
超參數調整
模型訓練
模型評估

你只需要：

準備標註好的資料
上傳到 Vertex AI
點擊「Train」
等待完成

AutoML Vision（影像辨識）

支援任務：

單標籤分類（這是什麼？）
多標籤分類（有哪些東西？）
物體偵測（在哪裡？）

資料需求：

最少 100 張圖片 / 每個類別
建議 1,000 張以上效果較好
支援 JPG、PNG、BMP、GIF

使用範例：

製造業：瑕疵檢測
零售業：產品分類
醫療：影像診斷輔助

AutoML Natural Language（文字分析）

支援任務：

文字分類（情感分析、主題分類）
實體擷取（找出人名、地名、組織）
情感分析（正面、負面、中性）

資料需求：

最少 1,000 筆文件
每個類別至少 100 筆
支援純文字或 CSV

使用範例：

客服：自動分類客訴
媒體：新聞主題分類
社群：輿情分析

AutoML Tables（結構化資料）

支援任務：

分類（這個客戶會流失嗎？）
迴歸（這個產品會賣多少？）

資料需求：

最少 1,000 筆資料
最少 2 欄特徵
支援 CSV 或 BigQuery 表格

使用範例：

金融：信用風險評估
零售：銷售預測
行銷：客戶流失預測

AutoML 適用場景與限制

適合用 AutoML：

沒有 ML 團隊
想快速驗證想法
任務屬於標準類型
資料量不是特別大

不適合用 AutoML：

需要最尖端的模型效能
有複雜的自訂需求
資料量極大（自訂訓練更划算）
需要特殊架構（如 GAN、強化學習）

費用考量：

AutoML 按訓練小時計費
訓練一個影像模型約 $3-20/小時
複雜任務可能要訓練幾十小時

Gemini API 與生成式 AI

2024-2025 年最火的 AI 技術：生成式 AI。

Gemini 模型版本比較（Pro / Flash / Ultra）

模型	特色	適合	價格
Gemini 2.0 Flash	超快速、成本低	即時應用、大量請求	最低
Gemini 1.5 Pro	平衡效能和成本	一般商業應用	中等
Gemini 1.5 Flash	快速回應	對話系統、輕量任務	較低
Gemini Ultra	最強效能	複雜推理、專業任務	最高

選擇建議：

先用 Flash 做原型
確認可行後評估 Pro
只有真的需要才用 Ultra

API 呼叫與計費方式

基本呼叫範例：

import google.generativeai as genai

genai.configure(api_key='YOUR_API_KEY')

model = genai.GenerativeModel('gemini-1.5-pro')
response = model.generate_content('用繁體中文解釋什麼是機器學習')

print(response.text)

從 Vertex AI 呼叫：

from vertexai.generative_models import GenerativeModel

model = GenerativeModel('gemini-1.5-pro')
response = model.generate_content('寫一段產品描述')

print(response.text)

計費方式：

按 Token 計費（輸入 + 輸出）
1,000 個中文字 ≈ 800-1,200 tokens
不同模型價格不同

Prompt Engineering 最佳實踐

好的 Prompt 長這樣：

你是一個專業的產品文案撰寫者。

任務：為以下產品寫一段 50 字的促銷文案。

產品資訊：
- 名稱：超輕量筆電
- 重量：900g
- 特色：16 小時續航、軍規耐用

要求：
1. 使用繁體中文
2. 語調活潑但專業
3. 強調輕量和續航優勢

Prompt 技巧：

角色設定：告訴模型它是什麼角色
明確任務：清楚說明要做什麼
提供範例：給一兩個期望的輸出範例
指定格式：要 JSON？列點？段落？
限制條件：字數、語言、語調

企業應用案例

案例 1：客服自動回覆

用 Gemini 理解客戶問題
從知識庫找答案
生成自然語言回覆

案例 2：文件摘要

上傳長篇報告
自動生成重點摘要
提取關鍵數據

案例 3：程式碼輔助

解釋現有程式碼
生成測試案例
建議重構方向

案例 4：內容生成

產品描述
行銷文案
技術文件

BigQuery ML：SQL 驅動的機器學習

資料分析師也能做 ML？用 SQL 就可以。

BQML 支援的模型類型

模型類型	SQL 指令	適合任務
線性迴歸	LINEAR_REG	預測數值
邏輯迴歸	LOGISTIC_REG	二元分類
K-Means	KMEANS	客戶分群
時間序列	ARIMA_PLUS	預測趨勢
XGBoost	BOOSTED_TREE_CLASSIFIER	複雜分類
DNN	DNN_CLASSIFIER	深度學習
AutoML Tables	AUTOML_CLASSIFIER	自動化 ML

建立與訓練模型語法

建立模型：

CREATE OR REPLACE MODEL `my_dataset.sales_forecast`
OPTIONS(
  model_type='ARIMA_PLUS',
  time_series_timestamp_col='date',
  time_series_data_col='sales',
  time_series_id_col='product_id'
) AS
SELECT
  date,
  product_id,
  sales
FROM
  `my_dataset.sales_data`
WHERE
  date < '2024-01-01'

預測：

SELECT *
FROM ML.FORECAST(
  MODEL `my_dataset.sales_forecast`,
  STRUCT(30 AS horizon, 0.95 AS confidence_level)
)

評估模型：

SELECT *
FROM ML.EVALUATE(MODEL `my_dataset.my_model`)

適用場景與效能考量

適合 BQML：

資料已經在 BigQuery
團隊熟悉 SQL
想快速驗證想法
任務是標準的分類/迴歸

不適合 BQML：

需要最尖端效能
任務需要自訂架構
影像、語音等非結構化資料

費用提示：

訓練費用按處理的資料量計算
複雜模型訓練時間較長
可以設定訓練預算上限

AI/ML 成本規劃與優化

AI 專案很容易超支，做好成本規劃很重要。

訓練 vs 推論費用結構

訓練費用：

一次性費用
按運算時間計費
GPU/TPU 費用高
可以用 Spot VM 省錢

推論費用：

持續性費用
按預測次數或時間計費
需要考慮 24/7 運行的成本
批次推論比即時推論便宜

費用比較範例：

項目	訓練費用	推論費用（每月）
小型模型	$50-200	$100-300
中型模型	$500-2,000	$500-1,500
大型模型	$5,000-20,000	$2,000-10,000

GPU/TPU 選擇與成本比較

GPU 選項：

GPU	記憶體	適合	每小時費用
T4	16GB	推論、小型訓練	~$0.35
L4	24GB	平衡型	~$0.70
A100 40GB	40GB	大型訓練	~$3.00
A100 80GB	80GB	超大模型	~$4.00
H100	80GB	最新最強	~$8.00

TPU 選項：

TPU	適合	每小時費用
v2-8	中型訓練	~$4.50
v3-8	大型訓練	~$8.00
v5e	推論優化	~$1.20

選擇建議：

開發階段 → T4 或 L4
正式訓練 → A100
TensorFlow 大型模型 → TPU
推論服務 → T4 或 v5e

批次推論降低成本

即時推論 vs 批次推論：

類型	延遲	成本	適合
即時（Online）	毫秒級	較高	即時應用
批次（Batch）	分鐘到小時	較低	大量處理

批次推論使用場景：

每日客戶評分更新
產品推薦預計算
報表數據分析
歷史資料回填

成本差異： 批次推論可以比即時推論便宜 60-80%。

企業 AI 導入最佳實踐

從 POC 到生產，企業 AI 專案怎麼走？

從 POC 到 Production 的路徑

階段 1：探索與定義（2-4 週）

確認業務問題
評估資料可用性
定義成功指標
評估技術可行性

階段 2：POC（4-8 週）

小規模資料驗證
快速建立原型
驗證效果是否達標
估算正式環境成本

階段 3：開發（8-16 週）

完整資料處理流程
模型調優
建立 MLOps 流程
整合現有系統

階段 4：上線（4-8 週）

效能測試
漸進式上線
監控和警報設定
文件和知識轉移

常見失敗原因：

跳過 POC 直接開發
低估資料清理工作
沒有明確的成功指標
沒有 MLOps 導致維護困難

MLOps 與模型監控

MLOps 包含什麼：

版本控制（資料、程式、模型）
自動化訓練 Pipeline
模型部署自動化
持續監控和重訓練

模型監控指標：

預測效能（準確率、召回率）
資料漂移（Data Drift）
概念漂移（Concept Drift）
延遲和吞吐量

Vertex AI Model Monitoring：

from google.cloud import aiplatform

# 啟用監控
endpoint = aiplatform.Endpoint('endpoint-id')
endpoint.update(
    traffic_split={'model-v1': 100},
    enable_model_monitoring=True,
    model_monitoring_config={
        'alert_config': {
            'email_alert_config': {
                'user_emails': ['[email protected]']
            }
        }
    }
)

資料治理與合規考量

資料隱私：

個資去識別化
資料最小化原則
存取權限控制
使用紀錄追蹤

模型合規：

模型可解釋性
偏見檢測和緩解
決策透明度
人工審核機制

GCP 合規工具：

Data Loss Prevention（DLP）：自動偵測和遮蔽敏感資料
Cloud Audit Logs：記錄所有操作
VPC Service Controls：網路層面隔離

資安相關細節請見「GCP 資安與 Cloud Armor 防護完整指南」。

想在企業導入 AI？

從 Gemini 到自建 LLM，選擇很多但坑也很多。

預約 AI 導入諮詢，讓有經驗的人幫你避坑。

CloudSwap 的 AI 導入服務：

需求評估：釐清業務需求，確認 AI 是否是最佳解
技術選型：用現成 API 還是自己訓練？
POC 規劃：快速驗證可行性和效果
成本估算：訓練、推論、維護的完整費用估算
架構設計：從資料到部署的完整方案

結論：建構你的 GCP AI 策略

GCP 的 AI 服務很完整，關鍵是找到適合你的切入點。

選擇建議：

你的情況	建議方案
想快速試試 AI	Gemini API
有資料但沒 ML 團隊	AutoML
資料在 BigQuery	BigQuery ML
有 ML 團隊想要更多控制	Vertex AI 自訂訓練
需要完整 MLOps	Vertex AI Pipelines

給不同角色的建議：

給業務主管：

先用 Gemini 做內部效率工具
從小專案累積經驗
成功後再擴大投資

給工程師：

熟悉 Vertex AI 平台
練習 AutoML 和自訂訓練
了解 MLOps 最佳實踐

給資料分析師：

用 BigQuery ML 入門
逐步學習 AutoML
跟工程團隊協作

AI 導入是一個旅程，不是一個專案。從小開始，持續學習，逐步擴大規模。

圖片說明

參考資料

Google Cloud，《Vertex AI Documentation》（2024）
Google Cloud，《AutoML Documentation》（2024）
Google Cloud，《Gemini API Documentation》（2024）
Google Cloud，《BigQuery ML Documentation》（2024）
Google Cloud，《MLOps: Continuous delivery and automation pipelines in machine learning》（2024）

GCP AI/ML 與 Vertex AI 完整指南：從模型訓練到生產部署

GCP AI/ML 服務生態系總覽

Google Cloud AI 的市場定位與優勢

預訓練 API vs 自訂模型的選擇

AI 服務架構圖解

Vertex AI 平台深度解析

Vertex AI 核心功能介紹

Workbench（Jupyter Notebook 環境）

Model Registry 模型管理

Pipelines 工作流程自動化

Feature Store 特徵工程

AutoML：無程式碼 AI 建模

AutoML 運作原理

AutoML Vision（影像辨識）

AutoML Natural Language（文字分析）

AutoML Tables（結構化資料）

AutoML 適用場景與限制

Gemini API 與生成式 AI

Gemini 模型版本比較（Pro / Flash / Ultra）

API 呼叫與計費方式

Prompt Engineering 最佳實踐

企業應用案例

BigQuery ML：SQL 驅動的機器學習

BQML 支援的模型類型

建立與訓練模型語法

適用場景與效能考量

AI/ML 成本規劃與優化

訓練 vs 推論費用結構

GPU/TPU 選擇與成本比較

批次推論降低成本

企業 AI 導入最佳實踐

從 POC 到 Production 的路徑

MLOps 與模型監控

資料治理與合規考量

想在企業導入 AI？

結論：建構你的 GCP AI 策略

延伸閱讀

圖片說明

參考資料