本頁面由 Cloud Translation API 翻譯而成。

負責任的生成式 AI 工具包

工具和指南：秉持負責態度設計、建構及評估開放式 AI 模型。

負責任的應用程式設計

定義模型行為規則、建立安全可靠的應用程式，並與使用者保持透明的溝通。

安全對齊

探索提示偵錯技巧和指引，瞭解如何微調及使用 RLHF，以便根據安全性政策調整 AI 模型。

模型評估

透過 LLM 比較工具，查看指南和資料，以便針對安全性、公平性和事實性進行可靠的模型評估。

保護措施

部署安全分類器，使用現成解決方案或透過逐步教學課程自行建構。

設計負責任的做法

主動找出應用程式的潛在風險，並定義系統層級方法，為使用者建立安全可靠的應用程式。

開始使用

定義系統層級政策

決定應用程式應產生哪種類型的內容，以及應避免產生哪種類型的內容。

安全設計

定義整體做法來實施風險控管技術，同時在技術和業務方面做出取捨。

瞭解詳情

開誠布公

使用 Model Card 等構件傳達做法。

查看範本

安全的 AI 系統

請參考安全 AI 架構 (SAIF) 中重點介紹的 AI 特定安全性風險和修復方法。

對齊模型

使用提示和調整技巧，確保模型符合特定安全性政策。

開始使用

製作更安全、更可靠的提示

運用 LLM 的力量，透過模型對齊程式庫製作更安全的提示範本。

調整模型以確保安全

根據安全和內容政策調整模型，藉此控制模型行為。

調查模型提示

透過學習技術可解釋性工具 (LIT) 不斷改善，建立安全且實用的提示。

評估模型

運用我們的指南和工具，評估模型在安全性、公平性和事實準確性方面的風險。

開始使用

大型語言比較表

使用 LLM 比較工具並排評估，以評估模型之間的回應差異、同一個模型的不同提示，甚至是模型的不同調整

模型評估指南

瞭解紅隊演練的最佳做法，並根據學術基準評估模型，以便評估安全性、公平性和事實性方面的風險。

使用安全防護措施

篩選應用程式的輸入和輸出內容，並保護使用者免於遭遇不良結果。

開始使用

SynthID 文字

用於為模型產生的文字加上浮水印，並偵測這些文字。

SynthID 文字浮水印

ShieldGemma

以 Gemma 2 為基礎的一系列內容安全分類器，提供三種大小：2B、9B、27B。

ShieldGemma 內容安全性分類器

靈活分類器

使用參數高效調整 (PET) 並使用相對較少的訓練資料，為特定政策建立安全性分類器

建立安全性分類器

檢查 AI 安全

透過 API 和監控資訊主頁，確保 AI 安全性符合內容政策。

檢查 AI 安全性

文字管理服務

使用這個 Google Cloud Natural Language API 偵測安全屬性清單，包括各種可能有害的類別和可能較敏感的主題，且在特定用量限制下可免費使用。

Perspective API

使用這款免費的 Google Jigsaw API，識別「惡意」留言，緩解線上有害言論，確保使用者健康言論。

Perspective API