DiscordのボイスチャットでGemini AIとVOICEVOXを使って読み上げができるジェミニです。
/vv
コマンド:テキストをVOICEVOXの音声で読み上げ/vvai
コマンド:AIに質問し、その回答をVOICEVOXの音声で読み上げ/vvlisten
コマンド:ボイスチャットでの会話を認識し、「ジェミニ」と話しかけるとAIが応答/vvstoplisten
コマンド:音声認識を停止/lvv
コマンド:ジェミニをボイスチャンネルから退出させる
- このリポジトリをクローンまたはダウンロード
install_dependencies.bat
を実行して必要なパッケージをインストールsrc/config.json
ファイルを作成し、以下の形式で設定:
{
"token": "YOUR_DISCORD_BOT_TOKEN",
"applicationId": "YOUR_DISCORD_APPLICATION_ID",
"guildId": "YOUR_DISCORD_SERVER_ID",
"googleApiKey": "YOUR_GOOGLE_API_KEY"
}
node src/index.js
/vv text:こんにちは、VOICEVOXです。
/vvai question:今日の天気を教えて
/vvlisten
ボイスチャンネルに入った状態でこのコマンドを実行すると、音声認識が開始されます。 その後、「ジェミニ」と話しかけると、AIが応答します。
例:「ジェミニ、今日の天気を教えて」
/vvstoplisten
- VOICEVOXはローカルで実行され、ポート50021で接続されるため、起動しておく必要があります
- 音声認識には最新のWhisper AIモデルを使用しています
- 初回の音声認識時にWhisperモデルがダウンロードされるため、少し時間がかかることがあります
- 長時間の音声認識はリソースを消費するため、使用しないときは
/vvstoplisten
で停止することをおすすめします
このボットは、OpenAIのWhisperモデル(小型版)を使用した高精度な音声認識を実装しています。
- Transformersライブラリを使用して、ブラウザ環境でも動作するように最適化されています
- 多言語対応(主に日本語用に設定)
- 雑音に強く、自然な会話を認識できます
- 初回実行時にモデルがダウンロードされるため、インターネット接続が必要です
MIT License