ChatGPTと音声で会話するプログラム

現在進行中。

こんなの。

いろいろテストしてみて課題も見えてきました。

などなど。

AIアシスタントとして1to1の会話をしているだけであればそれほど問題ではないのですが、一人のキャラクターとしてアイデンティティを確立させようとすると、やっぱり不自然さが目立ちます。

チャットコマンドとかをつけてユーザー側に利用方法を制限したり、キテレツな発言をするオモシロAIとして適当に遊んでればよいのかもしれませんが、せっかくならもう少し別のアプローチで品質を上げていきたいなぁと。

ChatGPTをコアに開発を始めてみたものの、現状のオモやんのプログラム自体は特にChatGPTを前提とした構造にはなっていないので、無理に流行りに乗っかる必要もなくなりました。

ChatGPTに限らずLLMは今後もどんどん出てくると思うので、その時どきに応じた技術を使って成長させていければよいのかと思います。

という感じで、のんびりバージョンアップを続けていきます。

「俺の嫁召喚」プロジェクトのはずが、なぜか「AI-VTuber」を作ってしまいました。。。

技術的な詳細は↓に書いていくかもしれません。ここに書くかもしれません。

プログラムを実行して初めに話題を振ると、APIを通じて取得された会話データを音声合成で読み上げる。
プロンプトは非同期でユーザーからのキーボード入力を受け付けてるが、何も入力しないと自動的に「現在話している話題の内容の話を広げる」プロンプトを送信し、次の音声を読み上げるようにループする。
音声が再生されている間に次のAPI通信がバックグラウンドで行われるので、会話が途切れずにChatGPTがひとりで延々と話し続けてくれる。

GPT-3.5-Turbo（ChatGPT）エンジンで会話する。入力されたテキストをつかってAIが回答を生成する。
入力はテキスト、もしくはGoogleのSpeech Recognition APIをつかっての認識した音声をテキスト化。
会話の内容を音声で出力する。現状はとりあえずWindows標準のナレーター機能で読み上げ。
GPT-3.5-Turboは会話の履歴をつかって人間らしい会話のキャッチボールができる。さらにシステム側からのメッセージを送ってテキスト生成の指示が行えるので、ペルソナなどを定義してAIのキャラクター付けもカンタン。
キャラクターはとりあえずStable Diffusionで作ったキャラクターの静止画にオーディオビジュアライザを載せてみた。これだけでもリモートで会話してる感じ。
VTuberみたいにチャットテキストを拾い読みして雑談するようなシステムも作れそう。