ChatGPTと音声で会話するプログラム

オモやん 猫耳 着物 イラスト フリー

現在進行中。

こんなの。

2023/4/24:迷走中・・・

いろいろテストしてみて課題も見えてきました。

  • ChatGPTでのペルソナの強制が難しい。プロンプトの重視もまちまちでキャラがブレる。
  • ChatGPTの文書生成が自由すぎて、1人のキャラクターとしての会話の一貫性が保たれない。
  • 数を繰り返すとChatGPTの発言もワンパターンなことがわかってきた。

などなど。

AIアシスタントとして1to1の会話をしているだけであればそれほど問題ではないのですが、一人のキャラクターとしてアイデンティティを確立させようとすると、やっぱり不自然さが目立ちます。

チャットコマンドとかをつけてユーザー側に利用方法を制限したり、キテレツな発言をするオモシロAIとして適当に遊んでればよいのかもしれませんが、せっかくならもう少し別のアプローチで品質を上げていきたいなぁと。

ChatGPTをコアに開発を始めてみたものの、現状のオモやんのプログラム自体は特にChatGPTを前提とした構造にはなっていないので、無理に流行りに乗っかる必要もなくなりました。

ChatGPTに限らずLLMは今後もどんどん出てくると思うので、その時どきに応じた技術を使って成長させていければよいのかと思います。

という感じで、のんびりバージョンアップを続けていきます。

2023/4/1:YouTubeのVTuber雑談配信のようなチャット読みができるようにした

  • 不特定多数の視聴者さんのチャットから話題をピックアップして発言する。
  • 特に話題が無いときは適当に雑談する。
  • OBSを使ってライブ配信の環境を構築。
  • とりあえずまばたき口パクで会話している感を出してみた。アバターのデザインと動作は今後の課題。。

「俺の嫁召喚」プロジェクトのはずが、なぜか「AI-VTuber」を作ってしまいました。。。

技術的な詳細は↓に書いていくかもしれません。ここに書くかもしれません。

【ChatGPT】完全自律でYouTubeライブ配信できる「AI-Vtuber」作った #1【Python】 - Qiita
ChatGPTが面白すぎていろいろ使っている間にちょっとずつできてきました。とりあえず仮称は「AI-VTuber配信システム」としています。「AI-VTuber配信システム」ってどんなの?こん…

2023/3/20:延々とChatGPTひとりで話し続けられるようにした

  • プログラムを実行して初めに話題を振ると、APIを通じて取得された会話データを音声合成で読み上げる。
  • プロンプトは非同期でユーザーからのキーボード入力を受け付けてるが、何も入力しないと自動的に「現在話している話題の内容の話を広げる」プロンプトを送信し、次の音声を読み上げるようにループする。
  • 音声が再生されている間に次のAPI通信がバックグラウンドで行われるので、会話が途切れずにChatGPTがひとりで延々と話し続けてくれる。

2023/3/17:とりあえず合成音声でChatGPTがしゃべるようにした

  • GPT-3.5-Turbo(ChatGPT)エンジンで会話する。入力されたテキストをつかってAIが回答を生成する。
  • 入力はテキスト、もしくはGoogleのSpeech Recognition APIをつかっての認識した音声をテキスト化。
  • 会話の内容を音声で出力する。現状はとりあえずWindows標準のナレーター機能で読み上げ。
  • GPT-3.5-Turboは会話の履歴をつかって人間らしい会話のキャッチボールができる。さらにシステム側からのメッセージを送ってテキスト生成の指示が行えるので、ペルソナなどを定義してAIのキャラクター付けもカンタン。
  • キャラクターはとりあえずStable Diffusionで作ったキャラクターの静止画にオーディオビジュアライザを載せてみた。これだけでもリモートで会話してる感じ。
  • VTuberみたいにチャットテキストを拾い読みして雑談するようなシステムも作れそう。
タイトルとURLをコピーしました