RVC とは?
概要
RVCの仕組みについて
RVC (Real-Time Voice Cloning)は、音声合成技術の一種で、人間の声をリアルタイムで別の声に変換するための技術です。これにより、ユーザーは自分の声を様々な声に変換したり、有名人の声に似せたりすることができます。以下にRVCの主な特徴と仕組みを詳しく説明します。
RVC の使い方やり方について
調べるとYoutubeでも個人ノートでも書いている人が多いので、詳細のやり方については逐一書きませんけど、基本的には公開されているやり方通りに、ツールを導入するだけでかまいません。
以下2点が人によっては難しいポイントです。
- グラボの性能がある程度必要。私はRTX3060tiなんですけど、多分これで最低ラインかな・・・?
- 音声データを集める必要がある。学習させたい人間のボイスをかき集める必要があります。
注意事項
僕は自分の音声で学習データを作成し、自分に楽曲などを歌わせてみましたが、
現状、勝手に配信者さんの声を学習させ、それを使用するなどが横行しているらしいです。
やろうと思えば簡単に、しかも違法性があるか?と言われたら、多分無いんじゃないかな?
本人の良識のある範囲でやってくれってのがあるかと思います。
多分、個人で楽しむ分には全然問題ないんじゃないでしょうか?
様々な権利へ干渉してしまう状況になったら流石に・・・といったところでしょう。
そういうのもあったのと、自分の声なら取得しやすいとおもってたので、
今回、試験的に色々遊んでみました。
RVC で出来ること
主に出来ることは以下2点ですね。
- 学習させた声でリアルタイムでVCが出来る。(discord等で使えます)
- 誰かが歌っている音声データに、設定した学習データで歌わせることができる。
特に自分は2番目の歌わせてみるのが、すごい面白くて色んなデータで試しました。
※ちなみに個人で遊んだだけなので、特になにかに使ったとかはありません。
RVC を使ってみてどうだった?
実際に僕自身の学習データに歌わせてるものを、ここに添付しようと思ったんですけど、それはそれで恥ずかしいので、要望があった時に張ろうと思います。
ちなみに使ってみて、煩わしいポイントは以下。
- 学習データの学習させかたにおいて正解が分からない。
- 主にサビ部分のボーカルについては、声がかすれてしまう時がある。
- リアルタイム変換(discord等で使用)はタイムラグが結構デカい。
各項目の解説
RVCのエポック数(epoch数)は最低500回以上(推奨は1000回)
①学習データの学習について、こちらは用意した音声ファイルを何回学習させるか?といった設定をするんですけど、歌唱データの学習については500回や1000回は学習させないと、上手くいきませんでした。
グラボの性能でスピードは決まるんですけど、僕の普通グラボじゃあ1000回学習させるころには24時間近くたっちゃうぐらいのボリュームでした。
※ちなみに200回程度と500回、1000回で学習データを作ったのですが、500回と1000回については、学習データの精度において、違いはさほど感じれませんでした。200回程度だとそもそも歌わせれないとかはあったので、そこの違いは把握できましたが・・・
RVCのエポック数は100回~200回でも良いとおっしゃっている方がいますが、明らかに違います。総エポック数はPCに負荷もかかりますし、一番時間がかかりますが、一番重要と言っても過言ではないです。
トレーニング対象者や素材が大きく影響する?
②これについては、どうしようもないのかもしれません。学習させる音声ファイルが質の高いものであれば、改善されていくのかもしれませんし、単純に僕が人より音域が狭いってのも理由の一つかもしれません。少なくとも学習回数での改善はあまり見込めませんでした。
※あとは元となる歌唱データが、声がはっきりしてたり、歌いやすい曲だったりすると、自然に音をかぶせることが出来てたのかな?と思います。(ここらへんは私の実験範囲のため、違ってたらすいません。)
正直ボイスチャットでは使用しずらい
③これについては、使用するのは難しいんじゃないかなって思います。ちなみに配信でも使うことできますけど、同じくタイムラグが激しいんで、難しいはずです。
動画投稿のために、声を吹き込む分にはタイムラグを修正してあげればいいので、問題無く使用出来ると思います。しかし、男⇨女に変える場合も詳細設定を少し弄らなければいけないし、タイムラグが結構あるため、実用的じゃないなぁと僕は思いました。
※ですが実際ためしに使ってみる分には、面白いですよ!(悪用厳禁ですが・・・)
実際に歌わせてみた
僕の声をトレーニングしたものを下記へ
正直これについては迷ったんですけど、トレーニングを実際にしたものが無いと、具体的なイメージが付かないとおもったので、恥ずかしいですけど、僕の声をトレーニングしたものでお送りします。
藤巻がAIに歌わせた『夜に駆ける』
RVCの声がかすれてしまう問題について
まず先ほど聞いていただいた音声の学習データですが、私の音声を60個ほどに分解したファイルで、なるべく高音や低音を含める様に意識して、1000回以上学習させたデータになります。
それにも関わらずサビ部分でかすれてしまいます。そのため以下が要因かな?と判断しました
- そもそものトレーニング対象ボイスをもっと入れるべきかもしれない。
- トレーニング対象者の高音、低音が対象の歌に適していない。
- 学習回数を多くすれば、滑らかになる部分は多いが、限度はある。
私の知人のボイスをお借りして、トレーニングをしてみたのですが、結果は同様でした。そのため、上記内容かなと判断しております。
RVCの学習時間について
これに関しては、音声自体は1時間半分の音声を60個に細分化したものを利用しました。
ちなみに1000回学習するとなると、私のグラボ性能(3060ti)では24時間近くかかりました・・・。(こんなにも労力をかけたのに結局サビ部分がかすれてしまって残念でした。)
RVCの違法性について
シンプルに許可を得ていない他人の音声を利用してトレーニングするのは辞めましょう。
個人的に遊ぶ範囲であれば問題無いと思いますけど、Youtubeとかに有名配信者の声をトレーニングしたものをアップロードしている方もいましたので、そういうのは絶対にやらないでくださいね。
問題視している行為について
現在勝手にトレーニングした有名人の声を販売している人たちがいるみたいですね。Vtuberや声優といった声を生業としている人たちの声を勝手にトレーニングし、販売して利益をだそうとする精神が良く分かりませんね。
取り締まることは可能?
これに関しては完璧に整備されていない部分かと思っています。
少なくとも無法地帯ということは無いでしょうから、今後は整備されていく認識で良いと思います。日本が対応していないだけで、カルフォルニア州では既に取り締まっている気がします。
ジークラウド社とリーガルAI社が肖声権を商標登録した件
これに関しては記事を読んでいただきたいです。
正直僕としては理解できませんでした。おそらく用意されたシステム的なものに、声を守りたい人がその声を担保するプロセスが用意されていて、それを行う。
その後、認められていない部分での流用が見られたら、罰することが出来る基盤を作った、みたいな感じだとは思うのですが、変な解釈していたら申し訳ございません。
総括
多分やりはじめたのはいいけど、学習回数(エポック数)をどうしたらいいか?とかエラーが出ちゃうとかあるとおもいます。実際自分はめちゃくちゃ感じてて、調べてもあんまし出てこないんですよね。
なので手探り作業感が強かったんですけど、もし導入上手くいかなくて、分からないって方はコメントとかお問い合わせに一言ください。回答出来る範囲でなら回答します。
正直歌を歌わせたりするのは、すごく面白くて自分だと歌えない難しい曲をAIに、歌わせるのが結構面白かったです。(AIも上手く認識してくれない場合が多かったです・・・。)
個人で楽しむ分には、全然問題ないと思いますので、行き詰った人がいればお声かけしてください。
BOOTHで有料にして学習データ売ってる人は何考えてんだと思ってます・・・。
コメント