Q1:対応言語は、何ヵ国ですか?
A1:全部で93ヵ国になります。 英語、中国語、韓国語、日本語、ドイツ語、フランス語、スペイン語、ポルトガル語、オランダ語、イタリア語、タイ語、ベトナム語、インドネシア語、ヒンディー語、テルグ語、マラヤーラム語、ベンガル語、アラビア語、ウルドゥー語、ロシア語、ウクライナ語、ヘブライ語、その他多数に対応しております。
Q2:翻訳精度はどのくらいですか?
A2:言語にもよりますが、Transcriptの段階でオリジナル音声にノイズがあったり、環境音で聞き取りにくい場合など他にも大きく精度に関わる要素があります。Sakuraでは、GPU上で動くFaster-whisper以外に、CPU上でもOpenAI社のwhisper-1やChat-GPTを利用できるため、軽量かつ高精度な翻訳が期待できます。しかしながら、すべての言語が同じ精度で翻訳できることはなく、例えば下記比較表を参考としてリンクしておきます。
https://github.com/openai/whisper/discussions/2363
Q3:リアルタイム性能はどのくらいですか?
A3:残念ながら完全な同時通訳は、言語の文法の特性上難しいですが、PVTシリーズでは3秒間を一つの基準にしており、無音検出などの機能を追加して、出来る限り1フレーズ、1センテンスといった区切り単位で翻訳をしております。体感で平均1,2センテンスの遅延になります。「少し遅いかな?」という程度の翻訳速度になります。また、ネットワークの環境ではさらに遅れる場合がありますので、あからじめご承知おきください。実際、OpenAI側のサーバが止まっているような場合が時々見られます。これはベストエフォートでサーバ側が対応しているためです。もしフリーズしたと思った場合は、アプリケーションを強制終了して、Faster-whisper(ローカルで文字お越し)に切り替えると対処できます。精度はtinyの場合落ちます。Faster-whisperはGPU/CUDA環境を推奨しています。
Q4:外部に会話が流出することはありますか?
A4:Whisper-1とFaster-whisperで音声データの扱いが異なります。Whisper-1は、音声データがOpenAI社のサーバに送られます。一方、Faster-whisperではパソコン内部で処理されますので、ネットワーク上に流出することはありません。しかし、Transcriptされた文字データは、別途翻訳エンジンを利用するために、GoogleやOpenAIへ送信されネットワークを経由することになります。機密情報などの会話は避けてください。また、オプトアウトの保証はできません。
Q5:トライアル版はいつまで使えますか?
A5:インストールして最初に実行してから15日後になります。
Q6:製品版は、いつまで使えますか?
A6: 基本的に2030年7月末まで有効です。理由は、この分野の開発が非常に早く性能や仕様が大きく変わり、互換性に影響をあたえる可能性があるためです。勝手ながらリリースから5年程度を目安に有効期限を設けています。なお、トライアル版も同様に2030年7月末までお使いいただけます。
Q7:GPUの環境はどこで入手できますか?
A7:PVTシリーズは、CUDAに対応しております。NVIDIAのサイトから別途ユーザ登録を行っていただき、CUDAをインストールしてください。 CUDA Toolkit 12.x およびcuDNN 8.xを推奨します。
ただし、完全なCUDAの環境は不要です。PVTシリーズは最低限NVIDIAのGPUドライバがインストールされていれば、適正なCUDAライブラリを自動的にインストールし実行します。(既存のCUDA環境には影響は与えませんが、古いドライバだと一部動作が不安定になります。最新のドライバに更新することをお勧めします。)
ドライバの確認方法:
コマンドプロンプトを開き、「nvidia-smi」を実行する。ドライバVersionが表示されていればOKです。
例:C:\Users\<ユーザ名>\nvidia-smi
参考:CUDA Toolkit Archive | NVIDIA Developer
Q8: Re-translationはなんですか?
A8: 2nd release
v20250322からは、一定期間(デフォルト約6秒間)音声が途切れずに会話が進んでしまった場合、強制的に区切りを設けて一時翻訳を開始します。そして、次の翻訳時に前回のスクリプトを保持・連結させて全体の文章を再翻訳します。これを1ターンとして、リトライ回数を2回(初回は除く)まで行うようにします。リアルタイム性よりも翻訳精度を重視しました。なお、リトライ中の一時翻訳の結果は文字の色を褐色に変えています。もし、再翻訳が不要な場合は、アプリ起動前に、以下のenvrionment.jsonを直接編集してください。なお、アプリ起動中にjsonファイルを編集してしまうと、現在の設定がアプリ終了時に上書きされてしまい反映されません。ご了承ください。
例:C:\Users\<User_Name>\AppData\Local\omicronware\PVTsakura\user_env\environment.json
"translator": {
"default_api": "gpt-4o-mini",
・・・・・・・・・・・・
"force_retranslation": "on" → "off"
},