2021年に筆者の心を最も躍らせたデバイスは、Googleの5Gスマートフォン「Google Pixel 6」だ。高機能なカメラや撮影後の写真・動画加工のテクノロジーにスポットライトが当たりがちだが、ライターである筆者が仕事にも重宝しているのがレコーダーアプリの「自動文字起こし」機能。ビジネスパーソンの必携ツールとして、その魅力を紹介したい。
Pixelシリーズに内蔵するマイクで音声・言語を認識して、ほぼリアルタイムに音声テキスト変換を行う。精度についてはのちに言及するとして、日本語対応の自動文字起こしアプリとしてのスピード感はとても優秀だと思う。
レコーダーアプリに各言語の「辞書ファイル」をダウンロードすれば、端末がオフラインの状態でも自動文字起こし機能は使える。例えば海外に出かけて、Pixelシリーズをセルラーネットワークにつないでいなくても、自動文字起こしに対応するボイスレコーダーとして使えるというわけだ。
一度に音声を聞きながら文字起こしができるのは一つの言語に限られているため、例えば、英語のネイティブスピーカーと通訳を介して会話をしている場合、レコーダーアプリの自動文字起こしは設定から指定した言語のみをテキスト化する。指定した二つまでの言語を文字に起こせるようになればとても便利そうだが、今のところその機能はない。
レコーダーアプリには特定のキーワードを検索したり、不要な箇所はテキストファイルをアプリから出力する前に削除・編集する機能もある。スマホのストレージが尽きない限り、1件のファイルとして記録できる文字・音声の容量に制限はない。
文字起こしのデータは「共有」から「文字起こし」を選択後、テキスト形式(.txt)またはGoogleドキュメントとして保存ができる。前者についてはアプリが会話の間合いを認識して挿入する「改行」が消えて、だらりとしたひと続きのテキストになってしまうためお勧めできない。Googleドキュメントとして残せば、文字カウントやWordのドキュメントに変換してメールで送ることもたやすい。
Googleドキュメントによる保存を選択した場合、会話の合間ごとに段落を設けたテキストが記録される。文字起こしの内容を後から把握しやすい。Pixelシリーズに会話参加者の声を聞き分ける機能がないため、二人が同時に話しはじめると応答の内容が混ざった状態で文字に起こされる。
また相づちや言いよどみまで拾ってしまう。現在の技術では恐らく1台のスマホだけでは実現が困難だと思われるので、例えば、ふた股に別かれている高指向性マイクを話し手の双方側に向けて、人物A/Bの声を分けて文字起こしができるモードを設けるのはどうだろうか。Pixelシリーズのレコーダー専用の指向性をコントロールできる外付けマイクアクセサリーもほしい。
なお、文字起こしのデータは音声とテキストのほかに「動画クリップ」として、録音を5分前後にトリミングしてから、声の波形を再現したグラフィックとテロップを付けたMP4形式の動画として残せる機能もある。インタビューの中で印象的な一言をトリミングしてから、Web記事を飾る動画素材としても使えそうだ。
参加者には事前に了解を得る必要もあるが、ミーティングや会議の様子を音声とテキストに残して、メモ的な資料にしたり、議事録を作成する仕事に携わる方にはPixelシリーズのレコーダーアプリが欠かせないツールになるだろう。
スマホよりも単機能のボイスレコーダーが使いやすいと考える方もいると思うが、毎日使うスマホに標準されているアプリなので、忘れ物をする心配が少ないし、アプリをさっと起動して使える。難点があるとすれば、録音中にはスマホが使いづらくなることだ。例えば、メインのスマホ以外に中古のPixelシリーズを日本語文字起こしができるボイスレコーダーとして買って使う手もアリではないだろうかと筆者は思う。まだ荒削りな箇所もあるが、よりブラッシュアップされて皆に使いやすいアプリになる可能性が感じられる。2022年はGoogle Pixelシリーズの周辺で「自動音声文字起こし」に関連するトピックがさらにヒートアップしそうだ。(フリーライター・山本敦)
日本語文字起こしの精度・スピードともに実戦級
自動文字起こしとは、グーグルのスマホであるPixelシリーズの標準アプリ「レコーダー」が搭載する、その名前の通りマイクで拾った音声をテキストデータに変換してくれる機能だ。従来は英語だけに対応していたが、Pixel 6シリーズから日本語・フランス語・ドイツ語の文字起こしに対応した。日本で過去に発売されているPixelシリーズもまた、アプリのアップデートにより日本語の自動文字起こしができる。Pixelシリーズに内蔵するマイクで音声・言語を認識して、ほぼリアルタイムに音声テキスト変換を行う。精度についてはのちに言及するとして、日本語対応の自動文字起こしアプリとしてのスピード感はとても優秀だと思う。
レコーダーアプリに各言語の「辞書ファイル」をダウンロードすれば、端末がオフラインの状態でも自動文字起こし機能は使える。例えば海外に出かけて、Pixelシリーズをセルラーネットワークにつないでいなくても、自動文字起こしに対応するボイスレコーダーとして使えるというわけだ。
一度に音声を聞きながら文字起こしができるのは一つの言語に限られているため、例えば、英語のネイティブスピーカーと通訳を介して会話をしている場合、レコーダーアプリの自動文字起こしは設定から指定した言語のみをテキスト化する。指定した二つまでの言語を文字に起こせるようになればとても便利そうだが、今のところその機能はない。
テキストと音声が一緒に残る。曖昧な箇所のチェックも万全
筆者がレコーダーアプリをとても魅力的に感じるポイントは、アプリがその名前の通り「音声レコーダー」でもあることだ。MP3形式でダウンロードできる音声ファイルが生成されるので、文字起こしが曖昧な部分はレコーダーアプリの画面上で該当の文字をタップして、繰り返し聞き直せる。レコーダーアプリには特定のキーワードを検索したり、不要な箇所はテキストファイルをアプリから出力する前に削除・編集する機能もある。スマホのストレージが尽きない限り、1件のファイルとして記録できる文字・音声の容量に制限はない。
文字起こしのデータは「共有」から「文字起こし」を選択後、テキスト形式(.txt)またはGoogleドキュメントとして保存ができる。前者についてはアプリが会話の間合いを認識して挿入する「改行」が消えて、だらりとしたひと続きのテキストになってしまうためお勧めできない。Googleドキュメントとして残せば、文字カウントやWordのドキュメントに変換してメールで送ることもたやすい。
Googleドキュメントによる保存を選択した場合、会話の合間ごとに段落を設けたテキストが記録される。文字起こしの内容を後から把握しやすい。Pixelシリーズに会話参加者の声を聞き分ける機能がないため、二人が同時に話しはじめると応答の内容が混ざった状態で文字に起こされる。
また相づちや言いよどみまで拾ってしまう。現在の技術では恐らく1台のスマホだけでは実現が困難だと思われるので、例えば、ふた股に別かれている高指向性マイクを話し手の双方側に向けて、人物A/Bの声を分けて文字起こしができるモードを設けるのはどうだろうか。Pixelシリーズのレコーダー専用の指向性をコントロールできる外付けマイクアクセサリーもほしい。
なお、文字起こしのデータは音声とテキストのほかに「動画クリップ」として、録音を5分前後にトリミングしてから、声の波形を再現したグラフィックとテロップを付けたMP4形式の動画として残せる機能もある。インタビューの中で印象的な一言をトリミングしてから、Web記事を飾る動画素材としても使えそうだ。
スマホアプリだから「必要な時に手元にない」ことがない
Pixelシリーズの日本語に対応する自動文字起こし機能は、まだ誤認識も目立つものの、筆者の場合は役立つ要素の方が多いので、インタビューなど仕事の現場でも積極的に使っている。先述の通りテキスト化された素材のほかに、音声も記録されるので、曖昧なテキスト変換を音声でダブルチェックできる安心感がいい。参加者には事前に了解を得る必要もあるが、ミーティングや会議の様子を音声とテキストに残して、メモ的な資料にしたり、議事録を作成する仕事に携わる方にはPixelシリーズのレコーダーアプリが欠かせないツールになるだろう。
スマホよりも単機能のボイスレコーダーが使いやすいと考える方もいると思うが、毎日使うスマホに標準されているアプリなので、忘れ物をする心配が少ないし、アプリをさっと起動して使える。難点があるとすれば、録音中にはスマホが使いづらくなることだ。例えば、メインのスマホ以外に中古のPixelシリーズを日本語文字起こしができるボイスレコーダーとして買って使う手もアリではないだろうかと筆者は思う。まだ荒削りな箇所もあるが、よりブラッシュアップされて皆に使いやすいアプリになる可能性が感じられる。2022年はGoogle Pixelシリーズの周辺で「自動音声文字起こし」に関連するトピックがさらにヒートアップしそうだ。(フリーライター・山本敦)