精度は向上したが
キーボードではなく音声を用いてテキストを入力する作業は、一般に「音声入力」と呼ばれています。音声入力という仕組は、それ自体としては、何十年も前から知られていました。すでに20世紀の終わりには、IBMは、音声入力のソフトウェアViaVoiceを開発し、一般向けに販売もしていました。ただ、ながいあいだ、音声認識のレベルは低いレベルにとどまっており、その用途は非常に限定されていました。
しかし、数年前から——おそらくAIのおかげで——人間の声を聞き分け、そして、書き分ける精度が向上し、ごく普通の人が書くような文章を音声で入力することができるようになりました。それとともに、音声で入力することの効用が広く喧伝されるようになりました。
たしかに、完全に同一の文章を対象とするなら、音声では、キーボードとくらべ、単位時間あたり数倍の文字数を入力することが可能です。実際、パソコンあるいはスマートフォンのテキストエディタを開き、音声入力機能をオンの状態にしたままダラダラとおしゃべりするだけで、白い画面が瞬く間に文字で黒く埋め尽くされて行きます。音声入力が便利な機能であることは確かであり、生産性の向上に音声入力を活用する方法に注意が向けられるのは、自然な成り行きであったように思われます。
ただ、音声認識の精度がどれほど向上しても、音声入力にできることには限界があると私は考えています。それは、音声入力が苦手な人を眺めることによってただちに明らかになります。
「音声入力が苦手」とは
私は、この文章を書いている時点では、「音声入力が苦手」です。音声を用いる方がキーボードよりもたくさんの文字を入力することができるのは事実であるとしても、私の場合、入力された文字には、大雑把なメモ、あるいは、アイディアを思い出すよすが以上の役割を期待することはできません。したがって、他人の目に触れる可能性が少しでもあるものを書くのには音声入力は使えません。音声のみで文章を仕上げようとするなら、必要な時間は、キーボード入力の10倍以上になるはずです。
それでは、音声入力を苦手とする人とこれを得意とする人とのあいだには、どのような違いが認められるのでしょうか。ここでは、私自身をみずから観察した結果として、1つの仮説を示します。