この記事にはGoogle Adsenseによる広告が含まれています。

前のページでは,破裂音(閉鎖音)の基本的な特徴をみました。このページは,破裂音における有声・無声や有気・無気とかかわるVOTという指標について,Praat上での計測の仕方を学びます。

無声音の特徴

まず,以下のサンプルファイルをダウンロードしましょう。(前のページで使ったのと同じファイルです。)

次に,このファイルをPraat上のSoundEditor (View&Edit)で開き,その最初の発話 [ta] の部分のみを表示させてみましょう。

音声波形を見てみると,ちょうどカーソルを立てた辺りから一定に近い周期を持った波が現れ,その振幅が徐々に高まっているのがわかると思います。また,スペクトログラムに注目すると,低い周波数域(ちょうど横方向の赤い点線で示しているあたり)の横棒がこの辺りから始まっているのがわかると思います。これらの特徴は声帯振動の開始に対応しています。スペクトログラム上に現れるこの横棒は,ボイスバー(voice bar)と呼ぶことがあります。

有声音の特徴

次に [da] の音声波形とスペクトログラムを見てみましょう。

[da]にもやはり,破裂に伴う縦線が観察されます。しかし,[ta]とは異なり,破裂よりも前にボイスバーが観察されます(赤い縦のカーソルのあたりから)。つまり,声帯振動が破裂に先立っているわけです。

VOT (Voice Onset Time)

破裂と声帯振動開始の間の時間をVOT(Voice Onset Time)といいます(Lisker and Abramson 1964)。詳しくは別のページで説明してあります。

このページでも説明したように,破裂の後に声帯振動が始まるときはVOTは正(プラス)の値になり,破裂よりも前に声帯振動が始まるときは負(マイナス)の値になります。VOTが正の場合を +VOT ,負の場合を -VOT と言うことがあります。典型的な無声破裂音は +VOT,典型的な有声破裂音は -VOT となることが知られています。ただし,これはあくまでも「典型的」な場合であることに注意が必要です。有声破裂音と言われている音であってもときには +VOT になることがあり,日本語においてもそのような発音が観察されることが知られています(高田 2011)。これについても,上のページで説明しています。

なお,VOTは有気音・無気音を調べる上でも有効な指標です。一般に,無声無気音よりも無声有気音のほうがVOTが(正の方向に)長くなります。

上で取り上げたサンプルファイルのうち,[ta] は破裂より後に声帯振動が始まっているので,VOTは正の値になります。破裂の瞬間から声帯振動開始までの区間を選択することで,VOTの値を計測することができます。例えば先ほどの [ta] の場合,下図の区間が破裂の瞬間から声帯振動開始までの区間なので,VOTは0.043秒(43 ms)ということになります。

次の図は,[da] の声帯振動開始から破裂までの区間を示したものです。約0.097秒(97 ms)ですが,声帯振動が破裂よりも前に始まっているので,VOTは -97 ms ということになります。

破裂の瞬間や声帯振動開始の時点の確定は容易ではありませんが,一貫した基準をもって計測していくことが重要です。なお,スペクトログラムは時間解像度があまり高くないので,スペクトログラムよりも音声波形にもとづいた方が,VOTのような時間軸上の計測はより正確に行うことができます。声帯振動開始点をどこにとるかについては,Francis et al. (2003) などの議論も参考になります。

サンプルファイル ta-da.wav に含まれている他の発話についてもVOTを計測してみましょう。また,以下のサンプルファイルについても計測してみましょう。

ところで,Praat上でVOTを計測する際には,TextGridを活用すると便利です。これについては次のページで見ていきます。

語中・文中の破裂音のVOT

計測の対象となる破裂音が語中や文中に位置し,その直前に有声音(母音など)がある場合には,前の有声音とボイスバーがつながるケースがしばしば観察されます。VOTを最初に提案したLisker and Abramson (1964) においては,このケースは “unbroken voicing” と呼ばれ,計測の対象から外されていました。(なお,Mikuteit and Reetz 2007 はこれを,connection voicing (CVO) と呼んでいます。 )

Abramson and Whalen (2017) においては,語中・文中で閉鎖区間中にボイスバーが観察される場合,閉鎖区間を負のVOTの値とみなせると述べています。また,閉鎖区間の途中でボイスバーが終わることがありますが,ボイスバーが閉鎖区間の半分以上となる場合は閉鎖区間全体を負のVOTとしてみなすとも述べています(Abramson and Whalen 2017: 81)。この基準に従えば,閉鎖区間の中央よりも前でボイスバーが終わる場合,破裂より後の声帯振動開始までの時間をとって正のVOTとみなすこととなります。

VOT計測に役立つツール

VOTをPraat上で計測する場合,次のページで解説するTextGrid機能を使うのが便利です。Kang and Whalen (2007) は,Praat上でVOTを計測するための手順とスクリプトを公開しています。

VOTの自動計測については様々なスクリプトがあります。代表的なものとしては,Keshet et al. (2014) があります。

参照文献

Abramson, A. S., & Whalen, D. H. (2017). Voice Onset Time (VOT) at 50: Theoretical and practical issues in measuring voicing distinctions. Journal of Phonetics, 63, 75–86.

Francis, A. L., Ciocca, V., & Ching Yu, J. M. (2003). Accuracy and variability of acoustic measures of voicing onset. The Journal of the Acoustical Society of America113(2), 1025-1032. 

Kang, J., & Whalen, D. H. (2017). get_vot. Retrieved January 2025 from https://github.com/HaskinsLabs/get_vot.

Keshet, J., Sonderegger, M., & Knowles, T. (2014). AutoVOT: A tool for automatic measurement of voice onset time using discriminative structured prediction [Computer program]. Version 0.94.1, retrieved January 2025 from https://github.com/mlml/autovot/.

Lisker, L., & Abramson, A. S. (1964). A cross-language study of voicing in initial stops: Acoustical measurements. Word20(3), 384-422.

Mikuteit, S., & Reetz, H. (2007). Caught in the ACT: the timing of aspiration and voicing in East Bengali. Language and Speech, 50(2), 247–277.

高田三枝子(2011)『日本語の語頭閉鎖音の研究―VOTの共時的分布と通時的変化―』くろしお出版. [Amazonリンク]

本サイト内の関連ページ

調音音声学とIPA > 時間軸からみた有声/無声、有気/無気:VOT