はじめに
ピッチに関わる諸現象(たとえば,日本語のアクセントやイントネーション)を音響音声学的に調べるときには,たいてい基本周波数(fundamental frequency; fo)をみます。このページでは,Praatで基本周波数を測定する方法を学んでいきます。なお,「基本周波数」とは何かについては,本サイト「共鳴と母音のフォルマント」のページの中の「基音,倍音,基本周波数」というセクションに説明があります。
f0(エフゼロ)かfo(エフオー)か
なお、基本周波数はかつてはF0ないしf0(エフゼロ)と表記したり呼んだりするのが一般的でしたが,最近では(フォルマントと紛らわしいので)fo(エフオー)と呼ぶことが提案されています(Titze et al. 2015, 榊原他 2017)。こんにち,研究者の中では,f0と呼ぶ人もいればfoと呼ぶ人もいます。
SoundEditor上でfoを測定する
Praatでfoを測定するための方法はいろいろあります。最も簡単な方法は,SoundEditorを用いるというものです。
以下のサンプルファイルを読み込み,View&Editを押してSoundEditorを開いてみましょう。
SoundEditor上で下のパネルに(通常はサウンド・スペクトログラムの上に)青い線で表示されるのがfoです。もし表示されていなかったら,上部メニューからPitchを選択し,いちばん上のShow pitchにチェックを入れましょう。
さて,このサンプルファイルは頭高型の「雨」と平板型の「飴」を発音したものです。foにどのような違いがあるでしょうか?
レポートや論文においてfoの音響分析結果を示す際には,fo曲線を図として示すこともあれば,その中のいくつかの点を計測して計測値を示す(あるいは複数の計測値に対する基本統計量や検定結果を示す)こともあります。
計測値を得たい場合には,下の図のように,計測したい(時間軸上の)位置にカーソルをあてればよいです。例えば下図では,サンプルファイルの最初の発話(「雨」)における [m] と [e] の境界にカーソルをあてています。このとき,下のパネルの右側の軸上に表示される「160.5 Hz」という値が,カーソル位置におけるf0の値を示しています。
なお,左軸上の 3448 Hz は,サウンド・スペクトログラムに対して水平方向(周波数軸)にカーソルをあて,その位置の周波数を示しています。つまり,左の軸はサウンド・スペクトログラムに対する軸,右の軸は(青いfoの線を表示した状態では)foに対する軸を示しています。
この発話全体における)foの最高値を知りたいというときは,下図のように発話全体を選択した状態で,上部メニューPitchから Get maximum pitch を選択すればよいです。するとinfoウィンドウが開き,選択範囲の最高値が表示されるはずです。
子音の影響
foを分析する上で特に注意しなければいけないのは,foが子音の影響を受けやすいということです。例えば,次のサンプルファイルのfoをSoundEditorで確認してみましょう。
上の図は,1番目の単語が「飴」,2番目が「竹」,3番目が「風」です。いずれも平板型で発音されており,また第1モーラの母音が/a/,第2モーラが/e/という点も共通しています。それにも関わらず,三つの発話のfoにはかなり違いがあることが見てとれると思います。具体的に,どこがどう違っているでしょうか?
三つの発話のfoの違いは,大きく二つの点からまとめることができるでしょう。第一に,foが途切れるものとそうでないものとがあります。「飴」ではfoが途切れないのに対し,「竹」では明らかに途切れています。これは「竹」の語中の /k/ が無声子音であり,声帯振動をしていないためです。foは声帯振動を反映したものなので,声帯振動をしていなければ当然ながらfoは検出されません。「風」の語中の /z/ は有声子音ですが,ここで示されているように,有声子音でもfoが若干途切れることがあります。
第二の点として,fo曲線の細かい動きの違いがあります。特徴的なのは「竹」の /k/ の直後で,やや高めの位置から下降する動きをみることができます。これは,下図のように,本来赤線のようにfoが現れるはずが,(オレンジの楕円で示した部分について)無声子音の影響で局所的にfoが高められたのだと解釈することができます。「竹」の /t/ の直後や「風」の /k/ の直後も同様に解釈することができます。
一般に,共鳴音(たとえば,鼻音,接近音)はfoに影響を与えにくいのに対し,阻害音(たとえば,破裂音,破擦音,摩擦音)はfoに影響を与えやすく,具体的には無声阻害音の直後でfoが高められ,有声阻害音の直後でfoが低められる傾向にあることが知られています(Lehiste 1970: 71ff., Beckman 1986: 126ff.)。
言語学においてfoを分析するのはたいてい,アクセントやイントネーションを調べるような場合です。そのような場合,子音の影響というのは,本来注目したいアクセントやイントネーションを反映したfoパターンを歪めているものと位置づけられます。アクセントやイントネーションを分析する上では,子音の影響は最小限に抑えたいわけであり,したがって,foに影響を与えやすい子音を含まないような単語や文を用いて分析した方が,分析がしやすいということになります。
ところで,「竹」の終端ではfoが急上昇しているように見えますが,foがこのように急激に変動することは生理的に考えにくく,また音声を聞いた印象としても上昇しているようには聞こえないので,ソフトウェアによるfoの誤検出であると考えられます。このような誤検出はしばしばみられるので,ソフトウェアの検出結果を鵜呑みしないことも大切です。発話の末尾では声帯振動が不規則になりがちなので,foの誤検出は特によく生じます。
母音のintrinsic fo
母音の種類もfoに影響を与えます。一般に,同一条件下では,母音の開口度が狭い/舌が高いほどfoが高くなる傾向にあることが知られています。これは,「母音のintrinsic fo」と呼ばれています。この現象は,これまでに様々な言語で確認されています(Whalen & Levitt 1995 参照)。この現象も,上に述べた子音の影響と同様に,foを分析する上で気をつけなければいけないものです。
なお,子音の影響や母音のintrinsic foは,microprosodyと呼ばれる現象の一種とみなすことができます。
Pitchオブジェクト
foの計測は上で述べたようにSoundEditor上で行うこともできますが、これとは別にPitchオブジェクトを使って計測することもできます。
まず、(そのままでもよいのですが,ここから先の作業のしやすさのため)ame_take_kaze.wav のうち、「竹」の一番目発音だけを切り出しましょう。SoundEditorで該当区間を選択した状態で、SoundEditorの上部メニュー Sound から Extract selected sound (time from 0) を選んで実行することで、この区間を切り出したSoundオブジェクトを作ることができます。
新たに作られたこのオブジェクトは、Objectウィンドウ上では Sound untitled と表示されているはずです。これだとわかりにくいので、take1とでも名前を変えておきましょう。
次に、Objectウィンドウ上でこのオブジェクトを選択し、右メニューから Analyse periodicity > To Pitch… を選び実行しましょう(設定画面が現れますが、ひとまずデフォルトのままでOKを押しましょう)。これにより、Pitchオブジェクトを作ることができます。
このようにして作られたPitchオブジェクトに対し、様々なコマンドを実行することができます。例えば、Pitchオブジェクトを選択した状態で右側に表示されるメニューのうち、Queryでは様々な計測ができます。Get mean… を利用すれば、当該Pitchオブジェクト全体の平均foを求めることができます。このようにPitchオブジェクトに対して実行可能なQuery内のコマンドを用いるという方法は、特にスクリプトを用いてfoを計測する際に有用です。
さて、Pitchオブジェクトの右側メニューのうち View & Edit を実行すると、下の図のようなピンクの点が現れます。
ここに示されている数字はfoとして検出しうる候補であり,検出アルゴリズムの計算において正しいfoである可能性が高いものほど大きい数字(最大9)で示されています。そして,それにもとづいて「正しいfo」として検出されたものが,ピンクの点です。ただし,この計算結果が本当に正しい(つまり,声帯振動の周期を正確に反映している)とは限りません。別の候補のほうがふさわしいと調査者の側で判断するならば,そちらを選択することもできます。例えば,左から二つ目の「7」の点が誤検出だと考えるならば,別の点,たとえば下のほうの3の点をクリックすることで,ピンクの点の変えることができます。
また,ピンクの点を消すこともできます。例えば,左の二つの点は誤検出で消したほうがよいと思うならば,
このようにして,最初の二つの点のほかに,最後の二つの点も消してしまってもよいかもしれません。
ただし,foの検出値の修正は,音声学的に妥当な理由をもって一貫した基準で行わなければなりません。調査者が自分の予想と異なる結果にならないようにするために恣意的に修正をすれば研究不正になるので,注意しましょう。
図の作成
fo曲線の図を作る上で最も簡単な方法は,SoundEditor上で表示されたもののスクリーンショットをとることです。一方で,Pitchオブジェクトからピクチャーウィンドウを利用して図を作れば,より綺麗な図を作ることができます。
Objectウィンドウ上でPitchオブジェクトを選択した状態で右側メニューからDrawを押すと、図を作成するためのコマンドがいくつか表示されます。このうち代表的なのは、Draw… と Speckle… です。Draw… はピクチャーウィンドウ上にfoを線で描きます。一方、Speckle… はfoを点で描きます。私のお薦めはSpeckle… のほうです。子音の影響によるmicroprosodyやfoの誤検出とそうでないところとを判別しやすいからです。
以下の図の上段はDraw…,下段はSpeckle… で描いたfo曲線です。
TextGridと合わせた図を作ることもできます。Sound take1に対応するTextGridを作り、セグメンテーションしてt, a, k, eのラベルをつけたとします。オブジェクトウィンドウ上で、このTextGridとPitchを同時に選択してDrawすると、foとセグメント情報を組み合わせた図を作ることができます。以下の図は、このようにして作った図をPNGファイルとして保存したものです。
文献案内
(基本周波数の検出方法について理解するための文献)
Johnson, Keith (2012) Acoustic and auditory phonetics, third edition. Chichester: Wiley-Blackwell. [Amazonリンク]
[3.3.3 Auto-correlation pitch tracking]
参照文献
Beckman, M.E. (1986) Stress and non-stress accent. Dordrecht: Foris. [Amazonリンク]
Lehiste, I. (1970) Suprasegmentals. Cambridge, MA: MIT Press. [Amazonリンク]
榊原健一・竹本浩典・北村達也 (2017) 「Q&Aコーナー」『日本音響学会誌』73 (5), 301. [論文リンク]
Titze, I.R., et al. (2015). Toward a consensus on symbolic notation of harmonics, resonances, and formants in vocalization. Journal of the Acoustical Society of America 137, 3005-3007. [論文リンク]
Whalen, D.H. & A.G. Levitt (1995) The universality of intrinsic F0 of vowels. Journal of Phonetics 23, 349-366. [論文リンク]