Praatが音声の音響分析の代名詞になるまで:一音声学者からみた音響音声学の30年

この記事にはGoogle Adsenseによる広告が含まれています。

4年前のちょうどこの時期,「IPAへの複雑な想い」という記事を書いた。まだコロナ禍の真っ只中だった頃,松浦年男さんの「言語学な人々 Advent Calendar 2021」という企画に応じて書いたものだった。(なお,当時はnoteに書いたが,最近加筆修正してこちらのサイトに移動させた。)IPA(国際音声記号)には思い出がたくさんあるのだけど,人工的な記号体系であることの限界がもどかしくてならないという話だった。今回のこのエッセイは,いわばその続編にあたる。そして今回もまた,「言語学な人々 Advent Calendar」の企画に寄せたものである。

  言語学な人々 Advent Calendar 2025

実のところ,今回の記事はあまり「言語学な人々」っぽくないかもしれない。ただ,音響工学・音声工学の話ではなく,あくまでも「言語学的音声学」の分析にかかわる話なので,最後まで付き合っていただきたい。

はじめに:二種類の有声閉鎖音

音声学には,「無声」「有声」という用語がある。例えば,「タ」の子音は声帯振動を伴わないが,「ダ」の子音は声帯振動を伴う。前者は無声音,後者は有声音と呼ばれる。音声学の教科書に必ず書かれている基礎知識だ。

一方で,日本語の有声閉鎖音(例えば「ダ」や「ベ」の子音)に二つのパターンがあることは,専門家以外にはあまり知られていないかもしれない。一つは声帯振動が破裂に先立つもので,もう一つは破裂の直後に声帯振動が始まる(ということは,有声閉鎖音と呼んでよいか微妙になる)ものである。興味深いことに,後者のパターンはもともと東北地方を中心に観察されたものだったが,いま日本全国に広がっている(高田, 2011)。

二つのパターンは,音響分析で破裂と声帯振動開始のタイミングに注目すると,明確に区別できる。(なお,破裂から声帯振動開始までの時間をVOT(Voice Onset Time)という。声帯振動が破裂に先立つときは,VOTはマイナスの値になる。)

声帯振動が破裂に先立つ(-VOTの)パターン(Utsugi et al., 2013のデータより。茨城方言話者の「ベロ」の語頭子音)
破裂の直後に声帯振動が始まる(+VOTの)パターン(Utsugi et al., 2013のデータより。茨城方言話者の「ベロ」の語頭子音)

ちなみに,上に述べた日本語の有声閉鎖音の地域差と世代差の傾向は,『日本語の語頭閉鎖音の研究――VOTの共時的分布と通時的変化――』(高田, 2011)にまとめられており,著者の高田三枝子氏は2012年に第40回金田一京助博士記念賞を受賞した。

その受賞コメントの中で,高田氏はこう言っている。

VOTというパラメータは,実は非常に単純な,わかりやすい手法で観察できるパラメータで,それこそパソコンを操作できる人ならだれでも,現代では小学生でさえ観察できるような事象です。ソフトもフリーで手に入ります。

第40回金田一京助博士記念賞 受賞の言葉(高田三枝子氏) https://dictionary.sanseido-publ.co.jp/affil/kkprize/40.html

「パソコンを操作できる人ならだれでも」というのは実際にその通りで,今これを読んだ方が自分の「ダ」の発音がどうなっているかが気になったなら,すぐに調べることができる。

そしてこの,「だれでも」「フリーで」というのが,音声学の研究者の業界の中でここ30年の間に起きた大きな変化だ。私や,私と同世代の高田氏や,同じく同世代の「言語学な人々」企画者の松浦氏が大学院生だった頃に起き始めた変化であり,研究の風景の変化と自分の研究キャリアがオーバーラップする。それが,ここから書く話の主題だ。

約30年前の音声実験室

大学一年生のときに音声学概論の授業で調音音声学とIPAを学んだ私は,大学二年生で音響音声学の授業を受講した。1996年なので,今から30年弱さかのぼることになる。

授業は音声実験室で行われた。当時,実験室には様々な機材が並んでいた。コンピュータのほかに,よくわからない謎の重量感のある機材が並んでいて,その人文系の研究室らしからぬ雰囲気にまず圧倒された。(別の大学だが,上智大音声学研究室のサイトで機材のギャラリーを見ることができる。まさにこういう機材だった。)

様々な機材の中でも特に存在感を放っていたのが,ドラムのついた装置だった。リオン社製のSG-07。YouTube上で動画(上智大の荒井先生が登場する)を見つけたが,まさにこれと同じ機材だ。ドラムに特殊な紙を巻き付けてスイッチを入れると,ドラムが回転し,サウンドスペクトログラムが描かれる。

90年代後半のこの時代に,こんなアナログな機材はもう骨董品の部類に入るものではあったけれど,それでもまだ稼働はしたし,実際に授業で使うこともあった。

Sound Spectrograph (Acoustic-Phonetics Demonstrations, 上智大学音声学研究室)

ここで音声の音響分析の機材の歴史をかいつまんで説明しておくと,サウンド・スペクトログラ(サウンド・スペクトログラを描くための装置)は,戦前にアメリカのベル研究所で開発が始まり,1950年代にKay社によりSona-Graphという商標で商用化された(荒井, 2016)。国産としてはリオン社のものがあり,上で紹介したSG-07は1970年に発売されている(リオン社 ShakeHands, Vol. 6, p.8)。その後,機材はデジタル化が進み,Kay社では1987年にDSP Sona-Graph 5500という音響分析の専用機が開発され(Pavan et al., 2022),その後,市販のコンピュータとあわせて用いるCSLが販売されている。DSP Sona-GraphもCSLも音声実験室にあり,私も授業で触ったことがある。

ソフトウェアの時代へ

上で最後に挙げたCSLはハードウェアとソフトウェアのパッケージだったが,ソフトウェア単体で動かせるものとしては,同じKay社からMulti-Speechが販売された。私が1998年度の秋から冬,卒業論文のための分析に取り組んでいたとき,お世話になったのはMulti-Speechだった。その2年後,修士論文の分析で使ったのもMulti-Speechだった。

ただ,ソフトウェアといっても,大学院生が個人で購入するには高価だった。確か当時,20万円ぐらいしたと思う。卒業論文のとき私は,このソフトウェアがインストールされているパソコンの置かれた研究室に入り浸っていた。

Multi-Speechで便利だと思ったのが,マクロ機能だった。最初の頃は,音声ファイルを読み込んだあと,スペクトログラム,基本周波数(f0),インテンシティの表示という三つの手順を手作業でやっていた。しかし,これら三つのコマンドをマクロとして保存しておけば,ボタン一つで行えることがわかったのだ。なんと便利なのだろうと,当時は思った。同時に,マクロに条件分岐を入れられたらもっと便利だろうにとも思った。例えば,男性と女性の音声について,それぞれファイル名をMで始まるもの,Fで始まるものと分けておくとする。これらのファイルを読み込んだあと,MかFかに応じてスペクトログラムの設定を変えられたら便利だろう。でも,そこまで凝ったマクロは作れないようだった。

さて,私の個人的は話はさておき,当時音声の音響分析にはどのようなツールが使われていたのだろうか。

次の表は,日本音声学会の学会誌『音声研究』の1999年~2001年の号に掲載された論文のうち,音響分析が行われている論文について,そこで用いられた(と言及のある)ツールを集計したものである。

『音声研究』(日本音声学会)の1999年~2001年の号に掲載された論文で用いられている音響分析ツール

最も多い「音声録聞見」(おんせいろくぶんけん)は1990年代に東大の音声言語医研で開発されたものである。私は触ったことがないのだが,学生時代に確かによく耳にした。SUGI SpeechAnalyzerは,日本を代表する音声学者・杉藤美代子氏が監修したソフトウェアである。音声録聞見より時代的には後のもので,私も大学院生時代の一時期使っていた。

一方,その当時海外ではどうだったのだろうか。次の表は,Journal of Phonetics (JPhon) 掲載論文(1999年~2001年)で用いられている音響分析ツールをまとめたものである。

Journal of Phoneticsの1999年~2001年の号に掲載された論文で用いられている音響分析ツール

ここで目をひくのはESPSだ。これはEntropic社による音響分析のツール群である。視覚化プログラムとしてはWaves, Waves+, xwavesといったものが用意されており,ここではこれらを全てまとめてカウントした。

2番目に多いCSLは,上でも述べた音響分析の老舗Kay社の製品である。

Praatとの出会い

修士論文を書き終えた私は,2001年に博士課程へと進んだ。その頃,国際誌の論文の中で見慣れない音響分析ソフトウェアの名前を目にした。Praatである。上の表には現れていないので,Journal of Phonetics ではなく,別のジャーナルだったかもしれない。Praatって何だろう・・・と思って調べてみたら,フリーソフトのようだった。「フリーソフトで音響分析ができる!」これは当時の私にとって衝撃だった。早速ダウンロードしてみた。ただ一つ,Praat.exe というファイルがダウンロードされただけだった。それをダブルクリックすると,2個のウィンドウが立ち上がった。それまで使っていたMulti-Speechとは全く違っていて,ここから先何をすればよいのかよくわからなかった。そっとウィンドウを閉じた。

Praatを立ち上げたところ(画像は現在のバージョンのPraatだが,私が初めてPraatに接した2001年とほとんど変わっていない)

正確にいつだったかは覚えていないが,同じころに別のフリーソフトも耳にした。スウェーデン王立工科大学(KTH)で作られたWaveSurferと,SILで作られたSpeech Analyzerである。これらは操作方法が直観的によくわかった。

さて,2003年,私はPraatに再び接する機会があった。韓国・全羅北道・益山市の圓光大學校に設置されていた研究所で音声の様々な分析に関する講習会が開かれ,それに参加したときだ。私がこの数日間の講習会に参加した主な目的は,K-ToBIという韓国語のプロソディーのラベリング手法を習うためだった。ただ,講習会のプログラムには,K-ToBIだけでなく,音響分析の基礎やWaveSurferとPraatの操作方法が含まれていた。韓国の国内の講習会だったので,講義は全て韓国語であり,韓国人以外の受講生は私だけだった。

このときのPraatに関するセッションは,Praatの基本操作から始まった。数年前に自分でやろうとしたときは何から手をつけてよいか分からなかったのだが,習ってみたら簡単だった。Readで音声ファイルを読み込んだあと,Editというボタンを押せば,ウィンドウが立ち上がる。そのウィンドウ上で,スペクトログラムもf0もインテンシティも分析できるのだ。

このセッションでは,ピクチャーウィドウの使い方やTextGridやスクリプトも習った。TextGrid上でラベリングする(例えば,時間軸上でのどこがどの音か記録したり,メモをつけたりする)といったことは,今でこそ音響分析の作業上の一手順として当たり前になっているが,当時は新鮮だった(もっともこれは,当時Praatだけが備えていた機能ではない)。そして最も感激したのが,スクリプト機能だった。かつてMulti-Speechのマクロ機能を使ったときに思った「条件分岐とかできたらいいのに」という希望は,Praatではスクリプトというかたちでしっかりと実装されていたのだ。

PraatのTextGridによるラベリング。ここでは一層目で発話IDを,2層目で音響的特徴(b: 破裂,v:声帯振動開始)をマークしている。

Praatの有用さを実感した数日間だった。特に,スクリプト機能はきちんと身につけなければならないと思った。当時の私は,早く博士論文を仕上げたいという焦燥感に駆られていたのだが,博士論文のための研究をいったん脇においてでもPraatスクリプトを身につけることが,長期的にみて意味があるだろうと思った。ウェブ上のPraatスクリプトの解説ページを印刷し,それを最初から読み始めた。今振り返っても,このときの私の選択は正しかったと思う。Praatスクリプトができるようになったことで,分析の作業効率が大幅に高まったのだ。

Praatとは何か,そしてその後

Praatはオランダ・アムステルダム大学のPaul Boersma氏とDavid Weenink氏が開発したフリーソフトウェアである。BoersmaのウェブページBoersma & van Heuven (2001) に対する編者の序文(Rob Goedemans)によれば,1992年から開発されている。Praatウェブサイト内の更新履歴は,1995年のVersion 3.1までさかのぼることができる。私が日本で音声実験室の機材に圧倒されていた頃,オランダにはすでにPraatが存在していたわけだ。

日本でも,私よりも前からPraatを使っていた研究者はいただろう。そして2000年代後半に,静かに広まり出したのではないかと思う。2005年に私が博士論文の口述試験を終え,理研で音声コーパスのラベリングのアルバイトを始めたとき,そこで作業用のツールとして採用されていたのもPraatだった。2007年に海外学振でイギリス・エディンバラ大に行ったら,そこではPraatが当たり前のように使われていた。

私は2009年にイギリスから帰国し,2010年には母校で非常勤講師として音響音声学の授業を担当することになった。私が大学二年生のときに受講したのと同じ授業だ。ただ,授業の形態は大きく変えることにした。音声実験室で機材を共同で扱うのではなく,コンピュータ室で各自がソフトウェアを使うようにしたのだ。採用したソフトウェアはもちろんPraatだった。ただ,困ったことに,授業用に割り当てられたコンピュータ室には,プロジェクタが設置されていなかった。そこで,Praatに関するウェブサイトを作り,操作方法の解説をスクリーンショット付きで載せた。

このとき作ったウェブサイト,「Praat入門」は,自分の授業用という当初の目的を超えて,多くの人の目に触れることになったようだ。学会で出会った人からこのウェブサイトの話題が出ることはよくあったし,ウェブサイトを見たのがきっかけで私の大学院を志望した人も少なくない。

さて,私が自分の授業で初めてPraatを教えるようになったときから15年が経った。最近は音声学の研究者の間で,音響分析のツールとして何が使われているのだろうか。

『音声研究』(日本音声学会)の直近3年間の掲載論文について調べてみたのが,次の表である。

『音声研究』(日本音声学会)の26巻3号(2022年12月)~29巻2号(2025年8月)に掲載された論文で用いられている音響分析ツール

表にするまでもない。100%Praatだ。言語学畑・言語教育畑の音声研究者の世界で,Praatはスタンダードになった。

一方で,かつてよく用いられていたツールはどうなったのだろうか。老舗のKay社はPENTAX Medical社に買収された(記事)。ESPSを開発していたEntropic社はMicrosoft社に買収された(記事)。国産のSUGI Speech Analyzerは今でも売られているらしいが,使われているという話は最近聞かない。ひところよく耳にしたフリーソフトのWaveSurferやSpeech Analyzerも,すっかり影をひそめてしまった。

Praatの普及は音声研究者にとどまらない。最近ではいろいろな人から,「Praatを習いたいです」と言われることがある。その意味するところは,音響分析+そのツールとしてのPraatの操作方法を習いたいということなのだと思うが,専門家以外の人にとってはPraatはほとんど音声の音響分析の代名詞になってしまったようだ。

最近の国際誌の状況

一方で海外ではどうなのだろうか。Journal of Phonetics(JPhon)の最近3年間の掲載論文で用いられている音響分析ツールを集計したのが次の表である。

Journal of Phoneticsの95巻(2022年11月)~112巻(2025年9月)に掲載された論文で用いられている音響分析ツール(SPTはSignal Processing Toolboxの略)

こちらは調べてみて意外だったが,Praat一辺倒というわけではなかった。Praatを使いつつ,Praatではやりにくい分析について他のツールを使うというパターンが,わりとみられた。特に目につくのはVoiceSauceだが,これは声質を分析するためのツールだ(Shue et al., 2011)。最近の動向は専門家として気になるのだが(今回集計してみて気づくことが多かった),やや専門的な話になるので,最後に補足で述べることにする。なお,補足にも述べるとおり,この集計自体厳密なものとは言えないので,注意していただきたい。

なお,音響分析ツールが用いられているのは,音声学のジャーナルに掲載された論文だけではない。音声学者はマニアックな,いや,高度な分析をしようとするのでPraatに飽き足らず他のツールも用いることがあるが(そして,ここまで触れなかったが,工学系・情報系の音声研究者に至っては,そもそもPraatをあまり使わないだろうと思う),その一方で音声学以外の言語系のジャーナルの論文で音響分析が行われる場合は,Praatの比率がもっと高くなるのではないかと思う。

おわりに

この記事では,音響音声学のツールのことだけを書いてきた。ただ,ツールはあくまでもツールに過ぎないのであって,本当に大切なことは,どのような課題設定のもとで分析するかだとも思う。音声学者の研究はしばしば,分析方法にこだわるものの,発見は小さいものになりがちだ(これは自分自身への反省である)。言語学的に興味深い発見をしていくためには,言語や言語学に関心を持つ多くの人々が,その関心の延長線上で分析のツールを手にするということが,もっとあっていいと思う。

私がもともと授業用に作ったウェブサイト「Praat入門」は,そのように多くの人に音声の音響分析に触れてもらいたいという気持ちをもって,拡張をしてきた。最近「Praatで音声学」と名前を変え,中身も大幅にアップデートし,こちらのサイトに移転した。(ここで告白すると,このAdvent Calendarの記事は実のところ,自分の新サイトの宣伝のために書いている。)

ウェブサイト「Praatで音声学

音声の音響分析の全てが簡単だとは言わないが,いくつかの音響的特徴は,調音上の特徴との対応がつけやすいため,初心者でも比較的簡単に分析することができるし,結果の解釈がしやすい。例えば,閉鎖音の有声・無声,有気・無気に関する特徴(VOT)摩擦音と破擦音の違いがこれにあたると思う。また,音響分析ではないが,Praat上ではf0の操作をする(つまり,人工的にピッチを高くしたり低くしたり,上昇調にしたり下降調にしたりする)ことができるので,f0とアクセント,声調,イントネーションの関係が直観的に理解しやすくなる。

もちろん,Praatはあくまでも音響分析のためのツールであって,Praat以外の選択肢もある。例えば,松浦年男さんは,授業で初心者に使わせる音響分析のツールとして,WASPというウェブアプリを紹介している(WASP2ウェブサイト,「授業で音声分析させるならPraatよりWASPをオススメします」(松浦年男氏))。

ツールは何であれ,私としては,言語に関心を持つ多くの人に音響分析ツールに触れてほしいと思っている。それによって,多くの人に,記号を超えた音声の世界に触れてほしいと思っている。

補足:最近の動向について,もう少し専門的に

Journal of Phonetics掲載の最近の論文の集計の表について,専門的な観点からもう少し補足的に述べておく。

Praatの次によく用いられていたVoiceSauceは,UCLAの音声学研究室の研究者グループが開発したもので,H1-H2やHNRなど,声質(voice quality)に関する分析を行うことができる。

表中にはPython,R,MATLABも出てくるが,これらはもちろん音声に特化したツールではない。ただ,その中で音声の分析のために開発された特定のライブラリ・パッケージが使われていることもある。Signal Processing Toolbox(表中ではSPT)はMATLABでおなじみのMathWorks社のツールボックスで,MATLABとともに用いる。上に挙げたVoiceSauceも実は,MATLAB上で動作する。ついでにいうと,VoiceSauceは,f0計測に関してデフォルトではSTRAIGHT(和歌山大名誉教授の河原英紀先生らによる; Kawahara et al., 1999; Kawahara, 2006)のアルゴリズムを用いているし,これをPraatのf0計測アルゴリズムに変えることもできるようになっている。

一方で,Praatを用いる場合でも,特定の作りこまれたスクリプト(例えば)が使われることもある。例えば,プロソディーを分析するためのProsodyPro(Xu, 2013)が有名だが,声質を分析するためのPraatSauceというスクリプト(Kirby & Puggaard-Rode, 2025;上のVoiceSauceにインスパイアされたという)も最近登場した。

そういう意味で,何をもって独立したツールとみなすべきか,私は今回集計しながらよくわからなくなってきた。

もう一つよくわからなくなってきたのが,そもそも音響分析とは何かだ。分析は複数のプロセスに分けることができる。例えば,アノテーション・セグメンテーション(このプロセスがさらに,自動セグメンテーションと手動の修正に分けられることがある),特徴量(f0など)の抽出,特徴量に関するより凝った分析に分けられる。そして,プロセスごとに用いるツールが異なることもある。自動セグメンテーションはかなり普及しており,様々なツールが使われているが,今回の集計では取り上げていない。自動セグメンテーションにかけたものを手動で修正するプロセスに関しては,Praatを使うケースが圧倒的に多かった。

今回の集計は「音響分析ツール」を厳密に定義しないまま進めてしまったし,各論文を細かく読み込んだわけでもない。そういう意味で,集計結果が厳密ではないことに注意されたい。最初は気軽な気持ちで集計を始めたものの,最近のJournal of Phoneticsは昔よりも掲載論文の数が多く,集計が大変だった。ただ,集計をしてみて気づくことがとても多かった。

参照文献

荒井隆行 (2016). 「サウンドスペクトログラフ」『日本音響学会誌』72 (9), 570-571. [PDFへのリンク]

Boersma, P. & van Heuven, V. (2001). Speak and unSpeak with PRAAT. Glot International5(9/10), 341-347. [PDFへのリンク]

Kawahara, H. (2006). STRAIGHT, Exploration of the other aspect of VOCODER: Perceptually isomorphic decomposition of speech sounds. Acoustic Science and Technology, 27 (6), 349-353. [論文リンク]

Kawahara, H., Masuda-Katsuse, I., & de Cheveigné, A. (1999). Restructuring speech representations using a pitch-adaptive time–frequency smoothing and an instantaneous-frequency-based F0 extraction: Possible role of a repetitive structure in sounds. Speech Communication, 27(3–4), 187–207. [論文リンク]

Kirby, J. & Puggaard-Rode, R. (2025) PraatSauce. Praat-based tools for spectral processing. Version 1.0.4. GitHub: kirbyj/praatsauce.

Pavan, G., Budney, G., Klinck, H., Glotin, H., Clink, D.J., & Thomas, J.A. (2022). History of Sound Recording and Analysis Equipment. In: Erbe, C. & Thomas, J.A. (eds) Exploring Animal Behavior Through Sound: Volume 1. New York: Springer. [論文リンク]

Shue, Y.-L., Keating, K., Vicenik, C., & Yu, K. (2011). VoiceSauce: A program for voice analysis. Proceedings of the ICPhS XVII, 1846-1849. [論文リンク] [VoiceSauceのウェブサイト]

高田三枝子 (2011). 『日本語の語頭閉鎖音の研究――VOTの共時的分布と通時的変化――』くろしお出版. [Amazonリンク]

Utsugi, A., Sasaki, K., & Igarashi, Y. (2013). Regional variation of VOT in Ibaraki Japanese. 『第27回日本音声学会全国大会予稿集』119-124. [論文リンク]

Xu, Y. (2013). ProsodyPro — A Tool for Large-scale Systematic Prosody Analysis. In Proceedings of Tools and Resources for the Analysis of Speech Prosody. TRASP 2013, 7-10. [PDFリンク] [ProsodyProのウェブサイト]

-----

執筆者プロフィール

Nagoya University | 個人ウェブサイト |  + posts

宇都木昭 名古屋大学人文学研究科教授
専門は音声学・言語学・韓国語教育