Introduction

仕事の絡みで音響認識をすることになったのですが、画像処理なら OpenCV 使うなりして、それなりに対応できますが、音声となるとまったく…です。
それで、自分の引き出しを増やすために、音声処理系のライブラリを試してみました。
今回は Microsoft Public License で開発が進められている NAudio を試しました。

NAudioはマイクからの入力やスピーカーへの出力をキャプチャしてファイルに出力したりできます。
そうです。録音ソフトを作成できます。
今回は、ヘッドフォンやスピーカーへの出力をファイルに書き出すサンプルを作りました。

ソースは下記になります

Explanation

いつも通り、MVVMを利用します。
MainWindow に対応する MainViewModel、音声の出力デバイスを取得する AudioService、デバイスからの音声データをファイルに書き込む AudioOutputWriter から成り立ちます。

AudioService

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using System.Threading.Tasks;
using NAudio.CoreAudioApi;
using NAudioDemo.Services.Interfaces;

namespace NAudioDemo.Services
{

public sealed class AudioService : IAudioService
{

public MMDeviceCollection GetActiveRender()
{
var collection = new MMDeviceEnumerator().EnumerateAudioEndPoints(DataFlow.Render, DeviceState.Active);
return collection;
}

}

}

GetActiveRender は、PCに接続されているアクティブな出力デバイス一覧を取得します。
NAudioの用語で、Render は出力、Capture は入力を表します。
MMDeviceEnumerator は、Multimedia Device であり、IMMDeviceEnumerator のラッパーでしょう。

AudioOutputWriter

今回の肝です。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
using System;
using System.Collections.Generic;
using System.IO;
using System.Linq;
using System.Text;
using System.Threading.Tasks;
using NAudio.CoreAudioApi;
using NAudio.Wave;

namespace NAudioDemo.Models
{

public sealed class AudioOutputWriter : IDisposable
{

#region イベント

public event EventHandler<WaveInEventArgs> DataAvailable;

#endregion

#region フィールド

private readonly string _FileName;

private WasapiLoopbackCapture _WaveIn;

private Stream _Stream;

private WaveFileWriter _WaveFileWriter;

#endregion

#region コンストラクタ

public AudioOutputWriter(string fileName, MMDevice device)
{
if (device == null)
throw new ArgumentNullException(nameof(device));

this._FileName = fileName;
this._WaveIn = new WasapiLoopbackCapture(device);
this._WaveIn.DataAvailable += this.WaveInOnDataAvailable;
this._WaveIn.RecordingStopped += this.WaveInOnRecordingStopped;

this._Stream = new FileStream(fileName, FileMode.Create, FileAccess.Write, FileShare.Write);
this._WaveFileWriter = new WaveFileWriter(this._Stream, this._WaveIn.WaveFormat);
}

#endregion

#region プロパティ

public bool IsRecording
{
get;
private set;
}

#endregion

#region メソッド

public void Start()
{
this.IsRecording = true;
this._WaveIn.StartRecording();
}

public void Stop()
{
this.IsRecording = false;
this._WaveIn.StopRecording();
}

#region オーバーライド
#endregion

#region イベントハンドラ

private void WaveInOnRecordingStopped(object sender, StoppedEventArgs e)
{
if (this._WaveFileWriter != null)
{
this._WaveFileWriter.Close();
this._WaveFileWriter = null;
}

if (this._Stream != null)
{
this._Stream.Close();
this._Stream = null;
}

this.Dispose();
}

private void WaveInOnDataAvailable(object sender, WaveInEventArgs e)
{
this._WaveFileWriter.Write(e.Buffer, 0, e.BytesRecorded);
this.DataAvailable?.Invoke(this, e);
}

#endregion

#region ヘルパーメソッド
#endregion

#endregion

#region IDisposable メンバー

public void Dispose()
{
this._WaveIn.DataAvailable -= this.WaveInOnDataAvailable;
this._WaveIn.RecordingStopped -= this.WaveInOnRecordingStopped;

this._WaveIn?.Dispose();
this._WaveFileWriter?.Dispose();
this._Stream?.Dispose();
}

#endregion

}

}

コンストラクタが全ての重要なことを行っています。
WasapiLoopbackCapture は、WASAPI、つまり Windows Audio Session API のオーディオ処理をループバックさせキャプチャするためのクラスです。つまり、MMDeviceで指定したデバイスをキャプチャします。
WASAPI については、Wikipediaを見てください。といっても、日本語の記事は情報がないですが。

次は、DataAvailable イベントをサブスクライブします。
これは、キャプチャした生のバイトデータを処理できます。
このイベントでファイルへの出力を実行しています。

このファイルへの出力は、WaveFileWriter クラスが担っています。
今回は、同一ファイルが存在したら上書きする形でストリームを生成し、第一引数に渡しています。
第二引数は、出力する WAVE ファイルのフォーマットを指定します。
これは、ループバックからキャプチャされる形式と同一にしています。

あとは、任意のタイミングで、WasapiLoopbackCapture.StartRecording メソッドで録音を開始し、WasapiLoopbackCapture.StopRecording メソッドで録音を停止するだけです。

テスト

実行するアプリは、左側に出力デバイス一覧、右側には出力先ファイルを指定するテキストボックス、録音の開始ボタン、録音の停止ボタン、キャプチャデータのキャプチャタイミングのログを表示するリストから成り立っています。

ファイルを指定して、Startボタンを押下するとPCで再生される音声をファイルに書き出し始めます。
Stopを押下して録音を停止し、出力されたファイルをメディアプレイヤーで再生すると、録音された音声が再生されるのがわかるはずです。
また、録音中、音声データが細切れになってファイルに書き込まれていくことがログからわかります。

Conclusion

長くなりましたが、それなりに簡単にできました。
NAudio の音声処理の向き等、理解することは多いですが、基本さえつかめれば、入力データの加工等もできるのでしょう。

Source Code

https://github.com/takuya-takeuchi/Demo/tree/master/AudioSignalProcessing/NAudio/NAudio1