auditok: tests/test_io.py annotate

annotate tests/test_io.py @ 316:b6c5125be036

Fix bugs in AudioEnergyValidator and signal_numpy and add tests

author	Amine Sehili <amine.sehili@gmail.com>
date	Thu, 17 Oct 2019 21:21:29 +0100
parents	10b725735637
children	903b5e1e8af9

rev	line source
amine@106	1 import os
amine@106	2 import sys
amine@106	3 import math
amine@107	4 from array import array
amine@133	5 from tempfile import NamedTemporaryFile, TemporaryDirectory
amine@110	6 import filecmp
amine@108	7 from unittest import TestCase
amine@313	8 from unittest.mock import patch, Mock
amine@108	9 from genty import genty, genty_dataset
amine@157	10 from test_util import _sample_generator, _generate_pure_tone, PURE_TONE_DICT
amine@110	11 from auditok.io import (
amine@126	12 DATA_FORMAT,
amine@121	13 AudioIOError,
amine@110	14 AudioParameterError,
amine@126	15 BufferAudioSource,
amine@162	16 RawAudioSource,
amine@162	17 WaveAudioSource,
amine@190	18 StdinAudioSource,
amine@110	19 check_audio_data,
amine@143	20 _guess_audio_format,
amine@128	21 _get_audio_parameters,
amine@126	22 _load_raw,
amine@129	23 _load_wave,
amine@131	24 _load_with_pydub,
amine@190	25 get_audio_source,
amine@120	26 from_file,
amine@111	27 _save_raw,
amine@110	28 _save_wave,
amine@141	29 _save_with_pydub,
amine@135	30 to_file,
amine@110	31 )
amine@106	32
amine@120	33 AUDIO_PARAMS_SHORT = {"sr": 16000, "sw": 2, "ch": 1}
amine@106	34
amine@106	35
amine@108	36 @genty
amine@108	37 class TestIO(TestCase):
amine@108	38 @genty_dataset(
amine@108	39 valid_mono=(b"\0" * 113, 1, 1),
amine@108	40 valid_stereo=(b"\0" * 160, 1, 2),
amine@108	41 invalid_mono_sw_2=(b"\0" * 113, 2, 1, False),
amine@108	42 invalid_stereo_sw_1=(b"\0" * 113, 1, 2, False),
amine@108	43 invalid_stereo_sw_2=(b"\0" * 158, 2, 2, False),
amine@108	44 )
amine@108	45 def test_check_audio_data(self, data, sample_width, channels, valid=True):
amine@108	46
amine@108	47 if not valid:
amine@108	48 with self.assertRaises(AudioParameterError):
amine@108	49 check_audio_data(data, sample_width, channels)
amine@108	50 else:
amine@108	51 self.assertIsNone(check_audio_data(data, sample_width, channels))
amine@110	52
amine@110	53 @genty_dataset(
amine@143	54 extention_and_format_same=("wav", "filename.wav", "wav"),
amine@143	55 extention_and_format_different=("wav", "filename.mp3", "wav"),
amine@143	56 extention_no_format=(None, "filename.wav", "wav"),
amine@143	57 format_no_extension=("wav", "filename", "wav"),
amine@143	58 no_format_no_extension=(None, "filename", None),
amine@289	59 wave_as_wav=("wave", "filename", "wav"),
amine@289	60 wave_as_wav_extension=(None, "filename.wave", "wav"),
amine@143	61 )
amine@143	62 def test_guess_audio_format(self, fmt, filename, expected):
amine@143	63 result = _guess_audio_format(fmt, filename)
amine@143	64 self.assertEqual(result, expected)
amine@143	65
amine@240	66 def test_get_audio_parameters_short_params(self):
amine@240	67 expected = (8000, 2, 1)
amine@240	68 params = dict(zip(("sr", "sw", "ch"), expected))
amine@145	69 result = _get_audio_parameters(params)
amine@145	70 self.assertEqual(result, expected)
amine@145	71
amine@240	72 def test_get_audio_parameters_long_params(self):
amine@240	73 expected = (8000, 2, 1)
amine@209	74 params = dict(
amine@209	75 zip(
amine@209	76 ("sampling_rate", "sample_width", "channels", "use_channel"),
amine@240	77 expected,
amine@209	78 )
amine@209	79 )
amine@145	80 result = _get_audio_parameters(params)
amine@145	81 self.assertEqual(result, expected)
amine@145	82
amine@240	83 def test_get_audio_parameters_long_params_shadow_short_ones(self):
amine@240	84 expected = (8000, 2, 1)
amine@209	85 params = dict(
amine@240	86 zip(("sampling_rate", "sample_width", "channels"), expected)
amine@209	87 )
amine@240	88 params.update(dict(zip(("sr", "sw", "ch"), "xxx")))
amine@145	89 result = _get_audio_parameters(params)
amine@145	90 self.assertEqual(result, expected)
amine@145	91
amine@145	92 @genty_dataset(
amine@240	93 str_sampling_rate=(("x", 2, 1),),
amine@240	94 negative_sampling_rate=((-8000, 2, 1),),
amine@240	95 str_sample_width=((8000, "x", 1),),
amine@240	96 negative_sample_width=((8000, -2, 1),),
amine@240	97 str_channels=((8000, 2, "x"),),
amine@240	98 negative_channels=((8000, 2, -1),),
amine@146	99 )
amine@146	100 def test_get_audio_parameters_invalid(self, values):
amine@209	101 params = dict(
amine@313	102 zip(("sampling_rate", "sample_width", "channels"), values)
amine@209	103 )
amine@146	104 with self.assertRaises(AudioParameterError):
amine@146	105 _get_audio_parameters(params)
amine@146	106
amine@146	107 @genty_dataset(
amine@120	108 raw_with_audio_format=(
amine@120	109 "audio",
amine@120	110 "raw",
amine@120	111 "_load_raw",
amine@120	112 AUDIO_PARAMS_SHORT,
amine@120	113 ),
amine@120	114 raw_with_extension=(
amine@120	115 "audio.raw",
amine@120	116 None,
amine@120	117 "_load_raw",
amine@120	118 AUDIO_PARAMS_SHORT,
amine@120	119 ),
amine@120	120 wave_with_audio_format=("audio", "wave", "_load_wave"),
amine@120	121 wav_with_audio_format=("audio", "wave", "_load_wave"),
amine@120	122 wav_with_extension=("audio.wav", None, "_load_wave"),
amine@120	123 format_and_extension_both_given=("audio.dat", "wav", "_load_wave"),
amine@120	124 format_and_extension_both_given_b=("audio.raw", "wave", "_load_wave"),
amine@120	125 no_format_nor_extension=("audio", None, "_load_with_pydub"),
amine@120	126 other_formats_ogg=("audio.ogg", None, "_load_with_pydub"),
amine@120	127 other_formats_webm=("audio", "webm", "_load_with_pydub"),
amine@120	128 )
amine@120	129 def test_from_file(
amine@120	130 self, filename, audio_format, funtion_name, kwargs=None
amine@120	131 ):
amine@120	132 funtion_name = "auditok.io." + funtion_name
amine@120	133 if kwargs is None:
amine@120	134 kwargs = {}
amine@120	135 with patch(funtion_name) as patch_function:
amine@120	136 from_file(filename, audio_format, **kwargs)
amine@120	137 self.assertTrue(patch_function.called)
amine@120	138
amine@190	139 def test_from_file_large_file_raw(self,):
amine@162	140 filename = "tests/data/test_16KHZ_mono_400Hz.raw"
amine@190	141 audio_source = from_file(
amine@190	142 filename,
amine@190	143 large_file=True,
amine@190	144 sampling_rate=16000,
amine@190	145 sample_width=2,
amine@190	146 channels=1,
amine@190	147 )
amine@162	148 self.assertIsInstance(audio_source, RawAudioSource)
amine@162	149
amine@190	150 def test_from_file_large_file_wave(self,):
amine@162	151 filename = "tests/data/test_16KHZ_mono_400Hz.wav"
amine@162	152 audio_source = from_file(filename, large_file=True)
amine@162	153 self.assertIsInstance(audio_source, WaveAudioSource)
amine@163	154
amine@190	155 def test_from_file_large_file_compressed(self,):
amine@163	156 filename = "tests/data/test_16KHZ_mono_400Hz.ogg"
amine@163	157 with self.assertRaises(AudioIOError):
amine@163	158 from_file(filename, large_file=True)
amine@162	159
amine@137	160 @genty_dataset(
amine@137	161 missing_sampling_rate=("sr",),
amine@137	162 missing_sample_width=("sw",),
amine@137	163 missing_channels=("ch",),
amine@137	164 )
amine@137	165 def test_from_file_missing_audio_param(self, missing_param):
amine@137	166 with self.assertRaises(AudioParameterError):
amine@137	167 params = AUDIO_PARAMS_SHORT.copy()
amine@137	168 del params[missing_param]
amine@137	169 from_file("audio", audio_format="raw", **params)
amine@137	170
amine@121	171 def test_from_file_no_pydub(self):
amine@121	172 with patch("auditok.io._WITH_PYDUB", False):
amine@121	173 with self.assertRaises(AudioIOError):
amine@121	174 from_file("audio", "mp3")
amine@121	175
amine@124	176 @patch("auditok.io._WITH_PYDUB", True)
amine@124	177 @patch("auditok.io.BufferAudioSource")
amine@124	178 @genty_dataset(
amine@240	179 ogg_first_channel=("ogg", "from_ogg"),
amine@240	180 ogg_second_channel=("ogg", "from_ogg"),
amine@240	181 ogg_mix=("ogg", "from_ogg"),
amine@240	182 ogg_default=("ogg", "from_ogg"),
amine@240	183 mp3_left_channel=("mp3", "from_mp3"),
amine@240	184 mp3_right_channel=("mp3", "from_mp3"),
amine@240	185 flac_first_channel=("flac", "from_file"),
amine@240	186 flac_second_channel=("flac", "from_file"),
amine@240	187 flv_left_channel=("flv", "from_flv"),
amine@240	188 webm_right_channel=("webm", "from_file"),
amine@124	189 )
amine@124	190 def test_from_file_multichannel_audio_compressed(
amine@125	191 self, audio_format, function, *mocks
amine@125	192 ):
amine@125	193 filename = "audio.{}".format(audio_format)
amine@125	194 segment_mock = Mock()
amine@125	195 segment_mock.sample_width = 2
amine@125	196 segment_mock.channels = 2
amine@125	197 segment_mock._data = b"abcd"
amine@313	198 with patch("auditok.io.AudioSegment.{}".format(function)) as open_func:
amine@240	199 open_func.return_value = segment_mock
amine@240	200 from_file(filename)
amine@240	201 self.assertTrue(open_func.called)
amine@240	202
amine@123	203 @genty_dataset(
amine@240	204 mono=("mono_400", (400,)),
amine@240	205 three_channel=("3channel_400-800-1600", (400, 800, 1600)),
amine@240	206 mono_large_file=("mono_400", (400,), True),
amine@313	207 three_channel_large_file=(
amine@313	208 "3channel_400-800-1600",
amine@313	209 (400, 800, 1600),
amine@313	210 True,
amine@313	211 ),
amine@126	212 )
amine@240	213 def test_load_raw(self, file_id, frequencies, large_file=False):
amine@240	214 filename = "tests/data/test_16KHZ_{}Hz.raw".format(file_id)
amine@313	215 audio_source = _load_raw(
amine@313	216 filename, 16000, 2, len(frequencies), large_file=large_file
amine@313	217 )
amine@240	218 audio_source.open()
amine@240	219 data = audio_source.read(-1)
amine@240	220 audio_source.close()
amine@240	221 expected_class = RawAudioSource if large_file else BufferAudioSource
amine@240	222 self.assertIsInstance(audio_source, expected_class)
amine@126	223 self.assertEqual(audio_source.sampling_rate, 16000)
amine@126	224 self.assertEqual(audio_source.sample_width, 2)
amine@240	225 self.assertEqual(audio_source.channels, len(frequencies))
amine@240	226 mono_channels = [PURE_TONE_DICT[freq] for freq in frequencies]
amine@240	227 fmt = DATA_FORMAT[audio_source.sample_width]
amine@313	228 expected = array(fmt, _sample_generator(*mono_channels)).tobytes()
amine@126	229 self.assertEqual(data, expected)
amine@126	230
amine@126	231 @genty_dataset(
amine@128	232 missing_sampling_rate=("sr",),
amine@128	233 missing_sample_width=("sw",),
amine@128	234 missing_channels=("ch",),
amine@128	235 )
amine@128	236 def test_load_raw_missing_audio_param(self, missing_param):
amine@128	237 with self.assertRaises(AudioParameterError):
amine@128	238 params = AUDIO_PARAMS_SHORT.copy()
amine@128	239 del params[missing_param]
amine@128	240 srate, swidth, channels, _ = _get_audio_parameters(params)
amine@128	241 _load_raw("audio", srate, swidth, channels)
amine@128	242
amine@128	243 @genty_dataset(
amine@240	244 mono=("mono_400", (400,)),
amine@240	245 three_channel=("3channel_400-800-1600", (400, 800, 1600)),
amine@240	246 mono_large_file=("mono_400", (400,), True),
amine@313	247 three_channel_large_file=(
amine@313	248 "3channel_400-800-1600",
amine@313	249 (400, 800, 1600),
amine@313	250 True,
amine@313	251 ),
amine@129	252 )
amine@240	253 def test_load_wave(self, file_id, frequencies, large_file=False):
amine@240	254 filename = "tests/data/test_16KHZ_{}Hz.wav".format(file_id)
amine@240	255 audio_source = _load_wave(filename, large_file=large_file)
amine@240	256 audio_source.open()
amine@240	257 data = audio_source.read(-1)
amine@240	258 audio_source.close()
amine@240	259 expected_class = WaveAudioSource if large_file else BufferAudioSource
amine@240	260 self.assertIsInstance(audio_source, expected_class)
amine@129	261 self.assertEqual(audio_source.sampling_rate, 16000)
amine@129	262 self.assertEqual(audio_source.sample_width, 2)
amine@240	263 self.assertEqual(audio_source.channels, len(frequencies))
amine@240	264 mono_channels = [PURE_TONE_DICT[freq] for freq in frequencies]
amine@240	265 fmt = DATA_FORMAT[audio_source.sample_width]
amine@313	266 expected = array(fmt, _sample_generator(*mono_channels)).tobytes()
amine@129	267 self.assertEqual(data, expected)
amine@129	268
amine@131	269 @patch("auditok.io._WITH_PYDUB", True)
amine@131	270 @patch("auditok.io.BufferAudioSource")
amine@131	271 @genty_dataset(
amine@240	272 ogg_default_first_channel=("ogg", 2, "from_ogg"),
amine@240	273 ogg_first_channel=("ogg", 1, "from_ogg"),
amine@240	274 ogg_second_channel=("ogg", 2, "from_ogg"),
amine@240	275 ogg_mix_channels=("ogg", 3, "from_ogg"),
amine@240	276 mp3_left_channel=("mp3", 1, "from_mp3"),
amine@240	277 mp3_right_channel=("mp3", 2, "from_mp3"),
amine@240	278 mp3_mix_channels=("mp3", 3, "from_mp3"),
amine@240	279 flac_first_channel=("flac", 2, "from_file"),
amine@240	280 flac_second_channel=("flac", 2, "from_file"),
amine@240	281 flv_left_channel=("flv", 1, "from_flv"),
amine@240	282 webm_right_channel=("webm", 2, "from_file"),
amine@240	283 webm_mix_channels=("webm", 4, "from_file"),
amine@131	284 )
amine@313	285 def test_load_with_pydub(self, audio_format, channels, function, *mocks):
amine@131	286 filename = "audio.{}".format(audio_format)
amine@131	287 segment_mock = Mock()
amine@131	288 segment_mock.sample_width = 2
amine@131	289 segment_mock.channels = channels
amine@131	290 segment_mock._data = b"abcdefgh"
amine@313	291 with patch("auditok.io.AudioSegment.{}".format(function)) as open_func:
amine@240	292 open_func.return_value = segment_mock
amine@240	293 _load_with_pydub(filename, audio_format)
amine@240	294 self.assertTrue(open_func.called)
amine@240	295
amine@130	296 @genty_dataset(
amine@132	297 mono=("mono_400Hz.raw", (400,)),
amine@132	298 three_channel=("3channel_400-800-1600Hz.raw", (400, 800, 1600)),
amine@132	299 )
amine@132	300 def test_save_raw(self, filename, frequencies):
amine@132	301 filename = "tests/data/test_16KHZ_{}".format(filename)
amine@132	302 sample_width = 2
amine@132	303 fmt = DATA_FORMAT[sample_width]
amine@132	304 mono_channels = [PURE_TONE_DICT[freq] for freq in frequencies]
amine@313	305 data = array(fmt, _sample_generator(*mono_channels)).tobytes()
amine@132	306 tmpfile = NamedTemporaryFile()
amine@136	307 _save_raw(data, tmpfile.name)
amine@132	308 self.assertTrue(filecmp.cmp(tmpfile.name, filename, shallow=False))
amine@132	309
amine@132	310 @genty_dataset(
amine@110	311 mono=("mono_400Hz.wav", (400,)),
amine@110	312 three_channel=("3channel_400-800-1600Hz.wav", (400, 800, 1600)),
amine@110	313 )
amine@110	314 def test_save_wave(self, filename, frequencies):
amine@110	315 filename = "tests/data/test_16KHZ_{}".format(filename)
amine@110	316 sampling_rate = 16000
amine@110	317 sample_width = 2
amine@110	318 channels = len(frequencies)
amine@110	319 fmt = DATA_FORMAT[sample_width]
amine@110	320 mono_channels = [PURE_TONE_DICT[freq] for freq in frequencies]
amine@313	321 data = array(fmt, _sample_generator(*mono_channels)).tobytes()
amine@110	322 tmpfile = NamedTemporaryFile()
amine@136	323 _save_wave(data, tmpfile.name, sampling_rate, sample_width, channels)
amine@110	324 self.assertTrue(filecmp.cmp(tmpfile.name, filename, shallow=False))
amine@132	325
amine@132	326 @genty_dataset(
amine@132	327 missing_sampling_rate=("sr",),
amine@132	328 missing_sample_width=("sw",),
amine@132	329 missing_channels=("ch",),
amine@132	330 )
amine@132	331 def test_save_wave_missing_audio_param(self, missing_param):
amine@132	332 with self.assertRaises(AudioParameterError):
amine@132	333 params = AUDIO_PARAMS_SHORT.copy()
amine@132	334 del params[missing_param]
amine@132	335 srate, swidth, channels, _ = _get_audio_parameters(params)
amine@136	336 _save_wave(b"\0\0", "audio", srate, swidth, channels)
amine@133	337
amine@141	338 def test_save_with_pydub(self):
amine@141	339 with patch("auditok.io.AudioSegment.export") as export:
amine@142	340 tmpdir = TemporaryDirectory()
amine@142	341 filename = os.path.join(tmpdir.name, "audio.ogg")
amine@142	342 _save_with_pydub(b"\0\0", filename, "ogg", 16000, 2, 1)
amine@141	343 self.assertTrue(export.called)
amine@142	344 tmpdir.cleanup()
amine@141	345
amine@133	346 @genty_dataset(
amine@133	347 raw_with_audio_format=("audio", "raw"),
amine@133	348 raw_with_extension=("audio.raw", None),
amine@133	349 raw_with_audio_format_and_extension=("audio.mp3", "raw"),
amine@133	350 raw_no_audio_format_nor_extension=("audio", None),
amine@133	351 )
amine@133	352 def test_to_file_raw(self, filename, audio_format):
amine@133	353 exp_filename = "tests/data/test_16KHZ_mono_400Hz.raw"
amine@133	354 tmpdir = TemporaryDirectory()
amine@133	355 filename = os.path.join(tmpdir.name, filename)
amine@313	356 data = PURE_TONE_DICT[400].tobytes()
amine@135	357 to_file(data, filename, audio_format=audio_format)
amine@133	358 self.assertTrue(filecmp.cmp(filename, exp_filename, shallow=False))
amine@133	359 tmpdir.cleanup()
amine@134	360
amine@134	361 @genty_dataset(
amine@134	362 wav_with_audio_format=("audio", "wav"),
amine@134	363 wav_with_extension=("audio.wav", None),
amine@134	364 wav_with_audio_format_and_extension=("audio.mp3", "wav"),
amine@134	365 wave_with_audio_format=("audio", "wave"),
amine@134	366 wave_with_extension=("audio.wave", None),
amine@134	367 wave_with_audio_format_and_extension=("audio.mp3", "wave"),
amine@134	368 )
amine@135	369 def test_to_file_wave(self, filename, audio_format):
amine@134	370 exp_filename = "tests/data/test_16KHZ_mono_400Hz.wav"
amine@134	371 tmpdir = TemporaryDirectory()
amine@134	372 filename = os.path.join(tmpdir.name, filename)
amine@313	373 data = PURE_TONE_DICT[400].tobytes()
amine@135	374 to_file(
amine@135	375 data,
amine@135	376 filename,
amine@135	377 audio_format=audio_format,
amine@135	378 sampling_rate=16000,
amine@135	379 sample_width=2,
amine@135	380 channels=1,
amine@134	381 )
amine@134	382 self.assertTrue(filecmp.cmp(filename, exp_filename, shallow=False))
amine@134	383 tmpdir.cleanup()
amine@138	384
amine@138	385 @genty_dataset(
amine@138	386 missing_sampling_rate=("sr",),
amine@138	387 missing_sample_width=("sw",),
amine@138	388 missing_channels=("ch",),
amine@138	389 )
amine@138	390 def test_to_file_missing_audio_param(self, missing_param):
amine@138	391 params = AUDIO_PARAMS_SHORT.copy()
amine@138	392 del params[missing_param]
amine@138	393 with self.assertRaises(AudioParameterError):
amine@138	394 to_file(b"\0\0", "audio", audio_format="wav", **params)
amine@138	395 with self.assertRaises(AudioParameterError):
amine@138	396 to_file(b"\0\0", "audio", audio_format="mp3", **params)
amine@139	397
amine@139	398 def test_to_file_no_pydub(self):
amine@139	399 with patch("auditok.io._WITH_PYDUB", False):
amine@139	400 with self.assertRaises(AudioIOError):
amine@139	401 to_file("audio", b"", "mp3")
amine@140	402
amine@140	403 @patch("auditok.io._WITH_PYDUB", True)
amine@140	404 @genty_dataset(
amine@140	405 ogg_with_extension=("audio.ogg", None),
amine@140	406 ogg_with_audio_format=("audio", "ogg"),
amine@140	407 ogg_format_with_wrong_extension=("audio.wav", "ogg"),
amine@140	408 )
amine@140	409 def test_to_file_compressed(self, filename, audio_format, *mocks):
amine@140	410 with patch("auditok.io.AudioSegment.export") as export:
amine@142	411 tmpdir = TemporaryDirectory()
amine@142	412 filename = os.path.join(tmpdir.name, filename)
amine@140	413 to_file(b"\0\0", filename, audio_format, **AUDIO_PARAMS_SHORT)
amine@140	414 self.assertTrue(export.called)
amine@142	415 tmpdir.cleanup()
amine@190	416
amine@190	417 @genty_dataset(
amine@190	418 string_wave=(
amine@190	419 "tests/data/test_16KHZ_mono_400Hz.wav",
amine@190	420 BufferAudioSource,
amine@190	421 ),
amine@190	422 string_wave_large_file=(
amine@190	423 "tests/data/test_16KHZ_mono_400Hz.wav",
amine@190	424 WaveAudioSource,
amine@190	425 {"large_file": True},
amine@190	426 ),
amine@190	427 stdin=("-", StdinAudioSource),
amine@190	428 string_raw=("tests/data/test_16KHZ_mono_400Hz.raw", BufferAudioSource),
amine@190	429 string_raw_large_file=(
amine@190	430 "tests/data/test_16KHZ_mono_400Hz.raw",
amine@190	431 RawAudioSource,
amine@190	432 {"large_file": True},
amine@190	433 ),
amine@190	434 bytes_=(b"0" * 8000, BufferAudioSource),
amine@190	435 )
amine@190	436 def test_get_audio_source(self, input, expected_type, extra_args=None):
amine@190	437 kwargs = {"sampling_rate": 16000, "sample_width": 2, "channels": 1}
amine@190	438 if extra_args is not None:
amine@190	439 kwargs.update(extra_args)
amine@190	440 audio_source = get_audio_source(input, **kwargs)
amine@313	441 self.assertIsInstance(audio_source, expected_type)

Mercurial > hg > auditok

annotate tests/test_io.py @ 316:b6c5125be036