vamp-libxtract-plugins: plugins/XTractPlugin.cpp annotate

annotate plugins/XTractPlugin.cpp @ 23:06f5888f0897

Remove scrap file

author	Chris Cannam
date	Tue, 04 Dec 2012 15:56:48 +0000
parents	0dd75140d034
children	64b85e38dd52 0d26e1096bac

rev	line source
cannam@0	1 /* -- c-basic-offset: 4 indent-tabs-mode: nil -- vi:set ts=8 sts=4 sw=4: */
cannam@0	2
cannam@0	3 /*
cannam@0	4 Vamp feature extraction plugins using Jamie Bullock's
cannam@0	5 libxtract audio feature extraction library.
cannam@0	6
cannam@0	7 Centre for Digital Music, Queen Mary, University of London.
cannam@14	8 This file copyright 2006-2008 Queen Mary, University of London.
cannam@0	9
cannam@0	10 This program is free software; you can redistribute it and/or
cannam@0	11 modify it under the terms of the GNU General Public License as
cannam@0	12 published by the Free Software Foundation; either version 2 of the
cannam@0	13 License, or (at your option) any later version. See the file
cannam@0	14 COPYING included with this distribution for more information.
cannam@0	15 */
cannam@0	16
cannam@0	17 #include "XTractPlugin.h"
cannam@0	18
cannam@0	19 #include <cassert>
cannam@1	20 #include <math.h>
cannam@0	21
cannam@0	22
cannam@0	23 using std::cerr;
cannam@0	24 using std::endl;
cannam@0	25 using std::string;
cannam@0	26
cannam@1	27 xtract_function_descriptor_t *
cannam@1	28 XTractPlugin::m_xtDescriptors = 0;
cannam@1	29
cannam@1	30 int
cannam@1	31 XTractPlugin::m_xtDescRefCount = 0;
cannam@1	32
cannam@0	33 XTractPlugin::XTractPlugin(unsigned int xtFeature, float inputSampleRate) :
cannam@0	34 Plugin(inputSampleRate),
cannam@0	35 m_xtFeature(xtFeature),
cannam@0	36 m_channels(0),
cannam@0	37 m_stepSize(0),
cannam@0	38 m_blockSize(0),
cannam@0	39 m_resultBuffer(0),
cannam@1	40 m_peakThreshold(10),
cannam@1	41 m_rolloffThreshold(90),
cannam@1	42 m_harmonicThreshold(.1),
cannam@0	43 m_minFreq(80),
cannam@0	44 m_maxFreq(18000),
cannam@9	45 m_coeffCount(40),
cannam@9	46 m_highestCoef(20),
cannam@9	47 m_lowestCoef(0),
cannam@0	48 m_mfccFilters(0),
cannam@1	49 m_mfccStyle((int)XTRACT_EQUAL_GAIN),
cannam@14	50 m_spectrumType((int)XTRACT_MAGNITUDE_SPECTRUM),
cannam@14	51 m_dc(0),
cannam@14	52 m_normalise(0),
cannam@0	53 m_barkBandLimits(0),
cannam@0	54 m_outputBinCount(0),
cannam@0	55 m_initialised(false)
cannam@0	56 {
cannam@1	57 if (m_xtDescRefCount++ == 0) {
cannam@1	58 m_xtDescriptors =
cannam@1	59 (xtract_function_descriptor_t *)xtract_make_descriptors();
cannam@1	60 }
cannam@0	61 }
cannam@0	62
cannam@0	63 XTractPlugin::~XTractPlugin()
cannam@0	64 {
cannam@0	65 if (m_mfccFilters) {
cannam@0	66 for (size_t i = 0; i < m_coeffCount; ++i) {
cannam@0	67 delete[] m_mfccFilters[i];
cannam@0	68 }
cannam@0	69 delete[] m_mfccFilters;
cannam@0	70 }
cannam@0	71 if (m_barkBandLimits) {
cannam@0	72 delete[] m_barkBandLimits;
cannam@0	73 }
cannam@0	74 if (m_resultBuffer) {
cannam@0	75 delete[] m_resultBuffer;
cannam@0	76 }
cannam@1	77
cannam@1	78 if (--m_xtDescRefCount == 0) {
cannam@1	79 xtract_free_descriptors(m_xtDescriptors);
cannam@1	80 }
cannam@0	81 }
cannam@0	82
cannam@0	83 string
cannam@2	84 XTractPlugin::getIdentifier() const
cannam@0	85 {
cannam@1	86 return xtDescriptor()->algo.name;
cannam@0	87 }
cannam@0	88
cannam@0	89 string
cannam@2	90 XTractPlugin::getName() const
cannam@2	91 {
cannam@2	92 return xtDescriptor()->algo.p_name;
cannam@2	93 }
cannam@2	94
cannam@2	95 string
cannam@0	96 XTractPlugin::getDescription() const
cannam@0	97 {
cannam@2	98 return xtDescriptor()->algo.p_desc;
cannam@0	99 }
cannam@1	100
cannam@0	101
cannam@0	102 string
cannam@0	103 XTractPlugin::getMaker() const
cannam@0	104 {
cannam@0	105 return "libxtract by Jamie Bullock (plugin by Chris Cannam)";
cannam@0	106 }
cannam@0	107
cannam@0	108 int
cannam@0	109 XTractPlugin::getPluginVersion() const
cannam@0	110 {
cannam@14	111 return 3;
cannam@0	112 }
cannam@0	113
cannam@0	114 string
cannam@0	115 XTractPlugin::getCopyright() const
cannam@0	116 {
cannam@14	117 string text = "Copyright 2006 Jamie Bullock, plugin Copyright 2006-2008 Queen Mary, University of London. ";
cannam@0	118
cannam@1	119 string method = "";
cannam@0	120
cannam@1	121 method += xtDescriptor()->algo.author;
cannam@0	122
cannam@9	123 if (method != "") {
cannam@9	124 int year = xtDescriptor()->algo.year;
cannam@9	125 if (year != 0) {
cannam@9	126 char yearstr[12];
cannam@9	127 sprintf(yearstr, " (%d)", year);
cannam@9	128 method += yearstr;
cannam@9	129 }
cannam@9	130 text += "Method from " + method + ". ";
cannam@9	131 }
cannam@9	132
cannam@0	133 text += "Distributed under the GNU General Public License";
cannam@0	134 return text;
cannam@0	135 }
cannam@0	136
cannam@0	137 XTractPlugin::InputDomain
cannam@0	138 XTractPlugin::getInputDomain() const
cannam@0	139 {
cannam@1	140
cannam@1	141 if (xtDescriptor()->data.format == XTRACT_AUDIO_SAMPLES)
cannam@1	142 return TimeDomain;
cannam@1	143 else
cannam@1	144 return FrequencyDomain;
cannam@0	145 }
cannam@1	146
cannam@1	147
cannam@9	148 bool XTractPlugin::m_anyInitialised = false;
cannam@0	149
cannam@0	150 bool
cannam@0	151 XTractPlugin::initialise(size_t channels, size_t stepSize, size_t blockSize)
cannam@0	152 {
cannam@1	153
cannam@1	154 int donor = *(xtDescriptor()->argv.donor),
cannam@1	155 data_format = xtDescriptor()->data.format;
cannam@1	156
cannam@0	157 if (channels < getMinChannelCount() \|\|
cannam@0	158 channels > getMaxChannelCount()) return false;
cannam@0	159
cannam@9	160 if (blockSize != getPreferredBlockSize()) {
cannam@9	161 cerr << "XTractPlugin::initialise: ERROR: "
cannam@9	162 << "Only the standard block size of " << getPreferredBlockSize()
cannam@9	163 << " is supported (owing to global FFT initialisation requirements)" << endl;
cannam@9	164 return false;
cannam@9	165 }
cannam@9	166
cannam@0	167 m_channels = channels;
cannam@0	168 m_stepSize = stepSize;
cannam@0	169 m_blockSize = blockSize;
cannam@0	170
cannam@9	171 if (!m_anyInitialised) {
cannam@9	172 m_anyInitialised = true;
cannam@9	173 // initialise libxtract
cannam@9	174 xtract_init_fft(m_blockSize, XTRACT_SPECTRUM);
cannam@9	175 xtract_init_fft(m_blockSize, XTRACT_AUTOCORRELATION_FFT);
cannam@9	176 xtract_init_fft(m_blockSize, XTRACT_DCT);
cannam@9	177 xtract_init_fft(m_blockSize, XTRACT_MFCC);
cannam@9	178 }
cannam@9	179
cannam@1	180 if (donor == XTRACT_INIT_MFCC) {
cannam@0	181
cannam@0	182 m_mfccFilters = new float *[m_coeffCount];
cannam@0	183 for (size_t i = 0; i < m_coeffCount; ++i) {
cannam@0	184 m_mfccFilters[i] = new float[m_blockSize];
cannam@0	185 }
cannam@0	186
cannam@0	187 int error = (int)xtract_init_mfcc(m_blockSize, m_inputSampleRate/2,
cannam@0	188 m_mfccStyle, m_minFreq, m_maxFreq,
cannam@0	189 m_coeffCount, m_mfccFilters);
cannam@1	190 if (error != XTRACT_SUCCESS) {
cannam@0	191 cerr << "XTractPlugin::initialise: ERROR: "
cannam@0	192 << "xtract_init_mfcc returned error code " << error << endl;
cannam@0	193 return false;
cannam@0	194 }
cannam@0	195
cannam@1	196 } else if (donor == XTRACT_BARK_COEFFICIENTS \|\|
cannam@7	197 donor == XTRACT_INIT_BARK \|\|
cannam@1	198 data_format == XTRACT_BARK_COEFFS) {
cannam@7	199
cannam@1	200 m_barkBandLimits = new int[XTRACT_BARK_BANDS];
cannam@0	201
cannam@1	202 /int error = (int)*/xtract_init_bark(m_blockSize, m_inputSampleRate,
cannam@0	203 m_barkBandLimits);
cannam@0	204 // if (error != SUCCESS) {
cannam@0	205 // cerr << "XTractPlugin::initialise: ERROR: "
cannam@0	206 // << "xtract_init_bark returned error code " << error << endl;
cannam@0	207 // return false;
cannam@0	208 // }
cannam@0	209 }
cannam@0	210
cannam@0	211 switch (m_xtFeature) {
cannam@1	212 case XTRACT_SPECTRUM:
cannam@14	213 m_outputBinCount = m_blockSize / 2 + (m_dc ? 1 : 0); break;
cannam@1	214 case XTRACT_HARMONIC_SPECTRUM:
cannam@1	215 case XTRACT_PEAK_SPECTRUM:
cannam@1	216 m_outputBinCount = m_blockSize / 2; break;
cannam@1	217 case XTRACT_DCT:
cannam@1	218 case XTRACT_AUTOCORRELATION_FFT:
cannam@1	219 case XTRACT_AUTOCORRELATION:
cannam@1	220 case XTRACT_AMDF:
cannam@1	221 case XTRACT_ASDF:
cannam@1	222 m_outputBinCount = m_blockSize; break;
cannam@1	223 case XTRACT_MFCC:
cannam@9	224 m_outputBinCount = (m_highestCoef - m_lowestCoef)+1; break;
cannam@1	225 case XTRACT_BARK_COEFFICIENTS:
cannam@1	226 m_outputBinCount = XTRACT_BARK_BANDS; break;
cannam@1	227 default:
cannam@1	228 m_outputBinCount = 1; break;
cannam@0	229 }
cannam@0	230
cannam@13	231 m_outputDescriptors.clear();
cannam@0	232 setupOutputDescriptors();
cannam@0	233
cannam@0	234 m_initialised = true;
cannam@0	235
cannam@0	236 return true;
cannam@0	237 }
cannam@0	238
cannam@0	239 void
cannam@0	240 XTractPlugin::reset()
cannam@0	241 {
cannam@0	242 }
cannam@0	243
cannam@0	244 size_t
cannam@0	245 XTractPlugin::getMinChannelCount() const
cannam@0	246 {
cannam@0	247 return 1;
cannam@0	248 }
cannam@0	249
cannam@0	250 size_t
cannam@0	251 XTractPlugin::getMaxChannelCount() const
cannam@0	252 {
cannam@0	253 return 1;
cannam@0	254 }
cannam@0	255
cannam@0	256 size_t
cannam@0	257 XTractPlugin::getPreferredStepSize() const
cannam@0	258 {
cannam@0	259 if (getInputDomain() == FrequencyDomain) {
cannam@1	260 return getPreferredBlockSize();
cannam@1	261 } else {
cannam@0	262 return getPreferredBlockSize() / 2;
cannam@0	263 }
cannam@0	264 }
cannam@0	265
cannam@0	266 size_t
cannam@0	267 XTractPlugin::getPreferredBlockSize() const
cannam@0	268 {
cannam@0	269 return 1024;
cannam@0	270 }
cannam@0	271
cannam@0	272 XTractPlugin::ParameterList
cannam@0	273 XTractPlugin::getParameterDescriptors() const
cannam@0	274 {
cannam@0	275 ParameterList list;
cannam@0	276 ParameterDescriptor desc;
cannam@0	277
cannam@1	278 if (m_xtFeature == XTRACT_MFCC) {
cannam@0	279
cannam@2	280 desc.identifier = "minfreq";
cannam@2	281 desc.name = "Minimum Frequency";
cannam@0	282 desc.minValue = 0;
cannam@0	283 desc.maxValue = m_inputSampleRate / 2;
cannam@0	284 desc.defaultValue = 80;
cannam@0	285 desc.isQuantized = false;
cannam@0	286 desc.unit = "Hz";
cannam@0	287 list.push_back(desc);
cannam@0	288
cannam@2	289 desc.identifier = "maxfreq";
cannam@2	290 desc.name = "Maximum Frequency";
cannam@0	291 desc.defaultValue = 18000;
cannam@0	292 if (desc.defaultValue > m_inputSampleRate * 0.875) {
cannam@0	293 desc.defaultValue = m_inputSampleRate * 0.875;
cannam@0	294 }
cannam@0	295 list.push_back(desc);
cannam@0	296
cannam@2	297 desc.identifier = "bands";
cannam@9	298 desc.name = "# Mel Frequency Bands";
cannam@0	299 desc.minValue = 10;
cannam@9	300 desc.maxValue = 80;
cannam@9	301 desc.defaultValue = 40;
cannam@9	302 desc.unit = "";
cannam@9	303 desc.isQuantized = true;
cannam@9	304 desc.quantizeStep = 1;
cannam@9	305 list.push_back(desc);
cannam@9	306
cannam@9	307 desc.identifier = "lowestcoef";
cannam@9	308 desc.name = "Lowest Coefficient Returned";
cannam@9	309 desc.minValue = 0;
cannam@9	310 desc.maxValue = 80;
cannam@9	311 desc.defaultValue = 0;
cannam@9	312 desc.unit = "";
cannam@9	313 desc.isQuantized = true;
cannam@9	314 desc.quantizeStep = 1;
cannam@9	315 list.push_back(desc);
cannam@9	316
cannam@9	317 desc.identifier = "highestcoef";
cannam@9	318 desc.name = "Highest Coefficient Returned";
cannam@9	319 desc.minValue = 0;
cannam@9	320 desc.maxValue = 80;
cannam@0	321 desc.defaultValue = 20;
cannam@0	322 desc.unit = "";
cannam@0	323 desc.isQuantized = true;
cannam@0	324 desc.quantizeStep = 1;
cannam@0	325 list.push_back(desc);
cannam@0	326
cannam@2	327 desc.identifier = "style";
cannam@2	328 desc.name = "MFCC Type";
cannam@0	329 desc.minValue = 0;
cannam@0	330 desc.maxValue = 1;
cannam@0	331 desc.defaultValue = 0;
cannam@0	332 desc.valueNames.push_back("Equal Gain");
cannam@0	333 desc.valueNames.push_back("Equal Area");
cannam@0	334 list.push_back(desc);
cannam@0	335 }
cannam@0	336
cannam@14	337 if (m_xtFeature == XTRACT_SPECTRUM) {
cannam@14	338
cannam@14	339 desc.identifier = "spectrumtype";
cannam@14	340 desc.name = "Type";
cannam@14	341 desc.minValue = 0;
cannam@14	342 desc.maxValue = 3;
cannam@14	343 desc.defaultValue = int(XTRACT_MAGNITUDE_SPECTRUM);
cannam@14	344 desc.isQuantized = true;
cannam@14	345 desc.quantizeStep = 1;
cannam@14	346 desc.valueNames.push_back("Magnitude Spectrum");
cannam@14	347 desc.valueNames.push_back("Log Magnitude Spectrum");
cannam@14	348 desc.valueNames.push_back("Power Spectrum");
cannam@14	349 desc.valueNames.push_back("Log Power Spectrum");
cannam@14	350 list.push_back(desc);
cannam@14	351
cannam@14	352 desc.identifier = "dc";
cannam@14	353 desc.name = "Include DC";
cannam@14	354 desc.maxValue = 1;
cannam@14	355 desc.defaultValue = 0;
cannam@14	356 desc.valueNames.clear();
cannam@14	357 list.push_back(desc);
cannam@14	358
cannam@14	359 desc.identifier = "normalise";
cannam@14	360 desc.name = "Normalise";
cannam@14	361 list.push_back(desc);
cannam@14	362 }
cannam@14	363
cannam@0	364 if (needPeakThreshold()) {
cannam@0	365
cannam@10	366 desc.identifier = "peak-threshold";
cannam@2	367 desc.name = "Peak Threshold";
cannam@0	368 desc.minValue = 0;
cannam@0	369 desc.maxValue = 100;
cannam@1	370 desc.defaultValue = 10; /* Threshold as % of maximum peak found */
cannam@0	371 desc.isQuantized = false;
cannam@0	372 desc.valueNames.clear();
cannam@0	373 desc.unit = "%";
cannam@0	374 list.push_back(desc);
cannam@0	375
cannam@1	376 }
cannam@1	377
cannam@1	378 if (needRolloffThreshold()) {
cannam@0	379
cannam@10	380 desc.identifier = "rolloff-threshold";
cannam@2	381 desc.name = "Rolloff Threshold";
cannam@0	382 desc.minValue = 0;
cannam@0	383 desc.maxValue = 100;
cannam@1	384 desc.defaultValue = 90; /* Freq below which 90% of energy is */
cannam@0	385 desc.isQuantized = false;
cannam@0	386 desc.valueNames.clear();
cannam@0	387 desc.unit = "%";
cannam@0	388 list.push_back(desc);
cannam@1	389
cannam@1	390 }
cannam@1	391
cannam@1	392 if (needHarmonicThreshold()) {
cannam@1	393
cannam@10	394 desc.identifier = "harmonic-threshold";
cannam@2	395 desc.name = "Harmonic Threshold";
cannam@1	396 desc.minValue = 0;
cannam@1	397 desc.maxValue = 1.0;
cannam@1	398 desc.defaultValue = .1; /* Distance from nearesst harmonic number */
cannam@1	399 desc.isQuantized = false;
cannam@1	400 desc.valueNames.clear();
cannam@1	401 desc.unit = "";
cannam@1	402 list.push_back(desc);
cannam@0	403 }
cannam@0	404
cannam@0	405 return list;
cannam@0	406 }
cannam@0	407
cannam@0	408 float
cannam@0	409 XTractPlugin::getParameter(string param) const
cannam@0	410 {
cannam@1	411 if (m_xtFeature == XTRACT_MFCC) {
cannam@0	412 if (param == "minfreq") return m_minFreq;
cannam@0	413 if (param == "maxfreq") return m_maxFreq;
cannam@0	414 if (param == "bands") return m_coeffCount;
cannam@9	415 if (param == "lowestcoef") return m_lowestCoef;
cannam@9	416 if (param == "highestcoef") return m_highestCoef;
cannam@0	417 if (param == "style") return m_mfccStyle;
cannam@0	418 }
cannam@0	419
cannam@14	420 if (m_xtFeature == XTRACT_SPECTRUM) {
cannam@14	421 if (param == "spectrumtype") return m_spectrumType;
cannam@14	422 if (param == "dc") return m_dc;
cannam@14	423 if (param == "normalise") return m_normalise;
cannam@14	424 }
cannam@14	425
cannam@10	426 if (param == "peak-threshold") return m_peakThreshold;
cannam@10	427 if (param == "rolloff-threshold") return m_rolloffThreshold;
cannam@10	428 if (param == "harmonic-threshold") return m_harmonicThreshold;
cannam@0	429
cannam@0	430 return 0.f;
cannam@0	431 }
cannam@0	432
cannam@0	433 void
cannam@0	434 XTractPlugin::setParameter(string param, float value)
cannam@0	435 {
cannam@1	436 if (m_xtFeature == XTRACT_MFCC) {
cannam@0	437 if (param == "minfreq") m_minFreq = value;
cannam@0	438 else if (param == "maxfreq") m_maxFreq = value;
cannam@14	439 else if (param == "bands") m_coeffCount = int(value + .1);
cannam@9	440 else if (param == "lowestcoef"){
cannam@14	441 m_lowestCoef = int(value + .1);
cannam@9	442 if(m_lowestCoef >= m_coeffCount) m_lowestCoef = m_coeffCount - 1;
cannam@9	443 if(m_lowestCoef > m_highestCoef) m_lowestCoef = m_highestCoef;
cannam@9	444 }
cannam@9	445 else if (param == "highestcoef"){
cannam@14	446 m_highestCoef = int(value + .1);
cannam@9	447 if(m_highestCoef >= m_coeffCount) m_highestCoef = m_coeffCount - 1;
cannam@9	448 if(m_highestCoef < m_lowestCoef) m_highestCoef = m_lowestCoef;
cannam@9	449 }
cannam@14	450 else if (param == "style") m_mfccStyle = int(value + .1);
cannam@14	451 }
cannam@14	452
cannam@14	453 if (m_xtFeature == XTRACT_SPECTRUM) {
cannam@14	454 if (param == "spectrumtype") m_spectrumType = int(value + .1);
cannam@14	455 if (param == "dc") m_dc = int(value + .1);
cannam@14	456 if (param == "normalise") m_normalise = int(value + .1);
cannam@0	457 }
cannam@0	458
cannam@10	459 if (param == "peak-threshold") m_peakThreshold = value;
cannam@10	460 if (param == "rolloff-threshold") m_rolloffThreshold = value;
cannam@10	461 if (param == "harmonic-threshold") m_harmonicThreshold = value;
cannam@0	462 }
cannam@0	463
cannam@0	464 XTractPlugin::OutputList
cannam@0	465 XTractPlugin::getOutputDescriptors() const
cannam@0	466 {
cannam@13	467 if (m_outputDescriptors.empty()) {
cannam@13	468 setupOutputDescriptors();
cannam@13	469 }
cannam@0	470 return m_outputDescriptors;
cannam@0	471 }
cannam@0	472
cannam@0	473 void
cannam@0	474 XTractPlugin::setupOutputDescriptors() const
cannam@0	475 {
cannam@0	476 OutputDescriptor d;
cannam@1	477 const xtract_function_descriptor_t *xtFd = xtDescriptor();
cannam@2	478 d.identifier = getIdentifier();
cannam@2	479 d.name = getName();
cannam@2	480 d.description = getDescription();
cannam@0	481 d.unit = "";
cannam@0	482 d.hasFixedBinCount = true;
cannam@0	483 d.binCount = m_outputBinCount;
cannam@0	484 d.hasKnownExtents = false;
cannam@0	485 d.isQuantized = false;
cannam@0	486 d.sampleType = OutputDescriptor::OneSamplePerStep;
cannam@0	487
cannam@9	488 if (xtFd->is_scalar){
cannam@1	489 switch(xtFd->result.scalar.unit){
cannam@1	490 case XTRACT_HERTZ: d.unit = "Hz"; break;
cannam@1	491 case XTRACT_DBFS: d.unit = "dB"; break;
cannam@1	492 default: d.unit = ""; break;
cannam@1	493 }
cannam@1	494 }
cannam@1	495 else {
cannam@1	496 if (xtFd->result.vector.format == XTRACT_SPECTRAL){
cannam@0	497
cannam@1	498 d.binCount /= 2;
cannam@2	499 d.identifier = "amplitudes";
cannam@2	500 d.name = "Peak Amplitudes";
cannam@2	501 d.description = "";
cannam@1	502 }
cannam@1	503 }
cannam@0	504
cannam@0	505 m_outputDescriptors.push_back(d);
cannam@0	506 }
cannam@0	507
cannam@0	508 bool
cannam@0	509 XTractPlugin::needPeakThreshold() const
cannam@0	510 {
cannam@1	511 const xtract_function_descriptor_t *xtFd = xtDescriptor();
cannam@0	512
cannam@1	513 if(m_xtFeature == XTRACT_PEAK_SPECTRUM \|\|
cannam@1	514 xtFd->data.format == XTRACT_SPECTRAL_PEAKS \|\|
cannam@1	515 xtFd->data.format == XTRACT_SPECTRAL_PEAKS_MAGNITUDES \|\|
cannam@1	516 needHarmonicThreshold())
cannam@1	517 return true;
cannam@1	518 else return false;
cannam@1	519 }
cannam@1	520
cannam@1	521 bool
cannam@1	522 XTractPlugin::needHarmonicThreshold() const
cannam@1	523 {
cannam@1	524 const xtract_function_descriptor_t *xtFd = xtDescriptor();
cannam@1	525
cannam@1	526 if(m_xtFeature == XTRACT_HARMONIC_SPECTRUM \|\|
cannam@1	527 xtFd->data.format == XTRACT_SPECTRAL_HARMONICS_FREQUENCIES \|\|
cannam@1	528 m_xtFeature == XTRACT_NOISINESS \|\|
cannam@1	529 xtFd->data.format == XTRACT_SPECTRAL_HARMONICS_MAGNITUDES)
cannam@1	530 return true;
cannam@1	531 else return false;
cannam@1	532 }
cannam@1	533
cannam@1	534 bool
cannam@1	535 XTractPlugin::needRolloffThreshold() const
cannam@1	536 {
cannam@1	537 if(m_xtFeature == XTRACT_ROLLOFF)
cannam@1	538 return true;
cannam@1	539 else
cannam@1	540 return false;
cannam@0	541 }
cannam@0	542
cannam@0	543 XTractPlugin::FeatureSet
cannam@0	544 XTractPlugin::process(const float const inputBuffers,
cannam@0	545 Vamp::RealTime timestamp)
cannam@0	546 {
cannam@13	547 if (m_outputDescriptors.empty()) {
cannam@13	548 setupOutputDescriptors();
cannam@13	549 }
cannam@0	550
cannam@14	551 int rbs =
cannam@14	552 // Add 2 here to accommodate extra data for spectrum with DC
cannam@14	553 2 + (m_outputBinCount > m_blockSize ? m_outputBinCount : m_blockSize);
cannam@0	554 if (!m_resultBuffer) {
cannam@0	555 m_resultBuffer = new float[rbs];
cannam@0	556 }
cannam@0	557
cannam@1	558 int i;
cannam@1	559
cannam@1	560 for (i = 0; i < rbs; ++i) m_resultBuffer[i] = 0.f;
cannam@1	561
cannam@1	562 const float *data = 0;
cannam@1	563 float fft_temp = 0, data_temp = 0;
cannam@1	564 int N = m_blockSize, M = N >> 1;
cannam@0	565 void *argv = 0;
cannam@1	566 bool isSpectral = false;
cannam@1	567 xtract_function_descriptor_t *xtFd = xtDescriptor();
cannam@0	568
cannam@0	569 FeatureSet fs;
cannam@0	570
cannam@1	571 switch (xtFd->data.format) {
cannam@1	572 case XTRACT_AUDIO_SAMPLES:
cannam@1	573 data = &inputBuffers[0][0];
cannam@1	574 break;
cannam@1	575 case XTRACT_SPECTRAL:
cannam@1	576 default:
cannam@1	577 // All the rest are derived from the spectrum
cannam@1	578 // Need same format as would be output by xtract_spectrum
cannam@1	579 float q = m_inputSampleRate / N;
cannam@1	580 fft_temp = new float[N];
cannam@1	581 for (int n = 1; n < N/2; ++n) {
cannam@1	582 fft_temp[n] = sqrt(inputBuffers[0][n2]
cannam@1	583 inputBuffers[0][n2] + inputBuffers[0][n2+1] *
cannam@1	584 inputBuffers[0][n*2+1]) / N;
cannam@1	585 fft_temp[N-n] = (N/2 - n) * q;
cannam@1	586 }
cannam@1	587 fft_temp[0] = fabs(inputBuffers[0][0]) / N;
cannam@1	588 fft_temp[N/2] = fabs(inputBuffers[0][N]) / N;
cannam@1	589 data = &fft_temp[0];
cannam@1	590 isSpectral = true;
cannam@1	591 break;
cannam@0	592 }
cannam@0	593
cannam@0	594 assert(m_outputBinCount > 0);
cannam@0	595
cannam@0	596 float *result = m_resultBuffer;
cannam@0	597
cannam@1	598 float argf[XTRACT_MAXARGS];
cannam@0	599 argv = &argf[0];
cannam@14	600 argf[0] = 0.f; // handy for some, e.g. lowest_value which has a threshold
cannam@0	601
cannam@1	602 float mean, variance, sd, npartials, nharmonics;
cannam@0	603
cannam@1	604 bool needSD, needVariance, needMean, needPeaks,
cannam@1	605 needBarkCoefficients, needHarmonics, needF0, needSFM, needMax,
cannam@1	606 needNumPartials, needNumHarmonics;
cannam@0	607
cannam@1	608 int donor;
cannam@0	609
cannam@1	610 needSD = needVariance = needMean = needPeaks =
cannam@1	611 needBarkCoefficients = needF0 = needHarmonics = needSFM = needMax =
cannam@1	612 needNumPartials = needNumHarmonics = 0;
cannam@0	613
cannam@1	614 mean = variance = sd = npartials = nharmonics = 0.f;
cannam@0	615
cannam@1	616 i = xtFd->argc;
cannam@0	617
cannam@1	618 while(i--){
cannam@14	619 if (m_xtFeature == XTRACT_BARK_COEFFICIENTS) {
cannam@14	620 /* "BARK_COEFFICIENTS is special because argc = BARK_BANDS" */
cannam@14	621 break;
cannam@14	622 }
cannam@1	623 donor = xtFd->argv.donor[i];
cannam@1	624 switch(donor){
cannam@1	625 case XTRACT_STANDARD_DEVIATION:
cannam@1	626 case XTRACT_SPECTRAL_STANDARD_DEVIATION:
cannam@1	627 needSD = 1;
cannam@1	628 break;
cannam@1	629 case XTRACT_VARIANCE:
cannam@1	630 case XTRACT_SPECTRAL_VARIANCE:
cannam@1	631 needVariance = 1;
cannam@1	632 break;
cannam@1	633 case XTRACT_MEAN:
cannam@1	634 case XTRACT_SPECTRAL_MEAN:
cannam@1	635 needMean = 1;
cannam@1	636 break;
cannam@1	637 case XTRACT_F0:
cannam@1	638 case XTRACT_FAILSAFE_F0:
cannam@1	639 needF0 = 1;
cannam@1	640 break;
cannam@1	641 case XTRACT_FLATNESS:
cannam@1	642 needSFM = 1;
cannam@1	643 case XTRACT_HIGHEST_VALUE:
cannam@1	644 needMax = 1;
cannam@1	645 break;
cannam@1	646 }
cannam@1	647 }
cannam@1	648
cannam@1	649 if(needHarmonicThreshold() && m_xtFeature != XTRACT_HARMONIC_SPECTRUM)
cannam@1	650 needHarmonics = needF0 = 1;
cannam@1	651
cannam@1	652 if(needPeakThreshold() && m_xtFeature != XTRACT_PEAK_SPECTRUM)
cannam@1	653 needPeaks = 1;
cannam@1	654
cannam@1	655 if(xtFd->data.format == XTRACT_BARK_COEFFS &&
cannam@1	656 m_xtFeature != XTRACT_BARK_COEFFICIENTS){
cannam@1	657 needBarkCoefficients = 1;
cannam@0	658 }
cannam@0	659
cannam@0	660 if (needMean) {
cannam@1	661 if(isSpectral)
cannam@1	662 xtract_spectral_mean(data, N, 0, result);
cannam@1	663 else
cannam@1	664 xtract_mean(data, M, 0, result);
cannam@0	665 mean = *result;
cannam@0	666 *result = 0.f;
cannam@0	667 }
cannam@0	668
cannam@1	669 if (needVariance \|\| needSD) {
cannam@0	670 argf[0] = mean;
cannam@1	671 if(isSpectral)
cannam@1	672 xtract_spectral_variance(data, N, argv, result);
cannam@1	673 else
cannam@1	674 xtract_variance(data, M, argv, result);
cannam@0	675 variance = *result;
cannam@0	676 *result = 0.f;
cannam@0	677 }
cannam@0	678
cannam@0	679 if (needSD) {
cannam@0	680 argf[0] = variance;
cannam@1	681 if(isSpectral)
cannam@1	682 xtract_spectral_standard_deviation(data, N, argv, result);
cannam@1	683 else
cannam@1	684 xtract_standard_deviation(data, M, argv, result);
cannam@0	685 sd = *result;
cannam@0	686 *result = 0.f;
cannam@0	687 }
cannam@0	688
cannam@1	689 if (needMax) {
cannam@1	690 xtract_highest_value(data, M, argv, result);
cannam@1	691 argf[1] = *result;
cannam@1	692 *result = 0.f;
cannam@1	693 }
cannam@1	694
cannam@0	695 if (needSD) {
cannam@0	696 argf[0] = mean;
cannam@0	697 argf[1] = sd;
cannam@0	698 } else if (needVariance) {
cannam@0	699 argf[0] = variance;
cannam@0	700 } else if (needMean) {
cannam@0	701 argf[0] = mean;
cannam@0	702 }
cannam@0	703
cannam@0	704 // data should be now correct for all except:
cannam@1	705 // XTRACT_SPECTRAL_CENTROID -- N/2 magnitude peaks and N/2 frequencies
cannam@1	706 // TONALITY -- SFM
cannam@0	707 // TRISTIMULUS_1/2/3 -- harmonic spectrum
cannam@0	708 // ODD_EVEN_RATIO -- harmonic spectrum
cannam@0	709 // LOUDNESS -- Bark coefficients
cannam@1	710 // XTRACT_HARMONIC_SPECTRUM -- peak spectrum
cannam@0	711
cannam@0	712 // argv should be now correct for all except:
cannam@0	713 //
cannam@1	714 // XTRACT_ROLLOFF -- (sr/N), threshold (%)
cannam@1	715 // XTRACT_PEAK_SPECTRUM -- (sr / N), peak threshold (%)
cannam@1	716 // XTRACT_HARMONIC_SPECTRUM -- f0, harmonic threshold
cannam@1	717 // XTRACT_F0 -- samplerate
cannam@1	718 // XTRACT_MFCC -- Mel filter coefficients
cannam@1	719 // XTRACT_BARK_COEFFICIENTS -- Bark band limits
cannam@1	720 // XTRACT_NOISINESS -- npartials, nharmonics.
cannam@14	721 // XTRACT_SPECTRUM -- q, spectrum type, dc, normalise
cannam@0	722
cannam@1	723 data_temp = new float[N];
cannam@1	724
cannam@1	725 if (m_xtFeature == XTRACT_ROLLOFF \|\|
cannam@9	726 m_xtFeature == XTRACT_PEAK_SPECTRUM \|\| needPeaks) {
cannam@1	727 argf[0] = m_inputSampleRate / N;
cannam@1	728 if(m_xtFeature == XTRACT_ROLLOFF)
cannam@1	729 argf[1] = m_rolloffThreshold;
cannam@1	730 else
cannam@1	731 argf[1] = m_peakThreshold;
cannam@0	732 argv = &argf[0];
cannam@0	733 }
cannam@0	734
cannam@14	735 if (m_xtFeature == XTRACT_SPECTRUM) {
cannam@14	736 argf[0] = 0; // xtract_spectrum will calculate this for us
cannam@14	737 argf[1] = m_spectrumType;
cannam@14	738 argf[2] = m_dc;
cannam@14	739 argf[3] = m_normalise;
cannam@14	740 argv = &argf[0];
cannam@14	741 }
cannam@14	742
cannam@0	743 if (needPeaks) {
cannam@1	744 //We only read in the magnitudes (M)
cannam@1	745 /int rv = / xtract_peak_spectrum(data, M, argv, result);
cannam@0	746 for (int n = 0; n < N; ++n) {
cannam@1	747 data_temp[n] = result[n];
cannam@0	748 result[n] = 0.f;
cannam@0	749 }
cannam@0	750 // rv not trustworthy
cannam@0	751 // if (rv != SUCCESS) {
cannam@0	752 // cerr << "ERROR: XTractPlugin::process: xtract_peaks failed (error code = " << rv << ")" << endl;
cannam@0	753 // goto done;
cannam@0	754 // }
cannam@0	755 }
cannam@0	756
cannam@1	757 if (needNumPartials) {
cannam@1	758 xtract_nonzero_count(data_temp, M, NULL, &npartials);
cannam@1	759 }
cannam@1	760
cannam@1	761 if (needF0 \|\| m_xtFeature == XTRACT_FAILSAFE_F0 \|\|
cannam@1	762 m_xtFeature == XTRACT_F0) {
cannam@1	763 argf[0] = m_inputSampleRate;
cannam@1	764 argv = &argf[0];
cannam@1	765 }
cannam@1	766
cannam@1	767 if (needF0) {
cannam@1	768 xtract_failsafe_f0(&inputBuffers[0][0], N,
cannam@1	769 (void *)&m_inputSampleRate, result);
cannam@1	770 argf[0] = *result;
cannam@1	771 argv = &argf[0];
cannam@1	772 }
cannam@1	773
cannam@1	774 if (needSFM) {
cannam@1	775 xtract_flatness(data, N >> 1, 0, &argf[0]);
cannam@1	776 argv = &argf[0];
cannam@1	777 }
cannam@1	778
cannam@1	779 if (needHarmonics \|\| m_xtFeature == XTRACT_HARMONIC_SPECTRUM){
cannam@1	780 argf[1] = m_harmonicThreshold;
cannam@1	781 }
cannam@1	782
cannam@1	783 if (needHarmonics){
cannam@1	784 xtract_harmonic_spectrum(data_temp, N, argv, result);
cannam@1	785 for (int n = 0; n < N; ++n) {
cannam@1	786 data_temp[n] = result[n];
cannam@1	787 result[n] = 0.f;
cannam@1	788 }
cannam@1	789 }
cannam@1	790
cannam@1	791 if (needNumHarmonics) {
cannam@1	792 xtract_nonzero_count(data_temp, M, NULL, &nharmonics);
cannam@1	793 }
cannam@1	794
cannam@1	795 if (m_xtFeature == XTRACT_NOISINESS) {
cannam@1	796
cannam@1	797 argf[0] = nharmonics;
cannam@1	798 argf[1] = npartials;
cannam@1	799 argv = &argf[0];
cannam@1	800
cannam@1	801 }
cannam@1	802
cannam@1	803 if (needBarkCoefficients \|\| m_xtFeature == XTRACT_BARK_COEFFICIENTS) {
cannam@1	804 argv = &m_barkBandLimits[0];
cannam@1	805 }
cannam@1	806
cannam@1	807 xtract_mel_filter mfccFilterBank;
cannam@1	808 if (m_xtFeature == XTRACT_MFCC) {
cannam@1	809 mfccFilterBank.n_filters = m_coeffCount;
cannam@1	810 mfccFilterBank.filters = m_mfccFilters;
cannam@1	811 argv = &mfccFilterBank;
cannam@1	812 }
cannam@1	813
cannam@0	814 if (needBarkCoefficients) {
cannam@1	815
cannam@1	816 /int rv = / xtract_bark_coefficients(data, 0, argv, data_temp);
cannam@0	817 // if (rv != SUCCESS) {
cannam@0	818 // cerr << "ERROR: XTractPlugin::process: xtract_bark_coefficients failed (error code = " << rv << ")" << endl;
cannam@0	819 // goto done;
cannam@0	820 // }
cannam@1	821 data = &data_temp[0];
cannam@0	822 argv = 0;
cannam@0	823 }
cannam@1	824
cannam@1	825 if (xtFd->data.format == XTRACT_SPECTRAL_HARMONICS_FREQUENCIES) {
cannam@0	826
cannam@1	827 N = M;
cannam@1	828 data = &data_temp[N];
cannam@0	829
cannam@1	830 } else if (xtFd->data.format == XTRACT_SPECTRAL_HARMONICS_MAGNITUDES) {
cannam@0	831
cannam@1	832 N = M;
cannam@1	833 data = &data_temp[0];
cannam@1	834
cannam@1	835 }
cannam@0	836
cannam@1	837 // If we only want spectral magnitudes, use first half of the input array
cannam@1	838 else if(xtFd->data.format == XTRACT_SPECTRAL_MAGNITUDES \|\|
cannam@1	839 xtFd->data.format == XTRACT_SPECTRAL_PEAKS_MAGNITUDES \|\|
cannam@1	840 xtFd->data.format == XTRACT_ARBITRARY_SERIES) {
cannam@1	841 N = M;
cannam@1	842 }
cannam@1	843
cannam@1	844 else if(xtFd->data.format == XTRACT_BARK_COEFFS) {
cannam@1	845
cannam@1	846 N = XTRACT_BARK_BANDS - 1; /* Because our SR is 44100 (< 54000)*/
cannam@1	847 }
cannam@1	848
cannam@1	849 if (needPeaks && !needHarmonics) {
cannam@1	850
cannam@1	851 data = &data_temp[0];
cannam@1	852
cannam@0	853 }
cannam@0	854
cannam@0	855 // now the main result
cannam@0	856 xtract[m_xtFeature](data, N, argv, result);
cannam@0	857
cannam@1	858 //haveResult:
cannam@1	859 // {
cannam@0	860 int index = 0;
cannam@0	861
cannam@0	862 for (size_t output = 0; output < m_outputDescriptors.size(); ++output) {
cannam@0	863
cannam@0	864 Feature feature;
cannam@0	865 feature.hasTimestamp = false;
cannam@0	866 bool good = true;
cannam@0	867
cannam@0	868 for (size_t n = 0; n < m_outputDescriptors[output].binCount; ++n) {
cannam@9	869 float value = m_resultBuffer[index + m_lowestCoef];
cannam@0	870 if (isnan(value) \|\| isinf(value)) {
cannam@0	871 good = false;
cannam@0	872 index += (m_outputDescriptors[output].binCount - n);
cannam@0	873 break;
cannam@0	874 }
cannam@0	875 feature.values.push_back(value);
cannam@0	876 ++index;
cannam@0	877 }
cannam@13	878
cannam@0	879 if (good) fs[output].push_back(feature);
cannam@0	880 }
cannam@1	881 // }
cannam@0	882
cannam@1	883 //done:
cannam@1	884 delete[] fft_temp;
cannam@1	885 delete[] data_temp;
cannam@0	886
cannam@3	887 // cerr << "XTractPlugin::process returning" << endl;
cannam@0	888
cannam@0	889 return fs;
cannam@0	890 }
cannam@0	891
cannam@0	892 XTractPlugin::FeatureSet
cannam@0	893 XTractPlugin::getRemainingFeatures()
cannam@0	894 {
cannam@0	895 return FeatureSet();
cannam@0	896 }
cannam@0	897

Mercurial > hg > vamp-libxtract-plugins

annotate plugins/XTractPlugin.cpp @ 23:06f5888f0897