sv-dependency-builds: src/opus-1.3/silk/x86/NSQ_del_dec_sse4

annotate src/opus-1.3/silk/x86/NSQ_del_dec_sse4_1.c @ 169:223a55898ab9 tip default

Add null config files

author	Chris Cannam <cannam@all-day-breakfast.com>
date	Mon, 02 Mar 2020 14:03:47 +0000
parents	4664ac0c1032
children

rev	line source
cannam@154	1 /* Copyright (c) 2014, Cisco Systems, INC
cannam@154	2 Written by XiangMingZhu WeiZhou MinPeng YanWang
cannam@154	3
cannam@154	4 Redistribution and use in source and binary forms, with or without
cannam@154	5 modification, are permitted provided that the following conditions
cannam@154	6 are met:
cannam@154	7
cannam@154	8 - Redistributions of source code must retain the above copyright
cannam@154	9 notice, this list of conditions and the following disclaimer.
cannam@154	10
cannam@154	11 - Redistributions in binary form must reproduce the above copyright
cannam@154	12 notice, this list of conditions and the following disclaimer in the
cannam@154	13 documentation and/or other materials provided with the distribution.
cannam@154	14
cannam@154	15 THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS
cannam@154	16 ``AS IS'' AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT
cannam@154	17 LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR
cannam@154	18 A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT OWNER
cannam@154	19 OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL,
cannam@154	20 EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO,
cannam@154	21 PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR
cannam@154	22 PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF
cannam@154	23 LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT (INCLUDING
cannam@154	24 NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF THIS
cannam@154	25 SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
cannam@154	26 */
cannam@154	27
cannam@154	28 #ifdef HAVE_CONFIG_H
cannam@154	29 #include "config.h"
cannam@154	30 #endif
cannam@154	31
cannam@154	32 #include <xmmintrin.h>
cannam@154	33 #include <emmintrin.h>
cannam@154	34 #include <smmintrin.h>
cannam@154	35 #include "main.h"
cannam@154	36 #include "celt/x86/x86cpu.h"
cannam@154	37
cannam@154	38 #include "stack_alloc.h"
cannam@154	39
cannam@154	40 typedef struct {
cannam@154	41 opus_int32 sLPC_Q14[ MAX_SUB_FRAME_LENGTH + NSQ_LPC_BUF_LENGTH ];
cannam@154	42 opus_int32 RandState[ DECISION_DELAY ];
cannam@154	43 opus_int32 Q_Q10[ DECISION_DELAY ];
cannam@154	44 opus_int32 Xq_Q14[ DECISION_DELAY ];
cannam@154	45 opus_int32 Pred_Q15[ DECISION_DELAY ];
cannam@154	46 opus_int32 Shape_Q14[ DECISION_DELAY ];
cannam@154	47 opus_int32 sAR2_Q14[ MAX_SHAPE_LPC_ORDER ];
cannam@154	48 opus_int32 LF_AR_Q14;
cannam@154	49 opus_int32 Seed;
cannam@154	50 opus_int32 SeedInit;
cannam@154	51 opus_int32 RD_Q10;
cannam@154	52 } NSQ_del_dec_struct;
cannam@154	53
cannam@154	54 typedef struct {
cannam@154	55 opus_int32 Q_Q10;
cannam@154	56 opus_int32 RD_Q10;
cannam@154	57 opus_int32 xq_Q14;
cannam@154	58 opus_int32 LF_AR_Q14;
cannam@154	59 opus_int32 sLTP_shp_Q14;
cannam@154	60 opus_int32 LPC_exc_Q14;
cannam@154	61 } NSQ_sample_struct;
cannam@154	62
cannam@154	63 typedef NSQ_sample_struct NSQ_sample_pair[ 2 ];
cannam@154	64
cannam@154	65 static OPUS_INLINE void silk_nsq_del_dec_scale_states_sse4_1(
cannam@154	66 const silk_encoder_state psEncC, / I Encoder State */
cannam@154	67 silk_nsq_state NSQ, / I/O NSQ state */
cannam@154	68 NSQ_del_dec_struct psDelDec[], /* I/O Delayed decision states */
cannam@154	69 const opus_int32 x_Q3[], /* I Input in Q3 */
cannam@154	70 opus_int32 x_sc_Q10[], /* O Input scaled with 1/Gain in Q10 */
cannam@154	71 const opus_int16 sLTP[], /* I Re-whitened LTP state in Q0 */
cannam@154	72 opus_int32 sLTP_Q15[], /* O LTP state matching scaled input */
cannam@154	73 opus_int subfr, /* I Subframe number */
cannam@154	74 opus_int nStatesDelayedDecision, /* I Number of del dec states */
cannam@154	75 const opus_int LTP_scale_Q14, /* I LTP state scaling */
cannam@154	76 const opus_int32 Gains_Q16[ MAX_NB_SUBFR ], /* I */
cannam@154	77 const opus_int pitchL[ MAX_NB_SUBFR ], /* I Pitch lag */
cannam@154	78 const opus_int signal_type, /* I Signal type */
cannam@154	79 const opus_int decisionDelay /* I Decision delay */
cannam@154	80 );
cannam@154	81
cannam@154	82 /******************************************/
cannam@154	83 /* Noise shape quantizer for one subframe */
cannam@154	84 /******************************************/
cannam@154	85 static OPUS_INLINE void silk_noise_shape_quantizer_del_dec_sse4_1(
cannam@154	86 silk_nsq_state NSQ, / I/O NSQ state */
cannam@154	87 NSQ_del_dec_struct psDelDec[], /* I/O Delayed decision states */
cannam@154	88 opus_int signalType, /* I Signal type */
cannam@154	89 const opus_int32 x_Q10[], /* I */
cannam@154	90 opus_int8 pulses[], /* O */
cannam@154	91 opus_int16 xq[], /* O */
cannam@154	92 opus_int32 sLTP_Q15[], /* I/O LTP filter state */
cannam@154	93 opus_int32 delayedGain_Q10[], /* I/O Gain delay buffer */
cannam@154	94 const opus_int16 a_Q12[], /* I Short term prediction coefs */
cannam@154	95 const opus_int16 b_Q14[], /* I Long term prediction coefs */
cannam@154	96 const opus_int16 AR_shp_Q13[], /* I Noise shaping coefs */
cannam@154	97 opus_int lag, /* I Pitch lag */
cannam@154	98 opus_int32 HarmShapeFIRPacked_Q14, /* I */
cannam@154	99 opus_int Tilt_Q14, /* I Spectral tilt */
cannam@154	100 opus_int32 LF_shp_Q14, /* I */
cannam@154	101 opus_int32 Gain_Q16, /* I */
cannam@154	102 opus_int Lambda_Q10, /* I */
cannam@154	103 opus_int offset_Q10, /* I */
cannam@154	104 opus_int length, /* I Input length */
cannam@154	105 opus_int subfr, /* I Subframe number */
cannam@154	106 opus_int shapingLPCOrder, /* I Shaping LPC filter order */
cannam@154	107 opus_int predictLPCOrder, /* I Prediction filter order */
cannam@154	108 opus_int warping_Q16, /* I */
cannam@154	109 opus_int nStatesDelayedDecision, /* I Number of states in decision tree */
cannam@154	110 opus_int smpl_buf_idx, / I/O Index to newest samples in buffers */
cannam@154	111 opus_int decisionDelay /* I */
cannam@154	112 );
cannam@154	113
cannam@154	114 void silk_NSQ_del_dec_sse4_1(
cannam@154	115 const silk_encoder_state psEncC, / I Encoder State */
cannam@154	116 silk_nsq_state NSQ, / I/O NSQ state */
cannam@154	117 SideInfoIndices psIndices, / I/O Quantization Indices */
cannam@154	118 const opus_int32 x_Q3[], /* I Prefiltered input signal */
cannam@154	119 opus_int8 pulses[], /* O Quantized pulse signal */
cannam@154	120 const opus_int16 PredCoef_Q12[ 2 * MAX_LPC_ORDER ], /* I Short term prediction coefs */
cannam@154	121 const opus_int16 LTPCoef_Q14[ LTP_ORDER * MAX_NB_SUBFR ], /* I Long term prediction coefs */
cannam@154	122 const opus_int16 AR2_Q13[ MAX_NB_SUBFR * MAX_SHAPE_LPC_ORDER ], /* I Noise shaping coefs */
cannam@154	123 const opus_int HarmShapeGain_Q14[ MAX_NB_SUBFR ], /* I Long term shaping coefs */
cannam@154	124 const opus_int Tilt_Q14[ MAX_NB_SUBFR ], /* I Spectral tilt */
cannam@154	125 const opus_int32 LF_shp_Q14[ MAX_NB_SUBFR ], /* I Low frequency shaping coefs */
cannam@154	126 const opus_int32 Gains_Q16[ MAX_NB_SUBFR ], /* I Quantization step sizes */
cannam@154	127 const opus_int pitchL[ MAX_NB_SUBFR ], /* I Pitch lags */
cannam@154	128 const opus_int Lambda_Q10, /* I Rate/distortion tradeoff */
cannam@154	129 const opus_int LTP_scale_Q14 /* I LTP state scaling */
cannam@154	130 )
cannam@154	131 {
cannam@154	132 opus_int i, k, lag, start_idx, LSF_interpolation_flag, Winner_ind, subfr;
cannam@154	133 opus_int last_smple_idx, smpl_buf_idx, decisionDelay;
cannam@154	134 const opus_int16 A_Q12, B_Q14, *AR_shp_Q13;
cannam@154	135 opus_int16 *pxq;
cannam@154	136 VARDECL( opus_int32, sLTP_Q15 );
cannam@154	137 VARDECL( opus_int16, sLTP );
cannam@154	138 opus_int32 HarmShapeFIRPacked_Q14;
cannam@154	139 opus_int offset_Q10;
cannam@154	140 opus_int32 RDmin_Q10, Gain_Q10;
cannam@154	141 VARDECL( opus_int32, x_sc_Q10 );
cannam@154	142 VARDECL( opus_int32, delayedGain_Q10 );
cannam@154	143 VARDECL( NSQ_del_dec_struct, psDelDec );
cannam@154	144 NSQ_del_dec_struct *psDD;
cannam@154	145 SAVE_STACK;
cannam@154	146
cannam@154	147 /* Set unvoiced lag to the previous one, overwrite later for voiced */
cannam@154	148 lag = NSQ->lagPrev;
cannam@154	149
cannam@154	150 silk_assert( NSQ->prev_gain_Q16 != 0 );
cannam@154	151
cannam@154	152 /* Initialize delayed decision states */
cannam@154	153 ALLOC( psDelDec, psEncC->nStatesDelayedDecision, NSQ_del_dec_struct );
cannam@154	154 silk_memset( psDelDec, 0, psEncC->nStatesDelayedDecision * sizeof( NSQ_del_dec_struct ) );
cannam@154	155 for( k = 0; k < psEncC->nStatesDelayedDecision; k++ ) {
cannam@154	156 psDD = &psDelDec[ k ];
cannam@154	157 psDD->Seed = ( k + psIndices->Seed ) & 3;
cannam@154	158 psDD->SeedInit = psDD->Seed;
cannam@154	159 psDD->RD_Q10 = 0;
cannam@154	160 psDD->LF_AR_Q14 = NSQ->sLF_AR_shp_Q14;
cannam@154	161 psDD->Shape_Q14[ 0 ] = NSQ->sLTP_shp_Q14[ psEncC->ltp_mem_length - 1 ];
cannam@154	162 silk_memcpy( psDD->sLPC_Q14, NSQ->sLPC_Q14, NSQ_LPC_BUF_LENGTH * sizeof( opus_int32 ) );
cannam@154	163 silk_memcpy( psDD->sAR2_Q14, NSQ->sAR2_Q14, sizeof( NSQ->sAR2_Q14 ) );
cannam@154	164 }
cannam@154	165
cannam@154	166 offset_Q10 = silk_Quantization_Offsets_Q10[ psIndices->signalType >> 1 ][ psIndices->quantOffsetType ];
cannam@154	167 smpl_buf_idx = 0; /* index of oldest samples */
cannam@154	168
cannam@154	169 decisionDelay = silk_min_int( DECISION_DELAY, psEncC->subfr_length );
cannam@154	170
cannam@154	171 /* For voiced frames limit the decision delay to lower than the pitch lag */
cannam@154	172 if( psIndices->signalType == TYPE_VOICED ) {
cannam@154	173 for( k = 0; k < psEncC->nb_subfr; k++ ) {
cannam@154	174 decisionDelay = silk_min_int( decisionDelay, pitchL[ k ] - LTP_ORDER / 2 - 1 );
cannam@154	175 }
cannam@154	176 } else {
cannam@154	177 if( lag > 0 ) {
cannam@154	178 decisionDelay = silk_min_int( decisionDelay, lag - LTP_ORDER / 2 - 1 );
cannam@154	179 }
cannam@154	180 }
cannam@154	181
cannam@154	182 if( psIndices->NLSFInterpCoef_Q2 == 4 ) {
cannam@154	183 LSF_interpolation_flag = 0;
cannam@154	184 } else {
cannam@154	185 LSF_interpolation_flag = 1;
cannam@154	186 }
cannam@154	187
cannam@154	188 ALLOC( sLTP_Q15,
cannam@154	189 psEncC->ltp_mem_length + psEncC->frame_length, opus_int32 );
cannam@154	190 ALLOC( sLTP, psEncC->ltp_mem_length + psEncC->frame_length, opus_int16 );
cannam@154	191 ALLOC( x_sc_Q10, psEncC->subfr_length, opus_int32 );
cannam@154	192 ALLOC( delayedGain_Q10, DECISION_DELAY, opus_int32 );
cannam@154	193 /* Set up pointers to start of sub frame */
cannam@154	194 pxq = &NSQ->xq[ psEncC->ltp_mem_length ];
cannam@154	195 NSQ->sLTP_shp_buf_idx = psEncC->ltp_mem_length;
cannam@154	196 NSQ->sLTP_buf_idx = psEncC->ltp_mem_length;
cannam@154	197 subfr = 0;
cannam@154	198 for( k = 0; k < psEncC->nb_subfr; k++ ) {
cannam@154	199 A_Q12 = &PredCoef_Q12[ ( ( k >> 1 ) \| ( 1 - LSF_interpolation_flag ) ) * MAX_LPC_ORDER ];
cannam@154	200 B_Q14 = &LTPCoef_Q14[ k * LTP_ORDER ];
cannam@154	201 AR_shp_Q13 = &AR2_Q13[ k * MAX_SHAPE_LPC_ORDER ];
cannam@154	202
cannam@154	203 /* Noise shape parameters */
cannam@154	204 silk_assert( HarmShapeGain_Q14[ k ] >= 0 );
cannam@154	205 HarmShapeFIRPacked_Q14 = silk_RSHIFT( HarmShapeGain_Q14[ k ], 2 );
cannam@154	206 HarmShapeFIRPacked_Q14 \|= silk_LSHIFT( (opus_int32)silk_RSHIFT( HarmShapeGain_Q14[ k ], 1 ), 16 );
cannam@154	207
cannam@154	208 NSQ->rewhite_flag = 0;
cannam@154	209 if( psIndices->signalType == TYPE_VOICED ) {
cannam@154	210 /* Voiced */
cannam@154	211 lag = pitchL[ k ];
cannam@154	212
cannam@154	213 /* Re-whitening */
cannam@154	214 if( ( k & ( 3 - silk_LSHIFT( LSF_interpolation_flag, 1 ) ) ) == 0 ) {
cannam@154	215 if( k == 2 ) {
cannam@154	216 /* RESET DELAYED DECISIONS */
cannam@154	217 /* Find winner */
cannam@154	218 RDmin_Q10 = psDelDec[ 0 ].RD_Q10;
cannam@154	219 Winner_ind = 0;
cannam@154	220 for( i = 1; i < psEncC->nStatesDelayedDecision; i++ ) {
cannam@154	221 if( psDelDec[ i ].RD_Q10 < RDmin_Q10 ) {
cannam@154	222 RDmin_Q10 = psDelDec[ i ].RD_Q10;
cannam@154	223 Winner_ind = i;
cannam@154	224 }
cannam@154	225 }
cannam@154	226 for( i = 0; i < psEncC->nStatesDelayedDecision; i++ ) {
cannam@154	227 if( i != Winner_ind ) {
cannam@154	228 psDelDec[ i ].RD_Q10 += ( silk_int32_MAX >> 4 );
cannam@154	229 silk_assert( psDelDec[ i ].RD_Q10 >= 0 );
cannam@154	230 }
cannam@154	231 }
cannam@154	232
cannam@154	233 /* Copy final part of signals from winner state to output and long-term filter states */
cannam@154	234 psDD = &psDelDec[ Winner_ind ];
cannam@154	235 last_smple_idx = smpl_buf_idx + decisionDelay;
cannam@154	236 for( i = 0; i < decisionDelay; i++ ) {
cannam@154	237 last_smple_idx = ( last_smple_idx - 1 ) % DECISION_DELAY;
cannam@154	238 if( last_smple_idx < 0 ) last_smple_idx += DECISION_DELAY;
cannam@154	239 pulses[ i - decisionDelay ] = (opus_int8)silk_RSHIFT_ROUND( psDD->Q_Q10[ last_smple_idx ], 10 );
cannam@154	240 pxq[ i - decisionDelay ] = (opus_int16)silk_SAT16( silk_RSHIFT_ROUND(
cannam@154	241 silk_SMULWW( psDD->Xq_Q14[ last_smple_idx ], Gains_Q16[ 1 ] ), 14 ) );
cannam@154	242 NSQ->sLTP_shp_Q14[ NSQ->sLTP_shp_buf_idx - decisionDelay + i ] = psDD->Shape_Q14[ last_smple_idx ];
cannam@154	243 }
cannam@154	244
cannam@154	245 subfr = 0;
cannam@154	246 }
cannam@154	247
cannam@154	248 /* Rewhiten with new A coefs */
cannam@154	249 start_idx = psEncC->ltp_mem_length - lag - psEncC->predictLPCOrder - LTP_ORDER / 2;
cannam@154	250 celt_assert( start_idx > 0 );
cannam@154	251
cannam@154	252 silk_LPC_analysis_filter( &sLTP[ start_idx ], &NSQ->xq[ start_idx + k * psEncC->subfr_length ],
cannam@154	253 A_Q12, psEncC->ltp_mem_length - start_idx, psEncC->predictLPCOrder, psEncC->arch );
cannam@154	254
cannam@154	255 NSQ->sLTP_buf_idx = psEncC->ltp_mem_length;
cannam@154	256 NSQ->rewhite_flag = 1;
cannam@154	257 }
cannam@154	258 }
cannam@154	259
cannam@154	260 silk_nsq_del_dec_scale_states_sse4_1( psEncC, NSQ, psDelDec, x_Q3, x_sc_Q10, sLTP, sLTP_Q15, k,
cannam@154	261 psEncC->nStatesDelayedDecision, LTP_scale_Q14, Gains_Q16, pitchL, psIndices->signalType, decisionDelay );
cannam@154	262
cannam@154	263 silk_noise_shape_quantizer_del_dec_sse4_1( NSQ, psDelDec, psIndices->signalType, x_sc_Q10, pulses, pxq, sLTP_Q15,
cannam@154	264 delayedGain_Q10, A_Q12, B_Q14, AR_shp_Q13, lag, HarmShapeFIRPacked_Q14, Tilt_Q14[ k ], LF_shp_Q14[ k ],
cannam@154	265 Gains_Q16[ k ], Lambda_Q10, offset_Q10, psEncC->subfr_length, subfr++, psEncC->shapingLPCOrder,
cannam@154	266 psEncC->predictLPCOrder, psEncC->warping_Q16, psEncC->nStatesDelayedDecision, &smpl_buf_idx, decisionDelay );
cannam@154	267
cannam@154	268 x_Q3 += psEncC->subfr_length;
cannam@154	269 pulses += psEncC->subfr_length;
cannam@154	270 pxq += psEncC->subfr_length;
cannam@154	271 }
cannam@154	272
cannam@154	273 /* Find winner */
cannam@154	274 RDmin_Q10 = psDelDec[ 0 ].RD_Q10;
cannam@154	275 Winner_ind = 0;
cannam@154	276 for( k = 1; k < psEncC->nStatesDelayedDecision; k++ ) {
cannam@154	277 if( psDelDec[ k ].RD_Q10 < RDmin_Q10 ) {
cannam@154	278 RDmin_Q10 = psDelDec[ k ].RD_Q10;
cannam@154	279 Winner_ind = k;
cannam@154	280 }
cannam@154	281 }
cannam@154	282
cannam@154	283 /* Copy final part of signals from winner state to output and long-term filter states */
cannam@154	284 psDD = &psDelDec[ Winner_ind ];
cannam@154	285 psIndices->Seed = psDD->SeedInit;
cannam@154	286 last_smple_idx = smpl_buf_idx + decisionDelay;
cannam@154	287 Gain_Q10 = silk_RSHIFT32( Gains_Q16[ psEncC->nb_subfr - 1 ], 6 );
cannam@154	288 for( i = 0; i < decisionDelay; i++ ) {
cannam@154	289 last_smple_idx = ( last_smple_idx - 1 ) % DECISION_DELAY;
cannam@154	290 if( last_smple_idx < 0 ) last_smple_idx += DECISION_DELAY;
cannam@154	291 pulses[ i - decisionDelay ] = (opus_int8)silk_RSHIFT_ROUND( psDD->Q_Q10[ last_smple_idx ], 10 );
cannam@154	292 pxq[ i - decisionDelay ] = (opus_int16)silk_SAT16( silk_RSHIFT_ROUND(
cannam@154	293 silk_SMULWW( psDD->Xq_Q14[ last_smple_idx ], Gain_Q10 ), 8 ) );
cannam@154	294 NSQ->sLTP_shp_Q14[ NSQ->sLTP_shp_buf_idx - decisionDelay + i ] = psDD->Shape_Q14[ last_smple_idx ];
cannam@154	295 }
cannam@154	296 silk_memcpy( NSQ->sLPC_Q14, &psDD->sLPC_Q14[ psEncC->subfr_length ], NSQ_LPC_BUF_LENGTH * sizeof( opus_int32 ) );
cannam@154	297 silk_memcpy( NSQ->sAR2_Q14, psDD->sAR2_Q14, sizeof( psDD->sAR2_Q14 ) );
cannam@154	298
cannam@154	299 /* Update states */
cannam@154	300 NSQ->sLF_AR_shp_Q14 = psDD->LF_AR_Q14;
cannam@154	301 NSQ->lagPrev = pitchL[ psEncC->nb_subfr - 1 ];
cannam@154	302
cannam@154	303 /* Save quantized speech signal */
cannam@154	304 silk_memmove( NSQ->xq, &NSQ->xq[ psEncC->frame_length ], psEncC->ltp_mem_length * sizeof( opus_int16 ) );
cannam@154	305 silk_memmove( NSQ->sLTP_shp_Q14, &NSQ->sLTP_shp_Q14[ psEncC->frame_length ], psEncC->ltp_mem_length * sizeof( opus_int32 ) );
cannam@154	306 RESTORE_STACK;
cannam@154	307 }
cannam@154	308
cannam@154	309 /******************************************/
cannam@154	310 /* Noise shape quantizer for one subframe */
cannam@154	311 /******************************************/
cannam@154	312 static OPUS_INLINE void silk_noise_shape_quantizer_del_dec_sse4_1(
cannam@154	313 silk_nsq_state NSQ, / I/O NSQ state */
cannam@154	314 NSQ_del_dec_struct psDelDec[], /* I/O Delayed decision states */
cannam@154	315 opus_int signalType, /* I Signal type */
cannam@154	316 const opus_int32 x_Q10[], /* I */
cannam@154	317 opus_int8 pulses[], /* O */
cannam@154	318 opus_int16 xq[], /* O */
cannam@154	319 opus_int32 sLTP_Q15[], /* I/O LTP filter state */
cannam@154	320 opus_int32 delayedGain_Q10[], /* I/O Gain delay buffer */
cannam@154	321 const opus_int16 a_Q12[], /* I Short term prediction coefs */
cannam@154	322 const opus_int16 b_Q14[], /* I Long term prediction coefs */
cannam@154	323 const opus_int16 AR_shp_Q13[], /* I Noise shaping coefs */
cannam@154	324 opus_int lag, /* I Pitch lag */
cannam@154	325 opus_int32 HarmShapeFIRPacked_Q14, /* I */
cannam@154	326 opus_int Tilt_Q14, /* I Spectral tilt */
cannam@154	327 opus_int32 LF_shp_Q14, /* I */
cannam@154	328 opus_int32 Gain_Q16, /* I */
cannam@154	329 opus_int Lambda_Q10, /* I */
cannam@154	330 opus_int offset_Q10, /* I */
cannam@154	331 opus_int length, /* I Input length */
cannam@154	332 opus_int subfr, /* I Subframe number */
cannam@154	333 opus_int shapingLPCOrder, /* I Shaping LPC filter order */
cannam@154	334 opus_int predictLPCOrder, /* I Prediction filter order */
cannam@154	335 opus_int warping_Q16, /* I */
cannam@154	336 opus_int nStatesDelayedDecision, /* I Number of states in decision tree */
cannam@154	337 opus_int smpl_buf_idx, / I/O Index to newest samples in buffers */
cannam@154	338 opus_int decisionDelay /* I */
cannam@154	339 )
cannam@154	340 {
cannam@154	341 opus_int i, j, k, Winner_ind, RDmin_ind, RDmax_ind, last_smple_idx;
cannam@154	342 opus_int32 Winner_rand_state;
cannam@154	343 opus_int32 LTP_pred_Q14, LPC_pred_Q14, n_AR_Q14, n_LTP_Q14;
cannam@154	344 opus_int32 n_LF_Q14, r_Q10, rr_Q10, rd1_Q10, rd2_Q10, RDmin_Q10, RDmax_Q10;
cannam@154	345 opus_int32 q1_Q0, q1_Q10, q2_Q10, exc_Q14, LPC_exc_Q14, xq_Q14, Gain_Q10;
cannam@154	346 opus_int32 tmp1, tmp2, sLF_AR_shp_Q14;
cannam@154	347 opus_int32 pred_lag_ptr, shp_lag_ptr, *psLPC_Q14;
cannam@154	348 VARDECL( NSQ_sample_pair, psSampleState );
cannam@154	349 NSQ_del_dec_struct *psDD;
cannam@154	350 NSQ_sample_struct *psSS;
cannam@154	351
cannam@154	352 __m128i a_Q12_0123, a_Q12_4567, a_Q12_89AB, a_Q12_CDEF;
cannam@154	353 __m128i b_Q12_0123, b_sr_Q12_0123;
cannam@154	354 SAVE_STACK;
cannam@154	355
cannam@154	356 celt_assert( nStatesDelayedDecision > 0 );
cannam@154	357 ALLOC( psSampleState, nStatesDelayedDecision, NSQ_sample_pair );
cannam@154	358
cannam@154	359 shp_lag_ptr = &NSQ->sLTP_shp_Q14[ NSQ->sLTP_shp_buf_idx - lag + HARM_SHAPE_FIR_TAPS / 2 ];
cannam@154	360 pred_lag_ptr = &sLTP_Q15[ NSQ->sLTP_buf_idx - lag + LTP_ORDER / 2 ];
cannam@154	361 Gain_Q10 = silk_RSHIFT( Gain_Q16, 6 );
cannam@154	362
cannam@154	363 a_Q12_0123 = OP_CVTEPI16_EPI32_M64( a_Q12 );
cannam@154	364 a_Q12_4567 = OP_CVTEPI16_EPI32_M64( a_Q12 + 4 );
cannam@154	365
cannam@154	366 if( opus_likely( predictLPCOrder == 16 ) ) {
cannam@154	367 a_Q12_89AB = OP_CVTEPI16_EPI32_M64( a_Q12 + 8 );
cannam@154	368 a_Q12_CDEF = OP_CVTEPI16_EPI32_M64( a_Q12 + 12 );
cannam@154	369 }
cannam@154	370
cannam@154	371 if( signalType == TYPE_VOICED ){
cannam@154	372 b_Q12_0123 = OP_CVTEPI16_EPI32_M64( b_Q14 );
cannam@154	373 b_sr_Q12_0123 = _mm_shuffle_epi32( b_Q12_0123, _MM_SHUFFLE( 0, 3, 2, 1 ) ); /* equal shift right 4 bytes */
cannam@154	374 }
cannam@154	375 for( i = 0; i < length; i++ ) {
cannam@154	376 /* Perform common calculations used in all states */
cannam@154	377
cannam@154	378 /* Long-term prediction */
cannam@154	379 if( signalType == TYPE_VOICED ) {
cannam@154	380 /* Unrolled loop */
cannam@154	381 /* Avoids introducing a bias because silk_SMLAWB() always rounds to -inf */
cannam@154	382 LTP_pred_Q14 = 2;
cannam@154	383 {
cannam@154	384 __m128i tmpa, tmpb, pred_lag_ptr_tmp;
cannam@154	385 pred_lag_ptr_tmp = _mm_loadu_si128( (__m128i *)(&pred_lag_ptr[ -3 ] ) );
cannam@154	386 pred_lag_ptr_tmp = _mm_shuffle_epi32( pred_lag_ptr_tmp, 0x1B );
cannam@154	387 tmpa = _mm_mul_epi32( pred_lag_ptr_tmp, b_Q12_0123 );
cannam@154	388 tmpa = _mm_srli_si128( tmpa, 2 );
cannam@154	389
cannam@154	390 pred_lag_ptr_tmp = _mm_shuffle_epi32( pred_lag_ptr_tmp, _MM_SHUFFLE( 0, 3, 2, 1 ) );/* equal shift right 4 bytes */
cannam@154	391 pred_lag_ptr_tmp = _mm_mul_epi32( pred_lag_ptr_tmp, b_sr_Q12_0123 );
cannam@154	392 pred_lag_ptr_tmp = _mm_srli_si128( pred_lag_ptr_tmp, 2 );
cannam@154	393 pred_lag_ptr_tmp = _mm_add_epi32( pred_lag_ptr_tmp, tmpa );
cannam@154	394
cannam@154	395 tmpb = _mm_shuffle_epi32( pred_lag_ptr_tmp, _MM_SHUFFLE( 0, 0, 3, 2 ) );/* equal shift right 8 bytes */
cannam@154	396 pred_lag_ptr_tmp = _mm_add_epi32( pred_lag_ptr_tmp, tmpb );
cannam@154	397 LTP_pred_Q14 += _mm_cvtsi128_si32( pred_lag_ptr_tmp );
cannam@154	398
cannam@154	399 LTP_pred_Q14 = silk_SMLAWB( LTP_pred_Q14, pred_lag_ptr[ -4 ], b_Q14[ 4 ] );
cannam@154	400 LTP_pred_Q14 = silk_LSHIFT( LTP_pred_Q14, 1 ); /* Q13 -> Q14 */
cannam@154	401 pred_lag_ptr++;
cannam@154	402 }
cannam@154	403 } else {
cannam@154	404 LTP_pred_Q14 = 0;
cannam@154	405 }
cannam@154	406
cannam@154	407 /* Long-term shaping */
cannam@154	408 if( lag > 0 ) {
cannam@154	409 /* Symmetric, packed FIR coefficients */
cannam@154	410 n_LTP_Q14 = silk_SMULWB( silk_ADD32( shp_lag_ptr[ 0 ], shp_lag_ptr[ -2 ] ), HarmShapeFIRPacked_Q14 );
cannam@154	411 n_LTP_Q14 = silk_SMLAWT( n_LTP_Q14, shp_lag_ptr[ -1 ], HarmShapeFIRPacked_Q14 );
cannam@154	412 n_LTP_Q14 = silk_SUB_LSHIFT32( LTP_pred_Q14, n_LTP_Q14, 2 ); /* Q12 -> Q14 */
cannam@154	413 shp_lag_ptr++;
cannam@154	414 } else {
cannam@154	415 n_LTP_Q14 = 0;
cannam@154	416 }
cannam@154	417 {
cannam@154	418 __m128i tmpa, tmpb, psLPC_Q14_tmp, a_Q12_tmp;
cannam@154	419
cannam@154	420 for( k = 0; k < nStatesDelayedDecision; k++ ) {
cannam@154	421 /* Delayed decision state */
cannam@154	422 psDD = &psDelDec[ k ];
cannam@154	423
cannam@154	424 /* Sample state */
cannam@154	425 psSS = psSampleState[ k ];
cannam@154	426
cannam@154	427 /* Generate dither */
cannam@154	428 psDD->Seed = silk_RAND( psDD->Seed );
cannam@154	429
cannam@154	430 /* Pointer used in short term prediction and shaping */
cannam@154	431 psLPC_Q14 = &psDD->sLPC_Q14[ NSQ_LPC_BUF_LENGTH - 1 + i ];
cannam@154	432 /* Short-term prediction */
cannam@154	433 silk_assert( predictLPCOrder == 10 \|\| predictLPCOrder == 16 );
cannam@154	434 /* Avoids introducing a bias because silk_SMLAWB() always rounds to -inf */
cannam@154	435 LPC_pred_Q14 = silk_RSHIFT( predictLPCOrder, 1 );
cannam@154	436
cannam@154	437 tmpb = _mm_setzero_si128();
cannam@154	438
cannam@154	439 /* step 1 */
cannam@154	440 psLPC_Q14_tmp = _mm_loadu_si128( (__m128i )(&psLPC_Q14[ -3 ] ) ); / -3, -2 , -1, 0 */
cannam@154	441 psLPC_Q14_tmp = _mm_shuffle_epi32( psLPC_Q14_tmp, 0x1B ); /* 0, -1, -2, -3 */
cannam@154	442 tmpa = _mm_mul_epi32( psLPC_Q14_tmp, a_Q12_0123 ); /* 0, -1, -2, -3 * 0123 -> 00, 2-2 */
cannam@154	443
cannam@154	444 tmpa = _mm_srli_epi64( tmpa, 16 );
cannam@154	445 tmpb = _mm_add_epi32( tmpb, tmpa );
cannam@154	446
cannam@154	447 psLPC_Q14_tmp = _mm_shuffle_epi32( psLPC_Q14_tmp, _MM_SHUFFLE( 0, 3, 2, 1 ) ); /* equal shift right 4 bytes */
cannam@154	448 a_Q12_tmp = _mm_shuffle_epi32( a_Q12_0123, _MM_SHUFFLE(0, 3, 2, 1 ) ); /* equal shift right 4 bytes */
cannam@154	449 psLPC_Q14_tmp = _mm_mul_epi32( psLPC_Q14_tmp, a_Q12_tmp ); /* 1-1, 3-3 */
cannam@154	450 psLPC_Q14_tmp = _mm_srli_epi64( psLPC_Q14_tmp, 16 );
cannam@154	451 tmpb = _mm_add_epi32( tmpb, psLPC_Q14_tmp );
cannam@154	452
cannam@154	453 /* step 2 */
cannam@154	454 psLPC_Q14_tmp = _mm_loadu_si128( (__m128i *)(&psLPC_Q14[ -7 ] ) );
cannam@154	455 psLPC_Q14_tmp = _mm_shuffle_epi32( psLPC_Q14_tmp, 0x1B );
cannam@154	456 tmpa = _mm_mul_epi32( psLPC_Q14_tmp, a_Q12_4567 );
cannam@154	457 tmpa = _mm_srli_epi64( tmpa, 16 );
cannam@154	458 tmpb = _mm_add_epi32( tmpb, tmpa );
cannam@154	459
cannam@154	460 psLPC_Q14_tmp = _mm_shuffle_epi32( psLPC_Q14_tmp, _MM_SHUFFLE( 0, 3, 2, 1 ) ); /* equal shift right 4 bytes */
cannam@154	461 a_Q12_tmp = _mm_shuffle_epi32( a_Q12_4567, _MM_SHUFFLE(0, 3, 2, 1 ) ); /* equal shift right 4 bytes */
cannam@154	462 psLPC_Q14_tmp = _mm_mul_epi32( psLPC_Q14_tmp, a_Q12_tmp );
cannam@154	463 psLPC_Q14_tmp = _mm_srli_epi64( psLPC_Q14_tmp, 16 );
cannam@154	464 tmpb = _mm_add_epi32( tmpb, psLPC_Q14_tmp );
cannam@154	465
cannam@154	466 if ( opus_likely( predictLPCOrder == 16 ) )
cannam@154	467 {
cannam@154	468 /* step 3 */
cannam@154	469 psLPC_Q14_tmp = _mm_loadu_si128( (__m128i *)(&psLPC_Q14[ -11 ] ) );
cannam@154	470 psLPC_Q14_tmp = _mm_shuffle_epi32( psLPC_Q14_tmp, 0x1B );
cannam@154	471 tmpa = _mm_mul_epi32( psLPC_Q14_tmp, a_Q12_89AB );
cannam@154	472 tmpa = _mm_srli_epi64( tmpa, 16 );
cannam@154	473 tmpb = _mm_add_epi32( tmpb, tmpa );
cannam@154	474
cannam@154	475 psLPC_Q14_tmp = _mm_shuffle_epi32( psLPC_Q14_tmp, _MM_SHUFFLE( 0, 3, 2, 1 ) ); /* equal shift right 4 bytes */
cannam@154	476 a_Q12_tmp = _mm_shuffle_epi32( a_Q12_89AB, _MM_SHUFFLE(0, 3, 2, 1 ) );/* equal shift right 4 bytes */
cannam@154	477 psLPC_Q14_tmp = _mm_mul_epi32( psLPC_Q14_tmp, a_Q12_tmp );
cannam@154	478 psLPC_Q14_tmp = _mm_srli_epi64( psLPC_Q14_tmp, 16 );
cannam@154	479 tmpb = _mm_add_epi32( tmpb, psLPC_Q14_tmp );
cannam@154	480
cannam@154	481 /* setp 4 */
cannam@154	482 psLPC_Q14_tmp = _mm_loadu_si128( (__m128i *)(&psLPC_Q14[ -15 ] ) );
cannam@154	483 psLPC_Q14_tmp = _mm_shuffle_epi32( psLPC_Q14_tmp, 0x1B );
cannam@154	484 tmpa = _mm_mul_epi32( psLPC_Q14_tmp, a_Q12_CDEF );
cannam@154	485 tmpa = _mm_srli_epi64( tmpa, 16 );
cannam@154	486 tmpb = _mm_add_epi32( tmpb, tmpa );
cannam@154	487
cannam@154	488 psLPC_Q14_tmp = _mm_shuffle_epi32( psLPC_Q14_tmp, _MM_SHUFFLE( 0, 3, 2, 1 ) ); /* equal shift right 4 bytes */
cannam@154	489 a_Q12_tmp = _mm_shuffle_epi32( a_Q12_CDEF, _MM_SHUFFLE(0, 3, 2, 1 ) ); /* equal shift right 4 bytes */
cannam@154	490 psLPC_Q14_tmp = _mm_mul_epi32( psLPC_Q14_tmp, a_Q12_tmp );
cannam@154	491 psLPC_Q14_tmp = _mm_srli_epi64( psLPC_Q14_tmp, 16 );
cannam@154	492 tmpb = _mm_add_epi32( tmpb, psLPC_Q14_tmp );
cannam@154	493
cannam@154	494 /* add at last */
cannam@154	495 /* equal shift right 8 bytes*/
cannam@154	496 tmpa = _mm_shuffle_epi32( tmpb, _MM_SHUFFLE( 0, 0, 3, 2 ) );
cannam@154	497 tmpb = _mm_add_epi32( tmpb, tmpa );
cannam@154	498 LPC_pred_Q14 += _mm_cvtsi128_si32( tmpb );
cannam@154	499 }
cannam@154	500 else
cannam@154	501 {
cannam@154	502 /* add at last */
cannam@154	503 tmpa = _mm_shuffle_epi32( tmpb, _MM_SHUFFLE( 0, 0, 3, 2 ) ); /* equal shift right 8 bytes*/
cannam@154	504 tmpb = _mm_add_epi32( tmpb, tmpa );
cannam@154	505 LPC_pred_Q14 += _mm_cvtsi128_si32( tmpb );
cannam@154	506
cannam@154	507 LPC_pred_Q14 = silk_SMLAWB( LPC_pred_Q14, psLPC_Q14[ -8 ], a_Q12[ 8 ] );
cannam@154	508 LPC_pred_Q14 = silk_SMLAWB( LPC_pred_Q14, psLPC_Q14[ -9 ], a_Q12[ 9 ] );
cannam@154	509 }
cannam@154	510
cannam@154	511 LPC_pred_Q14 = silk_LSHIFT( LPC_pred_Q14, 4 ); /* Q10 -> Q14 */
cannam@154	512
cannam@154	513 /* Noise shape feedback */
cannam@154	514 silk_assert( ( shapingLPCOrder & 1 ) == 0 ); /* check that order is even */
cannam@154	515 /* Output of lowpass section */
cannam@154	516 tmp2 = silk_SMLAWB( psLPC_Q14[ 0 ], psDD->sAR2_Q14[ 0 ], warping_Q16 );
cannam@154	517 /* Output of allpass section */
cannam@154	518 tmp1 = silk_SMLAWB( psDD->sAR2_Q14[ 0 ], psDD->sAR2_Q14[ 1 ] - tmp2, warping_Q16 );
cannam@154	519 psDD->sAR2_Q14[ 0 ] = tmp2;
cannam@154	520 n_AR_Q14 = silk_RSHIFT( shapingLPCOrder, 1 );
cannam@154	521 n_AR_Q14 = silk_SMLAWB( n_AR_Q14, tmp2, AR_shp_Q13[ 0 ] );
cannam@154	522 /* Loop over allpass sections */
cannam@154	523 for( j = 2; j < shapingLPCOrder; j += 2 ) {
cannam@154	524 /* Output of allpass section */
cannam@154	525 tmp2 = silk_SMLAWB( psDD->sAR2_Q14[ j - 1 ], psDD->sAR2_Q14[ j + 0 ] - tmp1, warping_Q16 );
cannam@154	526 psDD->sAR2_Q14[ j - 1 ] = tmp1;
cannam@154	527 n_AR_Q14 = silk_SMLAWB( n_AR_Q14, tmp1, AR_shp_Q13[ j - 1 ] );
cannam@154	528 /* Output of allpass section */
cannam@154	529 tmp1 = silk_SMLAWB( psDD->sAR2_Q14[ j + 0 ], psDD->sAR2_Q14[ j + 1 ] - tmp2, warping_Q16 );
cannam@154	530 psDD->sAR2_Q14[ j + 0 ] = tmp2;
cannam@154	531 n_AR_Q14 = silk_SMLAWB( n_AR_Q14, tmp2, AR_shp_Q13[ j ] );
cannam@154	532 }
cannam@154	533 psDD->sAR2_Q14[ shapingLPCOrder - 1 ] = tmp1;
cannam@154	534 n_AR_Q14 = silk_SMLAWB( n_AR_Q14, tmp1, AR_shp_Q13[ shapingLPCOrder - 1 ] );
cannam@154	535
cannam@154	536 n_AR_Q14 = silk_LSHIFT( n_AR_Q14, 1 ); /* Q11 -> Q12 */
cannam@154	537 n_AR_Q14 = silk_SMLAWB( n_AR_Q14, psDD->LF_AR_Q14, Tilt_Q14 ); /* Q12 */
cannam@154	538 n_AR_Q14 = silk_LSHIFT( n_AR_Q14, 2 ); /* Q12 -> Q14 */
cannam@154	539
cannam@154	540 n_LF_Q14 = silk_SMULWB( psDD->Shape_Q14[ smpl_buf_idx ], LF_shp_Q14 ); / Q12 */
cannam@154	541 n_LF_Q14 = silk_SMLAWT( n_LF_Q14, psDD->LF_AR_Q14, LF_shp_Q14 ); /* Q12 */
cannam@154	542 n_LF_Q14 = silk_LSHIFT( n_LF_Q14, 2 ); /* Q12 -> Q14 */
cannam@154	543
cannam@154	544 /* Input minus prediction plus noise feedback */
cannam@154	545 /* r = x[ i ] - LTP_pred - LPC_pred + n_AR + n_Tilt + n_LF + n_LTP */
cannam@154	546 tmp1 = silk_ADD32( n_AR_Q14, n_LF_Q14 ); /* Q14 */
cannam@154	547 tmp2 = silk_ADD32( n_LTP_Q14, LPC_pred_Q14 ); /* Q13 */
cannam@154	548 tmp1 = silk_SUB32( tmp2, tmp1 ); /* Q13 */
cannam@154	549 tmp1 = silk_RSHIFT_ROUND( tmp1, 4 ); /* Q10 */
cannam@154	550
cannam@154	551 r_Q10 = silk_SUB32( x_Q10[ i ], tmp1 ); /* residual error Q10 */
cannam@154	552
cannam@154	553 /* Flip sign depending on dither */
cannam@154	554 if ( psDD->Seed < 0 ) {
cannam@154	555 r_Q10 = -r_Q10;
cannam@154	556 }
cannam@154	557 r_Q10 = silk_LIMIT_32( r_Q10, -(31 << 10), 30 << 10 );
cannam@154	558
cannam@154	559 /* Find two quantization level candidates and measure their rate-distortion */
cannam@154	560 q1_Q10 = silk_SUB32( r_Q10, offset_Q10 );
cannam@154	561 q1_Q0 = silk_RSHIFT( q1_Q10, 10 );
cannam@154	562 if( q1_Q0 > 0 ) {
cannam@154	563 q1_Q10 = silk_SUB32( silk_LSHIFT( q1_Q0, 10 ), QUANT_LEVEL_ADJUST_Q10 );
cannam@154	564 q1_Q10 = silk_ADD32( q1_Q10, offset_Q10 );
cannam@154	565 q2_Q10 = silk_ADD32( q1_Q10, 1024 );
cannam@154	566 rd1_Q10 = silk_SMULBB( q1_Q10, Lambda_Q10 );
cannam@154	567 rd2_Q10 = silk_SMULBB( q2_Q10, Lambda_Q10 );
cannam@154	568 } else if( q1_Q0 == 0 ) {
cannam@154	569 q1_Q10 = offset_Q10;
cannam@154	570 q2_Q10 = silk_ADD32( q1_Q10, 1024 - QUANT_LEVEL_ADJUST_Q10 );
cannam@154	571 rd1_Q10 = silk_SMULBB( q1_Q10, Lambda_Q10 );
cannam@154	572 rd2_Q10 = silk_SMULBB( q2_Q10, Lambda_Q10 );
cannam@154	573 } else if( q1_Q0 == -1 ) {
cannam@154	574 q2_Q10 = offset_Q10;
cannam@154	575 q1_Q10 = silk_SUB32( q2_Q10, 1024 - QUANT_LEVEL_ADJUST_Q10 );
cannam@154	576 rd1_Q10 = silk_SMULBB( -q1_Q10, Lambda_Q10 );
cannam@154	577 rd2_Q10 = silk_SMULBB( q2_Q10, Lambda_Q10 );
cannam@154	578 } else { /* q1_Q0 < -1 */
cannam@154	579 q1_Q10 = silk_ADD32( silk_LSHIFT( q1_Q0, 10 ), QUANT_LEVEL_ADJUST_Q10 );
cannam@154	580 q1_Q10 = silk_ADD32( q1_Q10, offset_Q10 );
cannam@154	581 q2_Q10 = silk_ADD32( q1_Q10, 1024 );
cannam@154	582 rd1_Q10 = silk_SMULBB( -q1_Q10, Lambda_Q10 );
cannam@154	583 rd2_Q10 = silk_SMULBB( -q2_Q10, Lambda_Q10 );
cannam@154	584 }
cannam@154	585 rr_Q10 = silk_SUB32( r_Q10, q1_Q10 );
cannam@154	586 rd1_Q10 = silk_RSHIFT( silk_SMLABB( rd1_Q10, rr_Q10, rr_Q10 ), 10 );
cannam@154	587 rr_Q10 = silk_SUB32( r_Q10, q2_Q10 );
cannam@154	588 rd2_Q10 = silk_RSHIFT( silk_SMLABB( rd2_Q10, rr_Q10, rr_Q10 ), 10 );
cannam@154	589
cannam@154	590 if( rd1_Q10 < rd2_Q10 ) {
cannam@154	591 psSS[ 0 ].RD_Q10 = silk_ADD32( psDD->RD_Q10, rd1_Q10 );
cannam@154	592 psSS[ 1 ].RD_Q10 = silk_ADD32( psDD->RD_Q10, rd2_Q10 );
cannam@154	593 psSS[ 0 ].Q_Q10 = q1_Q10;
cannam@154	594 psSS[ 1 ].Q_Q10 = q2_Q10;
cannam@154	595 } else {
cannam@154	596 psSS[ 0 ].RD_Q10 = silk_ADD32( psDD->RD_Q10, rd2_Q10 );
cannam@154	597 psSS[ 1 ].RD_Q10 = silk_ADD32( psDD->RD_Q10, rd1_Q10 );
cannam@154	598 psSS[ 0 ].Q_Q10 = q2_Q10;
cannam@154	599 psSS[ 1 ].Q_Q10 = q1_Q10;
cannam@154	600 }
cannam@154	601
cannam@154	602 /* Update states for best quantization */
cannam@154	603
cannam@154	604 /* Quantized excitation */
cannam@154	605 exc_Q14 = silk_LSHIFT32( psSS[ 0 ].Q_Q10, 4 );
cannam@154	606 if ( psDD->Seed < 0 ) {
cannam@154	607 exc_Q14 = -exc_Q14;
cannam@154	608 }
cannam@154	609
cannam@154	610 /* Add predictions */
cannam@154	611 LPC_exc_Q14 = silk_ADD32( exc_Q14, LTP_pred_Q14 );
cannam@154	612 xq_Q14 = silk_ADD32( LPC_exc_Q14, LPC_pred_Q14 );
cannam@154	613
cannam@154	614 /* Update states */
cannam@154	615 sLF_AR_shp_Q14 = silk_SUB32( xq_Q14, n_AR_Q14 );
cannam@154	616 psSS[ 0 ].sLTP_shp_Q14 = silk_SUB32( sLF_AR_shp_Q14, n_LF_Q14 );
cannam@154	617 psSS[ 0 ].LF_AR_Q14 = sLF_AR_shp_Q14;
cannam@154	618 psSS[ 0 ].LPC_exc_Q14 = LPC_exc_Q14;
cannam@154	619 psSS[ 0 ].xq_Q14 = xq_Q14;
cannam@154	620
cannam@154	621 /* Update states for second best quantization */
cannam@154	622
cannam@154	623 /* Quantized excitation */
cannam@154	624 exc_Q14 = silk_LSHIFT32( psSS[ 1 ].Q_Q10, 4 );
cannam@154	625 if ( psDD->Seed < 0 ) {
cannam@154	626 exc_Q14 = -exc_Q14;
cannam@154	627 }
cannam@154	628
cannam@154	629
cannam@154	630 /* Add predictions */
cannam@154	631 LPC_exc_Q14 = silk_ADD32( exc_Q14, LTP_pred_Q14 );
cannam@154	632 xq_Q14 = silk_ADD32( LPC_exc_Q14, LPC_pred_Q14 );
cannam@154	633
cannam@154	634 /* Update states */
cannam@154	635 sLF_AR_shp_Q14 = silk_SUB32( xq_Q14, n_AR_Q14 );
cannam@154	636 psSS[ 1 ].sLTP_shp_Q14 = silk_SUB32( sLF_AR_shp_Q14, n_LF_Q14 );
cannam@154	637 psSS[ 1 ].LF_AR_Q14 = sLF_AR_shp_Q14;
cannam@154	638 psSS[ 1 ].LPC_exc_Q14 = LPC_exc_Q14;
cannam@154	639 psSS[ 1 ].xq_Q14 = xq_Q14;
cannam@154	640 }
cannam@154	641 }
cannam@154	642 smpl_buf_idx = ( smpl_buf_idx - 1 ) % DECISION_DELAY;
cannam@154	643 if( smpl_buf_idx < 0 ) smpl_buf_idx += DECISION_DELAY;
cannam@154	644 last_smple_idx = ( *smpl_buf_idx + decisionDelay ) % DECISION_DELAY;
cannam@154	645
cannam@154	646 /* Find winner */
cannam@154	647 RDmin_Q10 = psSampleState[ 0 ][ 0 ].RD_Q10;
cannam@154	648 Winner_ind = 0;
cannam@154	649 for( k = 1; k < nStatesDelayedDecision; k++ ) {
cannam@154	650 if( psSampleState[ k ][ 0 ].RD_Q10 < RDmin_Q10 ) {
cannam@154	651 RDmin_Q10 = psSampleState[ k ][ 0 ].RD_Q10;
cannam@154	652 Winner_ind = k;
cannam@154	653 }
cannam@154	654 }
cannam@154	655
cannam@154	656 /* Increase RD values of expired states */
cannam@154	657 Winner_rand_state = psDelDec[ Winner_ind ].RandState[ last_smple_idx ];
cannam@154	658 for( k = 0; k < nStatesDelayedDecision; k++ ) {
cannam@154	659 if( psDelDec[ k ].RandState[ last_smple_idx ] != Winner_rand_state ) {
cannam@154	660 psSampleState[ k ][ 0 ].RD_Q10 = silk_ADD32( psSampleState[ k ][ 0 ].RD_Q10, silk_int32_MAX >> 4 );
cannam@154	661 psSampleState[ k ][ 1 ].RD_Q10 = silk_ADD32( psSampleState[ k ][ 1 ].RD_Q10, silk_int32_MAX >> 4 );
cannam@154	662 silk_assert( psSampleState[ k ][ 0 ].RD_Q10 >= 0 );
cannam@154	663 }
cannam@154	664 }
cannam@154	665
cannam@154	666 /* Find worst in first set and best in second set */
cannam@154	667 RDmax_Q10 = psSampleState[ 0 ][ 0 ].RD_Q10;
cannam@154	668 RDmin_Q10 = psSampleState[ 0 ][ 1 ].RD_Q10;
cannam@154	669 RDmax_ind = 0;
cannam@154	670 RDmin_ind = 0;
cannam@154	671 for( k = 1; k < nStatesDelayedDecision; k++ ) {
cannam@154	672 /* find worst in first set */
cannam@154	673 if( psSampleState[ k ][ 0 ].RD_Q10 > RDmax_Q10 ) {
cannam@154	674 RDmax_Q10 = psSampleState[ k ][ 0 ].RD_Q10;
cannam@154	675 RDmax_ind = k;
cannam@154	676 }
cannam@154	677 /* find best in second set */
cannam@154	678 if( psSampleState[ k ][ 1 ].RD_Q10 < RDmin_Q10 ) {
cannam@154	679 RDmin_Q10 = psSampleState[ k ][ 1 ].RD_Q10;
cannam@154	680 RDmin_ind = k;
cannam@154	681 }
cannam@154	682 }
cannam@154	683
cannam@154	684 /* Replace a state if best from second set outperforms worst in first set */
cannam@154	685 if( RDmin_Q10 < RDmax_Q10 ) {
cannam@154	686 silk_memcpy( ( (opus_int32 *)&psDelDec[ RDmax_ind ] ) + i,
cannam@154	687 ( (opus_int32 )&psDelDec[ RDmin_ind ] ) + i, sizeof( NSQ_del_dec_struct ) - i sizeof( opus_int32) );
cannam@154	688 silk_memcpy( &psSampleState[ RDmax_ind ][ 0 ], &psSampleState[ RDmin_ind ][ 1 ], sizeof( NSQ_sample_struct ) );
cannam@154	689 }
cannam@154	690
cannam@154	691 /* Write samples from winner to output and long-term filter states */
cannam@154	692 psDD = &psDelDec[ Winner_ind ];
cannam@154	693 if( subfr > 0 \|\| i >= decisionDelay ) {
cannam@154	694 pulses[ i - decisionDelay ] = (opus_int8)silk_RSHIFT_ROUND( psDD->Q_Q10[ last_smple_idx ], 10 );
cannam@154	695 xq[ i - decisionDelay ] = (opus_int16)silk_SAT16( silk_RSHIFT_ROUND(
cannam@154	696 silk_SMULWW( psDD->Xq_Q14[ last_smple_idx ], delayedGain_Q10[ last_smple_idx ] ), 8 ) );
cannam@154	697 NSQ->sLTP_shp_Q14[ NSQ->sLTP_shp_buf_idx - decisionDelay ] = psDD->Shape_Q14[ last_smple_idx ];
cannam@154	698 sLTP_Q15[ NSQ->sLTP_buf_idx - decisionDelay ] = psDD->Pred_Q15[ last_smple_idx ];
cannam@154	699 }
cannam@154	700 NSQ->sLTP_shp_buf_idx++;
cannam@154	701 NSQ->sLTP_buf_idx++;
cannam@154	702
cannam@154	703 /* Update states */
cannam@154	704 for( k = 0; k < nStatesDelayedDecision; k++ ) {
cannam@154	705 psDD = &psDelDec[ k ];
cannam@154	706 psSS = &psSampleState[ k ][ 0 ];
cannam@154	707 psDD->LF_AR_Q14 = psSS->LF_AR_Q14;
cannam@154	708 psDD->sLPC_Q14[ NSQ_LPC_BUF_LENGTH + i ] = psSS->xq_Q14;
cannam@154	709 psDD->Xq_Q14[ *smpl_buf_idx ] = psSS->xq_Q14;
cannam@154	710 psDD->Q_Q10[ *smpl_buf_idx ] = psSS->Q_Q10;
cannam@154	711 psDD->Pred_Q15[ *smpl_buf_idx ] = silk_LSHIFT32( psSS->LPC_exc_Q14, 1 );
cannam@154	712 psDD->Shape_Q14[ *smpl_buf_idx ] = psSS->sLTP_shp_Q14;
cannam@154	713 psDD->Seed = silk_ADD32_ovflw( psDD->Seed, silk_RSHIFT_ROUND( psSS->Q_Q10, 10 ) );
cannam@154	714 psDD->RandState[ *smpl_buf_idx ] = psDD->Seed;
cannam@154	715 psDD->RD_Q10 = psSS->RD_Q10;
cannam@154	716 }
cannam@154	717 delayedGain_Q10[ *smpl_buf_idx ] = Gain_Q10;
cannam@154	718 }
cannam@154	719 /* Update LPC states */
cannam@154	720 for( k = 0; k < nStatesDelayedDecision; k++ ) {
cannam@154	721 psDD = &psDelDec[ k ];
cannam@154	722 silk_memcpy( psDD->sLPC_Q14, &psDD->sLPC_Q14[ length ], NSQ_LPC_BUF_LENGTH * sizeof( opus_int32 ) );
cannam@154	723 }
cannam@154	724 RESTORE_STACK;
cannam@154	725 }
cannam@154	726
cannam@154	727 static OPUS_INLINE void silk_nsq_del_dec_scale_states_sse4_1(
cannam@154	728 const silk_encoder_state psEncC, / I Encoder State */
cannam@154	729 silk_nsq_state NSQ, / I/O NSQ state */
cannam@154	730 NSQ_del_dec_struct psDelDec[], /* I/O Delayed decision states */
cannam@154	731 const opus_int32 x_Q3[], /* I Input in Q3 */
cannam@154	732 opus_int32 x_sc_Q10[], /* O Input scaled with 1/Gain in Q10 */
cannam@154	733 const opus_int16 sLTP[], /* I Re-whitened LTP state in Q0 */
cannam@154	734 opus_int32 sLTP_Q15[], /* O LTP state matching scaled input */
cannam@154	735 opus_int subfr, /* I Subframe number */
cannam@154	736 opus_int nStatesDelayedDecision, /* I Number of del dec states */
cannam@154	737 const opus_int LTP_scale_Q14, /* I LTP state scaling */
cannam@154	738 const opus_int32 Gains_Q16[ MAX_NB_SUBFR ], /* I */
cannam@154	739 const opus_int pitchL[ MAX_NB_SUBFR ], /* I Pitch lag */
cannam@154	740 const opus_int signal_type, /* I Signal type */
cannam@154	741 const opus_int decisionDelay /* I Decision delay */
cannam@154	742 )
cannam@154	743 {
cannam@154	744 opus_int i, k, lag;
cannam@154	745 opus_int32 gain_adj_Q16, inv_gain_Q31, inv_gain_Q23;
cannam@154	746 NSQ_del_dec_struct *psDD;
cannam@154	747 __m128i xmm_inv_gain_Q23, xmm_x_Q3_x2x0, xmm_x_Q3_x3x1;
cannam@154	748
cannam@154	749 lag = pitchL[ subfr ];
cannam@154	750 inv_gain_Q31 = silk_INVERSE32_varQ( silk_max( Gains_Q16[ subfr ], 1 ), 47 );
cannam@154	751
cannam@154	752 silk_assert( inv_gain_Q31 != 0 );
cannam@154	753
cannam@154	754 /* Calculate gain adjustment factor */
cannam@154	755 if( Gains_Q16[ subfr ] != NSQ->prev_gain_Q16 ) {
cannam@154	756 gain_adj_Q16 = silk_DIV32_varQ( NSQ->prev_gain_Q16, Gains_Q16[ subfr ], 16 );
cannam@154	757 } else {
cannam@154	758 gain_adj_Q16 = (opus_int32)1 << 16;
cannam@154	759 }
cannam@154	760
cannam@154	761 /* Scale input */
cannam@154	762 inv_gain_Q23 = silk_RSHIFT_ROUND( inv_gain_Q31, 8 );
cannam@154	763
cannam@154	764 /* prepare inv_gain_Q23 in packed 4 32-bits */
cannam@154	765 xmm_inv_gain_Q23 = _mm_set1_epi32(inv_gain_Q23);
cannam@154	766
cannam@154	767 for( i = 0; i < psEncC->subfr_length - 3; i += 4 ) {
cannam@154	768 xmm_x_Q3_x2x0 = _mm_loadu_si128( (__m128i *)(&(x_Q3[ i ] ) ) );
cannam@154	769 /* equal shift right 4 bytes*/
cannam@154	770 xmm_x_Q3_x3x1 = _mm_shuffle_epi32( xmm_x_Q3_x2x0, _MM_SHUFFLE( 0, 3, 2, 1 ) );
cannam@154	771
cannam@154	772 xmm_x_Q3_x2x0 = _mm_mul_epi32( xmm_x_Q3_x2x0, xmm_inv_gain_Q23 );
cannam@154	773 xmm_x_Q3_x3x1 = _mm_mul_epi32( xmm_x_Q3_x3x1, xmm_inv_gain_Q23 );
cannam@154	774
cannam@154	775 xmm_x_Q3_x2x0 = _mm_srli_epi64( xmm_x_Q3_x2x0, 16 );
cannam@154	776 xmm_x_Q3_x3x1 = _mm_slli_epi64( xmm_x_Q3_x3x1, 16 );
cannam@154	777
cannam@154	778 xmm_x_Q3_x2x0 = _mm_blend_epi16( xmm_x_Q3_x2x0, xmm_x_Q3_x3x1, 0xCC );
cannam@154	779
cannam@154	780 _mm_storeu_si128( (__m128i *)(&(x_sc_Q10[ i ])), xmm_x_Q3_x2x0 );
cannam@154	781 }
cannam@154	782
cannam@154	783 for( ; i < psEncC->subfr_length; i++ ) {
cannam@154	784 x_sc_Q10[ i ] = silk_SMULWW( x_Q3[ i ], inv_gain_Q23 );
cannam@154	785 }
cannam@154	786
cannam@154	787 /* Save inverse gain */
cannam@154	788 NSQ->prev_gain_Q16 = Gains_Q16[ subfr ];
cannam@154	789
cannam@154	790 /* After rewhitening the LTP state is un-scaled, so scale with inv_gain_Q16 */
cannam@154	791 if( NSQ->rewhite_flag ) {
cannam@154	792 if( subfr == 0 ) {
cannam@154	793 /* Do LTP downscaling */
cannam@154	794 inv_gain_Q31 = silk_LSHIFT( silk_SMULWB( inv_gain_Q31, LTP_scale_Q14 ), 2 );
cannam@154	795 }
cannam@154	796 for( i = NSQ->sLTP_buf_idx - lag - LTP_ORDER / 2; i < NSQ->sLTP_buf_idx; i++ ) {
cannam@154	797 silk_assert( i < MAX_FRAME_LENGTH );
cannam@154	798 sLTP_Q15[ i ] = silk_SMULWB( inv_gain_Q31, sLTP[ i ] );
cannam@154	799 }
cannam@154	800 }
cannam@154	801
cannam@154	802 /* Adjust for changing gain */
cannam@154	803 if( gain_adj_Q16 != (opus_int32)1 << 16 ) {
cannam@154	804 /* Scale long-term shaping state */
cannam@154	805 {
cannam@154	806 __m128i xmm_gain_adj_Q16, xmm_sLTP_shp_Q14_x2x0, xmm_sLTP_shp_Q14_x3x1;
cannam@154	807
cannam@154	808 /* prepare gain_adj_Q16 in packed 4 32-bits */
cannam@154	809 xmm_gain_adj_Q16 = _mm_set1_epi32( gain_adj_Q16 );
cannam@154	810
cannam@154	811 for( i = NSQ->sLTP_shp_buf_idx - psEncC->ltp_mem_length; i < NSQ->sLTP_shp_buf_idx - 3; i += 4 )
cannam@154	812 {
cannam@154	813 xmm_sLTP_shp_Q14_x2x0 = _mm_loadu_si128( (__m128i *)(&(NSQ->sLTP_shp_Q14[ i ] ) ) );
cannam@154	814 /* equal shift right 4 bytes*/
cannam@154	815 xmm_sLTP_shp_Q14_x3x1 = _mm_shuffle_epi32( xmm_sLTP_shp_Q14_x2x0, _MM_SHUFFLE( 0, 3, 2, 1 ) );
cannam@154	816
cannam@154	817 xmm_sLTP_shp_Q14_x2x0 = _mm_mul_epi32( xmm_sLTP_shp_Q14_x2x0, xmm_gain_adj_Q16 );
cannam@154	818 xmm_sLTP_shp_Q14_x3x1 = _mm_mul_epi32( xmm_sLTP_shp_Q14_x3x1, xmm_gain_adj_Q16 );
cannam@154	819
cannam@154	820 xmm_sLTP_shp_Q14_x2x0 = _mm_srli_epi64( xmm_sLTP_shp_Q14_x2x0, 16 );
cannam@154	821 xmm_sLTP_shp_Q14_x3x1 = _mm_slli_epi64( xmm_sLTP_shp_Q14_x3x1, 16 );
cannam@154	822
cannam@154	823 xmm_sLTP_shp_Q14_x2x0 = _mm_blend_epi16( xmm_sLTP_shp_Q14_x2x0, xmm_sLTP_shp_Q14_x3x1, 0xCC );
cannam@154	824
cannam@154	825 _mm_storeu_si128( (__m128i *)(&(NSQ->sLTP_shp_Q14[ i ] ) ), xmm_sLTP_shp_Q14_x2x0 );
cannam@154	826 }
cannam@154	827
cannam@154	828 for( ; i < NSQ->sLTP_shp_buf_idx; i++ ) {
cannam@154	829 NSQ->sLTP_shp_Q14[ i ] = silk_SMULWW( gain_adj_Q16, NSQ->sLTP_shp_Q14[ i ] );
cannam@154	830 }
cannam@154	831
cannam@154	832 /* Scale long-term prediction state */
cannam@154	833 if( signal_type == TYPE_VOICED && NSQ->rewhite_flag == 0 ) {
cannam@154	834 for( i = NSQ->sLTP_buf_idx - lag - LTP_ORDER / 2; i < NSQ->sLTP_buf_idx - decisionDelay; i++ ) {
cannam@154	835 sLTP_Q15[ i ] = silk_SMULWW( gain_adj_Q16, sLTP_Q15[ i ] );
cannam@154	836 }
cannam@154	837 }
cannam@154	838
cannam@154	839 for( k = 0; k < nStatesDelayedDecision; k++ ) {
cannam@154	840 psDD = &psDelDec[ k ];
cannam@154	841
cannam@154	842 /* Scale scalar states */
cannam@154	843 psDD->LF_AR_Q14 = silk_SMULWW( gain_adj_Q16, psDD->LF_AR_Q14 );
cannam@154	844
cannam@154	845 /* Scale short-term prediction and shaping states */
cannam@154	846 for( i = 0; i < NSQ_LPC_BUF_LENGTH; i++ ) {
cannam@154	847 psDD->sLPC_Q14[ i ] = silk_SMULWW( gain_adj_Q16, psDD->sLPC_Q14[ i ] );
cannam@154	848 }
cannam@154	849 for( i = 0; i < MAX_SHAPE_LPC_ORDER; i++ ) {
cannam@154	850 psDD->sAR2_Q14[ i ] = silk_SMULWW( gain_adj_Q16, psDD->sAR2_Q14[ i ] );
cannam@154	851 }
cannam@154	852 for( i = 0; i < DECISION_DELAY; i++ ) {
cannam@154	853 psDD->Pred_Q15[ i ] = silk_SMULWW( gain_adj_Q16, psDD->Pred_Q15[ i ] );
cannam@154	854 psDD->Shape_Q14[ i ] = silk_SMULWW( gain_adj_Q16, psDD->Shape_Q14[ i ] );
cannam@154	855 }
cannam@154	856 }
cannam@154	857 }
cannam@154	858 }
cannam@154	859 }

Mercurial > hg > sv-dependency-builds

annotate src/opus-1.3/silk/x86/NSQ_del_dec_sse4_1.c @ 169:223a55898ab9 tip default