sv-dependency-builds: src/opus-1.3/silk/fixed/x86/burg_modified_FIX_sse4

annotate src/opus-1.3/silk/fixed/x86/burg_modified_FIX_sse4_1.c @ 169:223a55898ab9 tip default

Add null config files

author	Chris Cannam <cannam@all-day-breakfast.com>
date	Mon, 02 Mar 2020 14:03:47 +0000
parents	4664ac0c1032
children

rev	line source
cannam@154	1 /* Copyright (c) 2014, Cisco Systems, INC
cannam@154	2 Written by XiangMingZhu WeiZhou MinPeng YanWang
cannam@154	3
cannam@154	4 Redistribution and use in source and binary forms, with or without
cannam@154	5 modification, are permitted provided that the following conditions
cannam@154	6 are met:
cannam@154	7
cannam@154	8 - Redistributions of source code must retain the above copyright
cannam@154	9 notice, this list of conditions and the following disclaimer.
cannam@154	10
cannam@154	11 - Redistributions in binary form must reproduce the above copyright
cannam@154	12 notice, this list of conditions and the following disclaimer in the
cannam@154	13 documentation and/or other materials provided with the distribution.
cannam@154	14
cannam@154	15 THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS
cannam@154	16 ``AS IS'' AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT
cannam@154	17 LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR
cannam@154	18 A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT OWNER
cannam@154	19 OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL,
cannam@154	20 EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO,
cannam@154	21 PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR
cannam@154	22 PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF
cannam@154	23 LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT (INCLUDING
cannam@154	24 NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF THIS
cannam@154	25 SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
cannam@154	26 */
cannam@154	27
cannam@154	28 #ifdef HAVE_CONFIG_H
cannam@154	29 #include "config.h"
cannam@154	30 #endif
cannam@154	31
cannam@154	32 #include <xmmintrin.h>
cannam@154	33 #include <emmintrin.h>
cannam@154	34 #include <smmintrin.h>
cannam@154	35
cannam@154	36 #include "SigProc_FIX.h"
cannam@154	37 #include "define.h"
cannam@154	38 #include "tuning_parameters.h"
cannam@154	39 #include "pitch.h"
cannam@154	40 #include "celt/x86/x86cpu.h"
cannam@154	41
cannam@154	42 #define MAX_FRAME_SIZE 384 /* subfr_length * nb_subfr = ( 0.005 * 16000 + 16 ) * 4 = 384 */
cannam@154	43
cannam@154	44 #define QA 25
cannam@154	45 #define N_BITS_HEAD_ROOM 2
cannam@154	46 #define MIN_RSHIFTS -16
cannam@154	47 #define MAX_RSHIFTS (32 - QA)
cannam@154	48
cannam@154	49 /* Compute reflection coefficients from input signal */
cannam@154	50 void silk_burg_modified_sse4_1(
cannam@154	51 opus_int32 res_nrg, / O Residual energy */
cannam@154	52 opus_int res_nrg_Q, / O Residual energy Q value */
cannam@154	53 opus_int32 A_Q16[], /* O Prediction coefficients (length order) */
cannam@154	54 const opus_int16 x[], /* I Input signal, length: nb_subfr * ( D + subfr_length ) */
cannam@154	55 const opus_int32 minInvGain_Q30, /* I Inverse of max prediction gain */
cannam@154	56 const opus_int subfr_length, /* I Input signal subframe length (incl. D preceding samples) */
cannam@154	57 const opus_int nb_subfr, /* I Number of subframes stacked in x */
cannam@154	58 const opus_int D, /* I Order */
cannam@154	59 int arch /* I Run-time architecture */
cannam@154	60 )
cannam@154	61 {
cannam@154	62 opus_int k, n, s, lz, rshifts, rshifts_extra, reached_max_gain;
cannam@154	63 opus_int32 C0, num, nrg, rc_Q31, invGain_Q30, Atmp_QA, Atmp1, tmp1, tmp2, x1, x2;
cannam@154	64 const opus_int16 *x_ptr;
cannam@154	65 opus_int32 C_first_row[ SILK_MAX_ORDER_LPC ];
cannam@154	66 opus_int32 C_last_row[ SILK_MAX_ORDER_LPC ];
cannam@154	67 opus_int32 Af_QA[ SILK_MAX_ORDER_LPC ];
cannam@154	68 opus_int32 CAf[ SILK_MAX_ORDER_LPC + 1 ];
cannam@154	69 opus_int32 CAb[ SILK_MAX_ORDER_LPC + 1 ];
cannam@154	70 opus_int32 xcorr[ SILK_MAX_ORDER_LPC ];
cannam@154	71
cannam@154	72 __m128i FIRST_3210, LAST_3210, ATMP_3210, TMP1_3210, TMP2_3210, T1_3210, T2_3210, PTR_3210, SUBFR_3210, X1_3210, X2_3210;
cannam@154	73 __m128i CONST1 = _mm_set1_epi32(1);
cannam@154	74
cannam@154	75 celt_assert( subfr_length * nb_subfr <= MAX_FRAME_SIZE );
cannam@154	76
cannam@154	77 /* Compute autocorrelations, added over subframes */
cannam@154	78 silk_sum_sqr_shift( &C0, &rshifts, x, nb_subfr * subfr_length );
cannam@154	79 if( rshifts > MAX_RSHIFTS ) {
cannam@154	80 C0 = silk_LSHIFT32( C0, rshifts - MAX_RSHIFTS );
cannam@154	81 silk_assert( C0 > 0 );
cannam@154	82 rshifts = MAX_RSHIFTS;
cannam@154	83 } else {
cannam@154	84 lz = silk_CLZ32( C0 ) - 1;
cannam@154	85 rshifts_extra = N_BITS_HEAD_ROOM - lz;
cannam@154	86 if( rshifts_extra > 0 ) {
cannam@154	87 rshifts_extra = silk_min( rshifts_extra, MAX_RSHIFTS - rshifts );
cannam@154	88 C0 = silk_RSHIFT32( C0, rshifts_extra );
cannam@154	89 } else {
cannam@154	90 rshifts_extra = silk_max( rshifts_extra, MIN_RSHIFTS - rshifts );
cannam@154	91 C0 = silk_LSHIFT32( C0, -rshifts_extra );
cannam@154	92 }
cannam@154	93 rshifts += rshifts_extra;
cannam@154	94 }
cannam@154	95 CAb[ 0 ] = CAf[ 0 ] = C0 + silk_SMMUL( SILK_FIX_CONST( FIND_LPC_COND_FAC, 32 ), C0 ) + 1; /* Q(-rshifts) */
cannam@154	96 silk_memset( C_first_row, 0, SILK_MAX_ORDER_LPC * sizeof( opus_int32 ) );
cannam@154	97 if( rshifts > 0 ) {
cannam@154	98 for( s = 0; s < nb_subfr; s++ ) {
cannam@154	99 x_ptr = x + s * subfr_length;
cannam@154	100 for( n = 1; n < D + 1; n++ ) {
cannam@154	101 C_first_row[ n - 1 ] += (opus_int32)silk_RSHIFT64(
cannam@154	102 silk_inner_prod16_aligned_64( x_ptr, x_ptr + n, subfr_length - n, arch ), rshifts );
cannam@154	103 }
cannam@154	104 }
cannam@154	105 } else {
cannam@154	106 for( s = 0; s < nb_subfr; s++ ) {
cannam@154	107 int i;
cannam@154	108 opus_int32 d;
cannam@154	109 x_ptr = x + s * subfr_length;
cannam@154	110 celt_pitch_xcorr(x_ptr, x_ptr + 1, xcorr, subfr_length - D, D, arch );
cannam@154	111 for( n = 1; n < D + 1; n++ ) {
cannam@154	112 for ( i = n + subfr_length - D, d = 0; i < subfr_length; i++ )
cannam@154	113 d = MAC16_16( d, x_ptr[ i ], x_ptr[ i - n ] );
cannam@154	114 xcorr[ n - 1 ] += d;
cannam@154	115 }
cannam@154	116 for( n = 1; n < D + 1; n++ ) {
cannam@154	117 C_first_row[ n - 1 ] += silk_LSHIFT32( xcorr[ n - 1 ], -rshifts );
cannam@154	118 }
cannam@154	119 }
cannam@154	120 }
cannam@154	121 silk_memcpy( C_last_row, C_first_row, SILK_MAX_ORDER_LPC * sizeof( opus_int32 ) );
cannam@154	122
cannam@154	123 /* Initialize */
cannam@154	124 CAb[ 0 ] = CAf[ 0 ] = C0 + silk_SMMUL( SILK_FIX_CONST( FIND_LPC_COND_FAC, 32 ), C0 ) + 1; /* Q(-rshifts) */
cannam@154	125
cannam@154	126 invGain_Q30 = (opus_int32)1 << 30;
cannam@154	127 reached_max_gain = 0;
cannam@154	128 for( n = 0; n < D; n++ ) {
cannam@154	129 /* Update first row of correlation matrix (without first element) */
cannam@154	130 /* Update last row of correlation matrix (without last element, stored in reversed order) */
cannam@154	131 /* Update C * Af */
cannam@154	132 /* Update C * flipud(Af) (stored in reversed order) */
cannam@154	133 if( rshifts > -2 ) {
cannam@154	134 for( s = 0; s < nb_subfr; s++ ) {
cannam@154	135 x_ptr = x + s * subfr_length;
cannam@154	136 x1 = -silk_LSHIFT32( (opus_int32)x_ptr[ n ], 16 - rshifts ); /* Q(16-rshifts) */
cannam@154	137 x2 = -silk_LSHIFT32( (opus_int32)x_ptr[ subfr_length - n - 1 ], 16 - rshifts ); /* Q(16-rshifts) */
cannam@154	138 tmp1 = silk_LSHIFT32( (opus_int32)x_ptr[ n ], QA - 16 ); /* Q(QA-16) */
cannam@154	139 tmp2 = silk_LSHIFT32( (opus_int32)x_ptr[ subfr_length - n - 1 ], QA - 16 ); /* Q(QA-16) */
cannam@154	140 for( k = 0; k < n; k++ ) {
cannam@154	141 C_first_row[ k ] = silk_SMLAWB( C_first_row[ k ], x1, x_ptr[ n - k - 1 ] ); /* Q( -rshifts ) */
cannam@154	142 C_last_row[ k ] = silk_SMLAWB( C_last_row[ k ], x2, x_ptr[ subfr_length - n + k ] ); /* Q( -rshifts ) */
cannam@154	143 Atmp_QA = Af_QA[ k ];
cannam@154	144 tmp1 = silk_SMLAWB( tmp1, Atmp_QA, x_ptr[ n - k - 1 ] ); /* Q(QA-16) */
cannam@154	145 tmp2 = silk_SMLAWB( tmp2, Atmp_QA, x_ptr[ subfr_length - n + k ] ); /* Q(QA-16) */
cannam@154	146 }
cannam@154	147 tmp1 = silk_LSHIFT32( -tmp1, 32 - QA - rshifts ); /* Q(16-rshifts) */
cannam@154	148 tmp2 = silk_LSHIFT32( -tmp2, 32 - QA - rshifts ); /* Q(16-rshifts) */
cannam@154	149 for( k = 0; k <= n; k++ ) {
cannam@154	150 CAf[ k ] = silk_SMLAWB( CAf[ k ], tmp1, x_ptr[ n - k ] ); /* Q( -rshift ) */
cannam@154	151 CAb[ k ] = silk_SMLAWB( CAb[ k ], tmp2, x_ptr[ subfr_length - n + k - 1 ] ); /* Q( -rshift ) */
cannam@154	152 }
cannam@154	153 }
cannam@154	154 } else {
cannam@154	155 for( s = 0; s < nb_subfr; s++ ) {
cannam@154	156 x_ptr = x + s * subfr_length;
cannam@154	157 x1 = -silk_LSHIFT32( (opus_int32)x_ptr[ n ], -rshifts ); /* Q( -rshifts ) */
cannam@154	158 x2 = -silk_LSHIFT32( (opus_int32)x_ptr[ subfr_length - n - 1 ], -rshifts ); /* Q( -rshifts ) */
cannam@154	159 tmp1 = silk_LSHIFT32( (opus_int32)x_ptr[ n ], 17 ); /* Q17 */
cannam@154	160 tmp2 = silk_LSHIFT32( (opus_int32)x_ptr[ subfr_length - n - 1 ], 17 ); /* Q17 */
cannam@154	161
cannam@154	162 X1_3210 = _mm_set1_epi32( x1 );
cannam@154	163 X2_3210 = _mm_set1_epi32( x2 );
cannam@154	164 TMP1_3210 = _mm_setzero_si128();
cannam@154	165 TMP2_3210 = _mm_setzero_si128();
cannam@154	166 for( k = 0; k < n - 3; k += 4 ) {
cannam@154	167 PTR_3210 = OP_CVTEPI16_EPI32_M64( &x_ptr[ n - k - 1 - 3 ] );
cannam@154	168 SUBFR_3210 = OP_CVTEPI16_EPI32_M64( &x_ptr[ subfr_length - n + k ] );
cannam@154	169 FIRST_3210 = _mm_loadu_si128( (__m128i *)&C_first_row[ k ] );
cannam@154	170 PTR_3210 = _mm_shuffle_epi32( PTR_3210, _MM_SHUFFLE( 0, 1, 2, 3 ) );
cannam@154	171 LAST_3210 = _mm_loadu_si128( (__m128i *)&C_last_row[ k ] );
cannam@154	172 ATMP_3210 = _mm_loadu_si128( (__m128i *)&Af_QA[ k ] );
cannam@154	173
cannam@154	174 T1_3210 = _mm_mullo_epi32( PTR_3210, X1_3210 );
cannam@154	175 T2_3210 = _mm_mullo_epi32( SUBFR_3210, X2_3210 );
cannam@154	176
cannam@154	177 ATMP_3210 = _mm_srai_epi32( ATMP_3210, 7 );
cannam@154	178 ATMP_3210 = _mm_add_epi32( ATMP_3210, CONST1 );
cannam@154	179 ATMP_3210 = _mm_srai_epi32( ATMP_3210, 1 );
cannam@154	180
cannam@154	181 FIRST_3210 = _mm_add_epi32( FIRST_3210, T1_3210 );
cannam@154	182 LAST_3210 = _mm_add_epi32( LAST_3210, T2_3210 );
cannam@154	183
cannam@154	184 PTR_3210 = _mm_mullo_epi32( ATMP_3210, PTR_3210 );
cannam@154	185 SUBFR_3210 = _mm_mullo_epi32( ATMP_3210, SUBFR_3210 );
cannam@154	186
cannam@154	187 _mm_storeu_si128( (__m128i *)&C_first_row[ k ], FIRST_3210 );
cannam@154	188 _mm_storeu_si128( (__m128i *)&C_last_row[ k ], LAST_3210 );
cannam@154	189
cannam@154	190 TMP1_3210 = _mm_add_epi32( TMP1_3210, PTR_3210 );
cannam@154	191 TMP2_3210 = _mm_add_epi32( TMP2_3210, SUBFR_3210 );
cannam@154	192 }
cannam@154	193
cannam@154	194 TMP1_3210 = _mm_add_epi32( TMP1_3210, _mm_unpackhi_epi64(TMP1_3210, TMP1_3210 ) );
cannam@154	195 TMP2_3210 = _mm_add_epi32( TMP2_3210, _mm_unpackhi_epi64(TMP2_3210, TMP2_3210 ) );
cannam@154	196 TMP1_3210 = _mm_add_epi32( TMP1_3210, _mm_shufflelo_epi16(TMP1_3210, 0x0E ) );
cannam@154	197 TMP2_3210 = _mm_add_epi32( TMP2_3210, _mm_shufflelo_epi16(TMP2_3210, 0x0E ) );
cannam@154	198
cannam@154	199 tmp1 += _mm_cvtsi128_si32( TMP1_3210 );
cannam@154	200 tmp2 += _mm_cvtsi128_si32( TMP2_3210 );
cannam@154	201
cannam@154	202 for( ; k < n; k++ ) {
cannam@154	203 C_first_row[ k ] = silk_MLA( C_first_row[ k ], x1, x_ptr[ n - k - 1 ] ); /* Q( -rshifts ) */
cannam@154	204 C_last_row[ k ] = silk_MLA( C_last_row[ k ], x2, x_ptr[ subfr_length - n + k ] ); /* Q( -rshifts ) */
cannam@154	205 Atmp1 = silk_RSHIFT_ROUND( Af_QA[ k ], QA - 17 ); /* Q17 */
cannam@154	206 tmp1 = silk_MLA( tmp1, x_ptr[ n - k - 1 ], Atmp1 ); /* Q17 */
cannam@154	207 tmp2 = silk_MLA( tmp2, x_ptr[ subfr_length - n + k ], Atmp1 ); /* Q17 */
cannam@154	208 }
cannam@154	209
cannam@154	210 tmp1 = -tmp1; /* Q17 */
cannam@154	211 tmp2 = -tmp2; /* Q17 */
cannam@154	212
cannam@154	213 {
cannam@154	214 __m128i xmm_tmp1, xmm_tmp2;
cannam@154	215 __m128i xmm_x_ptr_n_k_x2x0, xmm_x_ptr_n_k_x3x1;
cannam@154	216 __m128i xmm_x_ptr_sub_x2x0, xmm_x_ptr_sub_x3x1;
cannam@154	217
cannam@154	218 xmm_tmp1 = _mm_set1_epi32( tmp1 );
cannam@154	219 xmm_tmp2 = _mm_set1_epi32( tmp2 );
cannam@154	220
cannam@154	221 for( k = 0; k <= n - 3; k += 4 ) {
cannam@154	222 xmm_x_ptr_n_k_x2x0 = OP_CVTEPI16_EPI32_M64( &x_ptr[ n - k - 3 ] );
cannam@154	223 xmm_x_ptr_sub_x2x0 = OP_CVTEPI16_EPI32_M64( &x_ptr[ subfr_length - n + k - 1 ] );
cannam@154	224
cannam@154	225 xmm_x_ptr_n_k_x2x0 = _mm_shuffle_epi32( xmm_x_ptr_n_k_x2x0, _MM_SHUFFLE( 0, 1, 2, 3 ) );
cannam@154	226
cannam@154	227 xmm_x_ptr_n_k_x2x0 = _mm_slli_epi32( xmm_x_ptr_n_k_x2x0, -rshifts - 1 );
cannam@154	228 xmm_x_ptr_sub_x2x0 = _mm_slli_epi32( xmm_x_ptr_sub_x2x0, -rshifts - 1 );
cannam@154	229
cannam@154	230 /* equal shift right 4 bytes, xmm_x_ptr_n_k_x3x1 = _mm_srli_si128(xmm_x_ptr_n_k_x2x0, 4)*/
cannam@154	231 xmm_x_ptr_n_k_x3x1 = _mm_shuffle_epi32( xmm_x_ptr_n_k_x2x0, _MM_SHUFFLE( 0, 3, 2, 1 ) );
cannam@154	232 xmm_x_ptr_sub_x3x1 = _mm_shuffle_epi32( xmm_x_ptr_sub_x2x0, _MM_SHUFFLE( 0, 3, 2, 1 ) );
cannam@154	233
cannam@154	234 xmm_x_ptr_n_k_x2x0 = _mm_mul_epi32( xmm_x_ptr_n_k_x2x0, xmm_tmp1 );
cannam@154	235 xmm_x_ptr_n_k_x3x1 = _mm_mul_epi32( xmm_x_ptr_n_k_x3x1, xmm_tmp1 );
cannam@154	236 xmm_x_ptr_sub_x2x0 = _mm_mul_epi32( xmm_x_ptr_sub_x2x0, xmm_tmp2 );
cannam@154	237 xmm_x_ptr_sub_x3x1 = _mm_mul_epi32( xmm_x_ptr_sub_x3x1, xmm_tmp2 );
cannam@154	238
cannam@154	239 xmm_x_ptr_n_k_x2x0 = _mm_srli_epi64( xmm_x_ptr_n_k_x2x0, 16 );
cannam@154	240 xmm_x_ptr_n_k_x3x1 = _mm_slli_epi64( xmm_x_ptr_n_k_x3x1, 16 );
cannam@154	241 xmm_x_ptr_sub_x2x0 = _mm_srli_epi64( xmm_x_ptr_sub_x2x0, 16 );
cannam@154	242 xmm_x_ptr_sub_x3x1 = _mm_slli_epi64( xmm_x_ptr_sub_x3x1, 16 );
cannam@154	243
cannam@154	244 xmm_x_ptr_n_k_x2x0 = _mm_blend_epi16( xmm_x_ptr_n_k_x2x0, xmm_x_ptr_n_k_x3x1, 0xCC );
cannam@154	245 xmm_x_ptr_sub_x2x0 = _mm_blend_epi16( xmm_x_ptr_sub_x2x0, xmm_x_ptr_sub_x3x1, 0xCC );
cannam@154	246
cannam@154	247 X1_3210 = _mm_loadu_si128( (__m128i *)&CAf[ k ] );
cannam@154	248 PTR_3210 = _mm_loadu_si128( (__m128i *)&CAb[ k ] );
cannam@154	249
cannam@154	250 X1_3210 = _mm_add_epi32( X1_3210, xmm_x_ptr_n_k_x2x0 );
cannam@154	251 PTR_3210 = _mm_add_epi32( PTR_3210, xmm_x_ptr_sub_x2x0 );
cannam@154	252
cannam@154	253 _mm_storeu_si128( (__m128i *)&CAf[ k ], X1_3210 );
cannam@154	254 _mm_storeu_si128( (__m128i *)&CAb[ k ], PTR_3210 );
cannam@154	255 }
cannam@154	256
cannam@154	257 for( ; k <= n; k++ ) {
cannam@154	258 CAf[ k ] = silk_SMLAWW( CAf[ k ], tmp1,
cannam@154	259 silk_LSHIFT32( (opus_int32)x_ptr[ n - k ], -rshifts - 1 ) ); /* Q( -rshift ) */
cannam@154	260 CAb[ k ] = silk_SMLAWW( CAb[ k ], tmp2,
cannam@154	261 silk_LSHIFT32( (opus_int32)x_ptr[ subfr_length - n + k - 1 ], -rshifts - 1 ) ); /* Q( -rshift ) */
cannam@154	262 }
cannam@154	263 }
cannam@154	264 }
cannam@154	265 }
cannam@154	266
cannam@154	267 /* Calculate nominator and denominator for the next order reflection (parcor) coefficient */
cannam@154	268 tmp1 = C_first_row[ n ]; /* Q( -rshifts ) */
cannam@154	269 tmp2 = C_last_row[ n ]; /* Q( -rshifts ) */
cannam@154	270 num = 0; /* Q( -rshifts ) */
cannam@154	271 nrg = silk_ADD32( CAb[ 0 ], CAf[ 0 ] ); /* Q( 1-rshifts ) */
cannam@154	272 for( k = 0; k < n; k++ ) {
cannam@154	273 Atmp_QA = Af_QA[ k ];
cannam@154	274 lz = silk_CLZ32( silk_abs( Atmp_QA ) ) - 1;
cannam@154	275 lz = silk_min( 32 - QA, lz );
cannam@154	276 Atmp1 = silk_LSHIFT32( Atmp_QA, lz ); /* Q( QA + lz ) */
cannam@154	277
cannam@154	278 tmp1 = silk_ADD_LSHIFT32( tmp1, silk_SMMUL( C_last_row[ n - k - 1 ], Atmp1 ), 32 - QA - lz ); /* Q( -rshifts ) */
cannam@154	279 tmp2 = silk_ADD_LSHIFT32( tmp2, silk_SMMUL( C_first_row[ n - k - 1 ], Atmp1 ), 32 - QA - lz ); /* Q( -rshifts ) */
cannam@154	280 num = silk_ADD_LSHIFT32( num, silk_SMMUL( CAb[ n - k ], Atmp1 ), 32 - QA - lz ); /* Q( -rshifts ) */
cannam@154	281 nrg = silk_ADD_LSHIFT32( nrg, silk_SMMUL( silk_ADD32( CAb[ k + 1 ], CAf[ k + 1 ] ),
cannam@154	282 Atmp1 ), 32 - QA - lz ); /* Q( 1-rshifts ) */
cannam@154	283 }
cannam@154	284 CAf[ n + 1 ] = tmp1; /* Q( -rshifts ) */
cannam@154	285 CAb[ n + 1 ] = tmp2; /* Q( -rshifts ) */
cannam@154	286 num = silk_ADD32( num, tmp2 ); /* Q( -rshifts ) */
cannam@154	287 num = silk_LSHIFT32( -num, 1 ); /* Q( 1-rshifts ) */
cannam@154	288
cannam@154	289 /* Calculate the next order reflection (parcor) coefficient */
cannam@154	290 if( silk_abs( num ) < nrg ) {
cannam@154	291 rc_Q31 = silk_DIV32_varQ( num, nrg, 31 );
cannam@154	292 } else {
cannam@154	293 rc_Q31 = ( num > 0 ) ? silk_int32_MAX : silk_int32_MIN;
cannam@154	294 }
cannam@154	295
cannam@154	296 /* Update inverse prediction gain */
cannam@154	297 tmp1 = ( (opus_int32)1 << 30 ) - silk_SMMUL( rc_Q31, rc_Q31 );
cannam@154	298 tmp1 = silk_LSHIFT( silk_SMMUL( invGain_Q30, tmp1 ), 2 );
cannam@154	299 if( tmp1 <= minInvGain_Q30 ) {
cannam@154	300 /* Max prediction gain exceeded; set reflection coefficient such that max prediction gain is exactly hit */
cannam@154	301 tmp2 = ( (opus_int32)1 << 30 ) - silk_DIV32_varQ( minInvGain_Q30, invGain_Q30, 30 ); /* Q30 */
cannam@154	302 rc_Q31 = silk_SQRT_APPROX( tmp2 ); /* Q15 */
cannam@154	303 if( rc_Q31 > 0 ) {
cannam@154	304 /* Newton-Raphson iteration */
cannam@154	305 rc_Q31 = silk_RSHIFT32( rc_Q31 + silk_DIV32( tmp2, rc_Q31 ), 1 ); /* Q15 */
cannam@154	306 rc_Q31 = silk_LSHIFT32( rc_Q31, 16 ); /* Q31 */
cannam@154	307 if( num < 0 ) {
cannam@154	308 /* Ensure adjusted reflection coefficients has the original sign */
cannam@154	309 rc_Q31 = -rc_Q31;
cannam@154	310 }
cannam@154	311 }
cannam@154	312 invGain_Q30 = minInvGain_Q30;
cannam@154	313 reached_max_gain = 1;
cannam@154	314 } else {
cannam@154	315 invGain_Q30 = tmp1;
cannam@154	316 }
cannam@154	317
cannam@154	318 /* Update the AR coefficients */
cannam@154	319 for( k = 0; k < (n + 1) >> 1; k++ ) {
cannam@154	320 tmp1 = Af_QA[ k ]; /* QA */
cannam@154	321 tmp2 = Af_QA[ n - k - 1 ]; /* QA */
cannam@154	322 Af_QA[ k ] = silk_ADD_LSHIFT32( tmp1, silk_SMMUL( tmp2, rc_Q31 ), 1 ); /* QA */
cannam@154	323 Af_QA[ n - k - 1 ] = silk_ADD_LSHIFT32( tmp2, silk_SMMUL( tmp1, rc_Q31 ), 1 ); /* QA */
cannam@154	324 }
cannam@154	325 Af_QA[ n ] = silk_RSHIFT32( rc_Q31, 31 - QA ); /* QA */
cannam@154	326
cannam@154	327 if( reached_max_gain ) {
cannam@154	328 /* Reached max prediction gain; set remaining coefficients to zero and exit loop */
cannam@154	329 for( k = n + 1; k < D; k++ ) {
cannam@154	330 Af_QA[ k ] = 0;
cannam@154	331 }
cannam@154	332 break;
cannam@154	333 }
cannam@154	334
cannam@154	335 /* Update C * Af and C * Ab */
cannam@154	336 for( k = 0; k <= n + 1; k++ ) {
cannam@154	337 tmp1 = CAf[ k ]; /* Q( -rshifts ) */
cannam@154	338 tmp2 = CAb[ n - k + 1 ]; /* Q( -rshifts ) */
cannam@154	339 CAf[ k ] = silk_ADD_LSHIFT32( tmp1, silk_SMMUL( tmp2, rc_Q31 ), 1 ); /* Q( -rshifts ) */
cannam@154	340 CAb[ n - k + 1 ] = silk_ADD_LSHIFT32( tmp2, silk_SMMUL( tmp1, rc_Q31 ), 1 ); /* Q( -rshifts ) */
cannam@154	341 }
cannam@154	342 }
cannam@154	343
cannam@154	344 if( reached_max_gain ) {
cannam@154	345 for( k = 0; k < D; k++ ) {
cannam@154	346 /* Scale coefficients */
cannam@154	347 A_Q16[ k ] = -silk_RSHIFT_ROUND( Af_QA[ k ], QA - 16 );
cannam@154	348 }
cannam@154	349 /* Subtract energy of preceding samples from C0 */
cannam@154	350 if( rshifts > 0 ) {
cannam@154	351 for( s = 0; s < nb_subfr; s++ ) {
cannam@154	352 x_ptr = x + s * subfr_length;
cannam@154	353 C0 -= (opus_int32)silk_RSHIFT64( silk_inner_prod16_aligned_64( x_ptr, x_ptr, D, arch ), rshifts );
cannam@154	354 }
cannam@154	355 } else {
cannam@154	356 for( s = 0; s < nb_subfr; s++ ) {
cannam@154	357 x_ptr = x + s * subfr_length;
cannam@154	358 C0 -= silk_LSHIFT32( silk_inner_prod_aligned( x_ptr, x_ptr, D, arch ), -rshifts );
cannam@154	359 }
cannam@154	360 }
cannam@154	361 /* Approximate residual energy */
cannam@154	362 *res_nrg = silk_LSHIFT( silk_SMMUL( invGain_Q30, C0 ), 2 );
cannam@154	363 *res_nrg_Q = -rshifts;
cannam@154	364 } else {
cannam@154	365 /* Return residual energy */
cannam@154	366 nrg = CAf[ 0 ]; /* Q( -rshifts ) */
cannam@154	367 tmp1 = (opus_int32)1 << 16; /* Q16 */
cannam@154	368 for( k = 0; k < D; k++ ) {
cannam@154	369 Atmp1 = silk_RSHIFT_ROUND( Af_QA[ k ], QA - 16 ); /* Q16 */
cannam@154	370 nrg = silk_SMLAWW( nrg, CAf[ k + 1 ], Atmp1 ); /* Q( -rshifts ) */
cannam@154	371 tmp1 = silk_SMLAWW( tmp1, Atmp1, Atmp1 ); /* Q16 */
cannam@154	372 A_Q16[ k ] = -Atmp1;
cannam@154	373 }
cannam@154	374 res_nrg = silk_SMLAWW( nrg, silk_SMMUL( SILK_FIX_CONST( FIND_LPC_COND_FAC, 32 ), C0 ), -tmp1 );/ Q( -rshifts ) */
cannam@154	375 *res_nrg_Q = -rshifts;
cannam@154	376 }
cannam@154	377 }

Mercurial > hg > sv-dependency-builds

annotate src/opus-1.3/silk/fixed/x86/burg_modified_FIX_sse4_1.c @ 169:223a55898ab9 tip default