cannam@154: /* Copyright (c) 2014, Cisco Systems, INC
cannam@154:    Written by XiangMingZhu WeiZhou MinPeng YanWang
cannam@154: 
cannam@154:    Redistribution and use in source and binary forms, with or without
cannam@154:    modification, are permitted provided that the following conditions
cannam@154:    are met:
cannam@154: 
cannam@154:    - Redistributions of source code must retain the above copyright
cannam@154:    notice, this list of conditions and the following disclaimer.
cannam@154: 
cannam@154:    - Redistributions in binary form must reproduce the above copyright
cannam@154:    notice, this list of conditions and the following disclaimer in the
cannam@154:    documentation and/or other materials provided with the distribution.
cannam@154: 
cannam@154:    THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS
cannam@154:    ``AS IS'' AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT
cannam@154:    LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR
cannam@154:    A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT OWNER
cannam@154:    OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL,
cannam@154:    EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO,
cannam@154:    PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR
cannam@154:    PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF
cannam@154:    LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT (INCLUDING
cannam@154:    NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF THIS
cannam@154:    SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
cannam@154: */
cannam@154: 
cannam@154: #ifndef MAIN_SSE_H
cannam@154: #define MAIN_SSE_H
cannam@154: 
cannam@154: #ifdef HAVE_CONFIG_H
cannam@154: #include "config.h"
cannam@154: #endif
cannam@154: 
cannam@154: # if defined(OPUS_X86_MAY_HAVE_SSE4_1)
cannam@154: 
cannam@154: #if 0 /* FIXME: SSE disabled until silk_VQ_WMat_EC_sse4_1() gets updated. */
cannam@154: #  define OVERRIDE_silk_VQ_WMat_EC
cannam@154: 
cannam@154: void silk_VQ_WMat_EC_sse4_1(
cannam@154:     opus_int8                   *ind,                           /* O    index of best codebook vector               */
cannam@154:     opus_int32                  *rate_dist_Q14,                 /* O    best weighted quant error + mu * rate       */
cannam@154:     opus_int                    *gain_Q7,                       /* O    sum of absolute LTP coefficients            */
cannam@154:     const opus_int16            *in_Q14,                        /* I    input vector to be quantized                */
cannam@154:     const opus_int32            *W_Q18,                         /* I    weighting matrix                            */
cannam@154:     const opus_int8             *cb_Q7,                         /* I    codebook                                    */
cannam@154:     const opus_uint8            *cb_gain_Q7,                    /* I    codebook effective gain                     */
cannam@154:     const opus_uint8            *cl_Q5,                         /* I    code length for each codebook vector        */
cannam@154:     const opus_int              mu_Q9,                          /* I    tradeoff betw. weighted error and rate      */
cannam@154:     const opus_int32            max_gain_Q7,                    /* I    maximum sum of absolute LTP coefficients    */
cannam@154:     opus_int                    L                               /* I    number of vectors in codebook               */
cannam@154: );
cannam@154: 
cannam@154: #if defined OPUS_X86_PRESUME_SSE4_1
cannam@154: 
cannam@154: #define silk_VQ_WMat_EC(ind, rate_dist_Q14, gain_Q7, in_Q14, W_Q18, cb_Q7, cb_gain_Q7, cl_Q5, \
cannam@154:                           mu_Q9, max_gain_Q7, L, arch) \
cannam@154:     ((void)(arch),silk_VQ_WMat_EC_sse4_1(ind, rate_dist_Q14, gain_Q7, in_Q14, W_Q18, cb_Q7, cb_gain_Q7, cl_Q5, \
cannam@154:                           mu_Q9, max_gain_Q7, L))
cannam@154: 
cannam@154: #else
cannam@154: 
cannam@154: extern void (*const SILK_VQ_WMAT_EC_IMPL[OPUS_ARCHMASK + 1])(
cannam@154:     opus_int8                   *ind,                           /* O    index of best codebook vector               */
cannam@154:     opus_int32                  *rate_dist_Q14,                 /* O    best weighted quant error + mu * rate       */
cannam@154:     opus_int                    *gain_Q7,                       /* O    sum of absolute LTP coefficients            */
cannam@154:     const opus_int16            *in_Q14,                        /* I    input vector to be quantized                */
cannam@154:     const opus_int32            *W_Q18,                         /* I    weighting matrix                            */
cannam@154:     const opus_int8             *cb_Q7,                         /* I    codebook                                    */
cannam@154:     const opus_uint8            *cb_gain_Q7,                    /* I    codebook effective gain                     */
cannam@154:     const opus_uint8            *cl_Q5,                         /* I    code length for each codebook vector        */
cannam@154:     const opus_int              mu_Q9,                          /* I    tradeoff betw. weighted error and rate      */
cannam@154:     const opus_int32            max_gain_Q7,                    /* I    maximum sum of absolute LTP coefficients    */
cannam@154:     opus_int                    L                               /* I    number of vectors in codebook               */
cannam@154: );
cannam@154: 
cannam@154: #  define silk_VQ_WMat_EC(ind, rate_dist_Q14, gain_Q7, in_Q14, W_Q18, cb_Q7, cb_gain_Q7, cl_Q5, \
cannam@154:                           mu_Q9, max_gain_Q7, L, arch) \
cannam@154:     ((*SILK_VQ_WMAT_EC_IMPL[(arch) & OPUS_ARCHMASK])(ind, rate_dist_Q14, gain_Q7, in_Q14, W_Q18, cb_Q7, cb_gain_Q7, cl_Q5, \
cannam@154:                           mu_Q9, max_gain_Q7, L))
cannam@154: 
cannam@154: #endif
cannam@154: #endif
cannam@154: 
cannam@154: #if 0 /* FIXME: SSE disabled until the NSQ code gets updated. */
cannam@154: #  define OVERRIDE_silk_NSQ
cannam@154: 
cannam@154: void silk_NSQ_sse4_1(
cannam@154:     const silk_encoder_state    *psEncC,                                    /* I    Encoder State                   */
cannam@154:     silk_nsq_state              *NSQ,                                       /* I/O  NSQ state                       */
cannam@154:     SideInfoIndices             *psIndices,                                 /* I/O  Quantization Indices            */
cannam@154:     const opus_int32            x_Q3[],                                     /* I    Prefiltered input signal        */
cannam@154:     opus_int8                   pulses[],                                   /* O    Quantized pulse signal          */
cannam@154:     const opus_int16            PredCoef_Q12[ 2 * MAX_LPC_ORDER ],          /* I    Short term prediction coefs     */
cannam@154:     const opus_int16            LTPCoef_Q14[ LTP_ORDER * MAX_NB_SUBFR ],    /* I    Long term prediction coefs      */
cannam@154:     const opus_int16            AR2_Q13[ MAX_NB_SUBFR * MAX_SHAPE_LPC_ORDER ], /* I Noise shaping coefs             */
cannam@154:     const opus_int              HarmShapeGain_Q14[ MAX_NB_SUBFR ],          /* I    Long term shaping coefs         */
cannam@154:     const opus_int              Tilt_Q14[ MAX_NB_SUBFR ],                   /* I    Spectral tilt                   */
cannam@154:     const opus_int32            LF_shp_Q14[ MAX_NB_SUBFR ],                 /* I    Low frequency shaping coefs     */
cannam@154:     const opus_int32            Gains_Q16[ MAX_NB_SUBFR ],                  /* I    Quantization step sizes         */
cannam@154:     const opus_int              pitchL[ MAX_NB_SUBFR ],                     /* I    Pitch lags                      */
cannam@154:     const opus_int              Lambda_Q10,                                 /* I    Rate/distortion tradeoff        */
cannam@154:     const opus_int              LTP_scale_Q14                               /* I    LTP state scaling               */
cannam@154: );
cannam@154: 
cannam@154: #if defined OPUS_X86_PRESUME_SSE4_1
cannam@154: 
cannam@154: #define silk_NSQ(psEncC, NSQ, psIndices, x_Q3, pulses, PredCoef_Q12, LTPCoef_Q14, AR2_Q13, \
cannam@154:                    HarmShapeGain_Q14, Tilt_Q14, LF_shp_Q14, Gains_Q16, pitchL, Lambda_Q10, LTP_scale_Q14, arch) \
cannam@154:     ((void)(arch),silk_NSQ_sse4_1(psEncC, NSQ, psIndices, x_Q3, pulses, PredCoef_Q12, LTPCoef_Q14, AR2_Q13, \
cannam@154:                    HarmShapeGain_Q14, Tilt_Q14, LF_shp_Q14, Gains_Q16, pitchL, Lambda_Q10, LTP_scale_Q14))
cannam@154: 
cannam@154: #else
cannam@154: 
cannam@154: extern void (*const SILK_NSQ_IMPL[OPUS_ARCHMASK + 1])(
cannam@154:     const silk_encoder_state    *psEncC,                                    /* I    Encoder State                   */
cannam@154:     silk_nsq_state              *NSQ,                                       /* I/O  NSQ state                       */
cannam@154:     SideInfoIndices             *psIndices,                                 /* I/O  Quantization Indices            */
cannam@154:     const opus_int32            x_Q3[],                                     /* I    Prefiltered input signal        */
cannam@154:     opus_int8                   pulses[],                                   /* O    Quantized pulse signal          */
cannam@154:     const opus_int16            PredCoef_Q12[ 2 * MAX_LPC_ORDER ],          /* I    Short term prediction coefs     */
cannam@154:     const opus_int16            LTPCoef_Q14[ LTP_ORDER * MAX_NB_SUBFR ],    /* I    Long term prediction coefs      */
cannam@154:     const opus_int16            AR2_Q13[ MAX_NB_SUBFR * MAX_SHAPE_LPC_ORDER ], /* I Noise shaping coefs             */
cannam@154:     const opus_int              HarmShapeGain_Q14[ MAX_NB_SUBFR ],          /* I    Long term shaping coefs         */
cannam@154:     const opus_int              Tilt_Q14[ MAX_NB_SUBFR ],                   /* I    Spectral tilt                   */
cannam@154:     const opus_int32            LF_shp_Q14[ MAX_NB_SUBFR ],                 /* I    Low frequency shaping coefs     */
cannam@154:     const opus_int32            Gains_Q16[ MAX_NB_SUBFR ],                  /* I    Quantization step sizes         */
cannam@154:     const opus_int              pitchL[ MAX_NB_SUBFR ],                     /* I    Pitch lags                      */
cannam@154:     const opus_int              Lambda_Q10,                                 /* I    Rate/distortion tradeoff        */
cannam@154:     const opus_int              LTP_scale_Q14                               /* I    LTP state scaling               */
cannam@154: );
cannam@154: 
cannam@154: #  define silk_NSQ(psEncC, NSQ, psIndices, x_Q3, pulses, PredCoef_Q12, LTPCoef_Q14, AR2_Q13, \
cannam@154:                    HarmShapeGain_Q14, Tilt_Q14, LF_shp_Q14, Gains_Q16, pitchL, Lambda_Q10, LTP_scale_Q14, arch) \
cannam@154:     ((*SILK_NSQ_IMPL[(arch) & OPUS_ARCHMASK])(psEncC, NSQ, psIndices, x_Q3, pulses, PredCoef_Q12, LTPCoef_Q14, AR2_Q13, \
cannam@154:                    HarmShapeGain_Q14, Tilt_Q14, LF_shp_Q14, Gains_Q16, pitchL, Lambda_Q10, LTP_scale_Q14))
cannam@154: 
cannam@154: #endif
cannam@154: 
cannam@154: #  define OVERRIDE_silk_NSQ_del_dec
cannam@154: 
cannam@154: void silk_NSQ_del_dec_sse4_1(
cannam@154:     const silk_encoder_state    *psEncC,                                    /* I    Encoder State                   */
cannam@154:     silk_nsq_state              *NSQ,                                       /* I/O  NSQ state                       */
cannam@154:     SideInfoIndices             *psIndices,                                 /* I/O  Quantization Indices            */
cannam@154:     const opus_int32            x_Q3[],                                     /* I    Prefiltered input signal        */
cannam@154:     opus_int8                   pulses[],                                   /* O    Quantized pulse signal          */
cannam@154:     const opus_int16            PredCoef_Q12[ 2 * MAX_LPC_ORDER ],          /* I    Short term prediction coefs     */
cannam@154:     const opus_int16            LTPCoef_Q14[ LTP_ORDER * MAX_NB_SUBFR ],    /* I    Long term prediction coefs      */
cannam@154:     const opus_int16            AR2_Q13[ MAX_NB_SUBFR * MAX_SHAPE_LPC_ORDER ], /* I Noise shaping coefs             */
cannam@154:     const opus_int              HarmShapeGain_Q14[ MAX_NB_SUBFR ],          /* I    Long term shaping coefs         */
cannam@154:     const opus_int              Tilt_Q14[ MAX_NB_SUBFR ],                   /* I    Spectral tilt                   */
cannam@154:     const opus_int32            LF_shp_Q14[ MAX_NB_SUBFR ],                 /* I    Low frequency shaping coefs     */
cannam@154:     const opus_int32            Gains_Q16[ MAX_NB_SUBFR ],                  /* I    Quantization step sizes         */
cannam@154:     const opus_int              pitchL[ MAX_NB_SUBFR ],                     /* I    Pitch lags                      */
cannam@154:     const opus_int              Lambda_Q10,                                 /* I    Rate/distortion tradeoff        */
cannam@154:     const opus_int              LTP_scale_Q14                               /* I    LTP state scaling               */
cannam@154: );
cannam@154: 
cannam@154: #if defined OPUS_X86_PRESUME_SSE4_1
cannam@154: 
cannam@154: #define silk_NSQ_del_dec(psEncC, NSQ, psIndices, x_Q3, pulses, PredCoef_Q12, LTPCoef_Q14, AR2_Q13, \
cannam@154:                            HarmShapeGain_Q14, Tilt_Q14, LF_shp_Q14, Gains_Q16, pitchL, Lambda_Q10, LTP_scale_Q14, arch) \
cannam@154:     ((void)(arch),silk_NSQ_del_dec_sse4_1(psEncC, NSQ, psIndices, x_Q3, pulses, PredCoef_Q12, LTPCoef_Q14, AR2_Q13, \
cannam@154:                            HarmShapeGain_Q14, Tilt_Q14, LF_shp_Q14, Gains_Q16, pitchL, Lambda_Q10, LTP_scale_Q14))
cannam@154: 
cannam@154: #else
cannam@154: 
cannam@154: extern void (*const SILK_NSQ_DEL_DEC_IMPL[OPUS_ARCHMASK + 1])(
cannam@154:     const silk_encoder_state    *psEncC,                                    /* I    Encoder State                   */
cannam@154:     silk_nsq_state              *NSQ,                                       /* I/O  NSQ state                       */
cannam@154:     SideInfoIndices             *psIndices,                                 /* I/O  Quantization Indices            */
cannam@154:     const opus_int32            x_Q3[],                                     /* I    Prefiltered input signal        */
cannam@154:     opus_int8                   pulses[],                                   /* O    Quantized pulse signal          */
cannam@154:     const opus_int16            PredCoef_Q12[ 2 * MAX_LPC_ORDER ],          /* I    Short term prediction coefs     */
cannam@154:     const opus_int16            LTPCoef_Q14[ LTP_ORDER * MAX_NB_SUBFR ],    /* I    Long term prediction coefs      */
cannam@154:     const opus_int16            AR2_Q13[ MAX_NB_SUBFR * MAX_SHAPE_LPC_ORDER ], /* I Noise shaping coefs             */
cannam@154:     const opus_int              HarmShapeGain_Q14[ MAX_NB_SUBFR ],          /* I    Long term shaping coefs         */
cannam@154:     const opus_int              Tilt_Q14[ MAX_NB_SUBFR ],                   /* I    Spectral tilt                   */
cannam@154:     const opus_int32            LF_shp_Q14[ MAX_NB_SUBFR ],                 /* I    Low frequency shaping coefs     */
cannam@154:     const opus_int32            Gains_Q16[ MAX_NB_SUBFR ],                  /* I    Quantization step sizes         */
cannam@154:     const opus_int              pitchL[ MAX_NB_SUBFR ],                     /* I    Pitch lags                      */
cannam@154:     const opus_int              Lambda_Q10,                                 /* I    Rate/distortion tradeoff        */
cannam@154:     const opus_int              LTP_scale_Q14                               /* I    LTP state scaling               */
cannam@154: );
cannam@154: 
cannam@154: #  define silk_NSQ_del_dec(psEncC, NSQ, psIndices, x_Q3, pulses, PredCoef_Q12, LTPCoef_Q14, AR2_Q13, \
cannam@154:                            HarmShapeGain_Q14, Tilt_Q14, LF_shp_Q14, Gains_Q16, pitchL, Lambda_Q10, LTP_scale_Q14, arch) \
cannam@154:     ((*SILK_NSQ_DEL_DEC_IMPL[(arch) & OPUS_ARCHMASK])(psEncC, NSQ, psIndices, x_Q3, pulses, PredCoef_Q12, LTPCoef_Q14, AR2_Q13, \
cannam@154:                            HarmShapeGain_Q14, Tilt_Q14, LF_shp_Q14, Gains_Q16, pitchL, Lambda_Q10, LTP_scale_Q14))
cannam@154: 
cannam@154: #endif
cannam@154: #endif
cannam@154: 
cannam@154: void silk_noise_shape_quantizer(
cannam@154:     silk_nsq_state      *NSQ,                   /* I/O  NSQ state                       */
cannam@154:     opus_int            signalType,             /* I    Signal type                     */
cannam@154:     const opus_int32    x_sc_Q10[],             /* I                                    */
cannam@154:     opus_int8           pulses[],               /* O                                    */
cannam@154:     opus_int16          xq[],                   /* O                                    */
cannam@154:     opus_int32          sLTP_Q15[],             /* I/O  LTP state                       */
cannam@154:     const opus_int16    a_Q12[],                /* I    Short term prediction coefs     */
cannam@154:     const opus_int16    b_Q14[],                /* I    Long term prediction coefs      */
cannam@154:     const opus_int16    AR_shp_Q13[],           /* I    Noise shaping AR coefs          */
cannam@154:     opus_int            lag,                    /* I    Pitch lag                       */
cannam@154:     opus_int32          HarmShapeFIRPacked_Q14, /* I                                    */
cannam@154:     opus_int            Tilt_Q14,               /* I    Spectral tilt                   */
cannam@154:     opus_int32          LF_shp_Q14,             /* I                                    */
cannam@154:     opus_int32          Gain_Q16,               /* I                                    */
cannam@154:     opus_int            Lambda_Q10,             /* I                                    */
cannam@154:     opus_int            offset_Q10,             /* I                                    */
cannam@154:     opus_int            length,                 /* I    Input length                    */
cannam@154:     opus_int            shapingLPCOrder,        /* I    Noise shaping AR filter order   */
cannam@154:     opus_int            predictLPCOrder,        /* I    Prediction filter order         */
cannam@154:     int                 arch                    /* I    Architecture                    */
cannam@154: );
cannam@154: 
cannam@154: /**************************/
cannam@154: /* Noise level estimation */
cannam@154: /**************************/
cannam@154: void silk_VAD_GetNoiseLevels(
cannam@154:     const opus_int32            pX[ VAD_N_BANDS ],  /* I    subband energies                            */
cannam@154:     silk_VAD_state              *psSilk_VAD         /* I/O  Pointer to Silk VAD state                   */
cannam@154: );
cannam@154: 
cannam@154: #  define OVERRIDE_silk_VAD_GetSA_Q8
cannam@154: 
cannam@154: opus_int silk_VAD_GetSA_Q8_sse4_1(
cannam@154:     silk_encoder_state *psEnC,
cannam@154:     const opus_int16   pIn[]
cannam@154: );
cannam@154: 
cannam@154: #if defined(OPUS_X86_PRESUME_SSE4_1)
cannam@154: #define silk_VAD_GetSA_Q8(psEnC, pIn, arch) ((void)(arch),silk_VAD_GetSA_Q8_sse4_1(psEnC, pIn))
cannam@154: 
cannam@154: #else
cannam@154: 
cannam@154: #  define silk_VAD_GetSA_Q8(psEnC, pIn, arch) \
cannam@154:      ((*SILK_VAD_GETSA_Q8_IMPL[(arch) & OPUS_ARCHMASK])(psEnC, pIn))
cannam@154: 
cannam@154: extern opus_int (*const SILK_VAD_GETSA_Q8_IMPL[OPUS_ARCHMASK + 1])(
cannam@154:      silk_encoder_state *psEnC,
cannam@154:      const opus_int16   pIn[]);
cannam@154: 
cannam@154: #endif
cannam@154: 
cannam@154: # endif
cannam@154: #endif