pmhd: ffmpeg/libavcodec/h264pred

annotate ffmpeg/libavcodec/h264pred_template.c @ 13:844d341cf643 tip

Back up before ISMIR

author	Yading Song <yading.song@eecs.qmul.ac.uk>
date	Thu, 31 Oct 2013 13:17:06 +0000
parents	6840f77b83aa
children

rev	line source
yading@10	1 /*
yading@10	2 * H.26L/H.264/AVC/JVT/14496-10/... encoder/decoder
yading@10	3 * Copyright (c) 2003-2011 Michael Niedermayer <michaelni@gmx.at>
yading@10	4 *
yading@10	5 * This file is part of FFmpeg.
yading@10	6 *
yading@10	7 * FFmpeg is free software; you can redistribute it and/or
yading@10	8 * modify it under the terms of the GNU Lesser General Public
yading@10	9 * License as published by the Free Software Foundation; either
yading@10	10 * version 2.1 of the License, or (at your option) any later version.
yading@10	11 *
yading@10	12 * FFmpeg is distributed in the hope that it will be useful,
yading@10	13 * but WITHOUT ANY WARRANTY; without even the implied warranty of
yading@10	14 * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU
yading@10	15 * Lesser General Public License for more details.
yading@10	16 *
yading@10	17 * You should have received a copy of the GNU Lesser General Public
yading@10	18 * License along with FFmpeg; if not, write to the Free Software
yading@10	19 * Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
yading@10	20 */
yading@10	21
yading@10	22 /**
yading@10	23 * @file
yading@10	24 * H.264 / AVC / MPEG4 part10 prediction functions.
yading@10	25 * @author Michael Niedermayer <michaelni@gmx.at>
yading@10	26 */
yading@10	27
yading@10	28 #include "mathops.h"
yading@10	29
yading@10	30 #include "bit_depth_template.c"
yading@10	31
yading@10	32 static void FUNCC(pred4x4_vertical)(uint8_t _src, const uint8_t topright,
yading@10	33 ptrdiff_t _stride)
yading@10	34 {
yading@10	35 pixel src = (pixel)_src;
yading@10	36 int stride = _stride>>(sizeof(pixel)-1);
yading@10	37 const pixel4 a= AV_RN4PA(src-stride);
yading@10	38
yading@10	39 AV_WN4PA(src+0*stride, a);
yading@10	40 AV_WN4PA(src+1*stride, a);
yading@10	41 AV_WN4PA(src+2*stride, a);
yading@10	42 AV_WN4PA(src+3*stride, a);
yading@10	43 }
yading@10	44
yading@10	45 static void FUNCC(pred4x4_horizontal)(uint8_t _src, const uint8_t topright,
yading@10	46 ptrdiff_t _stride)
yading@10	47 {
yading@10	48 pixel src = (pixel)_src;
yading@10	49 int stride = _stride>>(sizeof(pixel)-1);
yading@10	50 AV_WN4PA(src+0stride, PIXEL_SPLAT_X4(src[-1+0stride]));
yading@10	51 AV_WN4PA(src+1stride, PIXEL_SPLAT_X4(src[-1+1stride]));
yading@10	52 AV_WN4PA(src+2stride, PIXEL_SPLAT_X4(src[-1+2stride]));
yading@10	53 AV_WN4PA(src+3stride, PIXEL_SPLAT_X4(src[-1+3stride]));
yading@10	54 }
yading@10	55
yading@10	56 static void FUNCC(pred4x4_dc)(uint8_t _src, const uint8_t topright,
yading@10	57 ptrdiff_t _stride)
yading@10	58 {
yading@10	59 pixel src = (pixel)_src;
yading@10	60 int stride = _stride>>(sizeof(pixel)-1);
yading@10	61 const int dc= ( src[-stride] + src[1-stride] + src[2-stride] + src[3-stride]
yading@10	62 + src[-1+0stride] + src[-1+1stride] + src[-1+2stride] + src[-1+3stride] + 4) >>3;
yading@10	63 const pixel4 a = PIXEL_SPLAT_X4(dc);
yading@10	64
yading@10	65 AV_WN4PA(src+0*stride, a);
yading@10	66 AV_WN4PA(src+1*stride, a);
yading@10	67 AV_WN4PA(src+2*stride, a);
yading@10	68 AV_WN4PA(src+3*stride, a);
yading@10	69 }
yading@10	70
yading@10	71 static void FUNCC(pred4x4_left_dc)(uint8_t _src, const uint8_t topright,
yading@10	72 ptrdiff_t _stride)
yading@10	73 {
yading@10	74 pixel src = (pixel)_src;
yading@10	75 int stride = _stride>>(sizeof(pixel)-1);
yading@10	76 const int dc= ( src[-1+0stride] + src[-1+1stride] + src[-1+2stride] + src[-1+3stride] + 2) >>2;
yading@10	77 const pixel4 a = PIXEL_SPLAT_X4(dc);
yading@10	78
yading@10	79 AV_WN4PA(src+0*stride, a);
yading@10	80 AV_WN4PA(src+1*stride, a);
yading@10	81 AV_WN4PA(src+2*stride, a);
yading@10	82 AV_WN4PA(src+3*stride, a);
yading@10	83 }
yading@10	84
yading@10	85 static void FUNCC(pred4x4_top_dc)(uint8_t _src, const uint8_t topright,
yading@10	86 ptrdiff_t _stride)
yading@10	87 {
yading@10	88 pixel src = (pixel)_src;
yading@10	89 int stride = _stride>>(sizeof(pixel)-1);
yading@10	90 const int dc= ( src[-stride] + src[1-stride] + src[2-stride] + src[3-stride] + 2) >>2;
yading@10	91 const pixel4 a = PIXEL_SPLAT_X4(dc);
yading@10	92
yading@10	93 AV_WN4PA(src+0*stride, a);
yading@10	94 AV_WN4PA(src+1*stride, a);
yading@10	95 AV_WN4PA(src+2*stride, a);
yading@10	96 AV_WN4PA(src+3*stride, a);
yading@10	97 }
yading@10	98
yading@10	99 static void FUNCC(pred4x4_128_dc)(uint8_t _src, const uint8_t topright,
yading@10	100 ptrdiff_t _stride)
yading@10	101 {
yading@10	102 pixel src = (pixel)_src;
yading@10	103 int stride = _stride>>(sizeof(pixel)-1);
yading@10	104 const pixel4 a = PIXEL_SPLAT_X4(1<<(BIT_DEPTH-1));
yading@10	105
yading@10	106 AV_WN4PA(src+0*stride, a);
yading@10	107 AV_WN4PA(src+1*stride, a);
yading@10	108 AV_WN4PA(src+2*stride, a);
yading@10	109 AV_WN4PA(src+3*stride, a);
yading@10	110 }
yading@10	111
yading@10	112 static void FUNCC(pred4x4_127_dc)(uint8_t _src, const uint8_t topright,
yading@10	113 ptrdiff_t _stride)
yading@10	114 {
yading@10	115 pixel src = (pixel)_src;
yading@10	116 int stride = _stride>>(sizeof(pixel)-1);
yading@10	117 const pixel4 a = PIXEL_SPLAT_X4((1<<(BIT_DEPTH-1))-1);
yading@10	118
yading@10	119 AV_WN4PA(src+0*stride, a);
yading@10	120 AV_WN4PA(src+1*stride, a);
yading@10	121 AV_WN4PA(src+2*stride, a);
yading@10	122 AV_WN4PA(src+3*stride, a);
yading@10	123 }
yading@10	124
yading@10	125 static void FUNCC(pred4x4_129_dc)(uint8_t _src, const uint8_t topright,
yading@10	126 ptrdiff_t _stride)
yading@10	127 {
yading@10	128 pixel src = (pixel)_src;
yading@10	129 int stride = _stride>>(sizeof(pixel)-1);
yading@10	130 const pixel4 a = PIXEL_SPLAT_X4((1<<(BIT_DEPTH-1))+1);
yading@10	131
yading@10	132 AV_WN4PA(src+0*stride, a);
yading@10	133 AV_WN4PA(src+1*stride, a);
yading@10	134 AV_WN4PA(src+2*stride, a);
yading@10	135 AV_WN4PA(src+3*stride, a);
yading@10	136 }
yading@10	137
yading@10	138
yading@10	139 #define LOAD_TOP_RIGHT_EDGE\
yading@10	140 const unsigned av_unused t4 = topright[0];\
yading@10	141 const unsigned av_unused t5 = topright[1];\
yading@10	142 const unsigned av_unused t6 = topright[2];\
yading@10	143 const unsigned av_unused t7 = topright[3];\
yading@10	144
yading@10	145 #define LOAD_DOWN_LEFT_EDGE\
yading@10	146 const unsigned av_unused l4 = src[-1+4*stride];\
yading@10	147 const unsigned av_unused l5 = src[-1+5*stride];\
yading@10	148 const unsigned av_unused l6 = src[-1+6*stride];\
yading@10	149 const unsigned av_unused l7 = src[-1+7*stride];\
yading@10	150
yading@10	151 #define LOAD_LEFT_EDGE\
yading@10	152 const unsigned av_unused l0 = src[-1+0*stride];\
yading@10	153 const unsigned av_unused l1 = src[-1+1*stride];\
yading@10	154 const unsigned av_unused l2 = src[-1+2*stride];\
yading@10	155 const unsigned av_unused l3 = src[-1+3*stride];\
yading@10	156
yading@10	157 #define LOAD_TOP_EDGE\
yading@10	158 const unsigned av_unused t0 = src[ 0-1*stride];\
yading@10	159 const unsigned av_unused t1 = src[ 1-1*stride];\
yading@10	160 const unsigned av_unused t2 = src[ 2-1*stride];\
yading@10	161 const unsigned av_unused t3 = src[ 3-1*stride];\
yading@10	162
yading@10	163 static void FUNCC(pred4x4_down_right)(uint8_t _src, const uint8_t topright,
yading@10	164 ptrdiff_t _stride)
yading@10	165 {
yading@10	166 pixel src = (pixel)_src;
yading@10	167 int stride = _stride>>(sizeof(pixel)-1);
yading@10	168 const int lt= src[-1-1*stride];
yading@10	169 LOAD_TOP_EDGE
yading@10	170 LOAD_LEFT_EDGE
yading@10	171
yading@10	172 src[0+3stride]=(l3 + 2l2 + l1 + 2)>>2;
yading@10	173 src[0+2*stride]=
yading@10	174 src[1+3stride]=(l2 + 2l1 + l0 + 2)>>2;
yading@10	175 src[0+1*stride]=
yading@10	176 src[1+2*stride]=
yading@10	177 src[2+3stride]=(l1 + 2l0 + lt + 2)>>2;
yading@10	178 src[0+0*stride]=
yading@10	179 src[1+1*stride]=
yading@10	180 src[2+2*stride]=
yading@10	181 src[3+3stride]=(l0 + 2lt + t0 + 2)>>2;
yading@10	182 src[1+0*stride]=
yading@10	183 src[2+1*stride]=
yading@10	184 src[3+2stride]=(lt + 2t0 + t1 + 2)>>2;
yading@10	185 src[2+0*stride]=
yading@10	186 src[3+1stride]=(t0 + 2t1 + t2 + 2)>>2;
yading@10	187 src[3+0stride]=(t1 + 2t2 + t3 + 2)>>2;
yading@10	188 }
yading@10	189
yading@10	190 static void FUNCC(pred4x4_down_left)(uint8_t _src, const uint8_t _topright,
yading@10	191 ptrdiff_t _stride)
yading@10	192 {
yading@10	193 pixel src = (pixel)_src;
yading@10	194 const pixel topright = (const pixel)_topright;
yading@10	195 int stride = _stride>>(sizeof(pixel)-1);
yading@10	196 LOAD_TOP_EDGE
yading@10	197 LOAD_TOP_RIGHT_EDGE
yading@10	198 // LOAD_LEFT_EDGE
yading@10	199
yading@10	200 src[0+0stride]=(t0 + t2 + 2t1 + 2)>>2;
yading@10	201 src[1+0*stride]=
yading@10	202 src[0+1stride]=(t1 + t3 + 2t2 + 2)>>2;
yading@10	203 src[2+0*stride]=
yading@10	204 src[1+1*stride]=
yading@10	205 src[0+2stride]=(t2 + t4 + 2t3 + 2)>>2;
yading@10	206 src[3+0*stride]=
yading@10	207 src[2+1*stride]=
yading@10	208 src[1+2*stride]=
yading@10	209 src[0+3stride]=(t3 + t5 + 2t4 + 2)>>2;
yading@10	210 src[3+1*stride]=
yading@10	211 src[2+2*stride]=
yading@10	212 src[1+3stride]=(t4 + t6 + 2t5 + 2)>>2;
yading@10	213 src[3+2*stride]=
yading@10	214 src[2+3stride]=(t5 + t7 + 2t6 + 2)>>2;
yading@10	215 src[3+3stride]=(t6 + 3t7 + 2)>>2;
yading@10	216 }
yading@10	217
yading@10	218 static void FUNCC(pred4x4_vertical_right)(uint8_t *_src,
yading@10	219 const uint8_t *topright,
yading@10	220 ptrdiff_t _stride)
yading@10	221 {
yading@10	222 pixel src = (pixel)_src;
yading@10	223 int stride = _stride>>(sizeof(pixel)-1);
yading@10	224 const int lt= src[-1-1*stride];
yading@10	225 LOAD_TOP_EDGE
yading@10	226 LOAD_LEFT_EDGE
yading@10	227
yading@10	228 src[0+0*stride]=
yading@10	229 src[1+2*stride]=(lt + t0 + 1)>>1;
yading@10	230 src[1+0*stride]=
yading@10	231 src[2+2*stride]=(t0 + t1 + 1)>>1;
yading@10	232 src[2+0*stride]=
yading@10	233 src[3+2*stride]=(t1 + t2 + 1)>>1;
yading@10	234 src[3+0*stride]=(t2 + t3 + 1)>>1;
yading@10	235 src[0+1*stride]=
yading@10	236 src[1+3stride]=(l0 + 2lt + t0 + 2)>>2;
yading@10	237 src[1+1*stride]=
yading@10	238 src[2+3stride]=(lt + 2t0 + t1 + 2)>>2;
yading@10	239 src[2+1*stride]=
yading@10	240 src[3+3stride]=(t0 + 2t1 + t2 + 2)>>2;
yading@10	241 src[3+1stride]=(t1 + 2t2 + t3 + 2)>>2;
yading@10	242 src[0+2stride]=(lt + 2l0 + l1 + 2)>>2;
yading@10	243 src[0+3stride]=(l0 + 2l1 + l2 + 2)>>2;
yading@10	244 }
yading@10	245
yading@10	246 static void FUNCC(pred4x4_vertical_left)(uint8_t *_src,
yading@10	247 const uint8_t *_topright,
yading@10	248 ptrdiff_t _stride)
yading@10	249 {
yading@10	250 pixel src = (pixel)_src;
yading@10	251 const pixel topright = (const pixel)_topright;
yading@10	252 int stride = _stride>>(sizeof(pixel)-1);
yading@10	253 LOAD_TOP_EDGE
yading@10	254 LOAD_TOP_RIGHT_EDGE
yading@10	255
yading@10	256 src[0+0*stride]=(t0 + t1 + 1)>>1;
yading@10	257 src[1+0*stride]=
yading@10	258 src[0+2*stride]=(t1 + t2 + 1)>>1;
yading@10	259 src[2+0*stride]=
yading@10	260 src[1+2*stride]=(t2 + t3 + 1)>>1;
yading@10	261 src[3+0*stride]=
yading@10	262 src[2+2*stride]=(t3 + t4+ 1)>>1;
yading@10	263 src[3+2*stride]=(t4 + t5+ 1)>>1;
yading@10	264 src[0+1stride]=(t0 + 2t1 + t2 + 2)>>2;
yading@10	265 src[1+1*stride]=
yading@10	266 src[0+3stride]=(t1 + 2t2 + t3 + 2)>>2;
yading@10	267 src[2+1*stride]=
yading@10	268 src[1+3stride]=(t2 + 2t3 + t4 + 2)>>2;
yading@10	269 src[3+1*stride]=
yading@10	270 src[2+3stride]=(t3 + 2t4 + t5 + 2)>>2;
yading@10	271 src[3+3stride]=(t4 + 2t5 + t6 + 2)>>2;
yading@10	272 }
yading@10	273
yading@10	274 static void FUNCC(pred4x4_horizontal_up)(uint8_t _src, const uint8_t topright,
yading@10	275 ptrdiff_t _stride)
yading@10	276 {
yading@10	277 pixel src = (pixel)_src;
yading@10	278 int stride = _stride>>(sizeof(pixel)-1);
yading@10	279 LOAD_LEFT_EDGE
yading@10	280
yading@10	281 src[0+0*stride]=(l0 + l1 + 1)>>1;
yading@10	282 src[1+0stride]=(l0 + 2l1 + l2 + 2)>>2;
yading@10	283 src[2+0*stride]=
yading@10	284 src[0+1*stride]=(l1 + l2 + 1)>>1;
yading@10	285 src[3+0*stride]=
yading@10	286 src[1+1stride]=(l1 + 2l2 + l3 + 2)>>2;
yading@10	287 src[2+1*stride]=
yading@10	288 src[0+2*stride]=(l2 + l3 + 1)>>1;
yading@10	289 src[3+1*stride]=
yading@10	290 src[1+2stride]=(l2 + 2l3 + l3 + 2)>>2;
yading@10	291 src[3+2*stride]=
yading@10	292 src[1+3*stride]=
yading@10	293 src[0+3*stride]=
yading@10	294 src[2+2*stride]=
yading@10	295 src[2+3*stride]=
yading@10	296 src[3+3*stride]=l3;
yading@10	297 }
yading@10	298
yading@10	299 static void FUNCC(pred4x4_horizontal_down)(uint8_t *_src,
yading@10	300 const uint8_t *topright,
yading@10	301 ptrdiff_t _stride)
yading@10	302 {
yading@10	303 pixel src = (pixel)_src;
yading@10	304 int stride = _stride>>(sizeof(pixel)-1);
yading@10	305 const int lt= src[-1-1*stride];
yading@10	306 LOAD_TOP_EDGE
yading@10	307 LOAD_LEFT_EDGE
yading@10	308
yading@10	309 src[0+0*stride]=
yading@10	310 src[2+1*stride]=(lt + l0 + 1)>>1;
yading@10	311 src[1+0*stride]=
yading@10	312 src[3+1stride]=(l0 + 2lt + t0 + 2)>>2;
yading@10	313 src[2+0stride]=(lt + 2t0 + t1 + 2)>>2;
yading@10	314 src[3+0stride]=(t0 + 2t1 + t2 + 2)>>2;
yading@10	315 src[0+1*stride]=
yading@10	316 src[2+2*stride]=(l0 + l1 + 1)>>1;
yading@10	317 src[1+1*stride]=
yading@10	318 src[3+2stride]=(lt + 2l0 + l1 + 2)>>2;
yading@10	319 src[0+2*stride]=
yading@10	320 src[2+3*stride]=(l1 + l2+ 1)>>1;
yading@10	321 src[1+2*stride]=
yading@10	322 src[3+3stride]=(l0 + 2l1 + l2 + 2)>>2;
yading@10	323 src[0+3*stride]=(l2 + l3 + 1)>>1;
yading@10	324 src[1+3stride]=(l1 + 2l2 + l3 + 2)>>2;
yading@10	325 }
yading@10	326
yading@10	327 static void FUNCC(pred16x16_vertical)(uint8_t *_src, ptrdiff_t _stride)
yading@10	328 {
yading@10	329 int i;
yading@10	330 pixel src = (pixel)_src;
yading@10	331 int stride = _stride>>(sizeof(pixel)-1);
yading@10	332 const pixel4 a = AV_RN4PA(((pixel4*)(src-stride))+0);
yading@10	333 const pixel4 b = AV_RN4PA(((pixel4*)(src-stride))+1);
yading@10	334 const pixel4 c = AV_RN4PA(((pixel4*)(src-stride))+2);
yading@10	335 const pixel4 d = AV_RN4PA(((pixel4*)(src-stride))+3);
yading@10	336
yading@10	337 for(i=0; i<16; i++){
yading@10	338 AV_WN4PA(((pixel4)(src+istride))+0, a);
yading@10	339 AV_WN4PA(((pixel4)(src+istride))+1, b);
yading@10	340 AV_WN4PA(((pixel4)(src+istride))+2, c);
yading@10	341 AV_WN4PA(((pixel4)(src+istride))+3, d);
yading@10	342 }
yading@10	343 }
yading@10	344
yading@10	345 static void FUNCC(pred16x16_horizontal)(uint8_t *_src, ptrdiff_t stride)
yading@10	346 {
yading@10	347 int i;
yading@10	348 pixel src = (pixel)_src;
yading@10	349 stride >>= sizeof(pixel)-1;
yading@10	350
yading@10	351 for(i=0; i<16; i++){
yading@10	352 const pixel4 a = PIXEL_SPLAT_X4(src[-1+i*stride]);
yading@10	353
yading@10	354 AV_WN4PA(((pixel4)(src+istride))+0, a);
yading@10	355 AV_WN4PA(((pixel4)(src+istride))+1, a);
yading@10	356 AV_WN4PA(((pixel4)(src+istride))+2, a);
yading@10	357 AV_WN4PA(((pixel4)(src+istride))+3, a);
yading@10	358 }
yading@10	359 }
yading@10	360
yading@10	361 #define PREDICT_16x16_DC(v)\
yading@10	362 for(i=0; i<16; i++){\
yading@10	363 AV_WN4PA(src+ 0, v);\
yading@10	364 AV_WN4PA(src+ 4, v);\
yading@10	365 AV_WN4PA(src+ 8, v);\
yading@10	366 AV_WN4PA(src+12, v);\
yading@10	367 src += stride;\
yading@10	368 }
yading@10	369
yading@10	370 static void FUNCC(pred16x16_dc)(uint8_t *_src, ptrdiff_t stride)
yading@10	371 {
yading@10	372 int i, dc=0;
yading@10	373 pixel src = (pixel)_src;
yading@10	374 pixel4 dcsplat;
yading@10	375 stride >>= sizeof(pixel)-1;
yading@10	376
yading@10	377 for(i=0;i<16; i++){
yading@10	378 dc+= src[-1+i*stride];
yading@10	379 }
yading@10	380
yading@10	381 for(i=0;i<16; i++){
yading@10	382 dc+= src[i-stride];
yading@10	383 }
yading@10	384
yading@10	385 dcsplat = PIXEL_SPLAT_X4((dc+16)>>5);
yading@10	386 PREDICT_16x16_DC(dcsplat);
yading@10	387 }
yading@10	388
yading@10	389 static void FUNCC(pred16x16_left_dc)(uint8_t *_src, ptrdiff_t stride)
yading@10	390 {
yading@10	391 int i, dc=0;
yading@10	392 pixel src = (pixel)_src;
yading@10	393 pixel4 dcsplat;
yading@10	394 stride >>= sizeof(pixel)-1;
yading@10	395
yading@10	396 for(i=0;i<16; i++){
yading@10	397 dc+= src[-1+i*stride];
yading@10	398 }
yading@10	399
yading@10	400 dcsplat = PIXEL_SPLAT_X4((dc+8)>>4);
yading@10	401 PREDICT_16x16_DC(dcsplat);
yading@10	402 }
yading@10	403
yading@10	404 static void FUNCC(pred16x16_top_dc)(uint8_t *_src, ptrdiff_t stride)
yading@10	405 {
yading@10	406 int i, dc=0;
yading@10	407 pixel src = (pixel)_src;
yading@10	408 pixel4 dcsplat;
yading@10	409 stride >>= sizeof(pixel)-1;
yading@10	410
yading@10	411 for(i=0;i<16; i++){
yading@10	412 dc+= src[i-stride];
yading@10	413 }
yading@10	414
yading@10	415 dcsplat = PIXEL_SPLAT_X4((dc+8)>>4);
yading@10	416 PREDICT_16x16_DC(dcsplat);
yading@10	417 }
yading@10	418
yading@10	419 #define PRED16x16_X(n, v) \
yading@10	420 static void FUNCC(pred16x16_##n##_dc)(uint8_t *_src, ptrdiff_t stride)\
yading@10	421 {\
yading@10	422 int i;\
yading@10	423 pixel src = (pixel)_src;\
yading@10	424 stride >>= sizeof(pixel)-1;\
yading@10	425 PREDICT_16x16_DC(PIXEL_SPLAT_X4(v));\
yading@10	426 }
yading@10	427
yading@10	428 PRED16x16_X(127, (1<<(BIT_DEPTH-1))-1)
yading@10	429 PRED16x16_X(128, (1<<(BIT_DEPTH-1))+0)
yading@10	430 PRED16x16_X(129, (1<<(BIT_DEPTH-1))+1)
yading@10	431
yading@10	432 static inline void FUNCC(pred16x16_plane_compat)(uint8_t *_src,
yading@10	433 ptrdiff_t _stride,
yading@10	434 const int svq3,
yading@10	435 const int rv40)
yading@10	436 {
yading@10	437 int i, j, k;
yading@10	438 int a;
yading@10	439 INIT_CLIP
yading@10	440 pixel src = (pixel)_src;
yading@10	441 int stride = _stride>>(sizeof(pixel)-1);
yading@10	442 const pixel * const src0 = src +7-stride;
yading@10	443 const pixel * src1 = src +8*stride-1;
yading@10	444 const pixel * src2 = src1-2stride; // == src+6stride-1;
yading@10	445 int H = src0[1] - src0[-1];
yading@10	446 int V = src1[0] - src2[ 0];
yading@10	447 for(k=2; k<=8; ++k) {
yading@10	448 src1 += stride; src2 -= stride;
yading@10	449 H += k*(src0[k] - src0[-k]);
yading@10	450 V += k*(src1[0] - src2[ 0]);
yading@10	451 }
yading@10	452 if(svq3){
yading@10	453 H = ( 5*(H/4) ) / 16;
yading@10	454 V = ( 5*(V/4) ) / 16;
yading@10	455
yading@10	456 /* required for 100% accuracy */
yading@10	457 i = H; H = V; V = i;
yading@10	458 }else if(rv40){
yading@10	459 H = ( H + (H>>2) ) >> 4;
yading@10	460 V = ( V + (V>>2) ) >> 4;
yading@10	461 }else{
yading@10	462 H = ( 5*H+32 ) >> 6;
yading@10	463 V = ( 5*V+32 ) >> 6;
yading@10	464 }
yading@10	465
yading@10	466 a = 16(src1[0] + src2[16] + 1) - 7(V+H);
yading@10	467 for(j=16; j>0; --j) {
yading@10	468 int b = a;
yading@10	469 a += V;
yading@10	470 for(i=-16; i<0; i+=4) {
yading@10	471 src[16+i] = CLIP((b ) >> 5);
yading@10	472 src[17+i] = CLIP((b+ H) >> 5);
yading@10	473 src[18+i] = CLIP((b+2*H) >> 5);
yading@10	474 src[19+i] = CLIP((b+3*H) >> 5);
yading@10	475 b += 4*H;
yading@10	476 }
yading@10	477 src += stride;
yading@10	478 }
yading@10	479 }
yading@10	480
yading@10	481 static void FUNCC(pred16x16_plane)(uint8_t *src, ptrdiff_t stride)
yading@10	482 {
yading@10	483 FUNCC(pred16x16_plane_compat)(src, stride, 0, 0);
yading@10	484 }
yading@10	485
yading@10	486 static void FUNCC(pred8x8_vertical)(uint8_t *_src, ptrdiff_t _stride)
yading@10	487 {
yading@10	488 int i;
yading@10	489 pixel src = (pixel)_src;
yading@10	490 int stride = _stride>>(sizeof(pixel)-1);
yading@10	491 const pixel4 a= AV_RN4PA(((pixel4*)(src-stride))+0);
yading@10	492 const pixel4 b= AV_RN4PA(((pixel4*)(src-stride))+1);
yading@10	493
yading@10	494 for(i=0; i<8; i++){
yading@10	495 AV_WN4PA(((pixel4)(src+istride))+0, a);
yading@10	496 AV_WN4PA(((pixel4)(src+istride))+1, b);
yading@10	497 }
yading@10	498 }
yading@10	499
yading@10	500 static void FUNCC(pred8x16_vertical)(uint8_t *_src, ptrdiff_t _stride)
yading@10	501 {
yading@10	502 int i;
yading@10	503 pixel src = (pixel)_src;
yading@10	504 int stride = _stride>>(sizeof(pixel)-1);
yading@10	505 const pixel4 a= AV_RN4PA(((pixel4*)(src-stride))+0);
yading@10	506 const pixel4 b= AV_RN4PA(((pixel4*)(src-stride))+1);
yading@10	507
yading@10	508 for(i=0; i<16; i++){
yading@10	509 AV_WN4PA(((pixel4)(src+istride))+0, a);
yading@10	510 AV_WN4PA(((pixel4)(src+istride))+1, b);
yading@10	511 }
yading@10	512 }
yading@10	513
yading@10	514 static void FUNCC(pred8x8_horizontal)(uint8_t *_src, ptrdiff_t stride)
yading@10	515 {
yading@10	516 int i;
yading@10	517 pixel src = (pixel)_src;
yading@10	518 stride >>= sizeof(pixel)-1;
yading@10	519
yading@10	520 for(i=0; i<8; i++){
yading@10	521 const pixel4 a = PIXEL_SPLAT_X4(src[-1+i*stride]);
yading@10	522 AV_WN4PA(((pixel4)(src+istride))+0, a);
yading@10	523 AV_WN4PA(((pixel4)(src+istride))+1, a);
yading@10	524 }
yading@10	525 }
yading@10	526
yading@10	527 static void FUNCC(pred8x16_horizontal)(uint8_t *_src, ptrdiff_t stride)
yading@10	528 {
yading@10	529 int i;
yading@10	530 pixel src = (pixel)_src;
yading@10	531 stride >>= sizeof(pixel)-1;
yading@10	532 for(i=0; i<16; i++){
yading@10	533 const pixel4 a = PIXEL_SPLAT_X4(src[-1+i*stride]);
yading@10	534 AV_WN4PA(((pixel4)(src+istride))+0, a);
yading@10	535 AV_WN4PA(((pixel4)(src+istride))+1, a);
yading@10	536 }
yading@10	537 }
yading@10	538
yading@10	539 #define PRED8x8_X(n, v)\
yading@10	540 static void FUNCC(pred8x8_##n##_dc)(uint8_t *_src, ptrdiff_t stride)\
yading@10	541 {\
yading@10	542 int i;\
yading@10	543 const pixel4 a = PIXEL_SPLAT_X4(v);\
yading@10	544 pixel src = (pixel)_src;\
yading@10	545 stride >>= sizeof(pixel)-1;\
yading@10	546 for(i=0; i<8; i++){\
yading@10	547 AV_WN4PA(((pixel4)(src+istride))+0, a);\
yading@10	548 AV_WN4PA(((pixel4)(src+istride))+1, a);\
yading@10	549 }\
yading@10	550 }
yading@10	551
yading@10	552 PRED8x8_X(127, (1<<(BIT_DEPTH-1))-1)
yading@10	553 PRED8x8_X(128, (1<<(BIT_DEPTH-1))+0)
yading@10	554 PRED8x8_X(129, (1<<(BIT_DEPTH-1))+1)
yading@10	555
yading@10	556 static void FUNCC(pred8x16_128_dc)(uint8_t *_src, ptrdiff_t stride)
yading@10	557 {
yading@10	558 FUNCC(pred8x8_128_dc)(_src, stride);
yading@10	559 FUNCC(pred8x8_128_dc)(_src+8*stride, stride);
yading@10	560 }
yading@10	561
yading@10	562 static void FUNCC(pred8x8_left_dc)(uint8_t *_src, ptrdiff_t stride)
yading@10	563 {
yading@10	564 int i;
yading@10	565 int dc0, dc2;
yading@10	566 pixel4 dc0splat, dc2splat;
yading@10	567 pixel src = (pixel)_src;
yading@10	568 stride >>= sizeof(pixel)-1;
yading@10	569
yading@10	570 dc0=dc2=0;
yading@10	571 for(i=0;i<4; i++){
yading@10	572 dc0+= src[-1+i*stride];
yading@10	573 dc2+= src[-1+(i+4)*stride];
yading@10	574 }
yading@10	575 dc0splat = PIXEL_SPLAT_X4((dc0 + 2)>>2);
yading@10	576 dc2splat = PIXEL_SPLAT_X4((dc2 + 2)>>2);
yading@10	577
yading@10	578 for(i=0; i<4; i++){
yading@10	579 AV_WN4PA(((pixel4)(src+istride))+0, dc0splat);
yading@10	580 AV_WN4PA(((pixel4)(src+istride))+1, dc0splat);
yading@10	581 }
yading@10	582 for(i=4; i<8; i++){
yading@10	583 AV_WN4PA(((pixel4)(src+istride))+0, dc2splat);
yading@10	584 AV_WN4PA(((pixel4)(src+istride))+1, dc2splat);
yading@10	585 }
yading@10	586 }
yading@10	587
yading@10	588 static void FUNCC(pred8x16_left_dc)(uint8_t *_src, ptrdiff_t stride)
yading@10	589 {
yading@10	590 FUNCC(pred8x8_left_dc)(_src, stride);
yading@10	591 FUNCC(pred8x8_left_dc)(_src+8*stride, stride);
yading@10	592 }
yading@10	593
yading@10	594 static void FUNCC(pred8x8_top_dc)(uint8_t *_src, ptrdiff_t stride)
yading@10	595 {
yading@10	596 int i;
yading@10	597 int dc0, dc1;
yading@10	598 pixel4 dc0splat, dc1splat;
yading@10	599 pixel src = (pixel)_src;
yading@10	600 stride >>= sizeof(pixel)-1;
yading@10	601
yading@10	602 dc0=dc1=0;
yading@10	603 for(i=0;i<4; i++){
yading@10	604 dc0+= src[i-stride];
yading@10	605 dc1+= src[4+i-stride];
yading@10	606 }
yading@10	607 dc0splat = PIXEL_SPLAT_X4((dc0 + 2)>>2);
yading@10	608 dc1splat = PIXEL_SPLAT_X4((dc1 + 2)>>2);
yading@10	609
yading@10	610 for(i=0; i<4; i++){
yading@10	611 AV_WN4PA(((pixel4)(src+istride))+0, dc0splat);
yading@10	612 AV_WN4PA(((pixel4)(src+istride))+1, dc1splat);
yading@10	613 }
yading@10	614 for(i=4; i<8; i++){
yading@10	615 AV_WN4PA(((pixel4)(src+istride))+0, dc0splat);
yading@10	616 AV_WN4PA(((pixel4)(src+istride))+1, dc1splat);
yading@10	617 }
yading@10	618 }
yading@10	619
yading@10	620 static void FUNCC(pred8x16_top_dc)(uint8_t *_src, ptrdiff_t stride)
yading@10	621 {
yading@10	622 int i;
yading@10	623 int dc0, dc1;
yading@10	624 pixel4 dc0splat, dc1splat;
yading@10	625 pixel src = (pixel)_src;
yading@10	626 stride >>= sizeof(pixel)-1;
yading@10	627
yading@10	628 dc0=dc1=0;
yading@10	629 for(i=0;i<4; i++){
yading@10	630 dc0+= src[i-stride];
yading@10	631 dc1+= src[4+i-stride];
yading@10	632 }
yading@10	633 dc0splat = PIXEL_SPLAT_X4((dc0 + 2)>>2);
yading@10	634 dc1splat = PIXEL_SPLAT_X4((dc1 + 2)>>2);
yading@10	635
yading@10	636 for(i=0; i<16; i++){
yading@10	637 AV_WN4PA(((pixel4)(src+istride))+0, dc0splat);
yading@10	638 AV_WN4PA(((pixel4)(src+istride))+1, dc1splat);
yading@10	639 }
yading@10	640 }
yading@10	641
yading@10	642 static void FUNCC(pred8x8_dc)(uint8_t *_src, ptrdiff_t stride)
yading@10	643 {
yading@10	644 int i;
yading@10	645 int dc0, dc1, dc2;
yading@10	646 pixel4 dc0splat, dc1splat, dc2splat, dc3splat;
yading@10	647 pixel src = (pixel)_src;
yading@10	648 stride >>= sizeof(pixel)-1;
yading@10	649
yading@10	650 dc0=dc1=dc2=0;
yading@10	651 for(i=0;i<4; i++){
yading@10	652 dc0+= src[-1+i*stride] + src[i-stride];
yading@10	653 dc1+= src[4+i-stride];
yading@10	654 dc2+= src[-1+(i+4)*stride];
yading@10	655 }
yading@10	656 dc0splat = PIXEL_SPLAT_X4((dc0 + 4)>>3);
yading@10	657 dc1splat = PIXEL_SPLAT_X4((dc1 + 2)>>2);
yading@10	658 dc2splat = PIXEL_SPLAT_X4((dc2 + 2)>>2);
yading@10	659 dc3splat = PIXEL_SPLAT_X4((dc1 + dc2 + 4)>>3);
yading@10	660
yading@10	661 for(i=0; i<4; i++){
yading@10	662 AV_WN4PA(((pixel4)(src+istride))+0, dc0splat);
yading@10	663 AV_WN4PA(((pixel4)(src+istride))+1, dc1splat);
yading@10	664 }
yading@10	665 for(i=4; i<8; i++){
yading@10	666 AV_WN4PA(((pixel4)(src+istride))+0, dc2splat);
yading@10	667 AV_WN4PA(((pixel4)(src+istride))+1, dc3splat);
yading@10	668 }
yading@10	669 }
yading@10	670
yading@10	671 static void FUNCC(pred8x16_dc)(uint8_t *_src, ptrdiff_t stride)
yading@10	672 {
yading@10	673 int i;
yading@10	674 int dc0, dc1, dc2, dc3, dc4;
yading@10	675 pixel4 dc0splat, dc1splat, dc2splat, dc3splat, dc4splat, dc5splat, dc6splat, dc7splat;
yading@10	676 pixel src = (pixel)_src;
yading@10	677 stride >>= sizeof(pixel)-1;
yading@10	678
yading@10	679 dc0=dc1=dc2=dc3=dc4=0;
yading@10	680 for(i=0;i<4; i++){
yading@10	681 dc0+= src[-1+i*stride] + src[i-stride];
yading@10	682 dc1+= src[4+i-stride];
yading@10	683 dc2+= src[-1+(i+4)*stride];
yading@10	684 dc3+= src[-1+(i+8)*stride];
yading@10	685 dc4+= src[-1+(i+12)*stride];
yading@10	686 }
yading@10	687 dc0splat = PIXEL_SPLAT_X4((dc0 + 4)>>3);
yading@10	688 dc1splat = PIXEL_SPLAT_X4((dc1 + 2)>>2);
yading@10	689 dc2splat = PIXEL_SPLAT_X4((dc2 + 2)>>2);
yading@10	690 dc3splat = PIXEL_SPLAT_X4((dc1 + dc2 + 4)>>3);
yading@10	691 dc4splat = PIXEL_SPLAT_X4((dc3 + 2)>>2);
yading@10	692 dc5splat = PIXEL_SPLAT_X4((dc1 + dc3 + 4)>>3);
yading@10	693 dc6splat = PIXEL_SPLAT_X4((dc4 + 2)>>2);
yading@10	694 dc7splat = PIXEL_SPLAT_X4((dc1 + dc4 + 4)>>3);
yading@10	695
yading@10	696 for(i=0; i<4; i++){
yading@10	697 AV_WN4PA(((pixel4)(src+istride))+0, dc0splat);
yading@10	698 AV_WN4PA(((pixel4)(src+istride))+1, dc1splat);
yading@10	699 }
yading@10	700 for(i=4; i<8; i++){
yading@10	701 AV_WN4PA(((pixel4)(src+istride))+0, dc2splat);
yading@10	702 AV_WN4PA(((pixel4)(src+istride))+1, dc3splat);
yading@10	703 }
yading@10	704 for(i=8; i<12; i++){
yading@10	705 AV_WN4PA(((pixel4)(src+istride))+0, dc4splat);
yading@10	706 AV_WN4PA(((pixel4)(src+istride))+1, dc5splat);
yading@10	707 }
yading@10	708 for(i=12; i<16; i++){
yading@10	709 AV_WN4PA(((pixel4)(src+istride))+0, dc6splat);
yading@10	710 AV_WN4PA(((pixel4)(src+istride))+1, dc7splat);
yading@10	711 }
yading@10	712 }
yading@10	713
yading@10	714 //the following 4 function should not be optimized!
yading@10	715 static void FUNC(pred8x8_mad_cow_dc_l0t)(uint8_t *src, ptrdiff_t stride)
yading@10	716 {
yading@10	717 FUNCC(pred8x8_top_dc)(src, stride);
yading@10	718 FUNCC(pred4x4_dc)(src, NULL, stride);
yading@10	719 }
yading@10	720
yading@10	721 static void FUNC(pred8x16_mad_cow_dc_l0t)(uint8_t *src, ptrdiff_t stride)
yading@10	722 {
yading@10	723 FUNCC(pred8x16_top_dc)(src, stride);
yading@10	724 FUNCC(pred4x4_dc)(src, NULL, stride);
yading@10	725 }
yading@10	726
yading@10	727 static void FUNC(pred8x8_mad_cow_dc_0lt)(uint8_t *src, ptrdiff_t stride)
yading@10	728 {
yading@10	729 FUNCC(pred8x8_dc)(src, stride);
yading@10	730 FUNCC(pred4x4_top_dc)(src, NULL, stride);
yading@10	731 }
yading@10	732
yading@10	733 static void FUNC(pred8x16_mad_cow_dc_0lt)(uint8_t *src, ptrdiff_t stride)
yading@10	734 {
yading@10	735 FUNCC(pred8x16_dc)(src, stride);
yading@10	736 FUNCC(pred4x4_top_dc)(src, NULL, stride);
yading@10	737 }
yading@10	738
yading@10	739 static void FUNC(pred8x8_mad_cow_dc_l00)(uint8_t *src, ptrdiff_t stride)
yading@10	740 {
yading@10	741 FUNCC(pred8x8_left_dc)(src, stride);
yading@10	742 FUNCC(pred4x4_128_dc)(src + 4*stride , NULL, stride);
yading@10	743 FUNCC(pred4x4_128_dc)(src + 4stride + 4sizeof(pixel), NULL, stride);
yading@10	744 }
yading@10	745
yading@10	746 static void FUNC(pred8x16_mad_cow_dc_l00)(uint8_t *src, ptrdiff_t stride)
yading@10	747 {
yading@10	748 FUNCC(pred8x16_left_dc)(src, stride);
yading@10	749 FUNCC(pred4x4_128_dc)(src + 4*stride , NULL, stride);
yading@10	750 FUNCC(pred4x4_128_dc)(src + 4stride + 4sizeof(pixel), NULL, stride);
yading@10	751 }
yading@10	752
yading@10	753 static void FUNC(pred8x8_mad_cow_dc_0l0)(uint8_t *src, ptrdiff_t stride)
yading@10	754 {
yading@10	755 FUNCC(pred8x8_left_dc)(src, stride);
yading@10	756 FUNCC(pred4x4_128_dc)(src , NULL, stride);
yading@10	757 FUNCC(pred4x4_128_dc)(src + 4*sizeof(pixel), NULL, stride);
yading@10	758 }
yading@10	759
yading@10	760 static void FUNC(pred8x16_mad_cow_dc_0l0)(uint8_t *src, ptrdiff_t stride)
yading@10	761 {
yading@10	762 FUNCC(pred8x16_left_dc)(src, stride);
yading@10	763 FUNCC(pred4x4_128_dc)(src , NULL, stride);
yading@10	764 FUNCC(pred4x4_128_dc)(src + 4*sizeof(pixel), NULL, stride);
yading@10	765 }
yading@10	766
yading@10	767 static void FUNCC(pred8x8_plane)(uint8_t *_src, ptrdiff_t _stride)
yading@10	768 {
yading@10	769 int j, k;
yading@10	770 int a;
yading@10	771 INIT_CLIP
yading@10	772 pixel src = (pixel)_src;
yading@10	773 int stride = _stride>>(sizeof(pixel)-1);
yading@10	774 const pixel * const src0 = src +3-stride;
yading@10	775 const pixel * src1 = src +4*stride-1;
yading@10	776 const pixel * src2 = src1-2stride; // == src+2stride-1;
yading@10	777 int H = src0[1] - src0[-1];
yading@10	778 int V = src1[0] - src2[ 0];
yading@10	779 for(k=2; k<=4; ++k) {
yading@10	780 src1 += stride; src2 -= stride;
yading@10	781 H += k*(src0[k] - src0[-k]);
yading@10	782 V += k*(src1[0] - src2[ 0]);
yading@10	783 }
yading@10	784 H = ( 17*H+16 ) >> 5;
yading@10	785 V = ( 17*V+16 ) >> 5;
yading@10	786
yading@10	787 a = 16(src1[0] + src2[8]+1) - 3(V+H);
yading@10	788 for(j=8; j>0; --j) {
yading@10	789 int b = a;
yading@10	790 a += V;
yading@10	791 src[0] = CLIP((b ) >> 5);
yading@10	792 src[1] = CLIP((b+ H) >> 5);
yading@10	793 src[2] = CLIP((b+2*H) >> 5);
yading@10	794 src[3] = CLIP((b+3*H) >> 5);
yading@10	795 src[4] = CLIP((b+4*H) >> 5);
yading@10	796 src[5] = CLIP((b+5*H) >> 5);
yading@10	797 src[6] = CLIP((b+6*H) >> 5);
yading@10	798 src[7] = CLIP((b+7*H) >> 5);
yading@10	799 src += stride;
yading@10	800 }
yading@10	801 }
yading@10	802
yading@10	803 static void FUNCC(pred8x16_plane)(uint8_t *_src, ptrdiff_t _stride)
yading@10	804 {
yading@10	805 int j, k;
yading@10	806 int a;
yading@10	807 INIT_CLIP
yading@10	808 pixel src = (pixel)_src;
yading@10	809 int stride = _stride>>(sizeof(pixel)-1);
yading@10	810 const pixel * const src0 = src +3-stride;
yading@10	811 const pixel * src1 = src +8*stride-1;
yading@10	812 const pixel * src2 = src1-2stride; // == src+6stride-1;
yading@10	813 int H = src0[1] - src0[-1];
yading@10	814 int V = src1[0] - src2[ 0];
yading@10	815
yading@10	816 for (k = 2; k <= 4; ++k) {
yading@10	817 src1 += stride; src2 -= stride;
yading@10	818 H += k*(src0[k] - src0[-k]);
yading@10	819 V += k*(src1[0] - src2[ 0]);
yading@10	820 }
yading@10	821 for (; k <= 8; ++k) {
yading@10	822 src1 += stride; src2 -= stride;
yading@10	823 V += k*(src1[0] - src2[0]);
yading@10	824 }
yading@10	825
yading@10	826 H = (17*H+16) >> 5;
yading@10	827 V = (5*V+32) >> 6;
yading@10	828
yading@10	829 a = 16(src1[0] + src2[8] + 1) - 7V - 3*H;
yading@10	830 for(j=16; j>0; --j) {
yading@10	831 int b = a;
yading@10	832 a += V;
yading@10	833 src[0] = CLIP((b ) >> 5);
yading@10	834 src[1] = CLIP((b+ H) >> 5);
yading@10	835 src[2] = CLIP((b+2*H) >> 5);
yading@10	836 src[3] = CLIP((b+3*H) >> 5);
yading@10	837 src[4] = CLIP((b+4*H) >> 5);
yading@10	838 src[5] = CLIP((b+5*H) >> 5);
yading@10	839 src[6] = CLIP((b+6*H) >> 5);
yading@10	840 src[7] = CLIP((b+7*H) >> 5);
yading@10	841 src += stride;
yading@10	842 }
yading@10	843 }
yading@10	844
yading@10	845 #define SRC(x,y) src[(x)+(y)*stride]
yading@10	846 #define PL(y) \
yading@10	847 const int l##y = (SRC(-1,y-1) + 2*SRC(-1,y) + SRC(-1,y+1) + 2) >> 2;
yading@10	848 #define PREDICT_8x8_LOAD_LEFT \
yading@10	849 const int l0 = ((has_topleft ? SRC(-1,-1) : SRC(-1,0)) \
yading@10	850 + 2*SRC(-1,0) + SRC(-1,1) + 2) >> 2; \
yading@10	851 PL(1) PL(2) PL(3) PL(4) PL(5) PL(6) \
yading@10	852 const int l7 av_unused = (SRC(-1,6) + 3*SRC(-1,7) + 2) >> 2
yading@10	853
yading@10	854 #define PT(x) \
yading@10	855 const int t##x = (SRC(x-1,-1) + 2*SRC(x,-1) + SRC(x+1,-1) + 2) >> 2;
yading@10	856 #define PREDICT_8x8_LOAD_TOP \
yading@10	857 const int t0 = ((has_topleft ? SRC(-1,-1) : SRC(0,-1)) \
yading@10	858 + 2*SRC(0,-1) + SRC(1,-1) + 2) >> 2; \
yading@10	859 PT(1) PT(2) PT(3) PT(4) PT(5) PT(6) \
yading@10	860 const int t7 av_unused = ((has_topright ? SRC(8,-1) : SRC(7,-1)) \
yading@10	861 + 2*SRC(7,-1) + SRC(6,-1) + 2) >> 2
yading@10	862
yading@10	863 #define PTR(x) \
yading@10	864 t##x = (SRC(x-1,-1) + 2*SRC(x,-1) + SRC(x+1,-1) + 2) >> 2;
yading@10	865 #define PREDICT_8x8_LOAD_TOPRIGHT \
yading@10	866 int t8, t9, t10, t11, t12, t13, t14, t15; \
yading@10	867 if(has_topright) { \
yading@10	868 PTR(8) PTR(9) PTR(10) PTR(11) PTR(12) PTR(13) PTR(14) \
yading@10	869 t15 = (SRC(14,-1) + 3*SRC(15,-1) + 2) >> 2; \
yading@10	870 } else t8=t9=t10=t11=t12=t13=t14=t15= SRC(7,-1);
yading@10	871
yading@10	872 #define PREDICT_8x8_LOAD_TOPLEFT \
yading@10	873 const int lt = (SRC(-1,0) + 2*SRC(-1,-1) + SRC(0,-1) + 2) >> 2
yading@10	874
yading@10	875 #define PREDICT_8x8_DC(v) \
yading@10	876 int y; \
yading@10	877 for( y = 0; y < 8; y++ ) { \
yading@10	878 AV_WN4PA(((pixel4*)src)+0, v); \
yading@10	879 AV_WN4PA(((pixel4*)src)+1, v); \
yading@10	880 src += stride; \
yading@10	881 }
yading@10	882
yading@10	883 static void FUNCC(pred8x8l_128_dc)(uint8_t *_src, int has_topleft,
yading@10	884 int has_topright, ptrdiff_t _stride)
yading@10	885 {
yading@10	886 pixel src = (pixel)_src;
yading@10	887 int stride = _stride>>(sizeof(pixel)-1);
yading@10	888
yading@10	889 PREDICT_8x8_DC(PIXEL_SPLAT_X4(1<<(BIT_DEPTH-1)));
yading@10	890 }
yading@10	891 static void FUNCC(pred8x8l_left_dc)(uint8_t *_src, int has_topleft,
yading@10	892 int has_topright, ptrdiff_t _stride)
yading@10	893 {
yading@10	894 pixel src = (pixel)_src;
yading@10	895 int stride = _stride>>(sizeof(pixel)-1);
yading@10	896
yading@10	897 PREDICT_8x8_LOAD_LEFT;
yading@10	898 const pixel4 dc = PIXEL_SPLAT_X4((l0+l1+l2+l3+l4+l5+l6+l7+4) >> 3);
yading@10	899 PREDICT_8x8_DC(dc);
yading@10	900 }
yading@10	901 static void FUNCC(pred8x8l_top_dc)(uint8_t *_src, int has_topleft,
yading@10	902 int has_topright, ptrdiff_t _stride)
yading@10	903 {
yading@10	904 pixel src = (pixel)_src;
yading@10	905 int stride = _stride>>(sizeof(pixel)-1);
yading@10	906
yading@10	907 PREDICT_8x8_LOAD_TOP;
yading@10	908 const pixel4 dc = PIXEL_SPLAT_X4((t0+t1+t2+t3+t4+t5+t6+t7+4) >> 3);
yading@10	909 PREDICT_8x8_DC(dc);
yading@10	910 }
yading@10	911 static void FUNCC(pred8x8l_dc)(uint8_t *_src, int has_topleft,
yading@10	912 int has_topright, ptrdiff_t _stride)
yading@10	913 {
yading@10	914 pixel src = (pixel)_src;
yading@10	915 int stride = _stride>>(sizeof(pixel)-1);
yading@10	916
yading@10	917 PREDICT_8x8_LOAD_LEFT;
yading@10	918 PREDICT_8x8_LOAD_TOP;
yading@10	919 const pixel4 dc = PIXEL_SPLAT_X4((l0+l1+l2+l3+l4+l5+l6+l7
yading@10	920 +t0+t1+t2+t3+t4+t5+t6+t7+8) >> 4);
yading@10	921 PREDICT_8x8_DC(dc);
yading@10	922 }
yading@10	923 static void FUNCC(pred8x8l_horizontal)(uint8_t *_src, int has_topleft,
yading@10	924 int has_topright, ptrdiff_t _stride)
yading@10	925 {
yading@10	926 pixel src = (pixel)_src;
yading@10	927 int stride = _stride>>(sizeof(pixel)-1);
yading@10	928 pixel4 a;
yading@10	929
yading@10	930 PREDICT_8x8_LOAD_LEFT;
yading@10	931 #define ROW(y) a = PIXEL_SPLAT_X4(l##y); \
yading@10	932 AV_WN4PA(src+y*stride, a); \
yading@10	933 AV_WN4PA(src+y*stride+4, a);
yading@10	934 ROW(0); ROW(1); ROW(2); ROW(3); ROW(4); ROW(5); ROW(6); ROW(7);
yading@10	935 #undef ROW
yading@10	936 }
yading@10	937 static void FUNCC(pred8x8l_vertical)(uint8_t *_src, int has_topleft,
yading@10	938 int has_topright, ptrdiff_t _stride)
yading@10	939 {
yading@10	940 int y;
yading@10	941 pixel src = (pixel)_src;
yading@10	942 int stride = _stride>>(sizeof(pixel)-1);
yading@10	943 pixel4 a, b;
yading@10	944
yading@10	945 PREDICT_8x8_LOAD_TOP;
yading@10	946 src[0] = t0;
yading@10	947 src[1] = t1;
yading@10	948 src[2] = t2;
yading@10	949 src[3] = t3;
yading@10	950 src[4] = t4;
yading@10	951 src[5] = t5;
yading@10	952 src[6] = t6;
yading@10	953 src[7] = t7;
yading@10	954 a = AV_RN4PA(((pixel4*)src)+0);
yading@10	955 b = AV_RN4PA(((pixel4*)src)+1);
yading@10	956 for( y = 1; y < 8; y++ ) {
yading@10	957 AV_WN4PA(((pixel4)(src+ystride))+0, a);
yading@10	958 AV_WN4PA(((pixel4)(src+ystride))+1, b);
yading@10	959 }
yading@10	960 }
yading@10	961 static void FUNCC(pred8x8l_down_left)(uint8_t *_src, int has_topleft,
yading@10	962 int has_topright, ptrdiff_t _stride)
yading@10	963 {
yading@10	964 pixel src = (pixel)_src;
yading@10	965 int stride = _stride>>(sizeof(pixel)-1);
yading@10	966 PREDICT_8x8_LOAD_TOP;
yading@10	967 PREDICT_8x8_LOAD_TOPRIGHT;
yading@10	968 SRC(0,0)= (t0 + 2*t1 + t2 + 2) >> 2;
yading@10	969 SRC(0,1)=SRC(1,0)= (t1 + 2*t2 + t3 + 2) >> 2;
yading@10	970 SRC(0,2)=SRC(1,1)=SRC(2,0)= (t2 + 2*t3 + t4 + 2) >> 2;
yading@10	971 SRC(0,3)=SRC(1,2)=SRC(2,1)=SRC(3,0)= (t3 + 2*t4 + t5 + 2) >> 2;
yading@10	972 SRC(0,4)=SRC(1,3)=SRC(2,2)=SRC(3,1)=SRC(4,0)= (t4 + 2*t5 + t6 + 2) >> 2;
yading@10	973 SRC(0,5)=SRC(1,4)=SRC(2,3)=SRC(3,2)=SRC(4,1)=SRC(5,0)= (t5 + 2*t6 + t7 + 2) >> 2;
yading@10	974 SRC(0,6)=SRC(1,5)=SRC(2,4)=SRC(3,3)=SRC(4,2)=SRC(5,1)=SRC(6,0)= (t6 + 2*t7 + t8 + 2) >> 2;
yading@10	975 SRC(0,7)=SRC(1,6)=SRC(2,5)=SRC(3,4)=SRC(4,3)=SRC(5,2)=SRC(6,1)=SRC(7,0)= (t7 + 2*t8 + t9 + 2) >> 2;
yading@10	976 SRC(1,7)=SRC(2,6)=SRC(3,5)=SRC(4,4)=SRC(5,3)=SRC(6,2)=SRC(7,1)= (t8 + 2*t9 + t10 + 2) >> 2;
yading@10	977 SRC(2,7)=SRC(3,6)=SRC(4,5)=SRC(5,4)=SRC(6,3)=SRC(7,2)= (t9 + 2*t10 + t11 + 2) >> 2;
yading@10	978 SRC(3,7)=SRC(4,6)=SRC(5,5)=SRC(6,4)=SRC(7,3)= (t10 + 2*t11 + t12 + 2) >> 2;
yading@10	979 SRC(4,7)=SRC(5,6)=SRC(6,5)=SRC(7,4)= (t11 + 2*t12 + t13 + 2) >> 2;
yading@10	980 SRC(5,7)=SRC(6,6)=SRC(7,5)= (t12 + 2*t13 + t14 + 2) >> 2;
yading@10	981 SRC(6,7)=SRC(7,6)= (t13 + 2*t14 + t15 + 2) >> 2;
yading@10	982 SRC(7,7)= (t14 + 3*t15 + 2) >> 2;
yading@10	983 }
yading@10	984 static void FUNCC(pred8x8l_down_right)(uint8_t *_src, int has_topleft,
yading@10	985 int has_topright, ptrdiff_t _stride)
yading@10	986 {
yading@10	987 pixel src = (pixel)_src;
yading@10	988 int stride = _stride>>(sizeof(pixel)-1);
yading@10	989 PREDICT_8x8_LOAD_TOP;
yading@10	990 PREDICT_8x8_LOAD_LEFT;
yading@10	991 PREDICT_8x8_LOAD_TOPLEFT;
yading@10	992 SRC(0,7)= (l7 + 2*l6 + l5 + 2) >> 2;
yading@10	993 SRC(0,6)=SRC(1,7)= (l6 + 2*l5 + l4 + 2) >> 2;
yading@10	994 SRC(0,5)=SRC(1,6)=SRC(2,7)= (l5 + 2*l4 + l3 + 2) >> 2;
yading@10	995 SRC(0,4)=SRC(1,5)=SRC(2,6)=SRC(3,7)= (l4 + 2*l3 + l2 + 2) >> 2;
yading@10	996 SRC(0,3)=SRC(1,4)=SRC(2,5)=SRC(3,6)=SRC(4,7)= (l3 + 2*l2 + l1 + 2) >> 2;
yading@10	997 SRC(0,2)=SRC(1,3)=SRC(2,4)=SRC(3,5)=SRC(4,6)=SRC(5,7)= (l2 + 2*l1 + l0 + 2) >> 2;
yading@10	998 SRC(0,1)=SRC(1,2)=SRC(2,3)=SRC(3,4)=SRC(4,5)=SRC(5,6)=SRC(6,7)= (l1 + 2*l0 + lt + 2) >> 2;
yading@10	999 SRC(0,0)=SRC(1,1)=SRC(2,2)=SRC(3,3)=SRC(4,4)=SRC(5,5)=SRC(6,6)=SRC(7,7)= (l0 + 2*lt + t0 + 2) >> 2;
yading@10	1000 SRC(1,0)=SRC(2,1)=SRC(3,2)=SRC(4,3)=SRC(5,4)=SRC(6,5)=SRC(7,6)= (lt + 2*t0 + t1 + 2) >> 2;
yading@10	1001 SRC(2,0)=SRC(3,1)=SRC(4,2)=SRC(5,3)=SRC(6,4)=SRC(7,5)= (t0 + 2*t1 + t2 + 2) >> 2;
yading@10	1002 SRC(3,0)=SRC(4,1)=SRC(5,2)=SRC(6,3)=SRC(7,4)= (t1 + 2*t2 + t3 + 2) >> 2;
yading@10	1003 SRC(4,0)=SRC(5,1)=SRC(6,2)=SRC(7,3)= (t2 + 2*t3 + t4 + 2) >> 2;
yading@10	1004 SRC(5,0)=SRC(6,1)=SRC(7,2)= (t3 + 2*t4 + t5 + 2) >> 2;
yading@10	1005 SRC(6,0)=SRC(7,1)= (t4 + 2*t5 + t6 + 2) >> 2;
yading@10	1006 SRC(7,0)= (t5 + 2*t6 + t7 + 2) >> 2;
yading@10	1007 }
yading@10	1008 static void FUNCC(pred8x8l_vertical_right)(uint8_t *_src, int has_topleft,
yading@10	1009 int has_topright, ptrdiff_t _stride)
yading@10	1010 {
yading@10	1011 pixel src = (pixel)_src;
yading@10	1012 int stride = _stride>>(sizeof(pixel)-1);
yading@10	1013 PREDICT_8x8_LOAD_TOP;
yading@10	1014 PREDICT_8x8_LOAD_LEFT;
yading@10	1015 PREDICT_8x8_LOAD_TOPLEFT;
yading@10	1016 SRC(0,6)= (l5 + 2*l4 + l3 + 2) >> 2;
yading@10	1017 SRC(0,7)= (l6 + 2*l5 + l4 + 2) >> 2;
yading@10	1018 SRC(0,4)=SRC(1,6)= (l3 + 2*l2 + l1 + 2) >> 2;
yading@10	1019 SRC(0,5)=SRC(1,7)= (l4 + 2*l3 + l2 + 2) >> 2;
yading@10	1020 SRC(0,2)=SRC(1,4)=SRC(2,6)= (l1 + 2*l0 + lt + 2) >> 2;
yading@10	1021 SRC(0,3)=SRC(1,5)=SRC(2,7)= (l2 + 2*l1 + l0 + 2) >> 2;
yading@10	1022 SRC(0,1)=SRC(1,3)=SRC(2,5)=SRC(3,7)= (l0 + 2*lt + t0 + 2) >> 2;
yading@10	1023 SRC(0,0)=SRC(1,2)=SRC(2,4)=SRC(3,6)= (lt + t0 + 1) >> 1;
yading@10	1024 SRC(1,1)=SRC(2,3)=SRC(3,5)=SRC(4,7)= (lt + 2*t0 + t1 + 2) >> 2;
yading@10	1025 SRC(1,0)=SRC(2,2)=SRC(3,4)=SRC(4,6)= (t0 + t1 + 1) >> 1;
yading@10	1026 SRC(2,1)=SRC(3,3)=SRC(4,5)=SRC(5,7)= (t0 + 2*t1 + t2 + 2) >> 2;
yading@10	1027 SRC(2,0)=SRC(3,2)=SRC(4,4)=SRC(5,6)= (t1 + t2 + 1) >> 1;
yading@10	1028 SRC(3,1)=SRC(4,3)=SRC(5,5)=SRC(6,7)= (t1 + 2*t2 + t3 + 2) >> 2;
yading@10	1029 SRC(3,0)=SRC(4,2)=SRC(5,4)=SRC(6,6)= (t2 + t3 + 1) >> 1;
yading@10	1030 SRC(4,1)=SRC(5,3)=SRC(6,5)=SRC(7,7)= (t2 + 2*t3 + t4 + 2) >> 2;
yading@10	1031 SRC(4,0)=SRC(5,2)=SRC(6,4)=SRC(7,6)= (t3 + t4 + 1) >> 1;
yading@10	1032 SRC(5,1)=SRC(6,3)=SRC(7,5)= (t3 + 2*t4 + t5 + 2) >> 2;
yading@10	1033 SRC(5,0)=SRC(6,2)=SRC(7,4)= (t4 + t5 + 1) >> 1;
yading@10	1034 SRC(6,1)=SRC(7,3)= (t4 + 2*t5 + t6 + 2) >> 2;
yading@10	1035 SRC(6,0)=SRC(7,2)= (t5 + t6 + 1) >> 1;
yading@10	1036 SRC(7,1)= (t5 + 2*t6 + t7 + 2) >> 2;
yading@10	1037 SRC(7,0)= (t6 + t7 + 1) >> 1;
yading@10	1038 }
yading@10	1039 static void FUNCC(pred8x8l_horizontal_down)(uint8_t *_src, int has_topleft,
yading@10	1040 int has_topright, ptrdiff_t _stride)
yading@10	1041 {
yading@10	1042 pixel src = (pixel)_src;
yading@10	1043 int stride = _stride>>(sizeof(pixel)-1);
yading@10	1044 PREDICT_8x8_LOAD_TOP;
yading@10	1045 PREDICT_8x8_LOAD_LEFT;
yading@10	1046 PREDICT_8x8_LOAD_TOPLEFT;
yading@10	1047 SRC(0,7)= (l6 + l7 + 1) >> 1;
yading@10	1048 SRC(1,7)= (l5 + 2*l6 + l7 + 2) >> 2;
yading@10	1049 SRC(0,6)=SRC(2,7)= (l5 + l6 + 1) >> 1;
yading@10	1050 SRC(1,6)=SRC(3,7)= (l4 + 2*l5 + l6 + 2) >> 2;
yading@10	1051 SRC(0,5)=SRC(2,6)=SRC(4,7)= (l4 + l5 + 1) >> 1;
yading@10	1052 SRC(1,5)=SRC(3,6)=SRC(5,7)= (l3 + 2*l4 + l5 + 2) >> 2;
yading@10	1053 SRC(0,4)=SRC(2,5)=SRC(4,6)=SRC(6,7)= (l3 + l4 + 1) >> 1;
yading@10	1054 SRC(1,4)=SRC(3,5)=SRC(5,6)=SRC(7,7)= (l2 + 2*l3 + l4 + 2) >> 2;
yading@10	1055 SRC(0,3)=SRC(2,4)=SRC(4,5)=SRC(6,6)= (l2 + l3 + 1) >> 1;
yading@10	1056 SRC(1,3)=SRC(3,4)=SRC(5,5)=SRC(7,6)= (l1 + 2*l2 + l3 + 2) >> 2;
yading@10	1057 SRC(0,2)=SRC(2,3)=SRC(4,4)=SRC(6,5)= (l1 + l2 + 1) >> 1;
yading@10	1058 SRC(1,2)=SRC(3,3)=SRC(5,4)=SRC(7,5)= (l0 + 2*l1 + l2 + 2) >> 2;
yading@10	1059 SRC(0,1)=SRC(2,2)=SRC(4,3)=SRC(6,4)= (l0 + l1 + 1) >> 1;
yading@10	1060 SRC(1,1)=SRC(3,2)=SRC(5,3)=SRC(7,4)= (lt + 2*l0 + l1 + 2) >> 2;
yading@10	1061 SRC(0,0)=SRC(2,1)=SRC(4,2)=SRC(6,3)= (lt + l0 + 1) >> 1;
yading@10	1062 SRC(1,0)=SRC(3,1)=SRC(5,2)=SRC(7,3)= (l0 + 2*lt + t0 + 2) >> 2;
yading@10	1063 SRC(2,0)=SRC(4,1)=SRC(6,2)= (t1 + 2*t0 + lt + 2) >> 2;
yading@10	1064 SRC(3,0)=SRC(5,1)=SRC(7,2)= (t2 + 2*t1 + t0 + 2) >> 2;
yading@10	1065 SRC(4,0)=SRC(6,1)= (t3 + 2*t2 + t1 + 2) >> 2;
yading@10	1066 SRC(5,0)=SRC(7,1)= (t4 + 2*t3 + t2 + 2) >> 2;
yading@10	1067 SRC(6,0)= (t5 + 2*t4 + t3 + 2) >> 2;
yading@10	1068 SRC(7,0)= (t6 + 2*t5 + t4 + 2) >> 2;
yading@10	1069 }
yading@10	1070 static void FUNCC(pred8x8l_vertical_left)(uint8_t *_src, int has_topleft,
yading@10	1071 int has_topright, ptrdiff_t _stride)
yading@10	1072 {
yading@10	1073 pixel src = (pixel)_src;
yading@10	1074 int stride = _stride>>(sizeof(pixel)-1);
yading@10	1075 PREDICT_8x8_LOAD_TOP;
yading@10	1076 PREDICT_8x8_LOAD_TOPRIGHT;
yading@10	1077 SRC(0,0)= (t0 + t1 + 1) >> 1;
yading@10	1078 SRC(0,1)= (t0 + 2*t1 + t2 + 2) >> 2;
yading@10	1079 SRC(0,2)=SRC(1,0)= (t1 + t2 + 1) >> 1;
yading@10	1080 SRC(0,3)=SRC(1,1)= (t1 + 2*t2 + t3 + 2) >> 2;
yading@10	1081 SRC(0,4)=SRC(1,2)=SRC(2,0)= (t2 + t3 + 1) >> 1;
yading@10	1082 SRC(0,5)=SRC(1,3)=SRC(2,1)= (t2 + 2*t3 + t4 + 2) >> 2;
yading@10	1083 SRC(0,6)=SRC(1,4)=SRC(2,2)=SRC(3,0)= (t3 + t4 + 1) >> 1;
yading@10	1084 SRC(0,7)=SRC(1,5)=SRC(2,3)=SRC(3,1)= (t3 + 2*t4 + t5 + 2) >> 2;
yading@10	1085 SRC(1,6)=SRC(2,4)=SRC(3,2)=SRC(4,0)= (t4 + t5 + 1) >> 1;
yading@10	1086 SRC(1,7)=SRC(2,5)=SRC(3,3)=SRC(4,1)= (t4 + 2*t5 + t6 + 2) >> 2;
yading@10	1087 SRC(2,6)=SRC(3,4)=SRC(4,2)=SRC(5,0)= (t5 + t6 + 1) >> 1;
yading@10	1088 SRC(2,7)=SRC(3,5)=SRC(4,3)=SRC(5,1)= (t5 + 2*t6 + t7 + 2) >> 2;
yading@10	1089 SRC(3,6)=SRC(4,4)=SRC(5,2)=SRC(6,0)= (t6 + t7 + 1) >> 1;
yading@10	1090 SRC(3,7)=SRC(4,5)=SRC(5,3)=SRC(6,1)= (t6 + 2*t7 + t8 + 2) >> 2;
yading@10	1091 SRC(4,6)=SRC(5,4)=SRC(6,2)=SRC(7,0)= (t7 + t8 + 1) >> 1;
yading@10	1092 SRC(4,7)=SRC(5,5)=SRC(6,3)=SRC(7,1)= (t7 + 2*t8 + t9 + 2) >> 2;
yading@10	1093 SRC(5,6)=SRC(6,4)=SRC(7,2)= (t8 + t9 + 1) >> 1;
yading@10	1094 SRC(5,7)=SRC(6,5)=SRC(7,3)= (t8 + 2*t9 + t10 + 2) >> 2;
yading@10	1095 SRC(6,6)=SRC(7,4)= (t9 + t10 + 1) >> 1;
yading@10	1096 SRC(6,7)=SRC(7,5)= (t9 + 2*t10 + t11 + 2) >> 2;
yading@10	1097 SRC(7,6)= (t10 + t11 + 1) >> 1;
yading@10	1098 SRC(7,7)= (t10 + 2*t11 + t12 + 2) >> 2;
yading@10	1099 }
yading@10	1100 static void FUNCC(pred8x8l_horizontal_up)(uint8_t *_src, int has_topleft,
yading@10	1101 int has_topright, ptrdiff_t _stride)
yading@10	1102 {
yading@10	1103 pixel src = (pixel)_src;
yading@10	1104 int stride = _stride>>(sizeof(pixel)-1);
yading@10	1105 PREDICT_8x8_LOAD_LEFT;
yading@10	1106 SRC(0,0)= (l0 + l1 + 1) >> 1;
yading@10	1107 SRC(1,0)= (l0 + 2*l1 + l2 + 2) >> 2;
yading@10	1108 SRC(0,1)=SRC(2,0)= (l1 + l2 + 1) >> 1;
yading@10	1109 SRC(1,1)=SRC(3,0)= (l1 + 2*l2 + l3 + 2) >> 2;
yading@10	1110 SRC(0,2)=SRC(2,1)=SRC(4,0)= (l2 + l3 + 1) >> 1;
yading@10	1111 SRC(1,2)=SRC(3,1)=SRC(5,0)= (l2 + 2*l3 + l4 + 2) >> 2;
yading@10	1112 SRC(0,3)=SRC(2,2)=SRC(4,1)=SRC(6,0)= (l3 + l4 + 1) >> 1;
yading@10	1113 SRC(1,3)=SRC(3,2)=SRC(5,1)=SRC(7,0)= (l3 + 2*l4 + l5 + 2) >> 2;
yading@10	1114 SRC(0,4)=SRC(2,3)=SRC(4,2)=SRC(6,1)= (l4 + l5 + 1) >> 1;
yading@10	1115 SRC(1,4)=SRC(3,3)=SRC(5,2)=SRC(7,1)= (l4 + 2*l5 + l6 + 2) >> 2;
yading@10	1116 SRC(0,5)=SRC(2,4)=SRC(4,3)=SRC(6,2)= (l5 + l6 + 1) >> 1;
yading@10	1117 SRC(1,5)=SRC(3,4)=SRC(5,3)=SRC(7,2)= (l5 + 2*l6 + l7 + 2) >> 2;
yading@10	1118 SRC(0,6)=SRC(2,5)=SRC(4,4)=SRC(6,3)= (l6 + l7 + 1) >> 1;
yading@10	1119 SRC(1,6)=SRC(3,5)=SRC(5,4)=SRC(7,3)= (l6 + 3*l7 + 2) >> 2;
yading@10	1120 SRC(0,7)=SRC(1,7)=SRC(2,6)=SRC(2,7)=SRC(3,6)=
yading@10	1121 SRC(3,7)=SRC(4,5)=SRC(4,6)=SRC(4,7)=SRC(5,5)=
yading@10	1122 SRC(5,6)=SRC(5,7)=SRC(6,4)=SRC(6,5)=SRC(6,6)=
yading@10	1123 SRC(6,7)=SRC(7,4)=SRC(7,5)=SRC(7,6)=SRC(7,7)= l7;
yading@10	1124 }
yading@10	1125 #undef PREDICT_8x8_LOAD_LEFT
yading@10	1126 #undef PREDICT_8x8_LOAD_TOP
yading@10	1127 #undef PREDICT_8x8_LOAD_TOPLEFT
yading@10	1128 #undef PREDICT_8x8_LOAD_TOPRIGHT
yading@10	1129 #undef PREDICT_8x8_DC
yading@10	1130 #undef PTR
yading@10	1131 #undef PT
yading@10	1132 #undef PL
yading@10	1133 #undef SRC
yading@10	1134
yading@10	1135 static void FUNCC(pred4x4_vertical_add)(uint8_t _pix, int16_t _block,
yading@10	1136 ptrdiff_t stride)
yading@10	1137 {
yading@10	1138 int i;
yading@10	1139 pixel pix = (pixel)_pix;
yading@10	1140 const dctcoef block = (const dctcoef)_block;
yading@10	1141 stride >>= sizeof(pixel)-1;
yading@10	1142 pix -= stride;
yading@10	1143 for(i=0; i<4; i++){
yading@10	1144 pixel v = pix[0];
yading@10	1145 pix[1*stride]= v += block[0];
yading@10	1146 pix[2*stride]= v += block[4];
yading@10	1147 pix[3*stride]= v += block[8];
yading@10	1148 pix[4*stride]= v + block[12];
yading@10	1149 pix++;
yading@10	1150 block++;
yading@10	1151 }
yading@10	1152
yading@10	1153 memset(_block, 0, sizeof(dctcoef) * 16);
yading@10	1154 }
yading@10	1155
yading@10	1156 static void FUNCC(pred4x4_horizontal_add)(uint8_t _pix, int16_t _block,
yading@10	1157 ptrdiff_t stride)
yading@10	1158 {
yading@10	1159 int i;
yading@10	1160 pixel pix = (pixel)_pix;
yading@10	1161 const dctcoef block = (const dctcoef)_block;
yading@10	1162 stride >>= sizeof(pixel)-1;
yading@10	1163 for(i=0; i<4; i++){
yading@10	1164 pixel v = pix[-1];
yading@10	1165 pix[0]= v += block[0];
yading@10	1166 pix[1]= v += block[1];
yading@10	1167 pix[2]= v += block[2];
yading@10	1168 pix[3]= v + block[3];
yading@10	1169 pix+= stride;
yading@10	1170 block+= 4;
yading@10	1171 }
yading@10	1172
yading@10	1173 memset(_block, 0, sizeof(dctcoef) * 16);
yading@10	1174 }
yading@10	1175
yading@10	1176 static void FUNCC(pred8x8l_vertical_add)(uint8_t _pix, int16_t _block,
yading@10	1177 ptrdiff_t stride)
yading@10	1178 {
yading@10	1179 int i;
yading@10	1180 pixel pix = (pixel)_pix;
yading@10	1181 const dctcoef block = (const dctcoef)_block;
yading@10	1182 stride >>= sizeof(pixel)-1;
yading@10	1183 pix -= stride;
yading@10	1184 for(i=0; i<8; i++){
yading@10	1185 pixel v = pix[0];
yading@10	1186 pix[1*stride]= v += block[0];
yading@10	1187 pix[2*stride]= v += block[8];
yading@10	1188 pix[3*stride]= v += block[16];
yading@10	1189 pix[4*stride]= v += block[24];
yading@10	1190 pix[5*stride]= v += block[32];
yading@10	1191 pix[6*stride]= v += block[40];
yading@10	1192 pix[7*stride]= v += block[48];
yading@10	1193 pix[8*stride]= v + block[56];
yading@10	1194 pix++;
yading@10	1195 block++;
yading@10	1196 }
yading@10	1197
yading@10	1198 memset(_block, 0, sizeof(dctcoef) * 64);
yading@10	1199 }
yading@10	1200
yading@10	1201 static void FUNCC(pred8x8l_horizontal_add)(uint8_t _pix, int16_t _block,
yading@10	1202 ptrdiff_t stride)
yading@10	1203 {
yading@10	1204 int i;
yading@10	1205 pixel pix = (pixel)_pix;
yading@10	1206 const dctcoef block = (const dctcoef)_block;
yading@10	1207 stride >>= sizeof(pixel)-1;
yading@10	1208 for(i=0; i<8; i++){
yading@10	1209 pixel v = pix[-1];
yading@10	1210 pix[0]= v += block[0];
yading@10	1211 pix[1]= v += block[1];
yading@10	1212 pix[2]= v += block[2];
yading@10	1213 pix[3]= v += block[3];
yading@10	1214 pix[4]= v += block[4];
yading@10	1215 pix[5]= v += block[5];
yading@10	1216 pix[6]= v += block[6];
yading@10	1217 pix[7]= v + block[7];
yading@10	1218 pix+= stride;
yading@10	1219 block+= 8;
yading@10	1220 }
yading@10	1221
yading@10	1222 memset(_block, 0, sizeof(dctcoef) * 64);
yading@10	1223 }
yading@10	1224
yading@10	1225 static void FUNCC(pred16x16_vertical_add)(uint8_t pix, const int block_offset,
yading@10	1226 int16_t *block,
yading@10	1227 ptrdiff_t stride)
yading@10	1228 {
yading@10	1229 int i;
yading@10	1230 for(i=0; i<16; i++)
yading@10	1231 FUNCC(pred4x4_vertical_add)(pix + block_offset[i], block + i16sizeof(pixel), stride);
yading@10	1232 }
yading@10	1233
yading@10	1234 static void FUNCC(pred16x16_horizontal_add)(uint8_t *pix,
yading@10	1235 const int *block_offset,
yading@10	1236 int16_t *block,
yading@10	1237 ptrdiff_t stride)
yading@10	1238 {
yading@10	1239 int i;
yading@10	1240 for(i=0; i<16; i++)
yading@10	1241 FUNCC(pred4x4_horizontal_add)(pix + block_offset[i], block + i16sizeof(pixel), stride);
yading@10	1242 }
yading@10	1243
yading@10	1244 static void FUNCC(pred8x8_vertical_add)(uint8_t pix, const int block_offset,
yading@10	1245 int16_t *block, ptrdiff_t stride)
yading@10	1246 {
yading@10	1247 int i;
yading@10	1248 for(i=0; i<4; i++)
yading@10	1249 FUNCC(pred4x4_vertical_add)(pix + block_offset[i], block + i16sizeof(pixel), stride);
yading@10	1250 }
yading@10	1251
yading@10	1252 static void FUNCC(pred8x16_vertical_add)(uint8_t pix, const int block_offset,
yading@10	1253 int16_t *block, ptrdiff_t stride)
yading@10	1254 {
yading@10	1255 int i;
yading@10	1256 for(i=0; i<4; i++)
yading@10	1257 FUNCC(pred4x4_vertical_add)(pix + block_offset[i], block + i16sizeof(pixel), stride);
yading@10	1258 for(i=4; i<8; i++)
yading@10	1259 FUNCC(pred4x4_vertical_add)(pix + block_offset[i+4], block + i16sizeof(pixel), stride);
yading@10	1260 }
yading@10	1261
yading@10	1262 static void FUNCC(pred8x8_horizontal_add)(uint8_t pix, const int block_offset,
yading@10	1263 int16_t *block,
yading@10	1264 ptrdiff_t stride)
yading@10	1265 {
yading@10	1266 int i;
yading@10	1267 for(i=0; i<4; i++)
yading@10	1268 FUNCC(pred4x4_horizontal_add)(pix + block_offset[i], block + i16sizeof(pixel), stride);
yading@10	1269 }
yading@10	1270
yading@10	1271 static void FUNCC(pred8x16_horizontal_add)(uint8_t *pix,
yading@10	1272 const int *block_offset,
yading@10	1273 int16_t *block, ptrdiff_t stride)
yading@10	1274 {
yading@10	1275 int i;
yading@10	1276 for(i=0; i<4; i++)
yading@10	1277 FUNCC(pred4x4_horizontal_add)(pix + block_offset[i], block + i16sizeof(pixel), stride);
yading@10	1278 for(i=4; i<8; i++)
yading@10	1279 FUNCC(pred4x4_horizontal_add)(pix + block_offset[i+4], block + i16sizeof(pixel), stride);
yading@10	1280 }

Mercurial > hg > pmhd

annotate ffmpeg/libavcodec/h264pred_template.c @ 13:844d341cf643 tip