GitList

libavcodec/simple_idct.c

37e8dcda	/*
ff4ec49e	* Simple IDCT * * Copyright (c) 2001 Michael Niedermayer <michaelni@gmx.at> *
b78e7197	* This file is part of FFmpeg. * * FFmpeg is free software; you can redistribute it and/or
ff4ec49e	* modify it under the terms of the GNU Lesser General Public * License as published by the Free Software Foundation; either
b78e7197	* version 2.1 of the License, or (at your option) any later version.
ff4ec49e	*
b78e7197	* FFmpeg is distributed in the hope that it will be useful,
ff4ec49e	* but WITHOUT ANY WARRANTY; without even the implied warranty of * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU * Lesser General Public License for more details. * * You should have received a copy of the GNU Lesser General Public
b78e7197	* License along with FFmpeg; if not, write to the Free Software
5509bffa	* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
ff4ec49e	*/
115329f1
983e3246	/**
bad5537e	* @file libavcodec/simple_idct.c
983e3246	* simpleidct in C. */
115329f1
37e8dcda	/*
ff4ec49e	based upon some outcommented c code from mpeg2dec (idct_mmx.c
115329f1	written by Aaron Holtzman <aholtzma@ess.engr.uvic.ca>)
ff4ec49e	*/
6000abfa	#include "avcodec.h"
d36a2466	#include "dsputil.h"
edf7c2b2	#include "mathops.h"
37e8dcda	#include "simple_idct.h" #if 0 #define W1 2841 /* 2048sqrt (2)cos (1pi/16) / #define W2 2676 /* 2048sqrt (2)cos (2pi/16) / #define W3 2408 /* 2048sqrt (2)cos (3pi/16) / #define W4 2048 /* 2048sqrt (2)cos (4pi/16) / #define W5 1609 /* 2048sqrt (2)cos (5pi/16) / #define W6 1108 /* 2048sqrt (2)cos (6pi/16) / #define W7 565 /* 2048sqrt (2)cos (7pi/16) / #define ROW_SHIFT 8 #define COL_SHIFT 17 #else #define W1 22725 //cos(iM_PI/16)sqrt(2)(1<<14) + 0.5 #define W2 21407 //cos(iM_PI/16)sqrt(2)(1<<14) + 0.5 #define W3 19266 //cos(iM_PI/16)sqrt(2)*(1<<14) + 0.5
ccf589a8	#define W4 16383 //cos(iM_PI/16)sqrt(2)*(1<<14) + 0.5
37e8dcda	#define W5 12873 //cos(iM_PI/16)sqrt(2)(1<<14) + 0.5 #define W6 8867 //cos(iM_PI/16)sqrt(2)(1<<14) + 0.5 #define W7 4520 //cos(iM_PI/16)sqrt(2)*(1<<14) + 0.5 #define ROW_SHIFT 11 #define COL_SHIFT 20 // 6 #endif
4973971e
0e15384d	static inline void idctRowCondDC (DCTELEM * row)
37e8dcda	{
bb270c08	int a0, a1, a2, a3, b0, b1, b2, b3;
b250f9c6	#if HAVE_FAST_64BIT
412ba501	uint64_t temp; #else uint32_t temp; #endif
4973971e
b250f9c6	#if HAVE_FAST_64BIT
412ba501	#ifdef WORDS_BIGENDIAN #define ROW0_MASK 0xffff000000000000LL #else #define ROW0_MASK 0xffffLL #endif
0e15384d	if(sizeof(DCTELEM)==2){
115329f1	if ( ((((uint64_t *)row)[0] & ~ROW0_MASK) \|
0e15384d	((uint64_t )row)[1]) == 0) { temp = (row[0] << 3) & 0xffff; temp += temp << 16; temp += temp << 32; ((uint64_t )row)[0] = temp; ((uint64_t *)row)[1] = temp; return;
bb270c08	}
0e15384d	}else{ if (!(row[1]\|row[2]\|row[3]\|row[4]\|row[5]\|row[6]\|row[7])) { row[0]=row[1]=row[2]=row[3]=row[4]=row[5]=row[6]=row[7]= row[0] << 3; return; } }
412ba501	#else
0e15384d	if(sizeof(DCTELEM)==2){ if (!(((uint32_t)row)[1] \| ((uint32_t)row)[2] \|
115329f1	((uint32_t*)row)[3] \|
0e15384d	row[1])) { temp = (row[0] << 3) & 0xffff; temp += temp << 16; ((uint32_t)row)[0]=((uint32_t)row)[1] = ((uint32_t)row)[2]=((uint32_t)row)[3] = temp; return; } }else{ if (!(row[1]\|row[2]\|row[3]\|row[4]\|row[5]\|row[6]\|row[7])) { row[0]=row[1]=row[2]=row[3]=row[4]=row[5]=row[6]=row[7]= row[0] << 3; return; } }
412ba501	#endif
4973971e
412ba501	a0 = (W4 * row[0]) + (1 << (ROW_SHIFT - 1));
bb270c08	a1 = a0; a2 = a0; a3 = a0;
412ba501	/* no need to optimize : gcc does it / a0 += W2 row[2]; a1 += W6 * row[2]; a2 -= W6 * row[2]; a3 -= W2 * row[2];
edf7c2b2	b0 = MUL16(W1, row[1]);
412ba501	MAC16(b0, W3, row[3]);
edf7c2b2	b1 = MUL16(W3, row[1]);
412ba501	MAC16(b1, -W7, row[3]);
edf7c2b2	b2 = MUL16(W5, row[1]);
412ba501	MAC16(b2, -W1, row[3]);
edf7c2b2	b3 = MUL16(W7, row[1]);
412ba501	MAC16(b3, -W5, row[3]);
b250f9c6	#if HAVE_FAST_64BIT
412ba501	temp = ((uint64_t)row)[1]; #else temp = ((uint32_t)row)[2] \| ((uint32_t*)row)[3]; #endif
bb270c08	if (temp != 0) {
412ba501	a0 += W4row[4] + W6row[6]; a1 += - W4row[4] - W2row[6]; a2 += - W4row[4] + W2row[6]; a3 += W4row[4] - W6row[6]; MAC16(b0, W5, row[5]); MAC16(b0, W7, row[7]);
115329f1
412ba501	MAC16(b1, -W1, row[5]); MAC16(b1, -W5, row[7]);
115329f1
412ba501	MAC16(b2, W7, row[5]); MAC16(b2, W3, row[7]);
115329f1
412ba501	MAC16(b3, W3, row[5]); MAC16(b3, -W1, row[7]);
bb270c08	} row[0] = (a0 + b0) >> ROW_SHIFT; row[7] = (a0 - b0) >> ROW_SHIFT; row[1] = (a1 + b1) >> ROW_SHIFT; row[6] = (a1 - b1) >> ROW_SHIFT; row[2] = (a2 + b2) >> ROW_SHIFT; row[5] = (a2 - b2) >> ROW_SHIFT; row[3] = (a3 + b3) >> ROW_SHIFT; row[4] = (a3 - b3) >> ROW_SHIFT;
4973971e	}
115329f1	static inline void idctSparseColPut (uint8_t *dest, int line_size,
0e15384d	DCTELEM * col)
d36a2466	{
bb270c08	int a0, a1, a2, a3, b0, b1, b2, b3;
55fde95e	uint8_t *cm = ff_cropTbl + MAX_NEG_CROP;
d36a2466	/* XXX: I did that only to give same values as previous code */
bb270c08	a0 = W4 * (col[8*0] + ((1<<(COL_SHIFT-1))/W4)); a1 = a0; a2 = a0; a3 = a0;
d36a2466	a0 += + W2col[82]; a1 += + W6col[82]; a2 += - W6col[82]; a3 += - W2col[82];
edf7c2b2	b0 = MUL16(W1, col[81]); b1 = MUL16(W3, col[81]); b2 = MUL16(W5, col[81]); b3 = MUL16(W7, col[81]);
d36a2466	MAC16(b0, + W3, col[83]); MAC16(b1, - W7, col[83]); MAC16(b2, - W1, col[83]); MAC16(b3, - W5, col[83]);
bb270c08	if(col[8*4]){
d36a2466	a0 += + W4col[84]; a1 += - W4col[84]; a2 += - W4col[84]; a3 += + W4col[84];
bb270c08	}
d36a2466
bb270c08	if (col[8*5]) {
d36a2466	MAC16(b0, + W5, col[85]); MAC16(b1, - W1, col[85]); MAC16(b2, + W7, col[85]); MAC16(b3, + W3, col[85]);
bb270c08	}
d36a2466
bb270c08	if(col[8*6]){
d36a2466	a0 += + W6col[86]; a1 += - W2col[86]; a2 += + W2col[86]; a3 += - W6col[86];
bb270c08	}
d36a2466
bb270c08	if (col[8*7]) {
d36a2466	MAC16(b0, + W7, col[87]); MAC16(b1, - W5, col[87]); MAC16(b2, + W3, col[87]); MAC16(b3, - W1, col[87]);
bb270c08	}
d36a2466	dest[0] = cm[(a0 + b0) >> COL_SHIFT]; dest += line_size; dest[0] = cm[(a1 + b1) >> COL_SHIFT]; dest += line_size; dest[0] = cm[(a2 + b2) >> COL_SHIFT]; dest += line_size; dest[0] = cm[(a3 + b3) >> COL_SHIFT]; dest += line_size; dest[0] = cm[(a3 - b3) >> COL_SHIFT]; dest += line_size; dest[0] = cm[(a2 - b2) >> COL_SHIFT]; dest += line_size; dest[0] = cm[(a1 - b1) >> COL_SHIFT]; dest += line_size; dest[0] = cm[(a0 - b0) >> COL_SHIFT]; }
115329f1	static inline void idctSparseColAdd (uint8_t *dest, int line_size,
0e15384d	DCTELEM * col)
37e8dcda	{
bb270c08	int a0, a1, a2, a3, b0, b1, b2, b3;
55fde95e	uint8_t *cm = ff_cropTbl + MAX_NEG_CROP;
37e8dcda
412ba501	/* XXX: I did that only to give same values as previous code */
bb270c08	a0 = W4 * (col[8*0] + ((1<<(COL_SHIFT-1))/W4)); a1 = a0; a2 = a0; a3 = a0;
37e8dcda
412ba501	a0 += + W2col[82]; a1 += + W6col[82]; a2 += - W6col[82]; a3 += - W2col[82];
4973971e
edf7c2b2	b0 = MUL16(W1, col[81]); b1 = MUL16(W3, col[81]); b2 = MUL16(W5, col[81]); b3 = MUL16(W7, col[81]);
37e8dcda
412ba501	MAC16(b0, + W3, col[83]); MAC16(b1, - W7, col[83]); MAC16(b2, - W1, col[83]); MAC16(b3, - W5, col[83]);
4973971e
bb270c08	if(col[8*4]){
412ba501	a0 += + W4col[84]; a1 += - W4col[84]; a2 += - W4col[84]; a3 += + W4col[84];
bb270c08	}
4973971e
bb270c08	if (col[8*5]) {
412ba501	MAC16(b0, + W5, col[85]); MAC16(b1, - W1, col[85]); MAC16(b2, + W7, col[85]); MAC16(b3, + W3, col[85]);
bb270c08	}
4973971e
bb270c08	if(col[8*6]){
412ba501	a0 += + W6col[86]; a1 += - W2col[86]; a2 += + W2col[86]; a3 += - W6col[86];
bb270c08	}
412ba501
bb270c08	if (col[8*7]) {
412ba501	MAC16(b0, + W7, col[87]); MAC16(b1, - W5, col[87]); MAC16(b2, + W3, col[87]); MAC16(b3, - W1, col[87]);
bb270c08	}
412ba501
d36a2466	dest[0] = cm[dest[0] + ((a0 + b0) >> COL_SHIFT)]; dest += line_size; dest[0] = cm[dest[0] + ((a1 + b1) >> COL_SHIFT)]; dest += line_size; dest[0] = cm[dest[0] + ((a2 + b2) >> COL_SHIFT)]; dest += line_size; dest[0] = cm[dest[0] + ((a3 + b3) >> COL_SHIFT)]; dest += line_size; dest[0] = cm[dest[0] + ((a3 - b3) >> COL_SHIFT)]; dest += line_size; dest[0] = cm[dest[0] + ((a2 - b2) >> COL_SHIFT)]; dest += line_size; dest[0] = cm[dest[0] + ((a1 - b1) >> COL_SHIFT)]; dest += line_size; dest[0] = cm[dest[0] + ((a0 - b0) >> COL_SHIFT)];
37e8dcda	}
0e15384d	static inline void idctSparseCol (DCTELEM * col)
86748dbc	{
bb270c08	int a0, a1, a2, a3, b0, b1, b2, b3;
86748dbc	/* XXX: I did that only to give same values as previous code */
bb270c08	a0 = W4 * (col[8*0] + ((1<<(COL_SHIFT-1))/W4)); a1 = a0; a2 = a0; a3 = a0;
86748dbc	a0 += + W2col[82]; a1 += + W6col[82]; a2 += - W6col[82]; a3 += - W2col[82];
edf7c2b2	b0 = MUL16(W1, col[81]); b1 = MUL16(W3, col[81]); b2 = MUL16(W5, col[81]); b3 = MUL16(W7, col[81]);
86748dbc	MAC16(b0, + W3, col[83]); MAC16(b1, - W7, col[83]); MAC16(b2, - W1, col[83]); MAC16(b3, - W5, col[83]);
bb270c08	if(col[8*4]){
86748dbc	a0 += + W4col[84]; a1 += - W4col[84]; a2 += - W4col[84]; a3 += + W4col[84];
bb270c08	}
86748dbc
bb270c08	if (col[8*5]) {
86748dbc	MAC16(b0, + W5, col[85]); MAC16(b1, - W1, col[85]); MAC16(b2, + W7, col[85]); MAC16(b3, + W3, col[85]);
bb270c08	}
86748dbc
bb270c08	if(col[8*6]){
86748dbc	a0 += + W6col[86]; a1 += - W2col[86]; a2 += + W2col[86]; a3 += - W6col[86];
bb270c08	}
86748dbc
bb270c08	if (col[8*7]) {
86748dbc	MAC16(b0, + W7, col[87]); MAC16(b1, - W5, col[87]); MAC16(b2, + W3, col[87]); MAC16(b3, - W1, col[87]);
bb270c08	}
86748dbc	col[0 ] = ((a0 + b0) >> COL_SHIFT); col[8 ] = ((a1 + b1) >> COL_SHIFT); col[16] = ((a2 + b2) >> COL_SHIFT); col[24] = ((a3 + b3) >> COL_SHIFT); col[32] = ((a3 - b3) >> COL_SHIFT); col[40] = ((a2 - b2) >> COL_SHIFT); col[48] = ((a1 - b1) >> COL_SHIFT); col[56] = ((a0 - b0) >> COL_SHIFT); }
59e6f60a	void ff_simple_idct_put(uint8_t dest, int line_size, DCTELEM block)
d36a2466	{ int i; for(i=0; i<8; i++) idctRowCondDC(block + i*8);
115329f1
d36a2466	for(i=0; i<8; i++) idctSparseColPut(dest + i, line_size, block + i); }
59e6f60a	void ff_simple_idct_add(uint8_t dest, int line_size, DCTELEM block)
412ba501	{ int i; for(i=0; i<8; i++) idctRowCondDC(block + i*8);
115329f1
412ba501	for(i=0; i<8; i++)
d36a2466	idctSparseColAdd(dest + i, line_size, block + i);
4973971e	}
cd4af68a
59e6f60a	void ff_simple_idct(DCTELEM *block)
86748dbc	{ int i; for(i=0; i<8; i++) idctRowCondDC(block + i*8);
115329f1
86748dbc	for(i=0; i<8; i++) idctSparseCol(block + i); }
9bf71516	/* 2x4x8 idct / #define CN_SHIFT 12 #define C_FIX(x) ((int)((x) (1 << CN_SHIFT) + 0.5))
652f0197	#define C1 C_FIX(0.6532814824) #define C2 C_FIX(0.2705980501)
9bf71516
652f0197	/* row idct is multiple by 16 * sqrt(2.0), col idct4 is normalized, and the butterfly must be multiplied by 0.5 * sqrt(2.0) */ #define C_SHIFT (4+1+12)
9bf71516
fda767bb	static inline void idct4col_put(uint8_t dest, int line_size, const DCTELEM col)
9bf71516	{ int c0, c1, c2, c3, a0, a1, a2, a3;
55fde95e	const uint8_t *cm = ff_cropTbl + MAX_NEG_CROP;
9bf71516	a0 = col[80]; a1 = col[82]; a2 = col[84]; a3 = col[86];
652f0197	c0 = ((a0 + a2) << (CN_SHIFT - 1)) + (1 << (C_SHIFT - 1)); c2 = ((a0 - a2) << (CN_SHIFT - 1)) + (1 << (C_SHIFT - 1));
9bf71516	c1 = a1 * C1 + a3 * C2; c3 = a1 * C2 - a3 * C1; dest[0] = cm[(c0 + c1) >> C_SHIFT]; dest += line_size; dest[0] = cm[(c2 + c3) >> C_SHIFT]; dest += line_size; dest[0] = cm[(c2 - c3) >> C_SHIFT]; dest += line_size; dest[0] = cm[(c0 - c1) >> C_SHIFT]; } #define BF(k) \ {\ int a0, a1;\ a0 = ptr[k];\ a1 = ptr[8 + k];\ ptr[k] = a0 + a1;\ ptr[8 + k] = a0 - a1;\ } /* only used by DV codec. The input must be interlaced. 128 is added to the pixels before clamping to avoid systematic error (1024sqrt(2)) offset would be needed otherwise. / /* XXX: I think a 1.0/sqrt(2) normalization should be needed to compensate the extra butterfly stage - I don't have the full DV specification */
59e6f60a	void ff_simple_idct248_put(uint8_t dest, int line_size, DCTELEM block)
9bf71516	{ int i;
0e15384d	DCTELEM *ptr;
115329f1
9bf71516	/* butterfly / ptr = block; for(i=0;i<4;i++) { BF(0); BF(1); BF(2); BF(3); BF(4); BF(5); BF(6); BF(7); ptr += 2 8; } /* IDCT8 on each line / for(i=0; i<8; i++) { idctRowCondDC(block + i8); } /* IDCT4 and store */ for(i=0;i<8;i++) {
fda767bb	idct4col_put(dest + i, 2 * line_size, block + i); idct4col_put(dest + line_size + i, 2 * line_size, block + 8 + i);
9bf71516	} }
1457ab52	/* 8x4 & 4x8 WMV2 IDCT / #undef CN_SHIFT #undef C_SHIFT #undef C_FIX #undef C1 #undef C2 #define CN_SHIFT 12 #define C_FIX(x) ((int)((x) 1.414213562 * (1 << CN_SHIFT) + 0.5)) #define C1 C_FIX(0.6532814824) #define C2 C_FIX(0.2705980501) #define C3 C_FIX(0.5) #define C_SHIFT (4+1+12)
0c1a9eda	static inline void idct4col_add(uint8_t dest, int line_size, const DCTELEM col)
1457ab52	{ int c0, c1, c2, c3, a0, a1, a2, a3;
55fde95e	const uint8_t *cm = ff_cropTbl + MAX_NEG_CROP;
1457ab52	a0 = col[80]; a1 = col[81]; a2 = col[82]; a3 = col[83]; c0 = (a0 + a2)C3 + (1 << (C_SHIFT - 1)); c2 = (a0 - a2)C3 + (1 << (C_SHIFT - 1)); c1 = a1 * C1 + a3 * C2; c3 = a1 * C2 - a3 * C1; dest[0] = cm[dest[0] + ((c0 + c1) >> C_SHIFT)]; dest += line_size; dest[0] = cm[dest[0] + ((c2 + c3) >> C_SHIFT)]; dest += line_size; dest[0] = cm[dest[0] + ((c2 - c3) >> C_SHIFT)]; dest += line_size; dest[0] = cm[dest[0] + ((c0 - c1) >> C_SHIFT)]; } #define RN_SHIFT 15 #define R_FIX(x) ((int)((x) * 1.414213562 * (1 << RN_SHIFT) + 0.5)) #define R1 R_FIX(0.6532814824) #define R2 R_FIX(0.2705980501) #define R3 R_FIX(0.5) #define R_SHIFT 11
0e15384d	static inline void idct4row(DCTELEM *row)
1457ab52	{ int c0, c1, c2, c3, a0, a1, a2, a3;
55fde95e	//const uint8_t *cm = ff_cropTbl + MAX_NEG_CROP;
1457ab52	a0 = row[0]; a1 = row[1]; a2 = row[2]; a3 = row[3]; c0 = (a0 + a2)R3 + (1 << (R_SHIFT - 1)); c2 = (a0 - a2)R3 + (1 << (R_SHIFT - 1)); c1 = a1 * R1 + a3 * R2; c3 = a1 * R2 - a3 * R1; row[0]= (c0 + c1) >> R_SHIFT; row[1]= (c2 + c3) >> R_SHIFT; row[2]= (c2 - c3) >> R_SHIFT; row[3]= (c0 - c1) >> R_SHIFT; }
59e6f60a	void ff_simple_idct84_add(uint8_t dest, int line_size, DCTELEM block)
1457ab52	{ int i; /* IDCT8 on each line / for(i=0; i<4; i++) { idctRowCondDC(block + i8); } /* IDCT4 and store */ for(i=0;i<8;i++) { idct4col_add(dest + i, line_size, block + i); } }
59e6f60a	void ff_simple_idct48_add(uint8_t dest, int line_size, DCTELEM block)
1457ab52	{ int i; /* IDCT4 on each line / for(i=0; i<8; i++) { idct4row(block + i8); } /* IDCT8 and store */ for(i=0; i<4; i++){ idctSparseColAdd(dest + i, line_size, block + i); } }
91823a6e	void ff_simple_idct44_add(uint8_t dest, int line_size, DCTELEM block) { int i; /* IDCT4 on each line / for(i=0; i<4; i++) { idct4row(block + i8); } /* IDCT4 and store */ for(i=0; i<4; i++){ idct4col_add(dest + i, line_size, block + i); } }