GitList

Browse code

use tomsfastmath

Török Edvin authored on 2012/01/10 00:06:07
Showing 9 changed files

configure.in index e3b391e..8a67337 100644
libclamav/Makefile.am index b127982..e1bd80d 100644
libclamav/Makefile.in index 944749d..cc8fd85 100644
libclamav/bignum.c index fb9f84d..558a828 100644
libclamav/bignum.h index 1097142..f99c8f1 100644
libclamav/bignum_fast.h index 0000000..b4104e6
libclamav/bignum_superclass.h index 0000000..89d5516
libclamav/fp_mul_comba.c index 0000000..12dd947
libclamav/fp_sqr_comba.c index 0000000..d375416

@@ -758,28 +758,6 @@ AC_ARG_ENABLE([milter],
                      [  --enable-milter	  build clamav-milter],
                      have_milter=$enableval, have_milter="no")
                     -have_system_tommath=no
                     -AC_ARG_WITH([system-tommath],
                     -[  --with-system-tommath	link against system libtommath (default = no, use bundled)],
                     -[
                     -	case "$withval" in
                     -	yes)
                     -		AC_CHECK_LIB([tommath], [mp_mul_2d],
                     -			[
                     -				AC_DEFINE([HAVE_SYSTEM_TOMMATH], 1, [link against system-wide libtommath])
                     -				LIBCLAMAV_LIBS="$LIBCLAMAV_LIBS -ltommath"
                     -				have_system_tommath=yes
                     -			],
                     -			[AC_MSG_WARN([****** Option --with-system-tommath was given but libtommath does not seem to be available, using bundled files instead])]
                     -		)
                     -	;;
                     -	no) ;;
                     -	*) AC_MSG_ERROR([--with-system-tommath does not take an argument]) ;;
                     -	esac
                     -])
                     -AM_CONDITIONAL([LINK_TOMMATH], test "x$have_system_tommath" = "xyes")
+                    -
+                    -
                      dnl we need to try to link with iconv, otherwise there could be a
                      dnl mismatch between a 32-bit and 64-bit lib. Detect this at configure time.
                      dnl we need to check after zlib/bzip2, because they can change the include path

libclamav/Makefile.am

History View file @ 9ac4fb1

@@ -341,7 +341,10 @@ libclamav_la_SOURCES = \
                      	sha256.h\
                      	sha1.c\
                      	sha1.h\
                     +	bignum.c\
                      	bignum.h\
                     +	bignum_fast.h\
                     +	bignum_superclass.h\
                      	bytecode.c\
                      	bytecode.h\
                      	bytecode_vm.c\
@@ -384,11 +387,6 @@ libclamav_la_SOURCES = \
                      	asn1.c \
                      	asn1.h
                     -if !LINK_TOMMATH
                     -libclamav_la_SOURCES += bignum.c \
                     -		     bignum_class.h
                     -endif
+                    -
                      .PHONY: version.h.tmp
                      version.c: version.h
                      version.h: version.h.tmp
@@ -413,7 +411,7 @@ version.h.tmp:
                      lib_LTLIBRARIES += libclamav.la
                      noinst_LTLIBRARIES = libclamav_internal_utils.la libclamav_internal_utils_nothreads.la libclamav_nocxx.la
                     -EXTRA_DIST += regex/engine.c libclamav.map \
                     +EXTRA_DIST += regex/engine.c fp_sqr_comba.c fp_mul_comba.c libclamav.map \
                      	     jsparse/generated/operators.h jsparse/generated/keywords.h jsparse/future_reserved_words.list\
                      	     jsparse/keywords.list jsparse/special_keywords.list jsparse/operators.gperf
                      COMMON_CLEANFILES=version.h version.h.tmp *.gcda *.gcno

libclamav/Makefile.in

History View file @ 9ac4fb1

@@ -63,9 +63,6 @@ target_triplet = @target@
                      @ENABLE_UNRAR_TRUE@	@top_srcdir@/libclamunrar_iface/libclamunrar_iface.map
                      @ENABLE_UNRAR_TRUE@@VERSIONSCRIPT_TRUE@am__append_5 = -Wl,@VERSIONSCRIPTFLAG@,@top_srcdir@/libclamunrar_iface/libclamunrar_iface.map
                      @VERSIONSCRIPT_TRUE@am__append_6 = -Wl,@VERSIONSCRIPTFLAG@,@top_srcdir@/libclamav/libclamav.map
                     -@LINK_TOMMATH_FALSE@am__append_7 = bignum.c \
                     -@LINK_TOMMATH_FALSE@		     bignum_class.h
+                    -
                      subdir = libclamav
                      DIST_COMMON = $(include_HEADERS) $(srcdir)/Makefile.am \
                      	$(srcdir)/Makefile.in
@@ -113,53 +110,6 @@ LTLIBRARIES = $(lib_LTLIBRARIES) $(noinst_LTLIBRARIES)
                      @ENABLE_UNRAR_TRUE@am__DEPENDENCIES_1 = libclamunrar_iface.la
                      @ENABLE_LLVM_FALSE@am__DEPENDENCIES_2 = libclamav_nocxx.la
                      @ENABLE_LLVM_TRUE@am__DEPENDENCIES_2 = c++/libclamavcxx.la
                     -am__libclamav_la_SOURCES_DIST = clamav.h matcher-ac.c matcher-ac.h \
                     -	matcher-bm.c matcher-bm.h matcher-hash.c matcher-hash.h \
                     -	matcher.c matcher.h others.c others.h readdb.c readdb.h cvd.c \
                     -	cvd.h dsig.c dsig.h scanners.c scanners.h textdet.c textdet.h \
                     -	filetypes.c filetypes.h filetypes_int.h rtf.c rtf.h blob.c \
                     -	blob.h mbox.c mbox.h message.c message.h table.c table.h \
                     -	text.c text.h ole2_extract.c ole2_extract.h vba_extract.c \
                     -	vba_extract.h cltypes.h msexpand.c msexpand.h pe.c pe.h \
                     -	pe_icons.c pe_icons.h disasm.c disasm.h disasm-common.h \
                     -	disasmpriv.h upx.c upx.h htmlnorm.c htmlnorm.h chmunpack.c \
                     -	chmunpack.h rebuildpe.c rebuildpe.h petite.c petite.h \
                     -	wwunpack.c wwunpack.h unsp.c unsp.h aspack.c aspack.h \
                     -	packlibs.c packlibs.h fsg.c fsg.h mew.c mew.h upack.c upack.h \
                     -	line.c line.h untar.c untar.h unzip.c unzip.h inflate64.c \
                     -	inflate64.h inffixed64.h inflate64_priv.h special.c special.h \
                     -	binhex.c binhex.h is_tar.c is_tar.h tnef.c tnef.h autoit.c \
                     -	autoit.h unarj.c unarj.h nsis/bzlib.c nsis/bzlib_private.h \
                     -	nsis/nsis_bzlib.h nsis/nulsft.c nsis/nulsft.h nsis/infblock.c \
                     -	nsis/nsis_zconf.h nsis/nsis_zlib.h nsis/nsis_zutil.h pdf.c \
                     -	pdf.h spin.c spin.h yc.c yc.h elf.c elf.h execs.h sis.c sis.h \
                     -	uuencode.c uuencode.h phishcheck.c phishcheck.h \
                     -	phish_domaincheck_db.c phish_domaincheck_db.h \
                     -	phish_whitelist.c phish_whitelist.h iana_cctld.h iana_tld.h \
                     -	regex_list.c regex_list.h regex_suffix.c regex_suffix.h \
                     -	mspack.c mspack.h cab.c cab.h entconv.c entconv.h entitylist.h \
                     -	encoding_aliases.h hashtab.c hashtab.h dconf.c dconf.h \
                     -	lzma_iface.c lzma_iface.h 7z_iface.c 7z_iface.h 7z/7z.h \
                     -	7z/7zAlloc.c 7z/7zAlloc.h 7z/7zBuf.c 7z/7zBuf.h 7z/7zBuf2.c \
                     -	7z/7zCrc.c 7z/7zCrc.h 7z/7zDec.c 7z/7zFile.c 7z/7zFile.h \
                     -	7z/7zIn.c 7z/7zStream.c 7z/7zVersion.h 7z/Bcj2.c 7z/Bcj2.h \
                     -	7z/Bra.c 7z/Bra.h 7z/Bra86.c 7z/CpuArch.h 7z/Lzma2Dec.c \
                     -	7z/Lzma2Dec.h 7z/LzmaDec.c 7z/LzmaDec.h 7z/Ppmd.h 7z/Ppmd7.c \
                     -	7z/Ppmd7.h 7z/Ppmd7Dec.c 7z/Types.h explode.c explode.h \
                     -	textnorm.c textnorm.h dlp.c dlp.h jsparse/js-norm.c \
                     -	jsparse/js-norm.h jsparse/lexglobal.h jsparse/textbuf.h uniq.c \
                     -	uniq.h version.c version.h mpool.c mpool.h filtering.h \
                     -	filtering.c fmap.c fmap.h perflogging.c perflogging.h \
                     -	default.h sha256.c sha256.h sha1.c sha1.h bignum.h bytecode.c \
                     -	bytecode.h bytecode_vm.c bytecode_priv.h clambc.h cpio.c \
                     -	cpio.h macho.c macho.h ishield.c ishield.h type_desc.h \
                     -	bcfeatures.h bytecode_api.c bytecode_api_decl.c bytecode_api.h \
                     -	bytecode_api_impl.h bytecode_hooks.h cache.c cache.h \
                     -	bytecode_detect.c bytecode_detect.h builtin_bytecodes.h \
                     -	events.c events.h swf.c swf.h jpeg.c jpeg.h png.c png.h \
                     -	iso9660.c iso9660.h arc4.c arc4.h rijndael.c rijndael.h \
                     -	crtmgr.c crtmgr.h asn1.c asn1.h bignum.c bignum_class.h
                     -@LINK_TOMMATH_FALSE@am__objects_1 = libclamav_la-bignum.lo
                      am_libclamav_la_OBJECTS = libclamav_la-matcher-ac.lo \
                      	libclamav_la-matcher-bm.lo libclamav_la-matcher-hash.lo \
                      	libclamav_la-matcher.lo libclamav_la-others.lo \
@@ -206,15 +156,16 @@ am_libclamav_la_OBJECTS = libclamav_la-matcher-ac.lo \
                      	libclamav_la-mpool.lo libclamav_la-filtering.lo \
                      	libclamav_la-fmap.lo libclamav_la-perflogging.lo \
                      	libclamav_la-sha256.lo libclamav_la-sha1.lo \
                     -	libclamav_la-bytecode.lo libclamav_la-bytecode_vm.lo \
                     -	libclamav_la-cpio.lo libclamav_la-macho.lo \
                     -	libclamav_la-ishield.lo libclamav_la-bytecode_api.lo \
                     -	libclamav_la-bytecode_api_decl.lo libclamav_la-cache.lo \
                     -	libclamav_la-bytecode_detect.lo libclamav_la-events.lo \
                     -	libclamav_la-swf.lo libclamav_la-jpeg.lo libclamav_la-png.lo \
                     +	libclamav_la-bignum.lo libclamav_la-bytecode.lo \
                     +	libclamav_la-bytecode_vm.lo libclamav_la-cpio.lo \
                     +	libclamav_la-macho.lo libclamav_la-ishield.lo \
                     +	libclamav_la-bytecode_api.lo libclamav_la-bytecode_api_decl.lo \
                     +	libclamav_la-cache.lo libclamav_la-bytecode_detect.lo \
                     +	libclamav_la-events.lo libclamav_la-swf.lo \
                     +	libclamav_la-jpeg.lo libclamav_la-png.lo \
                      	libclamav_la-iso9660.lo libclamav_la-arc4.lo \
                      	libclamav_la-rijndael.lo libclamav_la-crtmgr.lo \
                     -	libclamav_la-asn1.lo $(am__objects_1)
                     +	libclamav_la-asn1.lo
                      libclamav_la_OBJECTS = $(am_libclamav_la_OBJECTS)
                      AM_V_lt = $(am__v_lt_$(V))
                      am__v_lt_ = $(am__v_lt_$(AM_DEFAULT_VERBOSITY))
@@ -322,7 +273,7 @@ SOURCES = $(libclamav_la_SOURCES) \
                      	$(libclamav_internal_utils_nothreads_la_SOURCES) \
                      	$(libclamav_nocxx_la_SOURCES) $(libclamunrar_la_SOURCES) \
                      	$(libclamunrar_iface_la_SOURCES)
                     -DIST_SOURCES = $(am__libclamav_la_SOURCES_DIST) \
                     +DIST_SOURCES = $(libclamav_la_SOURCES) \
                      	$(libclamav_internal_utils_la_SOURCES) \
                      	$(libclamav_internal_utils_nothreads_la_SOURCES) \
                      	$(libclamav_nocxx_la_SOURCES) \
@@ -540,8 +491,8 @@ AM_CPPFLAGS = -I$(top_srcdir) -I@srcdir@/nsis $(LTDLINCL) \
                      AM_CFLAGS = @WERR_CFLAGS@
                      lib_LTLIBRARIES = $(am__append_3) libclamav.la
                      EXTRA_DIST = c++/Makefile.nollvm.in $(am__append_4) regex/engine.c \
                     -	libclamav.map jsparse/generated/operators.h \
                     -	jsparse/generated/keywords.h \
                     +	fp_sqr_comba.c fp_mul_comba.c libclamav.map \
                     +	jsparse/generated/operators.h jsparse/generated/keywords.h \
                      	jsparse/future_reserved_words.list jsparse/keywords.list \
                      	jsparse/special_keywords.list jsparse/operators.gperf
                      @ENABLE_UNRAR_TRUE@libclamunrar_la_LDFLAGS = @TH_SAFE@ -version-info \
@@ -628,52 +579,256 @@ libclamav_la_CFLAGS = $(AM_CFLAGS) -DSEARCH_LIBDIR=\"$(libdir)\"
                      libclamav_la_LDFLAGS = @TH_SAFE@ -version-info @LIBCLAMAV_VERSION@ \
                      	-no-undefined $(am__append_6)
                      include_HEADERS = clamav.h
                     -libclamav_la_SOURCES = clamav.h matcher-ac.c matcher-ac.h matcher-bm.c \
                     -	matcher-bm.h matcher-hash.c matcher-hash.h matcher.c matcher.h \
                     -	others.c others.h readdb.c readdb.h cvd.c cvd.h dsig.c dsig.h \
                     -	scanners.c scanners.h textdet.c textdet.h filetypes.c \
                     -	filetypes.h filetypes_int.h rtf.c rtf.h blob.c blob.h mbox.c \
                     -	mbox.h message.c message.h table.c table.h text.c text.h \
                     -	ole2_extract.c ole2_extract.h vba_extract.c vba_extract.h \
                     -	cltypes.h msexpand.c msexpand.h pe.c pe.h pe_icons.c \
                     -	pe_icons.h disasm.c disasm.h disasm-common.h disasmpriv.h \
                     -	upx.c upx.h htmlnorm.c htmlnorm.h chmunpack.c chmunpack.h \
                     -	rebuildpe.c rebuildpe.h petite.c petite.h wwunpack.c \
                     -	wwunpack.h unsp.c unsp.h aspack.c aspack.h packlibs.c \
                     -	packlibs.h fsg.c fsg.h mew.c mew.h upack.c upack.h line.c \
                     -	line.h untar.c untar.h unzip.c unzip.h inflate64.c inflate64.h \
                     -	inffixed64.h inflate64_priv.h special.c special.h binhex.c \
                     -	binhex.h is_tar.c is_tar.h tnef.c tnef.h autoit.c autoit.h \
                     -	unarj.c unarj.h nsis/bzlib.c nsis/bzlib_private.h \
                     -	nsis/nsis_bzlib.h nsis/nulsft.c nsis/nulsft.h nsis/infblock.c \
                     -	nsis/nsis_zconf.h nsis/nsis_zlib.h nsis/nsis_zutil.h pdf.c \
                     -	pdf.h spin.c spin.h yc.c yc.h elf.c elf.h execs.h sis.c sis.h \
                     -	uuencode.c uuencode.h phishcheck.c phishcheck.h \
                     -	phish_domaincheck_db.c phish_domaincheck_db.h \
                     -	phish_whitelist.c phish_whitelist.h iana_cctld.h iana_tld.h \
                     -	regex_list.c regex_list.h regex_suffix.c regex_suffix.h \
                     -	mspack.c mspack.h cab.c cab.h entconv.c entconv.h entitylist.h \
                     -	encoding_aliases.h hashtab.c hashtab.h dconf.c dconf.h \
                     -	lzma_iface.c lzma_iface.h 7z_iface.c 7z_iface.h 7z/7z.h \
                     -	7z/7zAlloc.c 7z/7zAlloc.h 7z/7zBuf.c 7z/7zBuf.h 7z/7zBuf2.c \
                     -	7z/7zCrc.c 7z/7zCrc.h 7z/7zDec.c 7z/7zFile.c 7z/7zFile.h \
                     -	7z/7zIn.c 7z/7zStream.c 7z/7zVersion.h 7z/Bcj2.c 7z/Bcj2.h \
                     -	7z/Bra.c 7z/Bra.h 7z/Bra86.c 7z/CpuArch.h 7z/Lzma2Dec.c \
                     -	7z/Lzma2Dec.h 7z/LzmaDec.c 7z/LzmaDec.h 7z/Ppmd.h 7z/Ppmd7.c \
                     -	7z/Ppmd7.h 7z/Ppmd7Dec.c 7z/Types.h explode.c explode.h \
                     -	textnorm.c textnorm.h dlp.c dlp.h jsparse/js-norm.c \
                     -	jsparse/js-norm.h jsparse/lexglobal.h jsparse/textbuf.h uniq.c \
                     -	uniq.h version.c version.h mpool.c mpool.h filtering.h \
                     -	filtering.c fmap.c fmap.h perflogging.c perflogging.h \
                     -	default.h sha256.c sha256.h sha1.c sha1.h bignum.h bytecode.c \
                     -	bytecode.h bytecode_vm.c bytecode_priv.h clambc.h cpio.c \
                     -	cpio.h macho.c macho.h ishield.c ishield.h type_desc.h \
                     -	bcfeatures.h bytecode_api.c bytecode_api_decl.c bytecode_api.h \
                     -	bytecode_api_impl.h bytecode_hooks.h cache.c cache.h \
                     -	bytecode_detect.c bytecode_detect.h builtin_bytecodes.h \
                     -	events.c events.h swf.c swf.h jpeg.c jpeg.h png.c png.h \
                     -	iso9660.c iso9660.h arc4.c arc4.h rijndael.c rijndael.h \
                     -	crtmgr.c crtmgr.h asn1.c asn1.h $(am__append_7)
                     +libclamav_la_SOURCES = \
                     +	clamav.h \
                     +        matcher-ac.c \
                     +        matcher-ac.h \
                     +        matcher-bm.c \
                     +        matcher-bm.h \
                     +        matcher-hash.c \
                     +        matcher-hash.h \
                     +        matcher.c \
                     +        matcher.h \
                     +        others.c \
                     +        others.h \
                     +        readdb.c \
                     +	readdb.h \
                     +	cvd.c \
                     +	cvd.h \
                     +	dsig.c \
                     +	dsig.h \
                     +	scanners.c \
                     +	scanners.h \
                     +	textdet.c \
                     +	textdet.h \
                     +	filetypes.c \
                     +	filetypes.h \
                     +	filetypes_int.h \
                     +	rtf.c \
                     +	rtf.h \
                     +	blob.c \
                     +	blob.h \
                     +	mbox.c \
                     +	mbox.h \
                     +	message.c \
                     +	message.h \
                     +	table.c \
                     +	table.h \
                     +	text.c \
                     +	text.h \
                     +	ole2_extract.c \
                     +	ole2_extract.h \
                     +	vba_extract.c \
                     +	vba_extract.h \
                     +	cltypes.h \
                     +	msexpand.c \
                     +	msexpand.h \
                     +	pe.c \
                     +	pe.h \
                     +	pe_icons.c \
                     +	pe_icons.h \
                     +	disasm.c \
                     +	disasm.h \
                     +	disasm-common.h \
                     +	disasmpriv.h \
                     +	upx.c \
                     +	upx.h \
                     +	htmlnorm.c \
                     +	htmlnorm.h \
                     +	chmunpack.c \
                     +	chmunpack.h \
                     +	rebuildpe.c \
                     +	rebuildpe.h \
                     +	petite.c \
                     +	petite.h \
                     +	wwunpack.c \
                     +	wwunpack.h \
                     +	unsp.c \
                     +	unsp.h \
                     +	aspack.c \
                     +	aspack.h \
                     +	packlibs.c \
                     +	packlibs.h \
                     +	fsg.c \
                     +	fsg.h \
                     +	mew.c \
                     +	mew.h \
                     +	upack.c \
                     +	upack.h \
                     +	line.c \
                     +	line.h \
                     +	untar.c \
                     +	untar.h \
                     +	unzip.c \
                     +	unzip.h \
                     +	inflate64.c \
                     +	inflate64.h \
                     +	inffixed64.h \
                     +	inflate64_priv.h \
                     +	special.c \
                     +	special.h \
                     +	binhex.c \
                     +	binhex.h \
                     +	is_tar.c \
                     +	is_tar.h \
                     +	tnef.c \
                     +	tnef.h \
                     +	autoit.c \
                     +	autoit.h \
                     +	unarj.c \
                     +	unarj.h \
                     +	nsis/bzlib.c \
                     +	nsis/bzlib_private.h \
                     +	nsis/nsis_bzlib.h \
                     +	nsis/nulsft.c \
                     +	nsis/nulsft.h \
                     +	nsis/infblock.c \
                     +	nsis/nsis_zconf.h \
                     +	nsis/nsis_zlib.h \
                     +	nsis/nsis_zutil.h \
                     +	pdf.c \
                     +	pdf.h \
                     +	spin.c \
                     +	spin.h \
                     +	yc.c \
                     +	yc.h \
                     +	elf.c \
                     +	elf.h \
                     +	execs.h \
                     +	sis.c \
                     +	sis.h \
                     +	uuencode.c \
                     +	uuencode.h \
                     +	phishcheck.c \
                     +	phishcheck.h \
                     +	phish_domaincheck_db.c \
                     +	phish_domaincheck_db.h \
                     +	phish_whitelist.c \
                     +	phish_whitelist.h \
                     +	iana_cctld.h \
                     +	iana_tld.h \
                     +	regex_list.c \
                     +	regex_list.h \
                     +	regex_suffix.c \
                     +	regex_suffix.h \
                     +	mspack.c \
                     +	mspack.h \
                     +	cab.c \
                     +	cab.h \
                     +	entconv.c \
                     +	entconv.h \
                     +	entitylist.h \
                     +	encoding_aliases.h \
                     +	hashtab.c \
                     +	hashtab.h \
                     +	dconf.c \
                     +	dconf.h \
                     +	lzma_iface.c \
                     +	lzma_iface.h \
                     +	7z_iface.c \
                     +	7z_iface.h \
                     +	7z/7z.h \
                     +	7z/7zAlloc.c \
                     +	7z/7zAlloc.h \
                     +	7z/7zBuf.c \
                     +	7z/7zBuf.h \
                     +	7z/7zBuf2.c \
                     +	7z/7zCrc.c \
                     +	7z/7zCrc.h \
                     +	7z/7zDec.c \
                     +	7z/7zFile.c \
                     +	7z/7zFile.h \
                     +	7z/7zIn.c \
                     +	7z/7zStream.c \
                     +	7z/7zVersion.h \
                     +	7z/Bcj2.c \
                     +	7z/Bcj2.h \
                     +	7z/Bra.c \
                     +	7z/Bra.h \
                     +	7z/Bra86.c \
                     +	7z/CpuArch.h \
                     +	7z/Lzma2Dec.c \
                     +	7z/Lzma2Dec.h \
                     +	7z/LzmaDec.c \
                     +	7z/LzmaDec.h \
                     +	7z/Ppmd.h \
                     +	7z/Ppmd7.c \
                     +	7z/Ppmd7.h \
                     +	7z/Ppmd7Dec.c \
                     +	7z/Types.h \
                     +	explode.c \
                     +	explode.h \
                     +	textnorm.c \
                     +	textnorm.h \
                     +	dlp.c \
                     +	dlp.h \
                     +	jsparse/js-norm.c \
                     +	jsparse/js-norm.h \
                     +	jsparse/lexglobal.h \
                     +	jsparse/textbuf.h \
                     +	uniq.c \
                     +	uniq.h \
                     +	version.c\
                     +	version.h\
                     +	mpool.c\
                     +	mpool.h \
                     +	filtering.h\
                     +	filtering.c\
                     +	fmap.c \
                     +	fmap.h \
                     +	perflogging.c\
                     +	perflogging.h\
                     +	default.h\
                     +	sha256.c\
                     +	sha256.h\
                     +	sha1.c\
                     +	sha1.h\
                     +	bignum.c\
                     +	bignum.h\
                     +	bignum_fast.h\
                     +	bignum_superclass.h\
                     +	bytecode.c\
                     +	bytecode.h\
                     +	bytecode_vm.c\
                     +	bytecode_priv.h\
                     +	clambc.h \
                     +	cpio.c \
                     +	cpio.h \
                     +	macho.c \
                     +	macho.h \
                     +	ishield.c \
                     +	ishield.h \
                     +	type_desc.h \
                     +	bcfeatures.h \
                     +	bytecode_api.c \
                     +	bytecode_api_decl.c \
                     +	bytecode_api.h \
                     +	bytecode_api_impl.h \
                     +	bytecode_hooks.h \
                     +	cache.c \
                     +	cache.h \
                     +	bytecode_detect.c \
                     +	bytecode_detect.h\
                     +	builtin_bytecodes.h\
                     +	events.c\
                     +	events.h \
                     +	swf.c \
                     +	swf.h \
                     +	jpeg.c \
                     +	jpeg.h \
                     +	png.c \
                     +	png.h \
                     +	iso9660.c \
                     +	iso9660.h \
                     +	arc4.c \
                     +	arc4.h \
                     +	rijndael.c \
                     +	rijndael.h \
                     +	crtmgr.c \
                     +	crtmgr.h \
                     +	asn1.c \
                     +	asn1.h
+                    +
                      noinst_LTLIBRARIES = libclamav_internal_utils.la libclamav_internal_utils_nothreads.la libclamav_nocxx.la
                      COMMON_CLEANFILES = version.h version.h.tmp *.gcda *.gcno
                      @MAINTAINER_MODE_TRUE@BUILT_SOURCES = jsparse/generated/operators.h jsparse/generated/keywords.h jsparse-keywords.gperf
@@ -1683,6 +1838,14 @@ libclamav_la-sha1.lo: sha1.c
                      @AMDEP_TRUE@@am__fastdepCC_FALSE@	DEPDIR=$(DEPDIR) $(CCDEPMODE) $(depcomp) @AMDEPBACKSLASH@
                      @am__fastdepCC_FALSE@	$(LIBTOOL) $(AM_V_lt) --tag=CC $(AM_LIBTOOLFLAGS) $(LIBTOOLFLAGS) --mode=compile $(CC) $(DEFS) $(DEFAULT_INCLUDES) $(INCLUDES) $(AM_CPPFLAGS) $(CPPFLAGS) $(libclamav_la_CFLAGS) $(CFLAGS) -c -o libclamav_la-sha1.lo `test -f 'sha1.c' || echo '$(srcdir)/'`sha1.c
                     +libclamav_la-bignum.lo: bignum.c
                     +@am__fastdepCC_TRUE@	$(AM_V_CC)$(LIBTOOL) $(AM_V_lt) --tag=CC $(AM_LIBTOOLFLAGS) $(LIBTOOLFLAGS) --mode=compile $(CC) $(DEFS) $(DEFAULT_INCLUDES) $(INCLUDES) $(AM_CPPFLAGS) $(CPPFLAGS) $(libclamav_la_CFLAGS) $(CFLAGS) -MT libclamav_la-bignum.lo -MD -MP -MF $(DEPDIR)/libclamav_la-bignum.Tpo -c -o libclamav_la-bignum.lo `test -f 'bignum.c' || echo '$(srcdir)/'`bignum.c
                     +@am__fastdepCC_TRUE@	$(AM_V_at)$(am__mv) $(DEPDIR)/libclamav_la-bignum.Tpo $(DEPDIR)/libclamav_la-bignum.Plo
                     +@am__fastdepCC_FALSE@	$(AM_V_CC) @AM_BACKSLASH@
                     +@AMDEP_TRUE@@am__fastdepCC_FALSE@	source='bignum.c' object='libclamav_la-bignum.lo' libtool=yes @AMDEPBACKSLASH@
                     +@AMDEP_TRUE@@am__fastdepCC_FALSE@	DEPDIR=$(DEPDIR) $(CCDEPMODE) $(depcomp) @AMDEPBACKSLASH@
                     +@am__fastdepCC_FALSE@	$(LIBTOOL) $(AM_V_lt) --tag=CC $(AM_LIBTOOLFLAGS) $(LIBTOOLFLAGS) --mode=compile $(CC) $(DEFS) $(DEFAULT_INCLUDES) $(INCLUDES) $(AM_CPPFLAGS) $(CPPFLAGS) $(libclamav_la_CFLAGS) $(CFLAGS) -c -o libclamav_la-bignum.lo `test -f 'bignum.c' || echo '$(srcdir)/'`bignum.c
+                    +
                      libclamav_la-bytecode.lo: bytecode.c
                      @am__fastdepCC_TRUE@	$(AM_V_CC)$(LIBTOOL) $(AM_V_lt) --tag=CC $(AM_LIBTOOLFLAGS) $(LIBTOOLFLAGS) --mode=compile $(CC) $(DEFS) $(DEFAULT_INCLUDES) $(INCLUDES) $(AM_CPPFLAGS) $(CPPFLAGS) $(libclamav_la_CFLAGS) $(CFLAGS) -MT libclamav_la-bytecode.lo -MD -MP -MF $(DEPDIR)/libclamav_la-bytecode.Tpo -c -o libclamav_la-bytecode.lo `test -f 'bytecode.c' || echo '$(srcdir)/'`bytecode.c
                      @am__fastdepCC_TRUE@	$(AM_V_at)$(am__mv) $(DEPDIR)/libclamav_la-bytecode.Tpo $(DEPDIR)/libclamav_la-bytecode.Plo
@@ -1827,14 +1990,6 @@ libclamav_la-asn1.lo: asn1.c
                      @AMDEP_TRUE@@am__fastdepCC_FALSE@	DEPDIR=$(DEPDIR) $(CCDEPMODE) $(depcomp) @AMDEPBACKSLASH@
                      @am__fastdepCC_FALSE@	$(LIBTOOL) $(AM_V_lt) --tag=CC $(AM_LIBTOOLFLAGS) $(LIBTOOLFLAGS) --mode=compile $(CC) $(DEFS) $(DEFAULT_INCLUDES) $(INCLUDES) $(AM_CPPFLAGS) $(CPPFLAGS) $(libclamav_la_CFLAGS) $(CFLAGS) -c -o libclamav_la-asn1.lo `test -f 'asn1.c' || echo '$(srcdir)/'`asn1.c
                     -libclamav_la-bignum.lo: bignum.c
                     -@am__fastdepCC_TRUE@	$(AM_V_CC)$(LIBTOOL) $(AM_V_lt) --tag=CC $(AM_LIBTOOLFLAGS) $(LIBTOOLFLAGS) --mode=compile $(CC) $(DEFS) $(DEFAULT_INCLUDES) $(INCLUDES) $(AM_CPPFLAGS) $(CPPFLAGS) $(libclamav_la_CFLAGS) $(CFLAGS) -MT libclamav_la-bignum.lo -MD -MP -MF $(DEPDIR)/libclamav_la-bignum.Tpo -c -o libclamav_la-bignum.lo `test -f 'bignum.c' || echo '$(srcdir)/'`bignum.c
                     -@am__fastdepCC_TRUE@	$(AM_V_at)$(am__mv) $(DEPDIR)/libclamav_la-bignum.Tpo $(DEPDIR)/libclamav_la-bignum.Plo
                     -@am__fastdepCC_FALSE@	$(AM_V_CC) @AM_BACKSLASH@
                     -@AMDEP_TRUE@@am__fastdepCC_FALSE@	source='bignum.c' object='libclamav_la-bignum.lo' libtool=yes @AMDEPBACKSLASH@
                     -@AMDEP_TRUE@@am__fastdepCC_FALSE@	DEPDIR=$(DEPDIR) $(CCDEPMODE) $(depcomp) @AMDEPBACKSLASH@
                     -@am__fastdepCC_FALSE@	$(LIBTOOL) $(AM_V_lt) --tag=CC $(AM_LIBTOOLFLAGS) $(LIBTOOLFLAGS) --mode=compile $(CC) $(DEFS) $(DEFAULT_INCLUDES) $(INCLUDES) $(AM_CPPFLAGS) $(CPPFLAGS) $(libclamav_la_CFLAGS) $(CFLAGS) -c -o libclamav_la-bignum.lo `test -f 'bignum.c' || echo '$(srcdir)/'`bignum.c
+                    -
                      libclamav_internal_utils_la-str.lo: str.c
                      @am__fastdepCC_TRUE@	$(AM_V_CC)$(LIBTOOL) $(AM_V_lt) --tag=CC $(AM_LIBTOOLFLAGS) $(LIBTOOLFLAGS) --mode=compile $(CC) $(DEFS) $(DEFAULT_INCLUDES) $(INCLUDES) $(AM_CPPFLAGS) $(CPPFLAGS) $(libclamav_internal_utils_la_CFLAGS) $(CFLAGS) -MT libclamav_internal_utils_la-str.lo -MD -MP -MF $(DEPDIR)/libclamav_internal_utils_la-str.Tpo -c -o libclamav_internal_utils_la-str.lo `test -f 'str.c' || echo '$(srcdir)/'`str.c
                      @am__fastdepCC_TRUE@	$(AM_V_at)$(am__mv) $(DEPDIR)/libclamav_internal_utils_la-str.Tpo $(DEPDIR)/libclamav_internal_utils_la-str.Plo

libclamav/bignum.c

History View file @ 9ac4fb1

@@ -1,840 +1,61 @@
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     - *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     - */
+                    -
                     -#if HAVE_CONFIG_H
                     -#include "clamav-config.h"
                     -#endif
+                    -
                     -/* Start: bn_error.c */
                     -#include <bignum.h>
                     -#include "others.h"
+                    -
                     -#ifdef BN_ERROR_C
                     -static const struct {
                     -     int code;
                     -     const char *msg;
                     -} msgs[] = {
                     -     { MP_OKAY, "Successful" },
                     -     { MP_MEM,  "Out of heap" },
                     -     { MP_VAL,  "Value out of range" }
                     -};
+                    -
                     -/* return a char * string for a given code */
                     -const char *mp_error_to_string(int code)
                     -{
                     -   int x;
+                    -
                     -   /* scan the lookup table for the given message */
                     -   for (x = 0; x < (int)(sizeof(msgs) / sizeof(msgs[0])); x++) {
                     -       if (msgs[x].code == code) {
                     -          return msgs[x].msg;
                     -       }
                     -   }
+                    -
                     -   /* generic reply for invalid code */
                     -   return "Invalid error code";
                     -}
+                    -
                     -#endif
+                    -
                     -/* $Source: /cvs/libtom/libtommath/bn_error.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
+                    -
                     -/* End: bn_error.c */
+                    -
                     -/* Start: bn_fast_mp_invmod.c */
                     -#include <bignum.h>
                     -#ifdef BN_FAST_MP_INVMOD_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     - *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     - */
+                    -
                     -/* computes the modular inverse via binary extended euclidean algorithm,
                     - * that is c = 1/a mod b
                     - *
                     - * Based on slow invmod except this is optimized for the case where b is
                     - * odd as per HAC Note 14.64 on pp. 610
                     - */
                     -int fast_mp_invmod (mp_int * a, mp_int * b, mp_int * c)
                     -{
                     -  mp_int  x, y, u, v, B, D;
                     -  int     res, neg;
+                    -
                     -  /* 2. [modified] b must be odd   */
                     -  if (mp_iseven (b) == 1) {
                     -    return MP_VAL;
                     -  }
+                    -
                     -  /* init all our temps */
                     -  if ((res = mp_init_multi(&x, &y, &u, &v, &B, &D, NULL)) != MP_OKAY) {
                     -     return res;
                     -  }
+                    -
                     -  /* x == modulus, y == value to invert */
                     -  if ((res = mp_copy (b, &x)) != MP_OKAY) {
                     -    goto LBL_ERR;
                     -  }
+                    -
                     -  /* we need y = |a| */
                     -  if ((res = mp_mod (a, b, &y)) != MP_OKAY) {
                     -    goto LBL_ERR;
                     -  }
+                    -
                     -  /* 3. u=x, v=y, A=1, B=0, C=0,D=1 */
                     -  if ((res = mp_copy (&x, &u)) != MP_OKAY) {
                     -    goto LBL_ERR;
                     -  }
                     -  if ((res = mp_copy (&y, &v)) != MP_OKAY) {
                     -    goto LBL_ERR;
                     -  }
                     -  mp_set (&D, 1);
+                    -
                     -top:
                     -  /* 4.  while u is even do */
                     -  while (mp_iseven (&u) == 1) {
                     -    /* 4.1 u = u/2 */
                     -    if ((res = mp_div_2 (&u, &u)) != MP_OKAY) {
                     -      goto LBL_ERR;
                     -    }
                     -    /* 4.2 if B is odd then */
                     -    if (mp_isodd (&B) == 1) {
                     -      if ((res = mp_sub (&B, &x, &B)) != MP_OKAY) {
                     -        goto LBL_ERR;
                     -      }
                     -    }
                     -    /* B = B/2 */
                     -    if ((res = mp_div_2 (&B, &B)) != MP_OKAY) {
                     -      goto LBL_ERR;
                     -    }
                     -  }
+                    -
                     -  /* 5.  while v is even do */
                     -  while (mp_iseven (&v) == 1) {
                     -    /* 5.1 v = v/2 */
                     -    if ((res = mp_div_2 (&v, &v)) != MP_OKAY) {
                     -      goto LBL_ERR;
                     -    }
                     -    /* 5.2 if D is odd then */
                     -    if (mp_isodd (&D) == 1) {
                     -      /* D = (D-x)/2 */
                     -      if ((res = mp_sub (&D, &x, &D)) != MP_OKAY) {
                     -        goto LBL_ERR;
                     -      }
                     -    }
                     -    /* D = D/2 */
                     -    if ((res = mp_div_2 (&D, &D)) != MP_OKAY) {
                     -      goto LBL_ERR;
                     -    }
                     -  }
+                    -
                     -  /* 6.  if u >= v then */
                     -  if (mp_cmp (&u, &v) != MP_LT) {
                     -    /* u = u - v, B = B - D */
                     -    if ((res = mp_sub (&u, &v, &u)) != MP_OKAY) {
                     -      goto LBL_ERR;
                     -    }
+                    -
                     -    if ((res = mp_sub (&B, &D, &B)) != MP_OKAY) {
                     -      goto LBL_ERR;
                     -    }
                     -  } else {
                     -    /* v - v - u, D = D - B */
                     -    if ((res = mp_sub (&v, &u, &v)) != MP_OKAY) {
                     -      goto LBL_ERR;
                     -    }
+                    -
                     -    if ((res = mp_sub (&D, &B, &D)) != MP_OKAY) {
                     -      goto LBL_ERR;
                     -    }
                     -  }
+                    -
                     -  /* if not zero goto step 4 */
                     -  if (mp_iszero (&u) == 0) {
                     -    goto top;
                     -  }
+                    -
                     -  /* now a = C, b = D, gcd == g*v */
+                    -
                     -  /* if v != 1 then there is no inverse */
                     -  if (mp_cmp_d (&v, 1) != MP_EQ) {
                     -    res = MP_VAL;
                     -    goto LBL_ERR;
                     -  }
+                    -
                     -  /* b is now the inverse */
                     -  neg = a->sign;
                     -  while (D.sign == MP_NEG) {
                     -    if ((res = mp_add (&D, b, &D)) != MP_OKAY) {
                     -      goto LBL_ERR;
                     -    }
                     -  }
                     -  mp_exch (&D, c);
                     -  c->sign = neg;
                     -  res = MP_OKAY;
+                    -
                     -LBL_ERR:mp_clear_multi (&x, &y, &u, &v, &B, &D, NULL);
                     -  return res;
                     -}
                     -#endif
+                    -
                     -/* $Source: /cvs/libtom/libtommath/bn_fast_mp_invmod.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
+                    -
                     -/* End: bn_fast_mp_invmod.c */
+                    -
                     -/* Start: bn_fast_mp_montgomery_reduce.c */
                     -#include <bignum.h>
                     -#ifdef BN_FAST_MP_MONTGOMERY_REDUCE_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     - *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     - */
+                    -
                     -/* computes xR**-1 == x (mod N) via Montgomery Reduction
                     - *
                     - * This is an optimized implementation of montgomery_reduce
                     - * which uses the comba method to quickly calculate the columns of the
                     - * reduction.
                     - *
                     - * Based on Algorithm 14.32 on pp.601 of HAC.
                     -*/
                     -int fast_mp_montgomery_reduce (mp_int * x, mp_int * n, mp_digit rho)
                     -{
                     -  int     ix, res, olduse;
                     -  mp_word W[MP_WARRAY];
+                    -
                     -  /* get old used count */
                     -  olduse = x->used;
+                    -
                     -  /* grow a as required */
                     -  if (x->alloc < n->used + 1) {
                     -    if ((res = mp_grow (x, n->used + 1)) != MP_OKAY) {
                     -      return res;
                     -    }
                     -  }
+                    -
                     -  /* first we have to get the digits of the input into
                     -   * an array of double precision words W[...]
                     -   */
                     -  {
                     -    register mp_word *_W;
                     -    register mp_digit *tmpx;
+                    -
                     -    /* alias for the W[] array */
                     -    _W   = W;
+                    -
                     -    /* alias for the digits of  x*/
                     -    tmpx = x->dp;
+                    -
                     -    /* copy the digits of a into W[0..a->used-1] */
                     -    for (ix = 0; ix < x->used; ix++) {
                     -      *_W++ = *tmpx++;
                     -    }
+                    -
                     -    /* zero the high words of W[a->used..m->used*2] */
                     -    for (; ix < n->used * 2 + 1; ix++) {
                     -      *_W++ = 0;
                     -    }
                     -  }
+                    -
                     -  /* now we proceed to zero successive digits
                     -   * from the least significant upwards
                     -   */
                     -  for (ix = 0; ix < n->used; ix++) {
                     -    /* mu = ai * m' mod b
                     -     *
                     -     * We avoid a double precision multiplication (which isn't required)
                     -     * by casting the value down to a mp_digit.  Note this requires
                     -     * that W[ix-1] have  the carry cleared (see after the inner loop)
                     -     */
                     -    register mp_digit mu;
                     -    mu = (mp_digit) (((W[ix] & MP_MASK) * rho) & MP_MASK);
+                    -
                     -    /* a = a + mu * m * b**i
                     -     *
                     -     * This is computed in place and on the fly.  The multiplication
                     -     * by b**i is handled by offseting which columns the results
                     -     * are added to.
                     -     *
                     -     * Note the comba method normally doesn't handle carries in the
                     -     * inner loop In this case we fix the carry from the previous
                     -     * column since the Montgomery reduction requires digits of the
                     -     * result (so far) [see above] to work.  This is
                     -     * handled by fixing up one carry after the inner loop.  The
                     -     * carry fixups are done in order so after these loops the
                     -     * first m->used words of W[] have the carries fixed
                     -     */
                     -    {
                     -      register int iy;
                     -      register mp_digit *tmpn;
                     -      register mp_word *_W;
+                    -
                     -      /* alias for the digits of the modulus */
                     -      tmpn = n->dp;
+                    -
                     -      /* Alias for the columns set by an offset of ix */
                     -      _W = W + ix;
+                    -
                     -      /* inner loop */
                     -      for (iy = 0; iy < n->used; iy++) {
                     -          *_W++ += ((mp_word)mu) * ((mp_word)*tmpn++);
                     -      }
                     -    }
+                    -
                     -    /* now fix carry for next digit, W[ix+1] */
                     -    W[ix + 1] += W[ix] >> ((mp_word) DIGIT_BIT);
                     -  }
+                    -
                     -  /* now we have to propagate the carries and
                     -   * shift the words downward [all those least
                     -   * significant digits we zeroed].
                     -   */
                     -  {
                     -    register mp_digit *tmpx;
                     -    register mp_word *_W, *_W1;
+                    -
                     -    /* nox fix rest of carries */
+                    -
                     -    /* alias for current word */
                     -    _W1 = W + ix;
+                    -
                     -    /* alias for next word, where the carry goes */
                     -    _W = W + ++ix;
+                    -
                     -    for (; ix <= n->used * 2 + 1; ix++) {
                     -      *_W++ += *_W1++ >> ((mp_word) DIGIT_BIT);
                     -    }
+                    -
                     -    /* copy out, A = A/b**n
                     -     *
                     -     * The result is A/b**n but instead of converting from an
                     -     * array of mp_word to mp_digit than calling mp_rshd
                     -     * we just copy them in the right order
                     -     */
+                    -
                     -    /* alias for destination word */
                     -    tmpx = x->dp;
+                    -
                     -    /* alias for shifted double precision result */
                     -    _W = W + n->used;
+                    -
                     -    for (ix = 0; ix < n->used + 1; ix++) {
                     -      *tmpx++ = (mp_digit)(*_W++ & ((mp_word) MP_MASK));
                     -    }
+                    -
                     -    /* zero oldused digits, if the input a was larger than
                     -     * m->used+1 we'll have to clear the digits
                     -     */
                     -    for (; ix < olduse; ix++) {
                     -      *tmpx++ = 0;
                     -    }
                     -  }
+                    -
                     -  /* set the max used and clamp */
                     -  x->used = n->used + 1;
                     -  mp_clamp (x);
+                    -
                     -  /* if A >= m then A = A - m */
                     -  if (mp_cmp_mag (x, n) != MP_LT) {
                     -    return s_mp_sub (x, n, x);
                     -  }
                     -  return MP_OKAY;
                     -}
                     -#endif
+                    -
                     -/* $Source: /cvs/libtom/libtommath/bn_fast_mp_montgomery_reduce.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
+                    -
                     -/* End: bn_fast_mp_montgomery_reduce.c */
+                    -
                     -/* Start: bn_fast_s_mp_mul_digs.c */
                     -#include <bignum.h>
                     -#ifdef BN_FAST_S_MP_MUL_DIGS_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     - *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     - */
+                    -
                     -/* Fast (comba) multiplier
                     - *
                     - * This is the fast column-array [comba] multiplier.  It is
                     - * designed to compute the columns of the product first
                     - * then handle the carries afterwards.  This has the effect
                     - * of making the nested loops that compute the columns very
                     - * simple and schedulable on super-scalar processors.
                     - *
                     - * This has been modified to produce a variable number of
                     - * digits of output so if say only a half-product is required
                     - * you don't have to compute the upper half (a feature
                     - * required for fast Barrett reduction).
                     - *
                     - * Based on Algorithm 14.12 on pp.595 of HAC.
                     - *
                     - */
                     -int fast_s_mp_mul_digs (mp_int * a, mp_int * b, mp_int * c, int digs)
                     -{
                     -  int     olduse, res, pa, ix, iz;
                     -  mp_digit W[MP_WARRAY];
                     -  register mp_word  _W;
+                    -
                     -  /* grow the destination as required */
                     -  if (c->alloc < digs) {
                     -    if ((res = mp_grow (c, digs)) != MP_OKAY) {
                     -      return res;
                     -    }
                     -  }
+                    -
                     -  /* number of output digits to produce */
                     -  pa = MIN(digs, a->used + b->used);
+                    -
                     -  /* clear the carry */
                     -  _W = 0;
                     -  for (ix = 0; ix < pa; ix++) {
                     -      int      tx, ty;
                     -      int      iy;
                     -      mp_digit *tmpx, *tmpy;
+                    -
                     -      /* get offsets into the two bignums */
                     -      ty = MIN(b->used-1, ix);
                     -      tx = ix - ty;
+                    -
                     -      /* setup temp aliases */
                     -      tmpx = a->dp + tx;
                     -      tmpy = b->dp + ty;
+                    -
                     -      /* this is the number of times the loop will iterrate, essentially
                     -         while (tx++ < a->used && ty-- >= 0) { ... }
                     -       */
                     -      iy = MIN(a->used-tx, ty+1);
+                    -
                     -      /* execute loop */
                     -      for (iz = 0; iz < iy; ++iz) {
                     -         _W += ((mp_word)*tmpx++)*((mp_word)*tmpy--);
+                    -
                     -      }
+                    -
                     -      /* store term */
                     -      W[ix] = ((mp_digit)_W) & MP_MASK;
+                    -
                     -      /* make next carry */
                     -      _W = _W >> ((mp_word)DIGIT_BIT);
                     - }
+                    -
                     -  /* setup dest */
                     -  olduse  = c->used;
                     -  c->used = pa;
+                    -
                     -  {
                     -    register mp_digit *tmpc;
                     -    tmpc = c->dp;
                     -    for (ix = 0; ix < pa+1; ix++) {
                     -      /* now extract the previous digit [below the carry] */
                     -      *tmpc++ = W[ix];
                     -    }
+                    -
                     -    /* clear unused digits [that existed in the old copy of c] */
                     -    for (; ix < olduse; ix++) {
                     -      *tmpc++ = 0;
                     -    }
                     -  }
                     -  mp_clamp (c);
                     -  return MP_OKAY;
                     -}
                     -#endif
+                    -
                     -/* $Source: /cvs/libtom/libtommath/bn_fast_s_mp_mul_digs.c,v $ */
                     -/* $Revision: 1.7 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
+                    -
                     -/* End: bn_fast_s_mp_mul_digs.c */
+                    -
                     -/* Start: bn_fast_s_mp_mul_high_digs.c */
                     -#include <bignum.h>
                     -#ifdef BN_FAST_S_MP_MUL_HIGH_DIGS_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     - *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     - */
+                    -
                     -/* this is a modified version of fast_s_mul_digs that only produces
                     - * output digits *above* digs.  See the comments for fast_s_mul_digs
                     - * to see how it works.
                     - *
                     - * This is used in the Barrett reduction since for one of the multiplications
                     - * only the higher digits were needed.  This essentially halves the work.
                     - *
                     - * Based on Algorithm 14.12 on pp.595 of HAC.
                     - */
                     -int fast_s_mp_mul_high_digs (mp_int * a, mp_int * b, mp_int * c, int digs)
                     -{
                     -  int     olduse, res, pa, ix, iz;
                     -  mp_digit W[MP_WARRAY];
                     -  mp_word  _W;
+                    -
                     -  /* grow the destination as required */
                     -  pa = a->used + b->used;
                     -  if (c->alloc < pa) {
                     -    if ((res = mp_grow (c, pa)) != MP_OKAY) {
                     -      return res;
                     -    }
                     -  }
+                    -
                     -  /* number of output digits to produce */
                     -  pa = a->used + b->used;
                     -  _W = 0;
                     -  for (ix = digs; ix < pa; ix++) {
                     -      int      tx, ty, iy;
                     -      mp_digit *tmpx, *tmpy;
+                    -
                     -      /* get offsets into the two bignums */
                     -      ty = MIN(b->used-1, ix);
                     -      tx = ix - ty;
+                    -
                     -      /* setup temp aliases */
                     -      tmpx = a->dp + tx;
                     -      tmpy = b->dp + ty;
+                    -
                     -      /* this is the number of times the loop will iterrate, essentially its
                     -         while (tx++ < a->used && ty-- >= 0) { ... }
                     -       */
                     -      iy = MIN(a->used-tx, ty+1);
+                    -
                     -      /* execute loop */
                     -      for (iz = 0; iz < iy; iz++) {
                     -         _W += ((mp_word)*tmpx++)*((mp_word)*tmpy--);
                     -      }
+                    -
                     -      /* store term */
                     -      W[ix] = ((mp_digit)_W) & MP_MASK;
+                    -
                     -      /* make next carry */
                     -      _W = _W >> ((mp_word)DIGIT_BIT);
                     -  }
+                    -
                     -  /* setup dest */
                     -  olduse  = c->used;
                     -  c->used = pa;
+                    -
                     -  {
                     -    register mp_digit *tmpc;
+                    -
                     -    tmpc = c->dp + digs;
                     -    for (ix = digs; ix <= pa; ix++) {
                     -      /* now extract the previous digit [below the carry] */
                     -      *tmpc++ = W[ix];
                     -    }
+                    -
                     -    /* clear unused digits [that existed in the old copy of c] */
                     -    for (; ix < olduse; ix++) {
                     -      *tmpc++ = 0;
                     -    }
                     -  }
                     -  mp_clamp (c);
                     -  return MP_OKAY;
                     -}
                     -#endif
+                    -
                     -/* $Source: /cvs/libtom/libtommath/bn_fast_s_mp_mul_high_digs.c,v $ */
                     -/* $Revision: 1.4 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
+                    -
                     -/* End: bn_fast_s_mp_mul_high_digs.c */
+                    -
                     -/* Start: bn_fast_s_mp_sqr.c */
                     -#include <bignum.h>
                     -#ifdef BN_FAST_S_MP_SQR_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     +/* Start: fp_2expt.c */
                     +/* TomsFastMath, a fast ISO C bignum library.
                     + *
                     + * This project is meant to fill in where LibTomMath
                     + * falls short.  That is speed ;-)
+                      *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     + * This project is public domain and free for all purposes.
                     + *
                     + * Tom St Denis, tomstdenis@gmail.com
                       */
                     +#include "bignum_fast.h"
                     -/* the jist of squaring...
                     - * you do like mult except the offset of the tmpx [one that
                     - * starts closer to zero] can't equal the offset of tmpy.
                     - * So basically you set up iy like before then you min it with
                     - * (ty-tx) so that it never happens.  You double all those
                     - * you add in the inner loop
+                    -
                     -After that loop you do the squares and add them in.
                     -*/
+                    -
                     -int fast_s_mp_sqr (mp_int * a, mp_int * b)
                     +/* computes a = 2**b */
                     +void fp_2expt(fp_int *a, int b)
+                     {
                     -  int       olduse, res, pa, ix, iz;
                     -  mp_digit   W[MP_WARRAY], *tmpx;
                     -  mp_word   W1;
+                    -
                     -  /* grow the destination as required */
                     -  pa = a->used + a->used;
                     -  if (b->alloc < pa) {
                     -    if ((res = mp_grow (b, pa)) != MP_OKAY) {
                     -      return res;
                     -    }
                     -  }
+                    -
                     -  /* number of output digits to produce */
                     -  W1 = 0;
                     -  for (ix = 0; ix < pa; ix++) {
                     -      int      tx, ty, iy;
                     -      mp_word  _W;
                     -      mp_digit *tmpy;
+                    -
                     -      /* clear counter */
                     -      _W = 0;
+                    -
                     -      /* get offsets into the two bignums */
                     -      ty = MIN(a->used-1, ix);
                     -      tx = ix - ty;
+                    -
                     -      /* setup temp aliases */
                     -      tmpx = a->dp + tx;
                     -      tmpy = a->dp + ty;
+                    -
                     -      /* this is the number of times the loop will iterrate, essentially
                     -         while (tx++ < a->used && ty-- >= 0) { ... }
                     -       */
                     -      iy = MIN(a->used-tx, ty+1);
+                    -
                     -      /* now for squaring tx can never equal ty
                     -       * we halve the distance since they approach at a rate of 2x
                     -       * and we have to round because odd cases need to be executed
                     -       */
                     -      iy = MIN(iy, (ty-tx+1)>>1);
+                    -
                     -      /* execute loop */
                     -      for (iz = 0; iz < iy; iz++) {
                     -         _W += ((mp_word)*tmpx++)*((mp_word)*tmpy--);
                     -      }
+                    -
                     -      /* double the inner product and add carry */
                     -      _W = _W + _W + W1;
+                    -
                     -      /* even columns have the square term in them */
                     -      if ((ix&1) == 0) {
                     -         _W += ((mp_word)a->dp[ix>>1])*((mp_word)a->dp[ix>>1]);
                     -      }
+                    -
                     -      /* store it */
                     -      W[ix] = (mp_digit)(_W & MP_MASK);
+                    -
                     -      /* make next carry */
                     -      W1 = _W >> ((mp_word)DIGIT_BIT);
                     -  }
                     +   int     z;
                     -  /* setup dest */
                     -  olduse  = b->used;
                     -  b->used = a->used+a->used;
+                    -
                     -  {
                     -    mp_digit *tmpb;
                     -    tmpb = b->dp;
                     -    for (ix = 0; ix < pa; ix++) {
                     -      *tmpb++ = W[ix] & MP_MASK;
                     -    }
+                    -
                     -    /* clear unused digits [that existed in the old copy of c] */
                     -    for (; ix < olduse; ix++) {
                     -      *tmpb++ = 0;
                     -    }
                     -  }
                     -  mp_clamp (b);
                     -  return MP_OKAY;
                     -}
                     -#endif
+                    -
                     -/* $Source: /cvs/libtom/libtommath/bn_fast_s_mp_sqr.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
                     +   /* zero a as per default */
                     +   fp_zero (a);
                     -/* End: bn_fast_s_mp_sqr.c */
+                    -
                     -/* Start: bn_mp_2expt.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_2EXPT_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     - *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     - */
+                    -
                     -/* computes a = 2**b
                     - *
                     - * Simple algorithm which zeroes the int, grows it then just sets one bit
                     - * as required.
                     - */
                     -int
                     -mp_2expt (mp_int * a, int b)
                     -{
                     -  int     res;
+                    -
                     -  /* zero a as per default */
                     -  mp_zero (a);
                     +   if (b < 0) {
                     +      return;
                     +   }
                     -  /* grow a to accomodate the single bit */
                     -  if ((res = mp_grow (a, b / DIGIT_BIT + 1)) != MP_OKAY) {
                     -    return res;
                     -  }
                     +   z = b / DIGIT_BIT;
                     +   if (z >= FP_SIZE) {
                     +      return;
                     +   }
                        /* set the used count of where the bit will go */
                     -  a->used = b / DIGIT_BIT + 1;
                     +  a->used = z + 1;
                        /* put the single bit in its place */
                     -  a->dp[b / DIGIT_BIT] = ((mp_digit)1) << (b % DIGIT_BIT);
+                    -
                     -  return MP_OKAY;
                     +  a->dp[z] = ((fp_digit)1) << (b % DIGIT_BIT);
+                     }
                     -#endif
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_2expt.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
+                    -
                     -/* End: bn_mp_2expt.c */
                     -/* Start: bn_mp_abs.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_ABS_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     - *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     - */
+                    -
                     -/* b = |a|
                     - *
                     - * Simple function copies the input and fixes the sign to positive
                     - */
                     -int
                     -mp_abs (mp_int * a, mp_int * b)
                     -{
                     -  int     res;
+                    -
                     -  /* copy a to b */
                     -  if (a != b) {
                     -     if ((res = mp_copy (a, b)) != MP_OKAY) {
                     -       return res;
                     -     }
                     -  }
+                    -
                     -  /* force the sign of b to positive */
                     -  b->sign = MP_ZPOS;
+                    -
                     -  return MP_OKAY;
                     -}
                     -#endif
+                    -
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_abs.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
                     +/* $Source: /cvs/libtom/tomsfastmath/src/exptmod/fp_2expt.c,v $ */
                     +/* $Revision: 1.1 $ */
                     +/* $Date: 2006/12/31 21:25:53 $ */
                     -/* End: bn_mp_abs.c */
                     +/* End: fp_2expt.c */
                     -/* Start: bn_mp_add.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_ADD_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     +/* Start: fp_add.c */
                     +/* TomsFastMath, a fast ISO C bignum library.
                     + *
                     + * This project is meant to fill in where LibTomMath
                     + * falls short.  That is speed ;-)
+                      *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     + * This project is public domain and free for all purposes.
                     + *
                     + * Tom St Denis, tomstdenis@gmail.com
                       */
                     +#include "bignum_fast.h"
                     -/* high level addition (handles signs) */
                     -int mp_add (mp_int * a, mp_int * b, mp_int * c)
                     +void fp_add(fp_int *a, fp_int *b, fp_int *c)
+                     {
                     -  int     sa, sb, res;
                     +  int     sa, sb;
                        /* get sign of both inputs */
                        sa = a->sign;
@@ -845,571 +66,221 @@ int mp_add (mp_int * a, mp_int * b, mp_int * c)
                          /* both positive or both negative */
                          /* add their magnitudes, copy the sign */
                          c->sign = sa;
                     -    res = s_mp_add (a, b, c);
                     +    s_fp_add (a, b, c);
                        } else {
                          /* one positive, the other negative */
                          /* subtract the one with the greater magnitude from */
                          /* the one of the lesser magnitude.  The result gets */
                          /* the sign of the one with the greater magnitude. */
                     -    if (mp_cmp_mag (a, b) == MP_LT) {
                     +    if (fp_cmp_mag (a, b) == FP_LT) {
                            c->sign = sb;
                     -      res = s_mp_sub (b, a, c);
                     +      s_fp_sub (b, a, c);
                          } else {
                            c->sign = sa;
                     -      res = s_mp_sub (a, b, c);
                     +      s_fp_sub (a, b, c);
+                         }
+                       }
                     -  return res;
+                     }
                     -#endif
                     +/* $Source: /cvs/libtom/tomsfastmath/src/addsub/fp_add.c,v $ */
                     +/* $Revision: 1.1 $ */
                     +/* $Date: 2006/12/31 21:25:53 $ */
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_add.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
                     +/* End: fp_add.c */
                     -/* End: bn_mp_add.c */
+                    -
                     -/* Start: bn_mp_add_d.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_ADD_D_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     +/* Start: fp_add_d.c */
                     +/* TomsFastMath, a fast ISO C bignum library.
                     + *
                     + * This project is meant to fill in where LibTomMath
                     + * falls short.  That is speed ;-)
+                      *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     + * This project is public domain and free for all purposes.
                     + *
                     + * Tom St Denis, tomstdenis@gmail.com
                       */
                     +#include "bignum_fast.h"
                     -/* single digit addition */
                     -int
                     -mp_add_d (mp_int * a, mp_digit b, mp_int * c)
                     +/* c = a + b */
                     +void fp_add_d(fp_int *a, fp_digit b, fp_int *c)
+                     {
                     -  int     res, ix, oldused;
                     -  mp_digit *tmpa, *tmpc, mu;
+                    -
                     -  /* grow c as required */
                     -  if (c->alloc < a->used + 1) {
                     -     if ((res = mp_grow(c, a->used + 1)) != MP_OKAY) {
                     -        return res;
                     -     }
                     -  }
+                    -
                     -  /* if a is negative and |a| >= b, call c = |a| - b */
                     -  if (a->sign == MP_NEG && (a->used > 1 || a->dp[0] >= b)) {
                     -     /* temporarily fix sign of a */
                     -     a->sign = MP_ZPOS;
+                    -
                     -     /* c = |a| - b */
                     -     res = mp_sub_d(a, b, c);
+                    -
                     -     /* fix sign  */
                     -     a->sign = c->sign = MP_NEG;
+                    -
                     -     /* clamp */
                     -     mp_clamp(c);
+                    -
                     -     return res;
                     -  }
+                    -
                     -  /* old number of used digits in c */
                     -  oldused = c->used;
+                    -
                     -  /* sign always positive */
                     -  c->sign = MP_ZPOS;
+                    -
                     -  /* source alias */
                     -  tmpa    = a->dp;
+                    -
                     -  /* destination alias */
                     -  tmpc    = c->dp;
+                    -
                     -  /* if a is positive */
                     -  if (a->sign == MP_ZPOS) {
                     -     /* add digit, after this we're propagating
                     -      * the carry.
                     -      */
                     -     *tmpc   = *tmpa++ + b;
                     -     mu      = *tmpc >> DIGIT_BIT;
                     -     *tmpc++ &= MP_MASK;
+                    -
                     -     /* now handle rest of the digits */
                     -     for (ix = 1; ix < a->used; ix++) {
                     -        *tmpc   = *tmpa++ + mu;
                     -        mu      = *tmpc >> DIGIT_BIT;
                     -        *tmpc++ &= MP_MASK;
                     -     }
                     -     /* set final carry */
                     -     ix++;
                     -     *tmpc++  = mu;
+                    -
                     -     /* setup size */
                     -     c->used = a->used + 1;
                     -  } else {
                     -     /* a was negative and |a| < b */
                     -     c->used  = 1;
+                    -
                     -     /* the result is a single digit */
                     -     if (a->used == 1) {
                     -        *tmpc++  =  b - a->dp[0];
                     -     } else {
                     -        *tmpc++  =  b;
                     -     }
+                    -
                     -     /* setup count so the clearing of oldused
                     -      * can fall through correctly
                     -      */
                     -     ix       = 1;
                     -  }
+                    -
                     -  /* now zero to oldused */
                     -  while (ix++ < oldused) {
                     -     *tmpc++ = 0;
                     -  }
                     -  mp_clamp(c);
+                    -
                     -  return MP_OKAY;
                     +   fp_int tmp;
                     +   fp_set(&tmp, b);
                     +   fp_add(a,&tmp,c);
+                     }
                     -#endif
+                    -
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_add_d.c,v $ */
                     -/* $Revision: 1.4 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
                     +/* $Source: /cvs/libtom/tomsfastmath/src/addsub/fp_add_d.c,v $ */
                     +/* $Revision: 1.1 $ */
                     +/* $Date: 2006/12/31 21:25:53 $ */
                     -/* End: bn_mp_add_d.c */
                     +/* End: fp_add_d.c */
                     -/* Start: bn_mp_addmod.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_ADDMOD_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     +/* Start: fp_addmod.c */
                     +/* TomsFastMath, a fast ISO C bignum library.
                     + *
                     + * This project is meant to fill in where LibTomMath
                     + * falls short.  That is speed ;-)
+                      *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     + * This project is public domain and free for all purposes.
                     + *
                     + * Tom St Denis, tomstdenis@gmail.com
                       */
                     +#include "bignum_fast.h"
                      /* d = a + b (mod c) */
                     -int
                     -mp_addmod (mp_int * a, mp_int * b, mp_int * c, mp_int * d)
                     -{
                     -  int     res;
                     -  mp_int  t;
+                    -
                     -  if ((res = mp_init (&t)) != MP_OKAY) {
                     -    return res;
                     -  }
+                    -
                     -  if ((res = mp_add (a, b, &t)) != MP_OKAY) {
                     -    mp_clear (&t);
                     -    return res;
                     -  }
                     -  res = mp_mod (&t, c, d);
                     -  mp_clear (&t);
                     -  return res;
                     -}
                     -#endif
+                    -
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_addmod.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
+                    -
                     -/* End: bn_mp_addmod.c */
+                    -
                     -/* Start: bn_mp_and.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_AND_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     - *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     - */
+                    -
                     -/* AND two ints together */
                     -int
                     -mp_and (mp_int * a, mp_int * b, mp_int * c)
                     -{
                     -  int     res, ix, px;
                     -  mp_int  t, *x;
+                    -
                     -  if (a->used > b->used) {
                     -    if ((res = mp_init_copy (&t, a)) != MP_OKAY) {
                     -      return res;
                     -    }
                     -    px = b->used;
                     -    x = b;
                     -  } else {
                     -    if ((res = mp_init_copy (&t, b)) != MP_OKAY) {
                     -      return res;
                     -    }
                     -    px = a->used;
                     -    x = a;
                     -  }
+                    -
                     -  for (ix = 0; ix < px; ix++) {
                     -    t.dp[ix] &= x->dp[ix];
                     -  }
+                    -
                     -  /* zero digits above the last from the smallest mp_int */
                     -  for (; ix < t.used; ix++) {
                     -    t.dp[ix] = 0;
                     -  }
+                    -
                     -  mp_clamp (&t);
                     -  mp_exch (c, &t);
                     -  mp_clear (&t);
                     -  return MP_OKAY;
                     -}
                     -#endif
+                    -
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_and.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
+                    -
                     -/* End: bn_mp_and.c */
+                    -
                     -/* Start: bn_mp_clamp.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_CLAMP_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     - *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     - */
+                    -
                     -/* trim unused digits
                     - *
                     - * This is used to ensure that leading zero digits are
                     - * trimed and the leading "used" digit will be non-zero
                     - * Typically very fast.  Also fixes the sign if there
                     - * are no more leading digits
                     - */
                     -void
                     -mp_clamp (mp_int * a)
                     -{
                     -  /* decrease used while the most significant digit is
                     -   * zero.
                     -   */
                     -  while (a->used > 0 && a->dp[a->used - 1] == 0) {
                     -    --(a->used);
                     -  }
+                    -
                     -  /* reset the sign flag if used == 0 */
                     -  if (a->used == 0) {
                     -    a->sign = MP_ZPOS;
                     -  }
                     -}
                     -#endif
+                    -
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_clamp.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
+                    -
                     -/* End: bn_mp_clamp.c */
+                    -
                     -/* Start: bn_mp_clear.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_CLEAR_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     - *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     - */
+                    -
                     -/* clear one (frees)  */
                     -void
                     -mp_clear (mp_int * a)
                     -{
                     -  int i;
+                    -
                     -  /* only do anything if a hasn't been freed previously */
                     -  if (a->dp != NULL) {
                     -    /* first zero the digits */
                     -    for (i = 0; i < a->used; i++) {
                     -        a->dp[i] = 0;
                     -    }
+                    -
                     -    /* free ram */
                     -    free(a->dp);
+                    -
                     -    /* reset members to make debugging easier */
                     -    a->dp    = NULL;
                     -    a->alloc = a->used = 0;
                     -    a->sign  = MP_ZPOS;
                     -  }
                     -}
                     -#endif
+                    -
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_clear.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
+                    -
                     -/* End: bn_mp_clear.c */
+                    -
                     -/* Start: bn_mp_clear_multi.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_CLEAR_MULTI_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     - *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     - */
                     -#include <stdarg.h>
+                    -
                     -void mp_clear_multi(mp_int *mp, ...)
                     +int fp_addmod(fp_int *a, fp_int *b, fp_int *c, fp_int *d)
+                     {
                     -    mp_int* next_mp = mp;
                     -    va_list args;
                     -    va_start(args, mp);
                     -    while (next_mp != NULL) {
                     -        mp_clear(next_mp);
                     -        next_mp = va_arg(args, mp_int*);
                     -    }
                     -    va_end(args);
                     +  fp_int tmp;
                     +  fp_zero(&tmp);
                     +  fp_add(a, b, &tmp);
                     +  return fp_mod(&tmp, c, d);
+                     }
                     -#endif
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_clear_multi.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
                     +/* $Source: /cvs/libtom/tomsfastmath/src/addsub/fp_addmod.c,v $ */
                     +/* $Revision: 1.1 $ */
                     +/* $Date: 2006/12/31 21:25:53 $ */
                     -/* End: bn_mp_clear_multi.c */
                     +/* End: fp_addmod.c */
                     -/* Start: bn_mp_cmp.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_CMP_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     +/* Start: fp_cmp.c */
                     +/* TomsFastMath, a fast ISO C bignum library.
                     + *
                     + * This project is meant to fill in where LibTomMath
                     + * falls short.  That is speed ;-)
+                      *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     + * This project is public domain and free for all purposes.
                     + *
                     + * Tom St Denis, tomstdenis@gmail.com
                       */
                     +#include "bignum_fast.h"
                     -/* compare two ints (signed)*/
                     -int
                     -mp_cmp (mp_int * a, mp_int * b)
                     +int fp_cmp(fp_int *a, fp_int *b)
+                     {
                     -  /* compare based on sign */
                     -  if (a->sign != b->sign) {
                     -     if (a->sign == MP_NEG) {
                     -        return MP_LT;
                     -     } else {
                     -        return MP_GT;
                     -     }
                     -  }
+                    -
                     -  /* compare digits */
                     -  if (a->sign == MP_NEG) {
                     -     /* if negative compare opposite direction */
                     -     return mp_cmp_mag(b, a);
                     -  } else {
                     -     return mp_cmp_mag(a, b);
                     -  }
                     +   if (a->sign == FP_NEG && b->sign == FP_ZPOS) {
                     +      return FP_LT;
                     +   } else if (a->sign == FP_ZPOS && b->sign == FP_NEG) {
                     +      return FP_GT;
                     +   } else {
                     +      /* compare digits */
                     +      if (a->sign == FP_NEG) {
                     +         /* if negative compare opposite direction */
                     +         return fp_cmp_mag(b, a);
                     +      } else {
                     +         return fp_cmp_mag(a, b);
                     +      }
                     +   }
+                     }
                     -#endif
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_cmp.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
                     +/* $Source: /cvs/libtom/tomsfastmath/src/addsub/fp_cmp.c,v $ */
                     +/* $Revision: 1.1 $ */
                     +/* $Date: 2006/12/31 21:25:53 $ */
                     -/* End: bn_mp_cmp.c */
                     +/* End: fp_cmp.c */
                     -/* Start: bn_mp_cmp_d.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_CMP_D_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     +/* Start: fp_cmp_d.c */
                     +/* TomsFastMath, a fast ISO C bignum library.
                     + *
                     + * This project is meant to fill in where LibTomMath
                     + * falls short.  That is speed ;-)
+                      *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     + * This project is public domain and free for all purposes.
                     + *
                     + * Tom St Denis, tomstdenis@gmail.com
                       */
                     +#include "bignum_fast.h"
                     -/* compare a digit */
                     -int mp_cmp_d(mp_int * a, mp_digit b)
                     +/* compare against a single digit */
                     +int fp_cmp_d(fp_int *a, fp_digit b)
+                     {
                        /* compare based on sign */
                     -  if (a->sign == MP_NEG) {
                     -    return MP_LT;
                     +  if ((b && a->used == 0) || a->sign == FP_NEG) {
                     +    return FP_LT;
+                       }
                        /* compare based on magnitude */
                        if (a->used > 1) {
                     -    return MP_GT;
                     +    return FP_GT;
+                       }
                        /* compare the only digit of a to b */
                        if (a->dp[0] > b) {
                     -    return MP_GT;
                     +    return FP_GT;
                        } else if (a->dp[0] < b) {
                     -    return MP_LT;
                     +    return FP_LT;
                        } else {
                     -    return MP_EQ;
                     +    return FP_EQ;
+                       }
+                    +
+                     }
                     -#endif
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_cmp_d.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
                     +/* $Source: /cvs/libtom/tomsfastmath/src/addsub/fp_cmp_d.c,v $ */
                     +/* $Revision: 1.1 $ */
                     +/* $Date: 2006/12/31 21:25:53 $ */
                     -/* End: bn_mp_cmp_d.c */
                     +/* End: fp_cmp_d.c */
                     -/* Start: bn_mp_cmp_mag.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_CMP_MAG_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     +/* Start: fp_cmp_mag.c */
                     +/* TomsFastMath, a fast ISO C bignum library.
                     + *
                     + * This project is meant to fill in where LibTomMath
                     + * falls short.  That is speed ;-)
+                      *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     + * This project is public domain and free for all purposes.
                     + *
                     + * Tom St Denis, tomstdenis@gmail.com
                       */
                     +#include "bignum_fast.h"
                     -/* compare maginitude of two ints (unsigned) */
                     -int mp_cmp_mag (mp_int * a, mp_int * b)
                     +int fp_cmp_mag(fp_int *a, fp_int *b)
+                     {
                     -  int     n;
                     -  mp_digit *tmpa, *tmpb;
+                    -
                     -  /* compare based on # of non-zero digits */
                     -  if (a->used > b->used) {
                     -    return MP_GT;
                     -  }
+                    -
                     -  if (a->used < b->used) {
                     -    return MP_LT;
                     -  }
+                    -
                     -  /* alias for a */
                     -  tmpa = a->dp + (a->used - 1);
+                    -
                     -  /* alias for b */
                     -  tmpb = b->dp + (a->used - 1);
+                    -
                     -  /* compare based on digits  */
                     -  for (n = 0; n < a->used; ++n, --tmpa, --tmpb) {
                     -    if (*tmpa > *tmpb) {
                     -      return MP_GT;
                     -    }
                     +   int x;
                     -    if (*tmpa < *tmpb) {
                     -      return MP_LT;
                     -    }
                     -  }
                     -  return MP_EQ;
                     +   if (a->used > b->used) {
                     +      return FP_GT;
                     +   } else if (a->used < b->used) {
                     +      return FP_LT;
                     +   } else {
                     +      for (x = a->used - 1; x >= 0; x--) {
                     +          if (a->dp[x] > b->dp[x]) {
                     +             return FP_GT;
                     +          } else if (a->dp[x] < b->dp[x]) {
                     +             return FP_LT;
                     +          }
                     +      }
                     +   }
                     +   return FP_EQ;
+                     }
                     -#endif
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_cmp_mag.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
                     -/* End: bn_mp_cmp_mag.c */
                     +/* $Source: /cvs/libtom/tomsfastmath/src/addsub/fp_cmp_mag.c,v $ */
                     +/* $Revision: 1.1 $ */
                     +/* $Date: 2006/12/31 21:25:53 $ */
                     -/* Start: bn_mp_cnt_lsb.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_CNT_LSB_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     +/* End: fp_cmp_mag.c */
+                    +
                     +/* Start: fp_cnt_lsb.c */
                     +/* TomsFastMath, a fast ISO C bignum library.
                     + *
                     + * This project is meant to fill in where LibTomMath
                     + * falls short.  That is speed ;-)
+                      *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     + * This project is public domain and free for all purposes.
                     + *
                     + * Tom St Denis, tomstdenis@gmail.com
                       */
                     +#include "bignum_fast.h"
                     -static const int lnz[16] = {
                     +static const int lnz[16] = {
 , 0, 1, 0, 2, 0, 1, 0, 3, 0, 1, 0, 2, 0, 1, 0
                      };
                      /* Counts the number of lsbs which are zero before the first zero bit */
                     -int mp_cnt_lsb(mp_int *a)
                     +int fp_cnt_lsb(fp_int *a)
+                     {
                         int x;
                     -   mp_digit q, qq;
                     +   fp_digit q, qq;
                         /* easy out */
                     -   if (mp_iszero(a) == 1) {
                     +   if (fp_iszero(a) == 1) {
                            return 0;
+                        }
@@ -1429,110 +300,29 @@ int mp_cnt_lsb(mp_int *a)
                         return x;
+                     }
                     -#endif
+                    -
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_cnt_lsb.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
+                    -
                     -/* End: bn_mp_cnt_lsb.c */
+                    -
                     -/* Start: bn_mp_copy.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_COPY_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     - *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     - */
+                    -
                     -/* copy, b = a */
                     -int
                     -mp_copy (mp_int * a, mp_int * b)
                     -{
                     -  int     res, n;
+                    -
                     -  /* if dst == src do nothing */
                     -  if (a == b) {
                     -    return MP_OKAY;
                     -  }
+                    -
                     -  /* grow dest */
                     -  if (b->alloc < a->used) {
                     -     if ((res = mp_grow (b, a->used)) != MP_OKAY) {
                     -        return res;
                     -     }
                     -  }
+                    -
                     -  /* zero b and copy the parameters over */
                     -  {
                     -    register mp_digit *tmpa, *tmpb;
+                    -
                     -    /* pointer aliases */
+                    -
                     -    /* source */
                     -    tmpa = a->dp;
+                    -
                     -    /* destination */
                     -    tmpb = b->dp;
+                    -
                     -    /* copy all the digits */
                     -    for (n = 0; n < a->used; n++) {
                     -      *tmpb++ = *tmpa++;
                     -    }
                     -    /* clear high digits */
                     -    for (; n < b->used; n++) {
                     -      *tmpb++ = 0;
                     -    }
                     -  }
                     +/* $Source: /cvs/libtom/tomsfastmath/src/bit/fp_cnt_lsb.c,v $ */
                     +/* $Revision: 1.1 $ */
                     +/* $Date: 2006/12/31 21:25:53 $ */
                     -  /* copy used count and sign */
                     -  b->used = a->used;
                     -  b->sign = a->sign;
                     -  return MP_OKAY;
                     -}
                     -#endif
+                    -
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_copy.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
                     +/* End: fp_cnt_lsb.c */
                     -/* End: bn_mp_copy.c */
+                    -
                     -/* Start: bn_mp_count_bits.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_COUNT_BITS_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     +/* Start: fp_count_bits.c */
                     +/* TomsFastMath, a fast ISO C bignum library.
                     + *
                     + * This project is meant to fill in where LibTomMath
                     + * falls short.  That is speed ;-)
+                      *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     + * This project is public domain and free for all purposes.
                     + *
                     + * Tom St Denis, tomstdenis@gmail.com
                       */
                     +#include "bignum_fast.h"
                     -/* returns the number of bits in an int */
                     -int
                     -mp_count_bits (mp_int * a)
                     +int fp_count_bits (fp_int * a)
+                     {
                        int     r;
                     -  mp_digit q;
                     +  fp_digit q;
                        /* shortcut */
                        if (a->used == 0) {
@@ -1541,184 +331,74 @@ mp_count_bits (mp_int * a)
                        /* get number of digits and add that */
                        r = (a->used - 1) * DIGIT_BIT;
+                    -
+                    +
                        /* take the last digit and count the bits in it */
                        q = a->dp[a->used - 1];
                     -  while (q > ((mp_digit) 0)) {
                     +  while (q > ((fp_digit) 0)) {
                          ++r;
                     -    q >>= ((mp_digit) 1);
                     +    q >>= ((fp_digit) 1);
+                       }
                        return r;
+                     }
                     -#endif
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_count_bits.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
                     +/* $Source: /cvs/libtom/tomsfastmath/src/bit/fp_count_bits.c,v $ */
                     +/* $Revision: 1.1 $ */
                     +/* $Date: 2006/12/31 21:25:53 $ */
                     -/* End: bn_mp_count_bits.c */
                     +/* End: fp_count_bits.c */
                     -/* Start: bn_mp_div.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_DIV_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     +/* Start: fp_div.c */
                     +/* TomsFastMath, a fast ISO C bignum library.
                     + *
                     + * This project is meant to fill in where LibTomMath
                     + * falls short.  That is speed ;-)
+                      *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     + * This project is public domain and free for all purposes.
                     + *
                     + * Tom St Denis, tomstdenis@gmail.com
                       */
                     +#include "bignum_fast.h"
                     -#ifdef BN_MP_DIV_SMALL
+                    -
                     -/* slower bit-bang division... also smaller */
                     -int mp_div(mp_int * a, mp_int * b, mp_int * c, mp_int * d)
                     -{
                     -   mp_int ta, tb, tq, q;
                     -   int    res, n, n2;
+                    -
                     -  /* is divisor zero ? */
                     -  if (mp_iszero (b) == 1) {
                     -    return MP_VAL;
                     -  }
+                    -
                     -  /* if a < b then q=0, r = a */
                     -  if (mp_cmp_mag (a, b) == MP_LT) {
                     -    if (d != NULL) {
                     -      res = mp_copy (a, d);
                     -    } else {
                     -      res = MP_OKAY;
                     -    }
                     -    if (c != NULL) {
                     -      mp_zero (c);
                     -    }
                     -    return res;
                     -  }
+                    -
                     -  /* init our temps */
                     -  if ((res = mp_init_multi(&ta, &tb, &tq, &q, NULL) != MP_OKAY)) {
                     -     return res;
                     -  }
+                    -
+                    -
                     -  mp_set(&tq, 1);
                     -  n = mp_count_bits(a) - mp_count_bits(b);
                     -  if (((res = mp_abs(a, &ta)) != MP_OKAY) ||
                     -      ((res = mp_abs(b, &tb)) != MP_OKAY) ||
                     -      ((res = mp_mul_2d(&tb, n, &tb)) != MP_OKAY) ||
                     -      ((res = mp_mul_2d(&tq, n, &tq)) != MP_OKAY)) {
                     -      goto LBL_ERR;
                     -  }
+                    -
                     -  while (n-- >= 0) {
                     -     if (mp_cmp(&tb, &ta) != MP_GT) {
                     -        if (((res = mp_sub(&ta, &tb, &ta)) != MP_OKAY) ||
                     -            ((res = mp_add(&q, &tq, &q)) != MP_OKAY)) {
                     -           goto LBL_ERR;
                     -        }
                     -     }
                     -     if (((res = mp_div_2d(&tb, 1, &tb, NULL)) != MP_OKAY) ||
                     -         ((res = mp_div_2d(&tq, 1, &tq, NULL)) != MP_OKAY)) {
                     -           goto LBL_ERR;
                     -     }
                     -  }
+                    -
                     -  /* now q == quotient and ta == remainder */
                     -  n  = a->sign;
                     -  n2 = (a->sign == b->sign ? MP_ZPOS : MP_NEG);
                     -  if (c != NULL) {
                     -     mp_exch(c, &q);
                     -     c->sign  = (mp_iszero(c) == MP_YES) ? MP_ZPOS : n2;
                     -  }
                     -  if (d != NULL) {
                     -     mp_exch(d, &ta);
                     -     d->sign = (mp_iszero(d) == MP_YES) ? MP_ZPOS : n;
                     -  }
                     -LBL_ERR:
                     -   mp_clear_multi(&ta, &tb, &tq, &q, NULL);
                     -   return res;
                     -}
+                    -
                     -#else
+                    -
                     -/* integer signed division.
                     - * c*b + d == a [e.g. a/b, c=quotient, d=remainder]
                     - * HAC pp.598 Algorithm 14.20
                     - *
                     - * Note that the description in HAC is horribly
                     - * incomplete.  For example, it doesn't consider
                     - * the case where digits are removed from 'x' in
                     - * the inner loop.  It also doesn't consider the
                     - * case that y has fewer than three digits, etc..
                     - *
                     - * The overall algorithm is as described as
                     - * 14.20 from HAC but fixed to treat these cases.
                     -*/
                     -int mp_div (mp_int * a, mp_int * b, mp_int * c, mp_int * d)
                     +/* a/b => cb + d == a */
                     +int fp_div(fp_int *a, fp_int *b, fp_int *c, fp_int *d)
+                     {
                     -  mp_int  q, x, y, t1, t2;
                     -  int     res, n, t, i, norm, neg;
                     +  fp_int  q, x, y, t1, t2;
                     +  int     n, t, i, norm, neg;
                        /* is divisor zero ? */
                     -  if (mp_iszero (b) == 1) {
                     -    return MP_VAL;
                     +  if (fp_iszero (b) == 1) {
                     +    return FP_VAL;
+                       }
                        /* if a < b then q=0, r = a */
                     -  if (mp_cmp_mag (a, b) == MP_LT) {
                     +  if (fp_cmp_mag (a, b) == FP_LT) {
                          if (d != NULL) {
                     -      res = mp_copy (a, d);
                     -    } else {
                     -      res = MP_OKAY;
                     -    }
                     +      fp_copy (a, d);
                     +    }
                          if (c != NULL) {
                     -      mp_zero (c);
                     +      fp_zero (c);
+                         }
                     -    return res;
                     +    return FP_OKAY;
+                       }
                     -  if ((res = mp_init_size (&q, a->used + 2)) != MP_OKAY) {
                     -    return res;
                     -  }
                     +  fp_init(&q);
                        q.used = a->used + 2;
                     -  if ((res = mp_init (&t1)) != MP_OKAY) {
                     -    goto LBL_Q;
                     -  }
+                    -
                     -  if ((res = mp_init (&t2)) != MP_OKAY) {
                     -    goto LBL_T1;
                     -  }
+                    -
                     -  if ((res = mp_init_copy (&x, a)) != MP_OKAY) {
                     -    goto LBL_T2;
                     -  }
+                    -
                     -  if ((res = mp_init_copy (&y, b)) != MP_OKAY) {
                     -    goto LBL_X;
                     -  }
                     +  fp_init(&t1);
                     +  fp_init(&t2);
                     +  fp_init_copy(&x, a);
                     +  fp_init_copy(&y, b);
                        /* fix the sign */
                     -  neg = (a->sign == b->sign) ? MP_ZPOS : MP_NEG;
                     -  x.sign = y.sign = MP_ZPOS;
                     +  neg = (a->sign == b->sign) ? FP_ZPOS : FP_NEG;
                     +  x.sign = y.sign = FP_ZPOS;
                        /* normalize both x and y, ensure that y >= b/2, [b == 2**DIGIT_BIT] */
                     -  norm = mp_count_bits(&y) % DIGIT_BIT;
                     +  norm = fp_count_bits(&y) % DIGIT_BIT;
                        if (norm < (int)(DIGIT_BIT-1)) {
                           norm = (DIGIT_BIT-1) - norm;
                     -     if ((res = mp_mul_2d (&x, norm, &x)) != MP_OKAY) {
                     -       goto LBL_Y;
                     -     }
                     -     if ((res = mp_mul_2d (&y, norm, &y)) != MP_OKAY) {
                     -       goto LBL_Y;
                     -     }
                     +     fp_mul_2d (&x, norm, &x);
                     +     fp_mul_2d (&y, norm, &y);
                        } else {
                           norm = 0;
+                       }
@@ -1728,19 +408,15 @@ int mp_div (mp_int * a, mp_int * b, mp_int * c, mp_int * d)
                        t = y.used - 1;
                        /* while (x >= y*b**n-t) do { q[n-t] += 1; x -= y*b**{n-t} } */
                     -  if ((res = mp_lshd (&y, n - t)) != MP_OKAY) { /* y = y*b**{n-t} */
                     -    goto LBL_Y;
                     -  }
                     +  fp_lshd (&y, n - t);                                             /* y = y*b**{n-t} */
                     -  while (mp_cmp (&x, &y) != MP_LT) {
                     +  while (fp_cmp (&x, &y) != FP_LT) {
                          ++(q.dp[n - t]);
                     -    if ((res = mp_sub (&x, &y, &x)) != MP_OKAY) {
                     -      goto LBL_Y;
                     -    }
                     +    fp_sub (&x, &y, &x);
+                       }
                        /* reset y by shifting it back down */
                     -  mp_rshd (&y, n - t);
                     +  fp_rshd (&y, n - t);
                        /* step 3. for i from n down to (t + 1) */
                        for (i = n; i >= (t + 1); i--) {
@@ -1751,15 +427,13 @@ int mp_div (mp_int * a, mp_int * b, mp_int * c, mp_int * d)
                          /* step 3.1 if xi == yt then set q{i-t-1} to b-1,
                           * otherwise set q{i-t-1} to (xi*b + x{i-1})/yt */
                          if (x.dp[i] == y.dp[t]) {
                     -      q.dp[i - t - 1] = ((((mp_digit)1) << DIGIT_BIT) - 1);
                     +      q.dp[i - t - 1] = ((((fp_word)1) << DIGIT_BIT) - 1);
                          } else {
                     -      mp_word tmp;
                     -      tmp = ((mp_word) x.dp[i]) << ((mp_word) DIGIT_BIT);
                     -      tmp |= ((mp_word) x.dp[i - 1]);
                     -      tmp /= ((mp_word) y.dp[t]);
                     -      if (tmp > (mp_word) MP_MASK)
                     -        tmp = MP_MASK;
                     -      q.dp[i - t - 1] = (mp_digit) (tmp & (mp_word) (MP_MASK));
                     +      fp_word tmp;
                     +      tmp = ((fp_word) x.dp[i]) << ((fp_word) DIGIT_BIT);
                     +      tmp |= ((fp_word) x.dp[i - 1]);
                     +      tmp /= ((fp_word) y.dp[t]);
                     +      q.dp[i - t - 1] = (fp_digit) (tmp);
+                         }
                          /* while (q{i-t-1} * (yt * b + y{t-1})) >
@@ -1767,52 +441,35 @@ int mp_div (mp_int * a, mp_int * b, mp_int * c, mp_int * d)
                             do q{i-t-1} -= 1;
                          */
                     -    q.dp[i - t - 1] = (q.dp[i - t - 1] + 1) & MP_MASK;
                     +    q.dp[i - t - 1] = (q.dp[i - t - 1] + 1);
                          do {
                     -      q.dp[i - t - 1] = (q.dp[i - t - 1] - 1) & MP_MASK;
                     +      q.dp[i - t - 1] = (q.dp[i - t - 1] - 1);
                            /* find left hand */
                     -      mp_zero (&t1);
                     +      fp_zero (&t1);
                            t1.dp[0] = (t - 1 < 0) ? 0 : y.dp[t - 1];
                            t1.dp[1] = y.dp[t];
                            t1.used = 2;
                     -      if ((res = mp_mul_d (&t1, q.dp[i - t - 1], &t1)) != MP_OKAY) {
                     -        goto LBL_Y;
                     -      }
                     +      fp_mul_d (&t1, q.dp[i - t - 1], &t1);
                            /* find right hand */
                            t2.dp[0] = (i - 2 < 0) ? 0 : x.dp[i - 2];
                            t2.dp[1] = (i - 1 < 0) ? 0 : x.dp[i - 1];
                            t2.dp[2] = x.dp[i];
                            t2.used = 3;
                     -    } while (mp_cmp_mag(&t1, &t2) == MP_GT);
                     +    } while (fp_cmp_mag(&t1, &t2) == FP_GT);
                          /* step 3.3 x = x - q{i-t-1} * y * b**{i-t-1} */
                     -    if ((res = mp_mul_d (&y, q.dp[i - t - 1], &t1)) != MP_OKAY) {
                     -      goto LBL_Y;
                     -    }
+                    -
                     -    if ((res = mp_lshd (&t1, i - t - 1)) != MP_OKAY) {
                     -      goto LBL_Y;
                     -    }
+                    -
                     -    if ((res = mp_sub (&x, &t1, &x)) != MP_OKAY) {
                     -      goto LBL_Y;
                     -    }
                     +    fp_mul_d (&y, q.dp[i - t - 1], &t1);
                     +    fp_lshd  (&t1, i - t - 1);
                     +    fp_sub   (&x, &t1, &x);
                          /* if x < 0 then { x = x + y*b**{i-t-1}; q{i-t-1} -= 1; } */
                     -    if (x.sign == MP_NEG) {
                     -      if ((res = mp_copy (&y, &t1)) != MP_OKAY) {
                     -        goto LBL_Y;
                     -      }
                     -      if ((res = mp_lshd (&t1, i - t - 1)) != MP_OKAY) {
                     -        goto LBL_Y;
                     -      }
                     -      if ((res = mp_add (&x, &t1, &x)) != MP_OKAY) {
                     -        goto LBL_Y;
                     -      }
+                    -
                     -      q.dp[i - t - 1] = (q.dp[i - t - 1] - 1UL) & MP_MASK;
                     +    if (x.sign == FP_NEG) {
                     +      fp_copy (&y, &t1);
                     +      fp_lshd (&t1, i - t - 1);
                     +      fp_add (&x, &t1, &x);
                     +      q.dp[i - t - 1] = q.dp[i - t - 1] - 1;
+                         }
+                       }
@@ -1821,73 +478,57 @@ int mp_div (mp_int * a, mp_int * b, mp_int * c, mp_int * d)
                         */
                        /* get sign before writing to c */
                     -  x.sign = x.used == 0 ? MP_ZPOS : a->sign;
                     +  x.sign = x.used == 0 ? FP_ZPOS : a->sign;
                        if (c != NULL) {
                     -    mp_clamp (&q);
                     -    mp_exch (&q, c);
                     +    fp_clamp (&q);
                     +    fp_copy (&q, c);
                          c->sign = neg;
+                       }
                        if (d != NULL) {
                     -    mp_div_2d (&x, norm, &x, NULL);
                     -    mp_exch (&x, d);
                     -  }
                     +    fp_div_2d (&x, norm, &x, NULL);
                     -  res = MP_OKAY;
                     +/* the following is a kludge, essentially we were seeing the right remainder but
                     +   with excess digits that should have been zero
                     + */
                     +    for (i = b->used; i < x.used; i++) {
                     +        x.dp[i] = 0;
                     +    }
                     +    fp_clamp(&x);
                     +    fp_copy (&x, d);
                     +  }
                     -LBL_Y:mp_clear (&y);
                     -LBL_X:mp_clear (&x);
                     -LBL_T2:mp_clear (&t2);
                     -LBL_T1:mp_clear (&t1);
                     -LBL_Q:mp_clear (&q);
                     -  return res;
                     +  return FP_OKAY;
+                     }
                     -#endif
                     +/* $Source: /cvs/libtom/tomsfastmath/src/divide/fp_div.c,v $ */
                     +/* $Revision: 1.1 $ */
                     +/* $Date: 2006/12/31 21:25:53 $ */
                     -#endif
                     +/* End: fp_div.c */
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_div.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
+                    -
                     -/* End: bn_mp_div.c */
+                    -
                     -/* Start: bn_mp_div_2.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_DIV_2_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     +/* Start: fp_div_2.c */
                     +/* TomsFastMath, a fast ISO C bignum library.
                     + *
                     + * This project is meant to fill in where LibTomMath
                     + * falls short.  That is speed ;-)
+                      *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     + * This project is public domain and free for all purposes.
                     + *
                     + * Tom St Denis, tomstdenis@gmail.com
                       */
                     +#include "bignum_fast.h"
                      /* b = a/2 */
                     -int mp_div_2(mp_int * a, mp_int * b)
                     +void fp_div_2(fp_int * a, fp_int * b)
+                     {
                     -  int     x, res, oldused;
+                    -
                     -  /* copy */
                     -  if (b->alloc < a->used) {
                     -    if ((res = mp_grow (b, a->used)) != MP_OKAY) {
                     -      return res;
                     -    }
                     -  }
                     +  int     x, oldused;
                        oldused = b->used;
                        b->used = a->used;
+                       {
                     -    register mp_digit r, rr, *tmpa, *tmpb;
                     +    register fp_digit r, rr, *tmpa, *tmpb;
                          /* source alias */
                          tmpa = a->dp + b->used - 1;
@@ -1915,82 +556,65 @@ int mp_div_2(mp_int * a, mp_int * b)
+                         }
+                       }
                        b->sign = a->sign;
                     -  mp_clamp (b);
                     -  return MP_OKAY;
                     +  fp_clamp (b);
+                     }
                     -#endif
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_div_2.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
                     +/* $Source: /cvs/libtom/tomsfastmath/src/bit/fp_div_2.c,v $ */
                     +/* $Revision: 1.1 $ */
                     +/* $Date: 2006/12/31 21:25:53 $ */
                     -/* End: bn_mp_div_2.c */
                     +/* End: fp_div_2.c */
                     -/* Start: bn_mp_div_2d.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_DIV_2D_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     +/* Start: fp_div_2d.c */
                     +/* TomsFastMath, a fast ISO C bignum library.
                     + *
                     + * This project is meant to fill in where LibTomMath
                     + * falls short.  That is speed ;-)
+                      *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     + * This project is public domain and free for all purposes.
                     + *
                     + * Tom St Denis, tomstdenis@gmail.com
                       */
                     +#include "bignum_fast.h"
                     -/* shift right by a certain bit count (store quotient in c, optional remainder in d) */
                     -int mp_div_2d (mp_int * a, int b, mp_int * c, mp_int * d)
                     +/* c = a / 2**b */
                     +void fp_div_2d(fp_int *a, int b, fp_int *c, fp_int *d)
+                     {
                     -  mp_digit D, r, rr;
                     -  int     x, res;
                     -  mp_int  t;
+                    -
                     +  fp_digit D, r, rr;
                     +  int      x;
                     +  fp_int   t;
                        /* if the shift count is <= 0 then we do no work */
                        if (b <= 0) {
                     -    res = mp_copy (a, c);
                     +    fp_copy (a, c);
                          if (d != NULL) {
                     -      mp_zero (d);
                     +      fp_zero (d);
+                         }
                     -    return res;
                     +    return;
+                       }
                     -  if ((res = mp_init (&t)) != MP_OKAY) {
                     -    return res;
                     -  }
                     +  fp_init(&t);
                        /* get the remainder */
                        if (d != NULL) {
                     -    if ((res = mp_mod_2d (a, b, &t)) != MP_OKAY) {
                     -      mp_clear (&t);
                     -      return res;
                     -    }
                     +    fp_mod_2d (a, b, &t);
+                       }
                        /* copy */
                     -  if ((res = mp_copy (a, c)) != MP_OKAY) {
                     -    mp_clear (&t);
                     -    return res;
                     -  }
                     +  fp_copy(a, c);
                        /* shift by as many digits in the bit count */
                        if (b >= (int)DIGIT_BIT) {
                     -    mp_rshd (c, b / DIGIT_BIT);
                     +    fp_rshd (c, b / DIGIT_BIT);
+                       }
                        /* shift any bit count < DIGIT_BIT */
                     -  D = (mp_digit) (b % DIGIT_BIT);
                     +  D = (fp_digit) (b % DIGIT_BIT);
                        if (D != 0) {
                     -    register mp_digit *tmpc, mask, shift;
                     +    register fp_digit *tmpc, mask, shift;
                          /* mask */
                     -    mask = (((mp_digit)1) << D) - 1;
                     +    mask = (((fp_digit)1) << D) - 1;
                          /* shift for lsb */
                          shift = DIGIT_BIT - D;
@@ -2012,128 +636,41 @@ int mp_div_2d (mp_int * a, int b, mp_int * c, mp_int * d)
                            r = rr;
+                         }
+                       }
                     -  mp_clamp (c);
                     +  fp_clamp (c);
                        if (d != NULL) {
                     -    mp_exch (&t, d);
                     +    fp_copy (&t, d);
+                       }
                     -  mp_clear (&t);
                     -  return MP_OKAY;
+                     }
                     -#endif
+                    -
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_div_2d.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
+                    -
                     -/* End: bn_mp_div_2d.c */
+                    -
                     -/* Start: bn_mp_div_3.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_DIV_3_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     - *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     - */
+                    -
                     -/* divide by three (based on routine from MPI and the GMP manual) */
                     -int
                     -mp_div_3 (mp_int * a, mp_int *c, mp_digit * d)
                     -{
                     -  mp_int   q;
                     -  mp_word  w, t;
                     -  mp_digit b;
                     -  int      res, ix;
+                    -
                     -  /* b = 2**DIGIT_BIT / 3 */
                     -  b = (((mp_word)1) << ((mp_word)DIGIT_BIT)) / ((mp_word)3);
+                    -
                     -  if ((res = mp_init_size(&q, a->used)) != MP_OKAY) {
                     -     return res;
                     -  }
+                    -
                     -  q.used = a->used;
                     -  q.sign = a->sign;
                     -  w = 0;
                     -  for (ix = a->used - 1; ix >= 0; ix--) {
                     -     w = (w << ((mp_word)DIGIT_BIT)) | ((mp_word)a->dp[ix]);
+                    -
                     -     if (w >= 3) {
                     -        /* multiply w by [1/3] */
                     -        t = (w * ((mp_word)b)) >> ((mp_word)DIGIT_BIT);
+                    -
                     -        /* now subtract 3 * [w/3] from w, to get the remainder */
                     -        w -= t+t+t;
+                    -
                     -        /* fixup the remainder as required since
                     -         * the optimization is not exact.
                     -         */
                     -        while (w >= 3) {
                     -           t += 1;
                     -           w -= 3;
                     -        }
                     -      } else {
                     -        t = 0;
                     -      }
                     -      q.dp[ix] = (mp_digit)t;
                     -  }
+                    -
                     -  /* [optional] store the remainder */
                     -  if (d != NULL) {
                     -     *d = (mp_digit)w;
                     -  }
+                    -
                     -  /* [optional] store the quotient */
                     -  if (c != NULL) {
                     -     mp_clamp(&q);
                     -     mp_exch(&q, c);
                     -  }
                     -  mp_clear(&q);
+                    -
                     -  return res;
                     -}
+                    -
                     -#endif
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_div_3.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
                     +/* $Source: /cvs/libtom/tomsfastmath/src/bit/fp_div_2d.c,v $ */
                     +/* $Revision: 1.1 $ */
                     +/* $Date: 2006/12/31 21:25:53 $ */
                     -/* End: bn_mp_div_3.c */
                     +/* End: fp_div_2d.c */
                     -/* Start: bn_mp_div_d.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_DIV_D_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     +/* Start: fp_div_d.c */
                     +/* TomsFastMath, a fast ISO C bignum library.
                     + *
                     + * This project is meant to fill in where LibTomMath
                     + * falls short.  That is speed ;-)
+                      *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     + * This project is public domain and free for all purposes.
                     + *
                     + * Tom St Denis, tomstdenis@gmail.com
                       */
                     +#include "bignum_fast.h"
                     -static int s_is_power_of_two(mp_digit b, int *p)
                     +static int s_is_power_of_two(fp_digit b, int *p)
+                     {
                         int x;
                     -   for (x = 1; x < DIGIT_BIT; x++) {
                     -      if (b == (((mp_digit)1)<<x)) {
                     +   /* fast return if no power of two */
                     +   if ((b==0) || (b & (b-1))) {
                     +      return 0;
                     +   }
+                    +
                     +   for (x = 0; x < DIGIT_BIT; x++) {
                     +      if (b == (((fp_digit)1)<<x)) {
                               *p = x;
                               return 1;
+                           }
@@ -2141,676 +678,223 @@ static int s_is_power_of_two(mp_digit b, int *p)
                         return 0;
+                     }
                     -/* single digit division (based on routine from MPI) */
                     -int mp_div_d (mp_int * a, mp_digit b, mp_int * c, mp_digit * d)
                     +/* a/b => cb + d == a */
                     +int fp_div_d(fp_int *a, fp_digit b, fp_int *c, fp_digit *d)
+                     {
                     -  mp_int  q;
                     -  mp_word w;
                     -  mp_digit t;
                     -  int     res, ix;
                     +  fp_int   q;
                     +  fp_word  w;
                     +  fp_digit t;
                     +  int      ix;
                        /* cannot divide by zero */
                        if (b == 0) {
                     -     return MP_VAL;
                     +     return FP_VAL;
+                       }
                        /* quick outs */
                     -  if (b == 1 || mp_iszero(a) == 1) {
                     +  if (b == 1 || fp_iszero(a) == 1) {
                           if (d != NULL) {
                              *d = 0;
+                          }
                           if (c != NULL) {
                     -        return mp_copy(a, c);
                     +        fp_copy(a, c);
+                          }
                     -     return MP_OKAY;
                     +     return FP_OKAY;
+                       }
                        /* power of two ? */
                        if (s_is_power_of_two(b, &ix) == 1) {
                           if (d != NULL) {
                     -        *d = a->dp[0] & ((((mp_digit)1)<<ix) - 1);
                     +        *d = a->dp[0] & ((((fp_digit)1)<<ix) - 1);
+                          }
                           if (c != NULL) {
                     -        return mp_div_2d(a, ix, c, NULL);
                     +        fp_div_2d(a, ix, c, NULL);
+                          }
                     -     return MP_OKAY;
                     +     return FP_OKAY;
+                       }
                     -#ifdef BN_MP_DIV_3_C
                     -  /* three? */
                     -  if (b == 3) {
                     -     return mp_div_3(a, c, d);
                     -  }
                     -#endif
+                    -
                        /* no easy answer [c'est la vie].  Just division */
                     -  if ((res = mp_init_size(&q, a->used)) != MP_OKAY) {
                     -     return res;
                     -  }
                     +  fp_init(&q);
                        q.used = a->used;
                        q.sign = a->sign;
                        w = 0;
                        for (ix = a->used - 1; ix >= 0; ix--) {
                     -     w = (w << ((mp_word)DIGIT_BIT)) | ((mp_word)a->dp[ix]);
                     +     w = (w << ((fp_word)DIGIT_BIT)) | ((fp_word)a->dp[ix]);
                           if (w >= b) {
                     -        t = (mp_digit)(w / b);
                     -        w -= ((mp_word)t) * ((mp_word)b);
                     +        t = (fp_digit)(w / b);
                     +        w -= ((fp_word)t) * ((fp_word)b);
                            } else {
                              t = 0;
+                           }
                     -      q.dp[ix] = (mp_digit)t;
                     +      q.dp[ix] = (fp_digit)t;
+                       }
                        if (d != NULL) {
                     -     *d = (mp_digit)w;
                     +     *d = (fp_digit)w;
+                       }
                        if (c != NULL) {
                     -     mp_clamp(&q);
                     -     mp_exch(&q, c);
                     +     fp_clamp(&q);
                     +     fp_copy(&q, c);
+                       }
                     -  mp_clear(&q);
+                    -
                     -  return res;
+                    +
                     +  return FP_OKAY;
+                     }
                     -#endif
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_div_d.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
                     +/* $Source: /cvs/libtom/tomsfastmath/src/divide/fp_div_d.c,v $ */
                     +/* $Revision: 1.2 $ */
                     +/* $Date: 2007/01/12 15:13:54 $ */
                     -/* End: bn_mp_div_d.c */
                     +/* End: fp_div_d.c */
                     -/* Start: bn_mp_dr_is_modulus.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_DR_IS_MODULUS_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     +/* Start: fp_exptmod.c */
                     +/* TomsFastMath, a fast ISO C bignum library.
                     + *
                     + * This project is meant to fill in where LibTomMath
                     + * falls short.  That is speed ;-)
+                      *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     + * This project is public domain and free for all purposes.
                     + *
                     + * Tom St Denis, tomstdenis@gmail.com
                       */
                     +#include "bignum_fast.h"
                     -/* determines if a number is a valid DR modulus */
                     -int mp_dr_is_modulus(mp_int *a)
                     -{
                     -   int ix;
                     +#ifdef TFM_TIMING_RESISTANT
                     -   /* must be at least two digits */
                     -   if (a->used < 2) {
                     -      return 0;
                     -   }
                     +/* timing resistant montgomery ladder based exptmod
                     -   /* must be of the form b**k - a [a <= b] so all
                     -    * but the first digit must be equal to -1 (mod b).
                     -    */
                     -   for (ix = 1; ix < a->used; ix++) {
                     -       if (a->dp[ix] != MP_MASK) {
                     -          return 0;
                     -       }
                     -   }
                     -   return 1;
                     -}
+                    -
                     -#endif
+                    -
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_dr_is_modulus.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
+                    -
                     -/* End: bn_mp_dr_is_modulus.c */
+                    -
                     -/* Start: bn_mp_dr_reduce.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_DR_REDUCE_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     - *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     - */
+                    -
                     -/* reduce "x" in place modulo "n" using the Diminished Radix algorithm.
                     - *
                     - * Based on algorithm from the paper
                     - *
                     - * "Generating Efficient Primes for Discrete Log Cryptosystems"
                     - *                 Chae Hoon Lim, Pil Joong Lee,
                     - *          POSTECH Information Research Laboratories
                     - *
                     - * The modulus must be of a special format [see manual]
                     - *
                     - * Has been modified to use algorithm 7.10 from the LTM book instead
                     - *
                     - * Input x must be in the range 0 <= x <= (n-1)**2
                     - */
                     -int
                     -mp_dr_reduce (mp_int * x, mp_int * n, mp_digit k)
                     +   Based on work by Marc Joye, Sung-Ming Yen, "The Montgomery Powering Ladder", Cryptographic Hardware and Embedded Systems, CHES 2002
                     +*/
                     +static int _fp_exptmod(fp_int * G, fp_int * X, fp_int * P, fp_int * Y)
+                     {
                     -  int      err, i, m;
                     -  mp_word  r;
                     -  mp_digit mu, *tmpx1, *tmpx2;
+                    -
                     -  /* m = digits in modulus */
                     -  m = n->used;
+                    -
                     -  /* ensure that "x" has at least 2m digits */
                     -  if (x->alloc < m + m) {
                     -    if ((err = mp_grow (x, m + m)) != MP_OKAY) {
                     -      return err;
                     -    }
                     -  }
+                    -
                     -/* top of loop, this is where the code resumes if
                     - * another reduction pass is required.
                     - */
                     -top:
                     -  /* aliases for digits */
                     -  /* alias for lower half of x */
                     -  tmpx1 = x->dp;
+                    -
                     -  /* alias for upper half of x, or x/B**m */
                     -  tmpx2 = x->dp + m;
+                    -
                     -  /* set carry to zero */
                     -  mu = 0;
+                    -
                     -  /* compute (x mod B**m) + k * [x/B**m] inline and inplace */
                     -  for (i = 0; i < m; i++) {
                     -      r         = ((mp_word)*tmpx2++) * ((mp_word)k) + *tmpx1 + mu;
                     -      *tmpx1++  = (mp_digit)(r & MP_MASK);
                     -      mu        = (mp_digit)(r >> ((mp_word)DIGIT_BIT));
                     -  }
+                    -
                     -  /* set final carry */
                     -  *tmpx1++ = mu;
+                    -
                     -  /* zero words above m */
                     -  for (i = m + 1; i < x->used; i++) {
                     -      *tmpx1++ = 0;
                     -  }
                     +  fp_int   R[2];
                     +  fp_digit buf, mp;
                     +  int      err, bitcnt, digidx, y;
                     -  /* clamp, sub and return */
                     -  mp_clamp (x);
+                    -
                     -  /* if x >= n then subtract and reduce again
                     -   * Each successive "recursion" makes the input smaller and smaller.
                     -   */
                     -  if (mp_cmp_mag (x, n) != MP_LT) {
                     -    s_mp_sub(x, n, x);
                     -    goto top;
                     +  /* now setup montgomery  */
                     +  if ((err = fp_montgomery_setup (P, &mp)) != FP_OKAY) {
                     +     return err;
+                       }
                     -  return MP_OKAY;
                     -}
                     -#endif
+                    -
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_dr_reduce.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
+                    -
                     -/* End: bn_mp_dr_reduce.c */
+                    -
                     -/* Start: bn_mp_dr_setup.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_DR_SETUP_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     - *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     - */
+                    -
                     -/* determines the setup value */
                     -void mp_dr_setup(mp_int *a, mp_digit *d)
                     -{
                     -   /* the casts are required if DIGIT_BIT is one less than
                     -    * the number of bits in a mp_digit [e.g. DIGIT_BIT==31]
                     -    */
                     -   *d = (mp_digit)((((mp_word)1) << ((mp_word)DIGIT_BIT)) -
                     -        ((mp_word)a->dp[0]));
                     -}
+                    -
                     -#endif
+                    -
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_dr_setup.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
+                    -
                     -/* End: bn_mp_dr_setup.c */
+                    -
                     -/* Start: bn_mp_exch.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_EXCH_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     - *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     - */
+                    -
                     -/* swap the elements of two integers, for cases where you can't simply swap the
                     - * mp_int pointers around
                     - */
                     -void
                     -mp_exch (mp_int * a, mp_int * b)
                     -{
                     -  mp_int  t;
+                    -
                     -  t  = *a;
                     -  *a = *b;
                     -  *b = t;
                     -}
                     -#endif
+                    -
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_exch.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
                     -/* End: bn_mp_exch.c */
+                    -
                     -/* Start: bn_mp_expt_d.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_EXPT_D_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     - *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     - */
+                    -
                     -/* calculate c = a**b  using a square-multiply algorithm */
                     -int mp_expt_d (mp_int * a, mp_digit b, mp_int * c)
                     -{
                     -  int     res, x;
                     -  mp_int  g;
                     +  fp_init(&R[0]);
                     +  fp_init(&R[1]);
+                    +
                     +  /* now we need R mod m */
                     +  fp_montgomery_calc_normalization (&R[0], P);
                     -  if ((res = mp_init_copy (&g, a)) != MP_OKAY) {
                     -    return res;
                     +  /* now set R[0][1] to G * R mod m */
                     +  if (fp_cmp_mag(P, G) != FP_GT) {
                     +     /* G > P so we reduce it first */
                     +     fp_mod(G, P, &R[1]);
                     +  } else {
                     +     fp_copy(G, &R[1]);
+                       }
                     +  fp_mulmod (&R[1], &R[0], P, &R[1]);
                     -  /* set initial result */
                     -  mp_set (c, 1);
+                    -
                     -  for (x = 0; x < (int) DIGIT_BIT; x++) {
                     -    /* square */
                     -    if ((res = mp_sqr (c, c)) != MP_OKAY) {
                     -      mp_clear (&g);
                     -      return res;
                     -    }
                     +  /* for j = t-1 downto 0 do
                     +        r_!k = R0*R1; r_k = r_k^2
                     +  */
+                    +
                     +  /* set initial mode and bit cnt */
                     +  bitcnt = 1;
                     +  buf    = 0;
                     +  digidx = X->used - 1;
                     -    /* if the bit is set multiply */
                     -    if ((b & (mp_digit) (((mp_digit)1) << (DIGIT_BIT - 1))) != 0) {
                     -      if ((res = mp_mul (c, &g, c)) != MP_OKAY) {
                     -         mp_clear (&g);
                     -         return res;
                     +  for (;;) {
                     +    /* grab next digit as required */
                     +    if (--bitcnt == 0) {
                     +      /* if digidx == -1 we are out of digits so break */
                     +      if (digidx == -1) {
                     +        break;
+                           }
                     +      /* read next digit and reset bitcnt */
                     +      buf    = X->dp[digidx--];
                     +      bitcnt = (int)DIGIT_BIT;
+                         }
                     -    /* shift to next bit */
                     -    b <<= 1;
                     -  }
+                    -
                     -  mp_clear (&g);
                     -  return MP_OKAY;
                     -}
                     -#endif
+                    -
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_expt_d.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
+                    -
                     -/* End: bn_mp_expt_d.c */
+                    -
                     -/* Start: bn_mp_exptmod.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_EXPTMOD_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     - *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     - */
+                    -
+                    -
                     -/* this is a shell function that calls either the normal or Montgomery
                     - * exptmod functions.  Originally the call to the montgomery code was
                     - * embedded in the normal function but that wasted alot of stack space
                     - * for nothing (since 99% of the time the Montgomery code would be called)
                     - */
                     -int mp_exptmod (mp_int * G, mp_int * X, mp_int * P, mp_int * Y)
                     -{
                     -  int dr;
+                    -
                     -  /* modulus P must be positive */
                     -  if (P->sign == MP_NEG) {
                     -     return MP_VAL;
                     -  }
+                    -
                     -  /* if exponent X is negative we have to recurse */
                     -  if (X->sign == MP_NEG) {
                     -#ifdef BN_MP_INVMOD_C
                     -     mp_int tmpG, tmpX;
                     -     int err;
+                    -
                     -     /* first compute 1/G mod P */
                     -     if ((err = mp_init(&tmpG)) != MP_OKAY) {
                     -        return err;
                     -     }
                     -     if ((err = mp_invmod(G, P, &tmpG)) != MP_OKAY) {
                     -        mp_clear(&tmpG);
                     -        return err;
                     -     }
+                    -
                     -     /* now get |X| */
                     -     if ((err = mp_init(&tmpX)) != MP_OKAY) {
                     -        mp_clear(&tmpG);
                     -        return err;
                     -     }
                     -     if ((err = mp_abs(X, &tmpX)) != MP_OKAY) {
                     -        mp_clear_multi(&tmpG, &tmpX, NULL);
                     -        return err;
                     -     }
                     +    /* grab the next msb from the exponent */
                     +    y     = (fp_digit)(buf >> (DIGIT_BIT - 1)) & 1;
                     +    buf <<= (fp_digit)1;
                     -     /* and now compute (1/G)**|X| instead of G**X [X < 0] */
                     -     err = mp_exptmod(&tmpG, &tmpX, P, Y);
                     -     mp_clear_multi(&tmpG, &tmpX, NULL);
                     -     return err;
                     -#else
                     -     /* no invmod */
                     -     return MP_VAL;
                     -#endif
                     +    /* do ops */
                     +    fp_mul(&R[0], &R[1], &R[y^1]); fp_montgomery_reduce(&R[y^1], P, mp);
                     +    fp_sqr(&R[y], &R[y]);          fp_montgomery_reduce(&R[y], P, mp);
+                       }
                     -/* modified diminished radix reduction */
                     -#if defined(BN_MP_REDUCE_IS_2K_L_C) && defined(BN_MP_REDUCE_2K_L_C) && defined(BN_S_MP_EXPTMOD_C)
                     -  if (mp_reduce_is_2k_l(P) == MP_YES) {
                     -     return s_mp_exptmod(G, X, P, Y, 1);
                     -  }
                     -#endif
                     +   fp_montgomery_reduce(&R[0], P, mp);
                     +   fp_copy(&R[0], Y);
                     +   return FP_OKAY;
                     +}
                     -#ifdef BN_MP_DR_IS_MODULUS_C
                     -  /* is it a DR modulus? */
                     -  dr = mp_dr_is_modulus(P);
                     -#else
                     -  /* default to no */
                     -  dr = 0;
                     -#endif
+                    -
                     -#ifdef BN_MP_REDUCE_IS_2K_C
                     -  /* if not, is it a unrestricted DR modulus? */
                     -  if (dr == 0) {
                     -     dr = mp_reduce_is_2k(P) << 1;
                     -  }
                     -#endif
+                    -
                     -  /* if the modulus is odd or dr != 0 use the montgomery method */
                     -#ifdef BN_MP_EXPTMOD_FAST_C
                     -  if (mp_isodd (P) == 1 || dr !=  0) {
                     -    return mp_exptmod_fast (G, X, P, Y, dr);
                     -  } else {
                     -#endif
                     -#ifdef BN_S_MP_EXPTMOD_C
                     -    /* otherwise use the generic Barrett reduction technique */
                     -    return s_mp_exptmod (G, X, P, Y, 0);
                      #else
                     -    /* no exptmod for evens */
                     -    return MP_VAL;
                     -#endif
                     -#ifdef BN_MP_EXPTMOD_FAST_C
                     -  }
                     -#endif
                     -}
                     -#endif
+                    -
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_exptmod.c,v $ */
                     -/* $Revision: 1.4 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
+                    -
                     -/* End: bn_mp_exptmod.c */
+                    -
                     -/* Start: bn_mp_exptmod_fast.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_EXPTMOD_FAST_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     - *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     +/* y = g**x (mod b)
                     + * Some restrictions... x must be positive and < b
                       */
+                    -
                     -/* computes Y == G**X mod P, HAC pp.616, Algorithm 14.85
                     - *
                     - * Uses a left-to-right k-ary sliding window to compute the modular exponentiation.
                     - * The value of k changes based on the size of the exponent.
                     - *
                     - * Uses Montgomery or Diminished Radix reduction [whichever appropriate]
                     - */
+                    -
                     -#ifdef MP_LOW_MEM
                     -   #define TAB_SIZE 32
                     -#else
                     -   #define TAB_SIZE 256
                     -#endif
+                    -
                     -int mp_exptmod_fast (mp_int * G, mp_int * X, mp_int * P, mp_int * Y, int redmode)
                     +static int _fp_exptmod(fp_int * G, fp_int * X, fp_int * P, fp_int * Y)
+                     {
                     -  mp_int  M[TAB_SIZE], res;
                     -  mp_digit buf, mp;
                     -  int     err, bitbuf, bitcpy, bitcnt, mode, digidx, x, y, winsize;
+                    -
                     -  /* use a pointer to the reduction algorithm.  This allows us to use
                     -   * one of many reduction algorithms without modding the guts of
                     -   * the code with if statements everywhere.
                     -   */
                     -  int     (*redux)(mp_int*,mp_int*,mp_digit);
                     +  fp_int   M[64], res;
                     +  fp_digit buf, mp;
                     +  int      err, bitbuf, bitcpy, bitcnt, mode, digidx, x, y, winsize;
                        /* find window size */
                     -  x = mp_count_bits (X);
                     -  if (x <= 7) {
                     -    winsize = 2;
                     +  x = fp_count_bits (X);
                     +  if (x <= 21) {
                     +    winsize = 1;
                        } else if (x <= 36) {
                          winsize = 3;
                        } else if (x <= 140) {
                          winsize = 4;
                        } else if (x <= 450) {
                          winsize = 5;
                     -  } else if (x <= 1303) {
                     -    winsize = 6;
                     -  } else if (x <= 3529) {
                     -    winsize = 7;
                        } else {
                     -    winsize = 8;
                     -  }
+                    -
                     -#ifdef MP_LOW_MEM
                     -  if (winsize > 5) {
                     -     winsize = 5;
                     -  }
                     -#endif
                     +    winsize = 6;
                     +  }
                        /* init M array */
                     -  /* init first cell */
                     -  if ((err = mp_init(&M[1])) != MP_OKAY) {
                     -     return err;
                     -  }
+                    -
                     -  /* now init the second half of the array */
                     -  for (x = 1<<(winsize-1); x < (1 << winsize); x++) {
                     -    if ((err = mp_init(&M[x])) != MP_OKAY) {
                     -      for (y = 1<<(winsize-1); y < x; y++) {
                     -        mp_clear (&M[y]);
                     -      }
                     -      mp_clear(&M[1]);
                     -      return err;
                     -    }
                     -  }
                     +  memset(M, 0, sizeof(M));
                     -  /* determine and setup reduction code */
                     -  if (redmode == 0) {
                     -#ifdef BN_MP_MONTGOMERY_SETUP_C
                     -     /* now setup montgomery  */
                     -     if ((err = mp_montgomery_setup (P, &mp)) != MP_OKAY) {
                     -        goto LBL_M;
                     -     }
                     -#else
                     -     err = MP_VAL;
                     -     goto LBL_M;
                     -#endif
+                    -
                     -     /* automatically pick the comba one if available (saves quite a few calls/ifs) */
                     -#ifdef BN_FAST_MP_MONTGOMERY_REDUCE_C
                     -     if (((P->used * 2 + 1) < MP_WARRAY) &&
                     -          P->used < (1 << ((CHAR_BIT * sizeof (mp_word)) - (2 * DIGIT_BIT)))) {
                     -        redux = fast_mp_montgomery_reduce;
                     -     } else
                     -#endif
                     -     {
                     -#ifdef BN_MP_MONTGOMERY_REDUCE_C
                     -        /* use slower baseline Montgomery method */
                     -        redux = mp_montgomery_reduce;
                     -#else
                     -        err = MP_VAL;
                     -        goto LBL_M;
                     -#endif
                     -     }
                     -  } else if (redmode == 1) {
                     -#if defined(BN_MP_DR_SETUP_C) && defined(BN_MP_DR_REDUCE_C)
                     -     /* setup DR reduction for moduli of the form B**k - b */
                     -     mp_dr_setup(P, &mp);
                     -     redux = mp_dr_reduce;
                     -#else
                     -     err = MP_VAL;
                     -     goto LBL_M;
                     -#endif
                     -  } else {
                     -#if defined(BN_MP_REDUCE_2K_SETUP_C) && defined(BN_MP_REDUCE_2K_C)
                     -     /* setup DR reduction for moduli of the form 2**k - b */
                     -     if ((err = mp_reduce_2k_setup(P, &mp)) != MP_OKAY) {
                     -        goto LBL_M;
                     -     }
                     -     redux = mp_reduce_2k;
                     -#else
                     -     err = MP_VAL;
                     -     goto LBL_M;
                     -#endif
                     +  /* now setup montgomery  */
                     +  if ((err = fp_montgomery_setup (P, &mp)) != FP_OKAY) {
                     +     return err;
+                       }
                        /* setup result */
                     -  if ((err = mp_init (&res)) != MP_OKAY) {
                     -    goto LBL_M;
                     -  }
                     +  fp_init(&res);
                        /* create M table
+                        *
+                    -
                     +   * The M table contains powers of the input base, e.g. M[x] = G^x mod P
+                        *
                         * The first half of the table is not computed though accept for M[0] and M[1]
                         */
                     -  if (redmode == 0) {
                     -#ifdef BN_MP_MONTGOMERY_CALC_NORMALIZATION_C
                     -     /* now we need R mod m */
                     -     if ((err = mp_montgomery_calc_normalization (&res, P)) != MP_OKAY) {
                     -       goto LBL_RES;
                     -     }
                     -#else
                     -     err = MP_VAL;
                     -     goto LBL_RES;
                     -#endif
                     +   /* now we need R mod m */
                     +   fp_montgomery_calc_normalization (&res, P);
                     -     /* now set M[1] to G * R mod m */
                     -     if ((err = mp_mulmod (G, &res, P, &M[1])) != MP_OKAY) {
                     -       goto LBL_RES;
                     -     }
                     -  } else {
                     -     mp_set(&res, 1);
                     -     if ((err = mp_mod(G, P, &M[1])) != MP_OKAY) {
                     -        goto LBL_RES;
                     -     }
                     -  }
                     +   /* now set M[1] to G * R mod m */
                     +   if (fp_cmp_mag(P, G) != FP_GT) {
                     +      /* G > P so we reduce it first */
                     +      fp_mod(G, P, &M[1]);
                     +   } else {
                     +      fp_copy(G, &M[1]);
                     +   }
                     +   fp_mulmod (&M[1], &res, P, &M[1]);
                        /* compute the value at M[1<<(winsize-1)] by squaring M[1] (winsize-1) times */
                     -  if ((err = mp_copy (&M[1], &M[1 << (winsize - 1)])) != MP_OKAY) {
                     -    goto LBL_RES;
                     -  }
+                    -
                     +  fp_copy (&M[1], &M[1 << (winsize - 1)]);
                        for (x = 0; x < (winsize - 1); x++) {
                     -    if ((err = mp_sqr (&M[1 << (winsize - 1)], &M[1 << (winsize - 1)])) != MP_OKAY) {
                     -      goto LBL_RES;
                     -    }
                     -    if ((err = redux (&M[1 << (winsize - 1)], P, mp)) != MP_OKAY) {
                     -      goto LBL_RES;
                     -    }
                     +    fp_sqr (&M[1 << (winsize - 1)], &M[1 << (winsize - 1)]);
                     +    fp_montgomery_reduce (&M[1 << (winsize - 1)], P, mp);
+                       }
                        /* create upper table */
                        for (x = (1 << (winsize - 1)) + 1; x < (1 << winsize); x++) {
                     -    if ((err = mp_mul (&M[x - 1], &M[1], &M[x])) != MP_OKAY) {
                     -      goto LBL_RES;
                     -    }
                     -    if ((err = redux (&M[x], P, mp)) != MP_OKAY) {
                     -      goto LBL_RES;
                     -    }
                     +    fp_mul(&M[x - 1], &M[1], &M[x]);
                     +    fp_montgomery_reduce(&M[x], P, mp);
+                       }
                        /* set initial mode and bit cnt */
@@ -2834,8 +918,8 @@ int mp_exptmod_fast (mp_int * G, mp_int * X, mp_int * P, mp_int * Y, int redmode
+                         }
                          /* grab the next msb from the exponent */
                     -    y     = (mp_digit)(buf >> (DIGIT_BIT - 1)) & 1;
                     -    buf <<= (mp_digit)1;
                     +    y     = (fp_digit)(buf >> (DIGIT_BIT - 1)) & 1;
                     +    buf <<= (fp_digit)1;
                          /* if the bit is zero and mode == 0 then we ignore it
                           * These represent the leading zero bits before the first 1 bit
@@ -2848,12 +932,8 @@ int mp_exptmod_fast (mp_int * G, mp_int * X, mp_int * P, mp_int * Y, int redmode
                          /* if the bit is zero and mode == 1 then we square */
                          if (mode == 1 && y == 0) {
                     -      if ((err = mp_sqr (&res, &res)) != MP_OKAY) {
                     -        goto LBL_RES;
                     -      }
                     -      if ((err = redux (&res, P, mp)) != MP_OKAY) {
                     -        goto LBL_RES;
                     -      }
                     +      fp_sqr(&res, &res);
                     +      fp_montgomery_reduce(&res, P, mp);
                            continue;
+                         }
@@ -2865,21 +945,13 @@ int mp_exptmod_fast (mp_int * G, mp_int * X, mp_int * P, mp_int * Y, int redmode
                            /* ok window is filled so square as required and multiply  */
                            /* square first */
                            for (x = 0; x < winsize; x++) {
                     -        if ((err = mp_sqr (&res, &res)) != MP_OKAY) {
                     -          goto LBL_RES;
                     -        }
                     -        if ((err = redux (&res, P, mp)) != MP_OKAY) {
                     -          goto LBL_RES;
                     -        }
                     +        fp_sqr(&res, &res);
                     +        fp_montgomery_reduce(&res, P, mp);
+                           }
                            /* then multiply */
                     -      if ((err = mp_mul (&res, &M[bitbuf], &res)) != MP_OKAY) {
                     -        goto LBL_RES;
                     -      }
                     -      if ((err = redux (&res, P, mp)) != MP_OKAY) {
                     -        goto LBL_RES;
                     -      }
                     +      fp_mul(&res, &M[bitbuf], &res);
                     +      fp_montgomery_reduce(&res, P, mp);
                            /* empty window and reset */
                            bitcpy = 0;
@@ -2892,1992 +964,1331 @@ int mp_exptmod_fast (mp_int * G, mp_int * X, mp_int * P, mp_int * Y, int redmode
                        if (mode == 2 && bitcpy > 0) {
                          /* square then multiply if the bit is set */
                          for (x = 0; x < bitcpy; x++) {
                     -      if ((err = mp_sqr (&res, &res)) != MP_OKAY) {
                     -        goto LBL_RES;
                     -      }
                     -      if ((err = redux (&res, P, mp)) != MP_OKAY) {
                     -        goto LBL_RES;
                     -      }
                     +      fp_sqr(&res, &res);
                     +      fp_montgomery_reduce(&res, P, mp);
                            /* get next bit of the window */
                            bitbuf <<= 1;
                            if ((bitbuf & (1 << winsize)) != 0) {
                              /* then multiply */
                     -        if ((err = mp_mul (&res, &M[1], &res)) != MP_OKAY) {
                     -          goto LBL_RES;
                     -        }
                     -        if ((err = redux (&res, P, mp)) != MP_OKAY) {
                     -          goto LBL_RES;
                     -        }
                     +        fp_mul(&res, &M[1], &res);
                     +        fp_montgomery_reduce(&res, P, mp);
+                           }
+                         }
+                       }
                     -  if (redmode == 0) {
                     -     /* fixup result if Montgomery reduction is used
                     -      * recall that any value in a Montgomery system is
                     -      * actually multiplied by R mod n.  So we have
                     -      * to reduce one more time to cancel out the factor
                     -      * of R.
                     -      */
                     -     if ((err = redux(&res, P, mp)) != MP_OKAY) {
                     -       goto LBL_RES;
                     -     }
                     -  }
                     +  /* fixup result if Montgomery reduction is used
                     +   * recall that any value in a Montgomery system is
                     +   * actually multiplied by R mod n.  So we have
                     +   * to reduce one more time to cancel out the factor
                     +   * of R.
                     +   */
                     +  fp_montgomery_reduce(&res, P, mp);
                        /* swap res with Y */
                     -  mp_exch (&res, Y);
                     -  err = MP_OKAY;
                     -LBL_RES:mp_clear (&res);
                     -LBL_M:
                     -  mp_clear(&M[1]);
                     -  for (x = 1<<(winsize-1); x < (1 << winsize); x++) {
                     -    mp_clear (&M[x]);
                     -  }
                     -  return err;
                     +  fp_copy (&res, Y);
                     +  return FP_OKAY;
+                     }
                     -#endif
+                    -
+                    -
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_exptmod_fast.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
                     -/* End: bn_mp_exptmod_fast.c */
                     +#endif
                     -/* Start: bn_mp_exteuclid.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_EXTEUCLID_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     - *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     - */
                     -/* Extended euclidean algorithm of (a, b) produces
                     -   a*u1 + b*u2 = u3
                     - */
                     -int mp_exteuclid(mp_int *a, mp_int *b, mp_int *U1, mp_int *U2, mp_int *U3)
                     +int fp_exptmod(fp_int * G, fp_int * X, fp_int * P, fp_int * Y)
+                     {
                     -   mp_int u1,u2,u3,v1,v2,v3,t1,t2,t3,q,tmp;
                     -   int err;
+                    -
                     -   if ((err = mp_init_multi(&u1, &u2, &u3, &v1, &v2, &v3, &t1, &t2, &t3, &q, &tmp, NULL)) != MP_OKAY) {
                     -      return err;
                     -   }
+                    -
                     -   /* initialize, (u1,u2,u3) = (1,0,a) */
                     -   mp_set(&u1, 1);
                     -   if ((err = mp_copy(a, &u3)) != MP_OKAY)                                        { goto _ERR; }
+                    -
                     -   /* initialize, (v1,v2,v3) = (0,1,b) */
                     -   mp_set(&v2, 1);
                     -   if ((err = mp_copy(b, &v3)) != MP_OKAY)                                        { goto _ERR; }
+                    -
                     -   /* loop while v3 != 0 */
                     -   while (mp_iszero(&v3) == MP_NO) {
                     -       /* q = u3/v3 */
                     -       if ((err = mp_div(&u3, &v3, &q, NULL)) != MP_OKAY)                         { goto _ERR; }
+                    -
                     -       /* (t1,t2,t3) = (u1,u2,u3) - (v1,v2,v3)q */
                     -       if ((err = mp_mul(&v1, &q, &tmp)) != MP_OKAY)                              { goto _ERR; }
                     -       if ((err = mp_sub(&u1, &tmp, &t1)) != MP_OKAY)                             { goto _ERR; }
                     -       if ((err = mp_mul(&v2, &q, &tmp)) != MP_OKAY)                              { goto _ERR; }
                     -       if ((err = mp_sub(&u2, &tmp, &t2)) != MP_OKAY)                             { goto _ERR; }
                     -       if ((err = mp_mul(&v3, &q, &tmp)) != MP_OKAY)                              { goto _ERR; }
                     -       if ((err = mp_sub(&u3, &tmp, &t3)) != MP_OKAY)                             { goto _ERR; }
+                    -
                     -       /* (u1,u2,u3) = (v1,v2,v3) */
                     -       if ((err = mp_copy(&v1, &u1)) != MP_OKAY)                                  { goto _ERR; }
                     -       if ((err = mp_copy(&v2, &u2)) != MP_OKAY)                                  { goto _ERR; }
                     -       if ((err = mp_copy(&v3, &u3)) != MP_OKAY)                                  { goto _ERR; }
+                    -
                     -       /* (v1,v2,v3) = (t1,t2,t3) */
                     -       if ((err = mp_copy(&t1, &v1)) != MP_OKAY)                                  { goto _ERR; }
                     -       if ((err = mp_copy(&t2, &v2)) != MP_OKAY)                                  { goto _ERR; }
                     -       if ((err = mp_copy(&t3, &v3)) != MP_OKAY)                                  { goto _ERR; }
                     -   }
+                    -
                     -   /* make sure U3 >= 0 */
                     -   if (u3.sign == MP_NEG) {
                     -      mp_neg(&u1, &u1);
                     -      mp_neg(&u2, &u2);
                     -      mp_neg(&u3, &u3);
                     +   fp_int tmp;
                     +   int    err;
                     +#define TFM_CHECK
                     +#ifdef TFM_CHECK
                     +   /* prevent overflows */
                     +   if (P->used > (FP_SIZE/2)) {
                     +      return FP_VAL;
+                        }
+                    -
                     -   /* copy result out */
                     -   if (U1 != NULL) { mp_exch(U1, &u1); }
                     -   if (U2 != NULL) { mp_exch(U2, &u2); }
                     -   if (U3 != NULL) { mp_exch(U3, &u3); }
+                    -
                     -   err = MP_OKAY;
                     -_ERR: mp_clear_multi(&u1, &u2, &u3, &v1, &v2, &v3, &t1, &t2, &t3, &q, &tmp, NULL);
                     -   return err;
                     -}
                      #endif
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_exteuclid.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
+                    -
                     -/* End: bn_mp_exteuclid.c */
+                    -
                     -/* Start: bn_mp_fread.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_FREAD_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     - *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     - */
+                    -
                     -/* read a bigint from a file stream in ASCII */
                     -int mp_fread(mp_int *a, int radix, FILE *stream)
                     -{
                     -   int err, ch, neg, y;
+                    -
                     -   /* clear a */
                     -   mp_zero(a);
+                    -
                     -   /* if first digit is - then set negative */
                     -   ch = fgetc(stream);
                     -   if (ch == '-') {
                     -      neg = MP_NEG;
                     -      ch = fgetc(stream);
                     -   } else {
                     -      neg = MP_ZPOS;
                     -   }
+                    -
                     -   for (;;) {
                     -      /* find y in the radix map */
                     -      for (y = 0; y < radix; y++) {
                     -          if (mp_s_rmap[y] == ch) {
                     -             break;
                     -          }
                     -      }
                     -      if (y == radix) {
                     -         break;
                     -      }
+                    -
                     -      /* shift up and add */
                     -      if ((err = mp_mul_d(a, radix, a)) != MP_OKAY) {
                     +   /* is X negative?  */
                     +   if (X->sign == FP_NEG) {
                     +      /* yes, copy G and invmod it */
                     +      fp_copy(G, &tmp);
                     +      if ((err = fp_invmod(&tmp, P, &tmp)) != FP_OKAY) {
                               return err;
+                           }
                     -      if ((err = mp_add_d(a, y, a)) != MP_OKAY) {
                     -         return err;
                     +      X->sign = FP_ZPOS;
                     +      err =  _fp_exptmod(&tmp, X, P, Y);
                     +      if (X != Y) {
                     +         X->sign = FP_NEG;
+                           }
+                    -
                     -      ch = fgetc(stream);
                     -   }
                     -   if (mp_cmp_d(a, 0) != MP_EQ) {
                     -      a->sign = neg;
                     +      return err;
                     +   } else {
                     +      /* Positive exponent so just exptmod */
                     +      return _fp_exptmod(G, X, P, Y);
+                        }
+                    -
                     -   return MP_OKAY;
+                     }
                     -#endif
+                    -
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_fread.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
                     +/* $Source: /cvs/libtom/tomsfastmath/src/exptmod/fp_exptmod.c,v $ */
                     +/* $Revision: 1.1 $ */
                     +/* $Date: 2006/12/31 21:25:53 $ */
                     -/* End: bn_mp_fread.c */
                     +/* End: fp_exptmod.c */
                     -/* Start: bn_mp_fwrite.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_FWRITE_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     +/* Start: fp_gcd.c */
                     +/* TomsFastMath, a fast ISO C bignum library.
                     + *
                     + * This project is meant to fill in where LibTomMath
                     + * falls short.  That is speed ;-)
+                      *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     + * This project is public domain and free for all purposes.
                     + *
                     + * Tom St Denis, tomstdenis@gmail.com
                       */
                     +#include "bignum_fast.h"
                     -int mp_fwrite(mp_int *a, int radix, FILE *stream)
                     +/* c = (a, b) */
                     +void fp_gcd(fp_int *a, fp_int *b, fp_int *c)
+                     {
                     -   char *buf;
                     -   int err, len, x;
+                    -
                     -   if ((err = mp_radix_size(a, radix, &len)) != MP_OKAY) {
                     -      return err;
                     +   fp_int u, v, r;
+                    +
                     +   /* either zero than gcd is the largest */
                     +   if (fp_iszero (a) == 1 && fp_iszero (b) == 0) {
                     +     fp_abs (b, c);
                     +     return;
                     +   }
                     +   if (fp_iszero (a) == 0 && fp_iszero (b) == 1) {
                     +     fp_abs (a, c);
                     +     return;
+                        }
                     -   buf = OPT_CAST(char) cli_malloc (len);
                     -   if (buf == NULL) {
                     -      return MP_MEM;
                     +   /* optimized.  At this point if a == 0 then
                     +    * b must equal zero too
                     +    */
                     +   if (fp_iszero (a) == 1) {
                     +     fp_zero(c);
                     +     return;
+                        }
+                    -
                     -   if ((err = mp_toradix(a, buf, radix)) != MP_OKAY) {
                     -      free (buf);
                     -      return err;
+                    +
                     +   /* sort inputs */
                     +   if (fp_cmp_mag(a, b) != FP_LT) {
                     +      fp_init_copy(&u, a);
                     +      fp_init_copy(&v, b);
                     +   } else {
                     +      fp_init_copy(&u, b);
                     +      fp_init_copy(&v, a);
+                        }
+                    -
                     -   for (x = 0; x < len; x++) {
                     -       if (fputc(buf[x], stream) == EOF) {
                     -          free (buf);
                     -          return MP_VAL;
                     -       }
+                    +
                     +   fp_zero(&r);
                     +   while (fp_iszero(&v) == FP_NO) {
                     +      fp_mod(&u, &v, &r);
                     +      fp_copy(&v, &u);
                     +      fp_copy(&r, &v);
+                        }
+                    -
                     -   free (buf);
                     -   return MP_OKAY;
                     +   fp_copy(&u, c);
+                     }
                     -#endif
+                    -
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_fwrite.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
                     +/* $Source: /cvs/libtom/tomsfastmath/src/numtheory/fp_gcd.c,v $ */
                     +/* $Revision: 1.1 $ */
                     +/* $Date: 2007/01/24 21:25:19 $ */
                     -/* End: bn_mp_fwrite.c */
                     +/* End: fp_gcd.c */
                     -/* Start: bn_mp_gcd.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_GCD_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     +/* Start: fp_ident.c */
                     +/* TomsFastMath, a fast ISO C bignum library.
                     + *
                     + * This project is meant to fill in where LibTomMath
                     + * falls short.  That is speed ;-)
+                      *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     + * This project is public domain and free for all purposes.
                     + *
                     + * Tom St Denis, tomstdenis@gmail.com
                       */
                     +#include "tfm.h"
                     -/* Greatest Common Divisor using the binary method */
                     -int mp_gcd (mp_int * a, mp_int * b, mp_int * c)
                     +const char *fp_ident(void)
+                     {
                     -  mp_int  u, v;
                     -  int     k, u_lsb, v_lsb, res;
+                    -
                     -  /* either zero than gcd is the largest */
                     -  if (mp_iszero (a) == MP_YES) {
                     -    return mp_abs (b, c);
                     -  }
                     -  if (mp_iszero (b) == MP_YES) {
                     -    return mp_abs (a, c);
                     -  }
+                    -
                     -  /* get copies of a and b we can modify */
                     -  if ((res = mp_init_copy (&u, a)) != MP_OKAY) {
                     -    return res;
                     -  }
                     +   static char buf[1024];
                     -  if ((res = mp_init_copy (&v, b)) != MP_OKAY) {
                     -    goto LBL_U;
                     -  }
+                    -
                     -  /* must be positive for the remainder of the algorithm */
                     -  u.sign = v.sign = MP_ZPOS;
+                    -
                     -  /* B1.  Find the common power of two for u and v */
                     -  u_lsb = mp_cnt_lsb(&u);
                     -  v_lsb = mp_cnt_lsb(&v);
                     -  k     = MIN(u_lsb, v_lsb);
+                    -
                     -  if (k > 0) {
                     -     /* divide the power of two out */
                     -     if ((res = mp_div_2d(&u, k, &u, NULL)) != MP_OKAY) {
                     -        goto LBL_V;
                     -     }
+                    -
                     -     if ((res = mp_div_2d(&v, k, &v, NULL)) != MP_OKAY) {
                     -        goto LBL_V;
                     -     }
                     -  }
+                    -
                     -  /* divide any remaining factors of two out */
                     -  if (u_lsb != k) {
                     -     if ((res = mp_div_2d(&u, u_lsb - k, &u, NULL)) != MP_OKAY) {
                     -        goto LBL_V;
                     -     }
                     -  }
+                    -
                     -  if (v_lsb != k) {
                     -     if ((res = mp_div_2d(&v, v_lsb - k, &v, NULL)) != MP_OKAY) {
                     -        goto LBL_V;
                     -     }
                     -  }
+                    -
                     -  while (mp_iszero(&v) == 0) {
                     -     /* make sure v is the largest */
                     -     if (mp_cmp_mag(&u, &v) == MP_GT) {
                     -        /* swap u and v to make sure v is >= u */
                     -        mp_exch(&u, &v);
                     -     }
+                    -
                     -     /* subtract smallest from largest */
                     -     if ((res = s_mp_sub(&v, &u, &v)) != MP_OKAY) {
                     -        goto LBL_V;
                     -     }
+                    -
                     -     /* Divide out all factors of two */
                     -     if ((res = mp_div_2d(&v, mp_cnt_lsb(&v), &v, NULL)) != MP_OKAY) {
                     -        goto LBL_V;
                     -     }
                     -  }
+                    -
                     -  /* multiply by 2**k which we divided out at the beginning */
                     -  if ((res = mp_mul_2d (&u, k, c)) != MP_OKAY) {
                     -     goto LBL_V;
                     -  }
                     -  c->sign = MP_ZPOS;
                     -  res = MP_OKAY;
                     -LBL_V:mp_clear (&u);
                     -LBL_U:mp_clear (&v);
                     -  return res;
                     -}
                     +   memset(buf, 0, sizeof(buf));
                     +   snprintf(buf, sizeof(buf)-1,
                     +"TomsFastMath (%s)\n"
                     +"\n"
                     +"Sizeofs\n"
                     +"\tfp_digit = %u\n"
                     +"\tfp_word  = %u\n"
                     +"\n"
                     +"FP_MAX_SIZE = %u\n"
                     +"\n"
                     +"Defines: \n"
                     +#ifdef __i386__
                     +" __i386__ "
                      #endif
+                    -
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_gcd.c,v $ */
                     -/* $Revision: 1.4 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
+                    -
                     -/* End: bn_mp_gcd.c */
+                    -
                     -/* Start: bn_mp_get_int.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_GET_INT_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     - *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     - */
+                    -
                     -/* get the lower 32-bits of an mp_int */
                     -unsigned long mp_get_int(mp_int * a)
                     -{
                     -  int i;
                     -  unsigned long res;
+                    -
                     -  if (a->used == 0) {
                     -     return 0;
                     -  }
+                    -
                     -  /* get number of digits of the lsb we have to read */
                     -  i = MIN(a->used,(int)((sizeof(unsigned long)*CHAR_BIT+DIGIT_BIT-1)/DIGIT_BIT))-1;
+                    -
                     -  /* get most significant digit of result */
                     -  res = DIGIT(a,i);
+                    -
                     -  while (--i >= 0) {
                     -    res = (res << DIGIT_BIT) | DIGIT(a,i);
                     -  }
+                    -
                     -  /* force result to 32-bits always so it is consistent on non 32-bit platforms */
                     -  return res & 0xFFFFFFFFUL;
                     -}
                     +#ifdef __x86_64__
                     +" __x86_64__ "
                      #endif
+                    -
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_get_int.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
+                    -
                     -/* End: bn_mp_get_int.c */
+                    -
                     -/* Start: bn_mp_grow.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_GROW_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     - *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     - */
+                    -
                     -/* grow as required */
                     -int mp_grow (mp_int * a, int size)
                     -{
                     -  int     i;
                     -  mp_digit *tmp;
+                    -
                     -  /* if the alloc size is smaller alloc more ram */
                     -  if (a->alloc < size) {
                     -    /* ensure there are always at least MP_PREC digits extra on top */
                     -    size += (MP_PREC * 2) - (size % MP_PREC);
+                    -
                     -    /* reallocate the array a->dp
                     -     *
                     -     * We store the return in a temporary variable
                     -     * in case the operation failed we don't want
                     -     * to overwrite the dp member of a.
                     -     */
                     -    tmp = OPT_CAST(mp_digit) cli_realloc (a->dp, sizeof (mp_digit) * size);
                     -    if (tmp == NULL) {
                     -      /* reallocation failed but "a" is still valid [can be freed] */
                     -      return MP_MEM;
                     -    }
+                    -
                     -    /* reallocation succeeded so set a->dp */
                     -    a->dp = tmp;
+                    -
                     -    /* zero excess digits */
                     -    i        = a->alloc;
                     -    a->alloc = size;
                     -    for (; i < a->alloc; i++) {
                     -      a->dp[i] = 0;
                     -    }
                     -  }
                     -  return MP_OKAY;
                     -}
                     +#ifdef TFM_X86
                     +" TFM_X86 "
                      #endif
+                    -
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_grow.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
+                    -
                     -/* End: bn_mp_grow.c */
+                    -
                     -/* Start: bn_mp_init.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_INIT_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     - *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     - */
+                    -
                     -/* init a new mp_int */
                     -int mp_init (mp_int * a)
                     -{
                     -  int i;
+                    -
                     -  /* allocate memory required and clear it */
                     -  a->dp = OPT_CAST(mp_digit) cli_malloc (sizeof (mp_digit) * MP_PREC);
                     -  if (a->dp == NULL) {
                     -    return MP_MEM;
                     -  }
+                    -
                     -  /* set the digits to zero */
                     -  for (i = 0; i < MP_PREC; i++) {
                     -      a->dp[i] = 0;
                     -  }
+                    -
                     -  /* set the used to zero, allocated digits to the default precision
                     -   * and sign to positive */
                     -  a->used  = 0;
                     -  a->alloc = MP_PREC;
                     -  a->sign  = MP_ZPOS;
+                    -
                     -  return MP_OKAY;
                     -}
                     +#ifdef TFM_X86_64
                     +" TFM_X86_64 "
                      #endif
+                    -
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_init.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
+                    -
                     -/* End: bn_mp_init.c */
+                    -
                     -/* Start: bn_mp_init_copy.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_INIT_COPY_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     - *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     - */
+                    -
                     -/* creates "a" then copies b into it */
                     -int mp_init_copy (mp_int * a, mp_int * b)
                     -{
                     -  int     res;
+                    -
                     -  if ((res = mp_init (a)) != MP_OKAY) {
                     -    return res;
                     -  }
                     -  return mp_copy (b, a);
                     -}
                     +#ifdef TFM_SSE2
                     +" TFM_SSE2 "
                      #endif
+                    -
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_init_copy.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
+                    -
                     -/* End: bn_mp_init_copy.c */
+                    -
                     -/* Start: bn_mp_init_multi.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_INIT_MULTI_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     - *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     - */
                     -#include <stdarg.h>
+                    -
                     -int mp_init_multi(mp_int *mp, ...)
                     -{
                     -    mp_err res = MP_OKAY;      /* Assume ok until proven otherwise */
                     -    int n = 0;                 /* Number of ok inits */
                     -    mp_int* cur_arg = mp;
                     -    va_list args;
+                    -
                     -    va_start(args, mp);        /* init args to next argument from caller */
                     -    while (cur_arg != NULL) {
                     -        if (mp_init(cur_arg) != MP_OKAY) {
                     -            /* Oops - error! Back-track and mp_clear what we already
                     -               succeeded in init-ing, then return error.
                     -            */
                     -            va_list clean_args;
+                    -
                     -            /* end the current list */
                     -            va_end(args);
+                    -
                     -            /* now start cleaning up */
                     -            cur_arg = mp;
                     -            va_start(clean_args, mp);
                     -            while (n--) {
                     -                mp_clear(cur_arg);
                     -                cur_arg = va_arg(clean_args, mp_int*);
                     -            }
                     -            va_end(clean_args);
                     -            res = MP_MEM;
                     -            break;
                     -        }
                     -        n++;
                     -        cur_arg = va_arg(args, mp_int*);
                     -    }
                     -    va_end(args);
                     -    return res;                /* Assumed ok, if error flagged above. */
                     -}
+                    -
                     +#ifdef TFM_ARM
                     +" TFM_ARM "
                      #endif
+                    -
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_init_multi.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
+                    -
                     -/* End: bn_mp_init_multi.c */
+                    -
                     -/* Start: bn_mp_init_set.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_INIT_SET_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     - *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     - */
+                    -
                     -/* initialize and set a digit */
                     -int mp_init_set (mp_int * a, mp_digit b)
                     -{
                     -  int err;
                     -  if ((err = mp_init(a)) != MP_OKAY) {
                     -     return err;
                     -  }
                     -  mp_set(a, b);
                     -  return err;
                     -}
                     +#ifdef TFM_PPC32
                     +" TFM_PPC32 "
                      #endif
+                    -
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_init_set.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
+                    -
                     -/* End: bn_mp_init_set.c */
+                    -
                     -/* Start: bn_mp_init_set_int.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_INIT_SET_INT_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     - *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     - */
+                    -
                     -/* initialize and set a digit */
                     -int mp_init_set_int (mp_int * a, unsigned long b)
                     -{
                     -  int err;
                     -  if ((err = mp_init(a)) != MP_OKAY) {
                     -     return err;
                     -  }
                     -  return mp_set_int(a, b);
                     -}
                     +#ifdef TFM_AVR32
                     +" TFM_AVR32 "
                     +#endif
                     +#ifdef TFM_ECC192
                     +" TFM_ECC192 "
                     +#endif
                     +#ifdef TFM_ECC224
                     +" TFM_ECC224 "
                     +#endif
                     +#ifdef TFM_ECC384
                     +" TFM_ECC384 "
                     +#endif
                     +#ifdef TFM_ECC521
                     +" TFM_ECC521 "
                      #endif
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_init_set_int.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
+                    -
                     -/* End: bn_mp_init_set_int.c */
+                    -
                     -/* Start: bn_mp_init_size.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_INIT_SIZE_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     - *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     - */
+                    -
                     -/* init an mp_init for a given size */
                     -int mp_init_size (mp_int * a, int size)
                     -{
                     -  int x;
+                    -
                     -  /* pad size so there are always extra digits */
                     -  size += (MP_PREC * 2) - (size % MP_PREC);
+                    -
                     -  /* alloc mem */
                     -  a->dp = OPT_CAST(mp_digit) cli_malloc (sizeof (mp_digit) * size);
                     -  if (a->dp == NULL) {
                     -    return MP_MEM;
                     -  }
+                    -
                     -  /* set the members */
                     -  a->used  = 0;
                     -  a->alloc = size;
                     -  a->sign  = MP_ZPOS;
+                    -
                     -  /* zero the digits */
                     -  for (x = 0; x < size; x++) {
                     -      a->dp[x] = 0;
                     -  }
+                    -
                     -  return MP_OKAY;
                     -}
                     +#ifdef TFM_NO_ASM
                     +" TFM_NO_ASM "
                      #endif
                     +#ifdef FP_64BIT
                     +" FP_64BIT "
                     +#endif
                     +#ifdef TFM_HUGE
                     +" TFM_HUGE "
                     +#endif
                     +"\n", __DATE__, sizeof(fp_digit), sizeof(fp_word), FP_MAX_SIZE);
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_init_size.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
                     +   if (sizeof(fp_digit) == sizeof(fp_word)) {
                     +      strncat(buf, "WARNING: sizeof(fp_digit) == sizeof(fp_word), this build is likely to not work properly.\n",
                     +              sizeof(buf)-1);
                     +   }
                     +   return buf;
                     +}
                     -/* End: bn_mp_init_size.c */
                     +#ifdef STANDALONE
                     -/* Start: bn_mp_invmod.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_INVMOD_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     - *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     - */
+                    -
                     -/* hac 14.61, pp608 */
                     -int mp_invmod (mp_int * a, mp_int * b, mp_int * c)
                     +int main(void)
+                     {
                     -  /* b cannot be negative */
                     -  if (b->sign == MP_NEG || mp_iszero(b) == 1) {
                     -    return MP_VAL;
                     -  }
+                    -
                     -#ifdef BN_FAST_MP_INVMOD_C
                     -  /* if the modulus is odd we can use a faster routine instead */
                     -  if (mp_isodd (b) == 1) {
                     -    return fast_mp_invmod (a, b, c);
                     -  }
                     -#endif
                     +   printf("%s\n", fp_ident());
                     +   return 0;
                     +}
                     -#ifdef BN_MP_INVMOD_SLOW_C
                     -  return mp_invmod_slow(a, b, c);
                      #endif
                     -  return MP_VAL;
                     -}
                     -#endif
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_invmod.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
                     +/* $Source: /cvs/libtom/tomsfastmath/src/misc/fp_ident.c,v $ */
                     +/* $Revision: 1.1 $ */
                     +/* $Date: 2006/12/31 21:25:53 $ */
                     -/* End: bn_mp_invmod.c */
                     +/* End: fp_ident.c */
                     -/* Start: bn_mp_invmod_slow.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_INVMOD_SLOW_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     +/* Start: fp_invmod.c */
                     +/* TomsFastMath, a fast ISO C bignum library.
                     + *
                     + * This project is meant to fill in where LibTomMath
                     + * falls short.  That is speed ;-)
+                      *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     + * This project is public domain and free for all purposes.
                     + *
                     + * Tom St Denis, tomstdenis@gmail.com
                       */
                     +#include "bignum_fast.h"
                     -/* hac 14.61, pp608 */
                     -int mp_invmod_slow (mp_int * a, mp_int * b, mp_int * c)
                     +static int fp_invmod_slow (fp_int * a, fp_int * b, fp_int * c)
+                     {
                     -  mp_int  x, y, u, v, A, B, C, D;
                     +  fp_int  x, y, u, v, A, B, C, D;
                        int     res;
                        /* b cannot be negative */
                     -  if (b->sign == MP_NEG || mp_iszero(b) == 1) {
                     -    return MP_VAL;
                     +  if (b->sign == FP_NEG || fp_iszero(b) == 1) {
                     +    return FP_VAL;
+                       }
                        /* init temps */
                     -  if ((res = mp_init_multi(&x, &y, &u, &v,
                     -                           &A, &B, &C, &D, NULL)) != MP_OKAY) {
                     -     return res;
                     -  }
                     +  fp_init(&x);    fp_init(&y);
                     +  fp_init(&u);    fp_init(&v);
                     +  fp_init(&A);    fp_init(&B);
                     +  fp_init(&C);    fp_init(&D);
                        /* x = a, y = b */
                     -  if ((res = mp_mod(a, b, &x)) != MP_OKAY) {
                     -      goto LBL_ERR;
                     -  }
                     -  if ((res = mp_copy (b, &y)) != MP_OKAY) {
                     -    goto LBL_ERR;
                     +  if ((res = fp_mod(a, b, &x)) != FP_OKAY) {
                     +      return res;
+                       }
                     +  fp_copy(b, &y);
                        /* 2. [modified] if x,y are both even then return an error! */
                     -  if (mp_iseven (&x) == 1 && mp_iseven (&y) == 1) {
                     -    res = MP_VAL;
                     -    goto LBL_ERR;
                     +  if (fp_iseven (&x) == 1 && fp_iseven (&y) == 1) {
                     +    return FP_VAL;
+                       }
                        /* 3. u=x, v=y, A=1, B=0, C=0,D=1 */
                     -  if ((res = mp_copy (&x, &u)) != MP_OKAY) {
                     -    goto LBL_ERR;
                     -  }
                     -  if ((res = mp_copy (&y, &v)) != MP_OKAY) {
                     -    goto LBL_ERR;
                     -  }
                     -  mp_set (&A, 1);
                     -  mp_set (&D, 1);
                     +  fp_copy (&x, &u);
                     +  fp_copy (&y, &v);
                     +  fp_set (&A, 1);
                     +  fp_set (&D, 1);
                      top:
                        /* 4.  while u is even do */
                     -  while (mp_iseven (&u) == 1) {
                     +  while (fp_iseven (&u) == 1) {
                          /* 4.1 u = u/2 */
                     -    if ((res = mp_div_2 (&u, &u)) != MP_OKAY) {
                     -      goto LBL_ERR;
                     -    }
                     +    fp_div_2 (&u, &u);
+                    +
                          /* 4.2 if A or B is odd then */
                     -    if (mp_isodd (&A) == 1 || mp_isodd (&B) == 1) {
                     +    if (fp_isodd (&A) == 1 || fp_isodd (&B) == 1) {
                            /* A = (A+y)/2, B = (B-x)/2 */
                     -      if ((res = mp_add (&A, &y, &A)) != MP_OKAY) {
                     -         goto LBL_ERR;
                     -      }
                     -      if ((res = mp_sub (&B, &x, &B)) != MP_OKAY) {
                     -         goto LBL_ERR;
                     -      }
                     +      fp_add (&A, &y, &A);
                     +      fp_sub (&B, &x, &B);
+                         }
                          /* A = A/2, B = B/2 */
                     -    if ((res = mp_div_2 (&A, &A)) != MP_OKAY) {
                     -      goto LBL_ERR;
                     -    }
                     -    if ((res = mp_div_2 (&B, &B)) != MP_OKAY) {
                     -      goto LBL_ERR;
                     -    }
                     +    fp_div_2 (&A, &A);
                     +    fp_div_2 (&B, &B);
+                       }
                        /* 5.  while v is even do */
                     -  while (mp_iseven (&v) == 1) {
                     +  while (fp_iseven (&v) == 1) {
                          /* 5.1 v = v/2 */
                     -    if ((res = mp_div_2 (&v, &v)) != MP_OKAY) {
                     -      goto LBL_ERR;
                     -    }
                     +    fp_div_2 (&v, &v);
+                    +
                          /* 5.2 if C or D is odd then */
                     -    if (mp_isodd (&C) == 1 || mp_isodd (&D) == 1) {
                     +    if (fp_isodd (&C) == 1 || fp_isodd (&D) == 1) {
                            /* C = (C+y)/2, D = (D-x)/2 */
                     -      if ((res = mp_add (&C, &y, &C)) != MP_OKAY) {
                     -         goto LBL_ERR;
                     -      }
                     -      if ((res = mp_sub (&D, &x, &D)) != MP_OKAY) {
                     -         goto LBL_ERR;
                     -      }
                     +      fp_add (&C, &y, &C);
                     +      fp_sub (&D, &x, &D);
+                         }
                          /* C = C/2, D = D/2 */
                     -    if ((res = mp_div_2 (&C, &C)) != MP_OKAY) {
                     -      goto LBL_ERR;
                     -    }
                     -    if ((res = mp_div_2 (&D, &D)) != MP_OKAY) {
                     -      goto LBL_ERR;
                     -    }
                     +    fp_div_2 (&C, &C);
                     +    fp_div_2 (&D, &D);
+                       }
                        /* 6.  if u >= v then */
                     -  if (mp_cmp (&u, &v) != MP_LT) {
                     +  if (fp_cmp (&u, &v) != FP_LT) {
                          /* u = u - v, A = A - C, B = B - D */
                     -    if ((res = mp_sub (&u, &v, &u)) != MP_OKAY) {
                     -      goto LBL_ERR;
                     -    }
+                    -
                     -    if ((res = mp_sub (&A, &C, &A)) != MP_OKAY) {
                     -      goto LBL_ERR;
                     -    }
+                    -
                     -    if ((res = mp_sub (&B, &D, &B)) != MP_OKAY) {
                     -      goto LBL_ERR;
                     -    }
                     +    fp_sub (&u, &v, &u);
                     +    fp_sub (&A, &C, &A);
                     +    fp_sub (&B, &D, &B);
                        } else {
                          /* v - v - u, C = C - A, D = D - B */
                     -    if ((res = mp_sub (&v, &u, &v)) != MP_OKAY) {
                     -      goto LBL_ERR;
                     -    }
+                    -
                     -    if ((res = mp_sub (&C, &A, &C)) != MP_OKAY) {
                     -      goto LBL_ERR;
                     -    }
+                    -
                     -    if ((res = mp_sub (&D, &B, &D)) != MP_OKAY) {
                     -      goto LBL_ERR;
                     -    }
                     +    fp_sub (&v, &u, &v);
                     +    fp_sub (&C, &A, &C);
                     +    fp_sub (&D, &B, &D);
+                       }
                        /* if not zero goto step 4 */
                     -  if (mp_iszero (&u) == 0)
                     +  if (fp_iszero (&u) == 0)
                          goto top;
                        /* now a = C, b = D, gcd == g*v */
                        /* if v != 1 then there is no inverse */
                     -  if (mp_cmp_d (&v, 1) != MP_EQ) {
                     -    res = MP_VAL;
                     -    goto LBL_ERR;
                     +  if (fp_cmp_d (&v, 1) != FP_EQ) {
                     +    return FP_VAL;
+                       }
                        /* if its too low */
                     -  while (mp_cmp_d(&C, 0) == MP_LT) {
                     -      if ((res = mp_add(&C, b, &C)) != MP_OKAY) {
                     -         goto LBL_ERR;
                     -      }
                     +  while (fp_cmp_d(&C, 0) == FP_LT) {
                     +      fp_add(&C, b, &C);
+                       }
                        /* too big */
                     -  while (mp_cmp_mag(&C, b) != MP_LT) {
                     -      if ((res = mp_sub(&C, b, &C)) != MP_OKAY) {
                     -         goto LBL_ERR;
                     -      }
                     +  while (fp_cmp_mag(&C, b) != FP_LT) {
                     +      fp_sub(&C, b, &C);
+                       }
                        /* C is now the inverse */
                     -  mp_exch (&C, c);
                     -  res = MP_OKAY;
                     -LBL_ERR:mp_clear_multi (&x, &y, &u, &v, &A, &B, &C, &D, NULL);
                     -  return res;
                     +  fp_copy(&C, c);
                     +  return FP_OKAY;
+                     }
                     -#endif
+                    -
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_invmod_slow.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
+                    -
                     -/* End: bn_mp_invmod_slow.c */
+                    -
                     -/* Start: bn_mp_is_square.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_IS_SQUARE_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     - *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     - */
+                    -
                     -/* Check if remainders are possible squares - fast exclude non-squares */
                     -static const char rem_128[128] = {
                     - 0, 0, 1, 1, 0, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1,
                     - 0, 0, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1,
                     - 1, 0, 1, 1, 0, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1,
                     - 1, 0, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1,
                     - 0, 0, 1, 1, 0, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1,
                     - 1, 0, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1,
                     - 1, 0, 1, 1, 0, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1,
                     - 1, 0, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1
                     -};
+                    -
                     -static const char rem_105[105] = {
                     - 0, 0, 1, 1, 0, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1,
                     - 0, 0, 1, 1, 1, 1, 0, 1, 1, 1, 0, 1, 1, 1, 1,
                     - 0, 1, 1, 1, 1, 1, 0, 1, 1, 0, 1, 1, 1, 1, 1,
                     - 1, 0, 1, 1, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1,
                     - 0, 1, 1, 1, 0, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1,
                     - 1, 1, 1, 1, 0, 1, 0, 1, 1, 0, 0, 1, 1, 1, 1,
                     - 1, 0, 1, 1, 1, 1, 1, 1, 1, 0, 0, 1, 1, 1, 1
                     -};
                     -/* Store non-zero to ret if arg is square, and zero if not */
                     -int mp_is_square(mp_int *arg,int *ret)
                     +/* c = 1/a (mod b) for odd b only */
                     +int fp_invmod(fp_int *a, fp_int *b, fp_int *c)
+                     {
                     -  int           res;
                     -  mp_digit      c;
                     -  mp_int        t;
                     -  unsigned long r;
                     +  fp_int  x, y, u, v, B, D;
                     +  int     neg;
                     -  /* Default to Non-square :) */
                     -  *ret = MP_NO;
+                    -
                     -  if (arg->sign == MP_NEG) {
                     -    return MP_VAL;
                     -  }
+                    -
                     -  /* digits used?  (TSD) */
                     -  if (arg->used == 0) {
                     -     return MP_OKAY;
                     -  }
+                    -
                     -  /* First check mod 128 (suppose that DIGIT_BIT is at least 7) */
                     -  if (rem_128[127 & DIGIT(arg,0)] == 1) {
                     -     return MP_OKAY;
                     -  }
+                    -
                     -  /* Next check mod 105 (3*5*7) */
                     -  if ((res = mp_mod_d(arg,105,&c)) != MP_OKAY) {
                     -     return res;
                     -  }
                     -  if (rem_105[c] == 1) {
                     -     return MP_OKAY;
                     -  }
+                    -
+                    -
                     -  if ((res = mp_init_set_int(&t,11L*13L*17L*19L*23L*29L*31L)) != MP_OKAY) {
                     -     return res;
                     -  }
                     -  if ((res = mp_mod(arg,&t,&t)) != MP_OKAY) {
                     -     goto ERR;
                     -  }
                     -  r = mp_get_int(&t);
                     -  /* Check for other prime modules, note it's not an ERROR but we must
                     -   * free "t" so the easiest way is to goto ERR.  We know that res
                     -   * is already equal to MP_OKAY from the mp_mod call
                     -   */
                     -  if ( (1L<<(r%11)) & 0x5C4L )             goto ERR;
                     -  if ( (1L<<(r%13)) & 0x9E4L )             goto ERR;
                     -  if ( (1L<<(r%17)) & 0x5CE8L )            goto ERR;
                     -  if ( (1L<<(r%19)) & 0x4F50CL )           goto ERR;
                     -  if ( (1L<<(r%23)) & 0x7ACCA0L )          goto ERR;
                     -  if ( (1L<<(r%29)) & 0xC2EDD0CL )         goto ERR;
                     -  if ( (1L<<(r%31)) & 0x6DE2B848L )        goto ERR;
+                    -
                     -  /* Final check - is sqr(sqrt(arg)) == arg ? */
                     -  if ((res = mp_sqrt(arg,&t)) != MP_OKAY) {
                     -     goto ERR;
                     -  }
                     -  if ((res = mp_sqr(&t,&t)) != MP_OKAY) {
                     -     goto ERR;
                     +  /* 2. [modified] b must be odd   */
                     +  if (fp_iseven (b) == FP_YES) {
                     +    return fp_invmod_slow(a,b,c);
+                       }
                     -  *ret = (mp_cmp_mag(&t,arg) == MP_EQ) ? MP_YES : MP_NO;
                     -ERR:mp_clear(&t);
                     -  return res;
                     -}
                     -#endif
+                    -
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_is_square.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
+                    -
                     -/* End: bn_mp_is_square.c */
                     +  /* init all our temps */
                     +  fp_init(&x);  fp_init(&y);
                     +  fp_init(&u);  fp_init(&v);
                     +  fp_init(&B);  fp_init(&D);
                     -/* Start: bn_mp_jacobi.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_JACOBI_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     - *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     - */
                     +  /* x == modulus, y == value to invert */
                     +  fp_copy(b, &x);
                     -/* computes the jacobi c = (a | n) (or Legendre if n is prime)
                     - * HAC pp. 73 Algorithm 2.149
                     - */
                     -int mp_jacobi (mp_int * a, mp_int * p, int *c)
                     -{
                     -  mp_int  a1, p1;
                     -  int     k, s, r, res;
                     -  mp_digit residue;
                     +  /* we need y = |a| */
                     +  fp_abs(a, &y);
                     -  /* if p <= 0 return MP_VAL */
                     -  if (mp_cmp_d(p, 0) != MP_GT) {
                     -     return MP_VAL;
                     -  }
                     +  /* 3. u=x, v=y, A=1, B=0, C=0,D=1 */
                     +  fp_copy(&x, &u);
                     +  fp_copy(&y, &v);
                     +  fp_set (&D, 1);
                     -  /* step 1.  if a == 0, return 0 */
                     -  if (mp_iszero (a) == 1) {
                     -    *c = 0;
                     -    return MP_OKAY;
                     -  }
                     +top:
                     +  /* 4.  while u is even do */
                     +  while (fp_iseven (&u) == FP_YES) {
                     +    /* 4.1 u = u/2 */
                     +    fp_div_2 (&u, &u);
                     -  /* step 2.  if a == 1, return 1 */
                     -  if (mp_cmp_d (a, 1) == MP_EQ) {
                     -    *c = 1;
                     -    return MP_OKAY;
                     +    /* 4.2 if B is odd then */
                     +    if (fp_isodd (&B) == FP_YES) {
                     +      fp_sub (&B, &x, &B);
                     +    }
                     +    /* B = B/2 */
                     +    fp_div_2 (&B, &B);
+                       }
                     -  /* default */
                     -  s = 0;
                     +  /* 5.  while v is even do */
                     +  while (fp_iseven (&v) == FP_YES) {
                     +    /* 5.1 v = v/2 */
                     +    fp_div_2 (&v, &v);
                     -  /* step 3.  write a = a1 * 2**k  */
                     -  if ((res = mp_init_copy (&a1, a)) != MP_OKAY) {
                     -    return res;
                     +    /* 5.2 if D is odd then */
                     +    if (fp_isodd (&D) == FP_YES) {
                     +      /* D = (D-x)/2 */
                     +      fp_sub (&D, &x, &D);
                     +    }
                     +    /* D = D/2 */
                     +    fp_div_2 (&D, &D);
+                       }
                     -  if ((res = mp_init (&p1)) != MP_OKAY) {
                     -    goto LBL_A1;
                     +  /* 6.  if u >= v then */
                     +  if (fp_cmp (&u, &v) != FP_LT) {
                     +    /* u = u - v, B = B - D */
                     +    fp_sub (&u, &v, &u);
                     +    fp_sub (&B, &D, &B);
                     +  } else {
                     +    /* v - v - u, D = D - B */
                     +    fp_sub (&v, &u, &v);
                     +    fp_sub (&D, &B, &D);
+                       }
                     -  /* divide out larger power of two */
                     -  k = mp_cnt_lsb(&a1);
                     -  if ((res = mp_div_2d(&a1, k, &a1, NULL)) != MP_OKAY) {
                     -     goto LBL_P1;
                     +  /* if not zero goto step 4 */
                     +  if (fp_iszero (&u) == FP_NO) {
                     +    goto top;
+                       }
                     -  /* step 4.  if e is even set s=1 */
                     -  if ((k & 1) == 0) {
                     -    s = 1;
                     -  } else {
                     -    /* else set s=1 if p = 1/7 (mod 8) or s=-1 if p = 3/5 (mod 8) */
                     -    residue = p->dp[0] & 7;
+                    -
                     -    if (residue == 1 || residue == 7) {
                     -      s = 1;
                     -    } else if (residue == 3 || residue == 5) {
                     -      s = -1;
                     -    }
                     -  }
                     +  /* now a = C, b = D, gcd == g*v */
                     -  /* step 5.  if p == 3 (mod 4) *and* a1 == 3 (mod 4) then s = -s */
                     -  if ( ((p->dp[0] & 3) == 3) && ((a1.dp[0] & 3) == 3)) {
                     -    s = -s;
                     +  /* if v != 1 then there is no inverse */
                     +  if (fp_cmp_d (&v, 1) != FP_EQ) {
                     +    return FP_VAL;
+                       }
                     -  /* if a1 == 1 we're done */
                     -  if (mp_cmp_d (&a1, 1) == MP_EQ) {
                     -    *c = s;
                     -  } else {
                     -    /* n1 = n mod a1 */
                     -    if ((res = mp_mod (p, &a1, &p1)) != MP_OKAY) {
                     -      goto LBL_P1;
                     -    }
                     -    if ((res = mp_jacobi (&p1, &a1, &r)) != MP_OKAY) {
                     -      goto LBL_P1;
                     -    }
                     -    *c = s * r;
                     +  /* b is now the inverse */
                     +  neg = a->sign;
                     +  while (D.sign == FP_NEG) {
                     +    fp_add (&D, b, &D);
+                       }
+                    -
                     -  /* done */
                     -  res = MP_OKAY;
                     -LBL_P1:mp_clear (&p1);
                     -LBL_A1:mp_clear (&a1);
                     -  return res;
                     +  fp_copy (&D, c);
                     +  c->sign = neg;
                     +  return FP_OKAY;
+                     }
                     -#endif
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_jacobi.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
                     +/* $Source: /cvs/libtom/tomsfastmath/src/numtheory/fp_invmod.c,v $ */
                     +/* $Revision: 1.1 $ */
                     +/* $Date: 2007/01/24 21:25:19 $ */
                     -/* End: bn_mp_jacobi.c */
                     +/* End: fp_invmod.c */
                     -/* Start: bn_mp_karatsuba_mul.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_KARATSUBA_MUL_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     - *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     - */
+                    -
                     -/* c = |a| * |b| using Karatsuba Multiplication using
                     - * three half size multiplications
                     - *
                     - * Let B represent the radix [e.g. 2**DIGIT_BIT] and
                     - * let n represent half of the number of digits in
                     - * the min(a,b)
                     - *
                     - * a = a1 * B**n + a0
                     - * b = b1 * B**n + b0
                     - *
                     - * Then, a * b =>
                     -   a1b1 * B**2n + ((a1 + a0)(b1 + b0) - (a0b0 + a1b1)) * B + a0b0
                     - *
                     - * Note that a1b1 and a0b0 are used twice and only need to be
                     - * computed once.  So in total three half size (half # of
                     - * digit) multiplications are performed, a0b0, a1b1 and
                     - * (a1+b1)(a0+b0)
                     +/* Start: fp_isprime.c */
                     +/* TomsFastMath, a fast ISO C bignum library.
                     + *
                     + * This project is meant to fill in where LibTomMath
                     + * falls short.  That is speed ;-)
+                      *
                     - * Note that a multiplication of half the digits requires
                     - * 1/4th the number of single precision multiplications so in
                     - * total after one call 25% of the single precision multiplications
                     - * are saved.  Note also that the call to mp_mul can end up back
                     - * in this function if the a0, a1, b0, or b1 are above the threshold.
                     - * This is known as divide-and-conquer and leads to the famous
                     - * O(N**lg(3)) or O(N**1.584) work which is asymptopically lower than
                     - * the standard O(N**2) that the baseline/comba methods use.
                     - * Generally though the overhead of this method doesn't pay off
                     - * until a certain size (N ~ 80) is reached.
                     + * This project is public domain and free for all purposes.
                     + *
                     + * Tom St Denis, tomstdenis@gmail.com
                       */
                     -int mp_karatsuba_mul (mp_int * a, mp_int * b, mp_int * c)
                     -{
                     -  mp_int  x0, x1, y0, y1, t1, x0y0, x1y1;
                     -  int     B, err;
+                    -
                     -  /* default the return code to an error */
                     -  err = MP_MEM;
+                    -
                     -  /* min # of digits */
                     -  B = MIN (a->used, b->used);
+                    -
                     -  /* now divide in two */
                     -  B = B >> 1;
+                    -
                     -  /* init copy all the temps */
                     -  if (mp_init_size (&x0, B) != MP_OKAY)
                     -    goto ERR;
                     -  if (mp_init_size (&x1, a->used - B) != MP_OKAY)
                     -    goto X0;
                     -  if (mp_init_size (&y0, B) != MP_OKAY)
                     -    goto X1;
                     -  if (mp_init_size (&y1, b->used - B) != MP_OKAY)
                     -    goto Y0;
                     +#include "bignum_fast.h"
                     -  /* init temps */
                     -  if (mp_init_size (&t1, B * 2) != MP_OKAY)
                     -    goto Y1;
                     -  if (mp_init_size (&x0y0, B * 2) != MP_OKAY)
                     -    goto T1;
                     -  if (mp_init_size (&x1y1, B * 2) != MP_OKAY)
                     -    goto X0Y0;
+                    -
                     -  /* now shift the digits */
                     -  x0.used = y0.used = B;
                     -  x1.used = a->used - B;
                     -  y1.used = b->used - B;
+                    -
                     -  {
                     -    register int x;
                     -    register mp_digit *tmpa, *tmpb, *tmpx, *tmpy;
+                    -
                     -    /* we copy the digits directly instead of using higher level functions
                     -     * since we also need to shift the digits
                     -     */
                     -    tmpa = a->dp;
                     -    tmpb = b->dp;
+                    -
                     -    tmpx = x0.dp;
                     -    tmpy = y0.dp;
                     -    for (x = 0; x < B; x++) {
                     -      *tmpx++ = *tmpa++;
                     -      *tmpy++ = *tmpb++;
                     -    }
+                    -
                     -    tmpx = x1.dp;
                     -    for (x = B; x < a->used; x++) {
                     -      *tmpx++ = *tmpa++;
                     -    }
+                    -
                     -    tmpy = y1.dp;
                     -    for (x = B; x < b->used; x++) {
                     -      *tmpy++ = *tmpb++;
                     -    }
                     -  }
+                    -
                     -  /* only need to clamp the lower words since by definition the
                     -   * upper words x1/y1 must have a known number of digits
                     -   */
                     -  mp_clamp (&x0);
                     -  mp_clamp (&y0);
+                    -
                     -  /* now calc the products x0y0 and x1y1 */
                     -  /* after this x0 is no longer required, free temp [x0==t2]! */
                     -  if (mp_mul (&x0, &y0, &x0y0) != MP_OKAY)
                     -    goto X1Y1;          /* x0y0 = x0*y0 */
                     -  if (mp_mul (&x1, &y1, &x1y1) != MP_OKAY)
                     -    goto X1Y1;          /* x1y1 = x1*y1 */
+                    -
                     -  /* now calc x1+x0 and y1+y0 */
                     -  if (s_mp_add (&x1, &x0, &t1) != MP_OKAY)
                     -    goto X1Y1;          /* t1 = x1 - x0 */
                     -  if (s_mp_add (&y1, &y0, &x0) != MP_OKAY)
                     -    goto X1Y1;          /* t2 = y1 - y0 */
                     -  if (mp_mul (&t1, &x0, &t1) != MP_OKAY)
                     -    goto X1Y1;          /* t1 = (x1 + x0) * (y1 + y0) */
+                    -
                     -  /* add x0y0 */
                     -  if (mp_add (&x0y0, &x1y1, &x0) != MP_OKAY)
                     -    goto X1Y1;          /* t2 = x0y0 + x1y1 */
                     -  if (s_mp_sub (&t1, &x0, &t1) != MP_OKAY)
                     -    goto X1Y1;          /* t1 = (x1+x0)*(y1+y0) - (x1y1 + x0y0) */
+                    -
                     -  /* shift by B */
                     -  if (mp_lshd (&t1, B) != MP_OKAY)
                     -    goto X1Y1;          /* t1 = (x0y0 + x1y1 - (x1-x0)*(y1-y0))<<B */
                     -  if (mp_lshd (&x1y1, B * 2) != MP_OKAY)
                     -    goto X1Y1;          /* x1y1 = x1y1 << 2*B */
+                    -
                     -  if (mp_add (&x0y0, &t1, &t1) != MP_OKAY)
                     -    goto X1Y1;          /* t1 = x0y0 + t1 */
                     -  if (mp_add (&t1, &x1y1, c) != MP_OKAY)
                     -    goto X1Y1;          /* t1 = x0y0 + t1 + x1y1 */
+                    -
                     -  /* Algorithm succeeded set the return code to MP_OKAY */
                     -  err = MP_OKAY;
+                    -
                     -X1Y1:mp_clear (&x1y1);
                     -X0Y0:mp_clear (&x0y0);
                     -T1:mp_clear (&t1);
                     -Y1:mp_clear (&y1);
                     -Y0:mp_clear (&y0);
                     -X1:mp_clear (&x1);
                     -X0:mp_clear (&x0);
                     -ERR:
                     -  return err;
                     -}
                     -#endif
                     +/* a few primes */
                     +static const fp_digit primes[256] = {
                     +  0x0002, 0x0003, 0x0005, 0x0007, 0x000B, 0x000D, 0x0011, 0x0013,
                     +  0x0017, 0x001D, 0x001F, 0x0025, 0x0029, 0x002B, 0x002F, 0x0035,
                     +  0x003B, 0x003D, 0x0043, 0x0047, 0x0049, 0x004F, 0x0053, 0x0059,
                     +  0x0061, 0x0065, 0x0067, 0x006B, 0x006D, 0x0071, 0x007F, 0x0083,
                     +  0x0089, 0x008B, 0x0095, 0x0097, 0x009D, 0x00A3, 0x00A7, 0x00AD,
                     +  0x00B3, 0x00B5, 0x00BF, 0x00C1, 0x00C5, 0x00C7, 0x00D3, 0x00DF,
                     +  0x00E3, 0x00E5, 0x00E9, 0x00EF, 0x00F1, 0x00FB, 0x0101, 0x0107,
                     +  0x010D, 0x010F, 0x0115, 0x0119, 0x011B, 0x0125, 0x0133, 0x0137,
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_karatsuba_mul.c,v $ */
                     -/* $Revision: 1.5 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
                     +  0x0139, 0x013D, 0x014B, 0x0151, 0x015B, 0x015D, 0x0161, 0x0167,
                     +  0x016F, 0x0175, 0x017B, 0x017F, 0x0185, 0x018D, 0x0191, 0x0199,
                     +  0x01A3, 0x01A5, 0x01AF, 0x01B1, 0x01B7, 0x01BB, 0x01C1, 0x01C9,
                     +  0x01CD, 0x01CF, 0x01D3, 0x01DF, 0x01E7, 0x01EB, 0x01F3, 0x01F7,
                     +  0x01FD, 0x0209, 0x020B, 0x021D, 0x0223, 0x022D, 0x0233, 0x0239,
                     +  0x023B, 0x0241, 0x024B, 0x0251, 0x0257, 0x0259, 0x025F, 0x0265,
                     +  0x0269, 0x026B, 0x0277, 0x0281, 0x0283, 0x0287, 0x028D, 0x0293,
                     +  0x0295, 0x02A1, 0x02A5, 0x02AB, 0x02B3, 0x02BD, 0x02C5, 0x02CF,
                     -/* End: bn_mp_karatsuba_mul.c */
                     +  0x02D7, 0x02DD, 0x02E3, 0x02E7, 0x02EF, 0x02F5, 0x02F9, 0x0301,
                     +  0x0305, 0x0313, 0x031D, 0x0329, 0x032B, 0x0335, 0x0337, 0x033B,
                     +  0x033D, 0x0347, 0x0355, 0x0359, 0x035B, 0x035F, 0x036D, 0x0371,
                     +  0x0373, 0x0377, 0x038B, 0x038F, 0x0397, 0x03A1, 0x03A9, 0x03AD,
                     +  0x03B3, 0x03B9, 0x03C7, 0x03CB, 0x03D1, 0x03D7, 0x03DF, 0x03E5,
                     +  0x03F1, 0x03F5, 0x03FB, 0x03FD, 0x0407, 0x0409, 0x040F, 0x0419,
                     +  0x041B, 0x0425, 0x0427, 0x042D, 0x043F, 0x0443, 0x0445, 0x0449,
                     +  0x044F, 0x0455, 0x045D, 0x0463, 0x0469, 0x047F, 0x0481, 0x048B,
                     -/* Start: bn_mp_karatsuba_sqr.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_KARATSUBA_SQR_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     - *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     - */
                     +  0x0493, 0x049D, 0x04A3, 0x04A9, 0x04B1, 0x04BD, 0x04C1, 0x04C7,
                     +  0x04CD, 0x04CF, 0x04D5, 0x04E1, 0x04EB, 0x04FD, 0x04FF, 0x0503,
                     +  0x0509, 0x050B, 0x0511, 0x0515, 0x0517, 0x051B, 0x0527, 0x0529,
                     +  0x052F, 0x0551, 0x0557, 0x055D, 0x0565, 0x0577, 0x0581, 0x058F,
                     +  0x0593, 0x0595, 0x0599, 0x059F, 0x05A7, 0x05AB, 0x05AD, 0x05B3,
                     +  0x05BF, 0x05C9, 0x05CB, 0x05CF, 0x05D1, 0x05D5, 0x05DB, 0x05E7,
                     +  0x05F3, 0x05FB, 0x0607, 0x060D, 0x0611, 0x0617, 0x061F, 0x0623,
                     +  0x062B, 0x062F, 0x063D, 0x0641, 0x0647, 0x0649, 0x064D, 0x0653
                     +};
                     -/* Karatsuba squaring, computes b = a*a using three
                     - * half size squarings
                     - *
                     - * See comments of karatsuba_mul for details.  It
                     - * is essentially the same algorithm but merely
                     - * tuned to perform recursive squarings.
                     - */
                     -int mp_karatsuba_sqr (mp_int * a, mp_int * b)
                     +int fp_isprime(fp_int *a)
+                     {
                     -  mp_int  x0, x1, t1, t2, x0x0, x1x1;
                     -  int     B, err;
+                    -
                     -  err = MP_MEM;
+                    -
                     -  /* min # of digits */
                     -  B = a->used;
+                    -
                     -  /* now divide in two */
                     -  B = B >> 1;
+                    -
                     -  /* init copy all the temps */
                     -  if (mp_init_size (&x0, B) != MP_OKAY)
                     -    goto ERR;
                     -  if (mp_init_size (&x1, a->used - B) != MP_OKAY)
                     -    goto X0;
+                    -
                     -  /* init temps */
                     -  if (mp_init_size (&t1, a->used * 2) != MP_OKAY)
                     -    goto X1;
                     -  if (mp_init_size (&t2, a->used * 2) != MP_OKAY)
                     -    goto T1;
                     -  if (mp_init_size (&x0x0, B * 2) != MP_OKAY)
                     -    goto T2;
                     -  if (mp_init_size (&x1x1, (a->used - B) * 2) != MP_OKAY)
                     -    goto X0X0;
+                    -
                     -  {
                     -    register int x;
                     -    register mp_digit *dst, *src;
+                    -
                     -    src = a->dp;
+                    -
                     -    /* now shift the digits */
                     -    dst = x0.dp;
                     -    for (x = 0; x < B; x++) {
                     -      *dst++ = *src++;
                     -    }
+                    -
                     -    dst = x1.dp;
                     -    for (x = B; x < a->used; x++) {
                     -      *dst++ = *src++;
                     -    }
                     -  }
                     +   fp_int   b;
                     +   fp_digit d;
                     +   int      r, res;
+                    +
                     +   /* do trial division */
                     +   for (r = 0; r < 256; r++) {
                     +       fp_mod_d(a, primes[r], &d);
                     +       if (d == 0) {
                     +          return FP_NO;
                     +       }
                     +   }
                     -  x0.used = B;
                     -  x1.used = a->used - B;
+                    -
                     -  mp_clamp (&x0);
+                    -
                     -  /* now calc the products x0*x0 and x1*x1 */
                     -  if (mp_sqr (&x0, &x0x0) != MP_OKAY)
                     -    goto X1X1;           /* x0x0 = x0*x0 */
                     -  if (mp_sqr (&x1, &x1x1) != MP_OKAY)
                     -    goto X1X1;           /* x1x1 = x1*x1 */
+                    -
                     -  /* now calc (x1+x0)**2 */
                     -  if (s_mp_add (&x1, &x0, &t1) != MP_OKAY)
                     -    goto X1X1;           /* t1 = x1 - x0 */
                     -  if (mp_sqr (&t1, &t1) != MP_OKAY)
                     -    goto X1X1;           /* t1 = (x1 - x0) * (x1 - x0) */
+                    -
                     -  /* add x0y0 */
                     -  if (s_mp_add (&x0x0, &x1x1, &t2) != MP_OKAY)
                     -    goto X1X1;           /* t2 = x0x0 + x1x1 */
                     -  if (s_mp_sub (&t1, &t2, &t1) != MP_OKAY)
                     -    goto X1X1;           /* t1 = (x1+x0)**2 - (x0x0 + x1x1) */
+                    -
                     -  /* shift by B */
                     -  if (mp_lshd (&t1, B) != MP_OKAY)
                     -    goto X1X1;           /* t1 = (x0x0 + x1x1 - (x1-x0)*(x1-x0))<<B */
                     -  if (mp_lshd (&x1x1, B * 2) != MP_OKAY)
                     -    goto X1X1;           /* x1x1 = x1x1 << 2*B */
+                    -
                     -  if (mp_add (&x0x0, &t1, &t1) != MP_OKAY)
                     -    goto X1X1;           /* t1 = x0x0 + t1 */
                     -  if (mp_add (&t1, &x1x1, b) != MP_OKAY)
                     -    goto X1X1;           /* t1 = x0x0 + t1 + x1x1 */
+                    -
                     -  err = MP_OKAY;
+                    -
                     -X1X1:mp_clear (&x1x1);
                     -X0X0:mp_clear (&x0x0);
                     -T2:mp_clear (&t2);
                     -T1:mp_clear (&t1);
                     -X1:mp_clear (&x1);
                     -X0:mp_clear (&x0);
                     -ERR:
                     -  return err;
                     +   /* now do 8 miller rabins */
                     +   fp_init(&b);
                     +   for (r = 0; r < 8; r++) {
                     +       fp_set(&b, primes[r]);
                     +       fp_prime_miller_rabin(a, &b, &res);
                     +       if (res == FP_NO) {
                     +          return FP_NO;
                     +       }
                     +   }
                     +   return FP_YES;
+                     }
                     -#endif
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_karatsuba_sqr.c,v $ */
                     -/* $Revision: 1.5 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
                     +/* $Source: /cvs/libtom/tomsfastmath/src/numtheory/fp_isprime.c,v $ */
                     +/* $Revision: 1.1 $ */
                     +/* $Date: 2007/01/24 21:25:19 $ */
                     -/* End: bn_mp_karatsuba_sqr.c */
                     +/* End: fp_isprime.c */
                     -/* Start: bn_mp_lcm.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_LCM_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     +/* Start: fp_lcm.c */
                     +/* TomsFastMath, a fast ISO C bignum library.
                     + *
                     + * This project is meant to fill in where LibTomMath
                     + * falls short.  That is speed ;-)
+                      *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     + * This project is public domain and free for all purposes.
                     + *
                     + * Tom St Denis, tomstdenis@gmail.com
                       */
                     +#include "bignum_fast.h"
                     -/* computes least common multiple as |a*b|/(a, b) */
                     -int mp_lcm (mp_int * a, mp_int * b, mp_int * c)
                     +/* c = [a, b] */
                     +void fp_lcm(fp_int *a, fp_int *b, fp_int *c)
+                     {
                     -  int     res;
                     -  mp_int  t1, t2;
+                    -
+                    -
                     -  if ((res = mp_init_multi (&t1, &t2, NULL)) != MP_OKAY) {
                     -    return res;
                     -  }
+                    -
                     -  /* t1 = get the GCD of the two inputs */
                     -  if ((res = mp_gcd (a, b, &t1)) != MP_OKAY) {
                     -    goto LBL_T;
                     -  }
+                    -
                     -  /* divide the smallest by the GCD */
                     -  if (mp_cmp_mag(a, b) == MP_LT) {
                     -     /* store quotient in t2 such that t2 * b is the LCM */
                     -     if ((res = mp_div(a, &t1, &t2, NULL)) != MP_OKAY) {
                     -        goto LBL_T;
                     -     }
                     -     res = mp_mul(b, &t2, c);
                     -  } else {
                     -     /* store quotient in t2 such that t2 * a is the LCM */
                     -     if ((res = mp_div(b, &t1, &t2, NULL)) != MP_OKAY) {
                     -        goto LBL_T;
                     -     }
                     -     res = mp_mul(a, &t2, c);
                     -  }
+                    -
                     -  /* fix the sign to positive */
                     -  c->sign = MP_ZPOS;
+                    -
                     -LBL_T:
                     -  mp_clear_multi (&t1, &t2, NULL);
                     -  return res;
                     +   fp_int  t1, t2;
+                    +
                     +   fp_init(&t1);
                     +   fp_init(&t2);
                     +   fp_gcd(a, b, &t1);
                     +   if (fp_cmp_mag(a, b) == FP_GT) {
                     +      fp_div(a, &t1, &t2, NULL);
                     +      fp_mul(b, &t2, c);
                     +   } else {
                     +      fp_div(b, &t1, &t2, NULL);
                     +      fp_mul(a, &t2, c);
                     +   }
+                     }
                     -#endif
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_lcm.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
                     +/* $Source: /cvs/libtom/tomsfastmath/src/numtheory/fp_lcm.c,v $ */
                     +/* $Revision: 1.1 $ */
                     +/* $Date: 2007/01/24 21:25:19 $ */
                     -/* End: bn_mp_lcm.c */
                     +/* End: fp_lcm.c */
                     -/* Start: bn_mp_lshd.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_LSHD_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     +/* Start: fp_lshd.c */
                     +/* TomsFastMath, a fast ISO C bignum library.
                     + *
                     + * This project is meant to fill in where LibTomMath
                     + * falls short.  That is speed ;-)
+                      *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     + * This project is public domain and free for all purposes.
                     + *
                     + * Tom St Denis, tomstdenis@gmail.com
                       */
                     +#include "bignum_fast.h"
                     -/* shift left a certain amount of digits */
                     -int mp_lshd (mp_int * a, int b)
                     +void fp_lshd(fp_int *a, int x)
+                     {
                     -  int     x, res;
                     +   int y;
                     -  /* if its less than zero return */
                     -  if (b <= 0) {
                     -    return MP_OKAY;
                     -  }
+                    -
                     -  /* grow to fit the new digits */
                     -  if (a->alloc < a->used + b) {
                     -     if ((res = mp_grow (a, a->used + b)) != MP_OKAY) {
                     -       return res;
                     -     }
                     -  }
                     +   /* move up and truncate as required */
                     +   y = MIN(a->used + x - 1, (int)(FP_SIZE-1));
                     -  {
                     -    register mp_digit *top, *bottom;
                     +   /* store new size */
                     +   a->used = y + 1;
                     -    /* increment the used by the shift amount then copy upwards */
                     -    a->used += b;
+                    -
                     -    /* top */
                     -    top = a->dp + a->used - 1;
+                    -
                     -    /* base */
                     -    bottom = a->dp + a->used - 1 - b;
+                    -
                     -    /* much like mp_rshd this is implemented using a sliding window
                     -     * except the window goes the otherway around.  Copying from
                     -     * the bottom to the top.  see bn_mp_rshd.c for more info.
                     -     */
                     -    for (x = a->used - 1; x >= b; x--) {
                     -      *top-- = *bottom--;
                     -    }
                     +   /* move digits */
                     +   for (; y >= x; y--) {
                     +       a->dp[y] = a->dp[y-x];
                     +   }
+                    +
                     +   /* zero lower digits */
                     +   for (; y >= 0; y--) {
                     +       a->dp[y] = 0;
                     +   }
                     -    /* zero the lower digits */
                     -    top = a->dp;
                     -    for (x = 0; x < b; x++) {
                     -      *top++ = 0;
                     -    }
                     -  }
                     -  return MP_OKAY;
                     +   /* clamp digits */
                     +   fp_clamp(a);
+                     }
                     -#endif
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_lshd.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
                     +/* $Source: /cvs/libtom/tomsfastmath/src/bit/fp_lshd.c,v $ */
                     +/* $Revision: 1.1 $ */
                     +/* $Date: 2006/12/31 21:25:53 $ */
                     -/* End: bn_mp_lshd.c */
                     +/* End: fp_lshd.c */
                     -/* Start: bn_mp_mod.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_MOD_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     +/* Start: fp_mod.c */
                     +/* TomsFastMath, a fast ISO C bignum library.
                     + *
                     + * This project is meant to fill in where LibTomMath
                     + * falls short.  That is speed ;-)
+                      *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     + * This project is public domain and free for all purposes.
                     + *
                     + * Tom St Denis, tomstdenis@gmail.com
                       */
                     +#include "bignum_fast.h"
                     -/* c = a mod b, 0 <= c < b */
                     -int
                     -mp_mod (mp_int * a, mp_int * b, mp_int * c)
                     +/* c = a mod b, 0 <= c < b  */
                     +int fp_mod(fp_int *a, fp_int *b, fp_int *c)
+                     {
                     -  mp_int  t;
                     -  int     res;
                     +   fp_int t;
                     +   int    err;
                     -  if ((res = mp_init (&t)) != MP_OKAY) {
                     -    return res;
                     -  }
+                    -
                     -  if ((res = mp_div (a, b, NULL, &t)) != MP_OKAY) {
                     -    mp_clear (&t);
                     -    return res;
                     +   fp_zero(&t);
                     +   if ((err = fp_div(a, b, NULL, &t)) != FP_OKAY) {
                     +      return err;
                     +   }
                     +   if (t.sign != b->sign) {
                     +      fp_add(&t, b, c);
                     +   } else {
                     +      fp_copy(&t, c);
+                       }
                     +  return FP_OKAY;
                     +}
                     -  if (t.sign != b->sign) {
                     -    res = mp_add (b, &t, c);
                     -  } else {
                     -    res = MP_OKAY;
                     -    mp_exch (&t, c);
                     -  }
                     -  mp_clear (&t);
                     -  return res;
                     -}
                     -#endif
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_mod.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
                     +/* $Source: /cvs/libtom/tomsfastmath/src/divide/fp_mod.c,v $ */
                     +/* $Revision: 1.1 $ */
                     +/* $Date: 2006/12/31 21:25:53 $ */
                     -/* End: bn_mp_mod.c */
                     +/* End: fp_mod.c */
                     -/* Start: bn_mp_mod_2d.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_MOD_2D_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     +/* Start: fp_mod_2d.c */
                     +/* TomsFastMath, a fast ISO C bignum library.
                     + *
                     + * This project is meant to fill in where LibTomMath
                     + * falls short.  That is speed ;-)
+                      *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     + * This project is public domain and free for all purposes.
                     + *
                     + * Tom St Denis, tomstdenis@gmail.com
                       */
                     +#include "bignum_fast.h"
                     -/* calc a value mod 2**b */
                     -int
                     -mp_mod_2d (mp_int * a, int b, mp_int * c)
                     +/* c = a mod 2**d */
                     +void fp_mod_2d(fp_int *a, int b, fp_int *c)
+                     {
                     -  int     x, res;
+                    -
                     -  /* if b is <= 0 then zero the int */
                     -  if (b <= 0) {
                     -    mp_zero (c);
                     -    return MP_OKAY;
                     -  }
                     +   int x;
                     -  /* if the modulus is larger than the value than return */
                     -  if (b >= (int) (a->used * DIGIT_BIT)) {
                     -    res = mp_copy (a, c);
                     -    return res;
                     -  }
                     +   /* zero if count less than or equal to zero */
                     +   if (b <= 0) {
                     +      fp_zero(c);
                     +      return;
                     +   }
                     -  /* copy */
                     -  if ((res = mp_copy (a, c)) != MP_OKAY) {
                     -    return res;
                     -  }
                     +   /* get copy of input */
                     +   fp_copy(a, c);
+                    +
                     +   /* if 2**d is larger than we just return */
                     +   if (b >= (DIGIT_BIT * a->used)) {
                     +      return;
                     +   }
                        /* zero digits above the last digit of the modulus */
                        for (x = (b / DIGIT_BIT) + ((b % DIGIT_BIT) == 0 ? 0 : 1); x < c->used; x++) {
                          c->dp[x] = 0;
+                       }
                        /* clear the digit that is not completely outside/inside the modulus */
                     -  c->dp[b / DIGIT_BIT] &=
                     -    (mp_digit) ((((mp_digit) 1) << (((mp_digit) b) % DIGIT_BIT)) - ((mp_digit) 1));
                     -  mp_clamp (c);
                     -  return MP_OKAY;
                     +  c->dp[b / DIGIT_BIT] &= ~((fp_digit)0) >> (DIGIT_BIT - b);
                     +  fp_clamp (c);
+                     }
                     -#endif
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_mod_2d.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
                     +/* $Source: /cvs/libtom/tomsfastmath/src/bit/fp_mod_2d.c,v $ */
                     +/* $Revision: 1.1 $ */
                     +/* $Date: 2006/12/31 21:25:53 $ */
                     -/* End: bn_mp_mod_2d.c */
                     +/* End: fp_mod_2d.c */
                     -/* Start: bn_mp_mod_d.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_MOD_D_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     +/* Start: fp_mod_d.c */
                     +/* TomsFastMath, a fast ISO C bignum library.
                     + *
                     + * This project is meant to fill in where LibTomMath
                     + * falls short.  That is speed ;-)
+                      *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     + * This project is public domain and free for all purposes.
                     + *
                     + * Tom St Denis, tomstdenis@gmail.com
                       */
                     +#include "bignum_fast.h"
                     -int
                     -mp_mod_d (mp_int * a, mp_digit b, mp_digit * c)
                     +/* c = a mod b, 0 <= c < b  */
                     +int fp_mod_d(fp_int *a, fp_digit b, fp_digit *c)
+                     {
                     -  return mp_div_d(a, b, NULL, c);
                     +   return fp_div_d(a, b, NULL, c);
+                     }
                     -#endif
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_mod_d.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
                     +/* $Source: /cvs/libtom/tomsfastmath/src/divide/fp_mod_d.c,v $ */
                     +/* $Revision: 1.1 $ */
                     +/* $Date: 2006/12/31 21:25:53 $ */
                     -/* End: bn_mp_mod_d.c */
                     +/* End: fp_mod_d.c */
                     -/* Start: bn_mp_montgomery_calc_normalization.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_MONTGOMERY_CALC_NORMALIZATION_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     +/* Start: fp_montgomery_calc_normalization.c */
                     +/* TomsFastMath, a fast ISO C bignum library.
                     + *
                     + * This project is meant to fill in where LibTomMath
                     + * falls short.  That is speed ;-)
+                      *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     + * This project is public domain and free for all purposes.
                     + *
                     + * Tom St Denis, tomstdenis@gmail.com
                       */
                     +#include "bignum_fast.h"
                     -/*
                     - * shifts with subtractions when the result is greater than b.
                     - *
                     - * The method is slightly modified to shift B unconditionally upto just under
                     - * the leading bit of b.  This saves alot of multiple precision shifting.
                     +/* computes a = B**n mod b without division or multiplication useful for
                     + * normalizing numbers in a Montgomery system.
                       */
                     -int mp_montgomery_calc_normalization (mp_int * a, mp_int * b)
                     +void fp_montgomery_calc_normalization(fp_int *a, fp_int *b)
+                     {
                     -  int     x, bits, res;
                     +  int     x, bits;
                        /* how many bits of last digit does b use */
                     -  bits = mp_count_bits (b) % DIGIT_BIT;
                     +  bits = fp_count_bits (b) % DIGIT_BIT;
                     +  if (!bits) bits = DIGIT_BIT;
                     +  /* compute A = B^(n-1) * 2^(bits-1) */
                        if (b->used > 1) {
                     -     if ((res = mp_2expt (a, (b->used - 1) * DIGIT_BIT + bits - 1)) != MP_OKAY) {
                     -        return res;
                     -     }
                     +     fp_2expt (a, (b->used - 1) * DIGIT_BIT + bits - 1);
                        } else {
                     -     mp_set(a, 1);
                     +     fp_set(a, 1);
                           bits = 1;
+                       }
+                    -
                        /* now compute C = A * B mod b */
                        for (x = bits - 1; x < (int)DIGIT_BIT; x++) {
                     -    if ((res = mp_mul_2 (a, a)) != MP_OKAY) {
                     -      return res;
                     -    }
                     -    if (mp_cmp_mag (a, b) != MP_LT) {
                     -      if ((res = s_mp_sub (a, b, a)) != MP_OKAY) {
                     -        return res;
                     -      }
                     +    fp_mul_2 (a, a);
                     +    if (fp_cmp_mag (a, b) != FP_LT) {
                     +      s_fp_sub (a, b, a);
+                         }
+                       }
+                    -
                     -  return MP_OKAY;
+                     }
                     -#endif
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_montgomery_calc_normalization.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
                     -/* End: bn_mp_montgomery_calc_normalization.c */
                     +/* $Source: /cvs/libtom/tomsfastmath/src/mont/fp_montgomery_calc_normalization.c,v $ */
                     +/* $Revision: 1.1 $ */
                     +/* $Date: 2006/12/31 21:25:53 $ */
                     -/* Start: bn_mp_montgomery_reduce.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_MONTGOMERY_REDUCE_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     +/* End: fp_montgomery_calc_normalization.c */
+                    +
                     +/* Start: fp_montgomery_reduce.c */
                     +/* TomsFastMath, a fast ISO C bignum library.
                     + *
                     + * This project is meant to fill in where LibTomMath
                     + * falls short.  That is speed ;-)
+                      *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     - */
                     + * This project is public domain and free for all purposes.
                     + *
                     + * Tom St Denis, tomstdenis@gmail.com
                     + */
                     +#include "bignum_fast.h"
+                    +
                     +/******************************************************************/
                     +#if defined(TFM_X86) && !defined(TFM_SSE2)
                     +/* x86-32 code */
+                    +
                     +#define MONT_START
                     +#define MONT_FINI
                     +#define LOOP_END
                     +#define LOOP_START \
                     +   mu = c[x] * mp
+                    +
                     +#define INNERMUL                                          \
                     +asm(                                                      \
                     +   "movl %5,%%eax \n\t"                                   \
                     +   "mull %4       \n\t"                                   \
                     +   "addl %1,%%eax \n\t"                                   \
                     +   "adcl $0,%%edx \n\t"                                   \
                     +   "addl %%eax,%0 \n\t"                                   \
                     +   "adcl $0,%%edx \n\t"                                   \
                     +   "movl %%edx,%1 \n\t"                                   \
                     +:"=g"(_c[LO]), "=r"(cy)                                   \
                     +:"0"(_c[LO]), "1"(cy), "g"(mu), "g"(*tmpm++)              \
                     +: "%eax", "%edx", "%cc")
+                    +
                     +#define PROPCARRY                           \
                     +asm(                                        \
                     +   "addl   %1,%0    \n\t"                   \
                     +   "setb   %%al     \n\t"                   \
                     +   "movzbl %%al,%1 \n\t"                    \
                     +:"=g"(_c[LO]), "=r"(cy)                     \
                     +:"0"(_c[LO]), "1"(cy)                       \
                     +: "%eax", "%cc")
+                    +
                     +/******************************************************************/
                     +#elif defined(TFM_X86_64)
                     +/* x86-64 code */
                     +#define MONT_START
                     +#define MONT_FINI
                     +#define LOOP_END
                     +#define LOOP_START \
                     +   mu = c[x] * mp
+                    +
                     +#define INNERMUL                                          \
                     +asm(                                                      \
                     +   "movq %5,%%rax \n\t"                                   \
                     +   "mulq %4       \n\t"                                   \
                     +   "addq %1,%%rax \n\t"                                   \
                     +   "adcq $0,%%rdx \n\t"                                   \
                     +   "addq %%rax,%0 \n\t"                                   \
                     +   "adcq $0,%%rdx \n\t"                                   \
                     +   "movq %%rdx,%1 \n\t"                                   \
                     +:"=g"(_c[LO]), "=r"(cy)                                   \
                     +:"0"(_c[LO]), "1"(cy), "r"(mu), "r"(*tmpm++)              \
                     +: "%rax", "%rdx", "%cc")
+                    +
                     +#define INNERMUL8 \
                     + asm(                  \
                     + "movq 0(%5),%%rax    \n\t"  \
                     + "movq 0(%2),%%r10    \n\t"  \
                     + "movq 0x8(%5),%%r11  \n\t"  \
                     + "mulq %4             \n\t"  \
                     + "addq %%r10,%%rax    \n\t"  \
                     + "adcq $0,%%rdx       \n\t"  \
                     + "movq 0x8(%2),%%r10  \n\t"  \
                     + "addq %3,%%rax       \n\t"  \
                     + "adcq $0,%%rdx       \n\t"  \
                     + "movq %%rax,0(%0)    \n\t"  \
                     + "movq %%rdx,%1       \n\t"  \
                     + \
                     + "movq %%r11,%%rax    \n\t"  \
                     + "movq 0x10(%5),%%r11 \n\t"  \
                     + "mulq %4             \n\t"  \
                     + "addq %%r10,%%rax    \n\t"  \
                     + "adcq $0,%%rdx       \n\t"  \
                     + "movq 0x10(%2),%%r10 \n\t"  \
                     + "addq %3,%%rax       \n\t"  \
                     + "adcq $0,%%rdx       \n\t"  \
                     + "movq %%rax,0x8(%0)  \n\t"  \
                     + "movq %%rdx,%1       \n\t"  \
                     + \
                     + "movq %%r11,%%rax    \n\t"  \
                     + "movq 0x18(%5),%%r11 \n\t"  \
                     + "mulq %4             \n\t"  \
                     + "addq %%r10,%%rax    \n\t"  \
                     + "adcq $0,%%rdx       \n\t"  \
                     + "movq 0x18(%2),%%r10 \n\t"  \
                     + "addq %3,%%rax       \n\t"  \
                     + "adcq $0,%%rdx       \n\t"  \
                     + "movq %%rax,0x10(%0) \n\t"  \
                     + "movq %%rdx,%1       \n\t"  \
                     + \
                     + "movq %%r11,%%rax    \n\t"  \
                     + "movq 0x20(%5),%%r11 \n\t"  \
                     + "mulq %4             \n\t"  \
                     + "addq %%r10,%%rax    \n\t"  \
                     + "adcq $0,%%rdx       \n\t"  \
                     + "movq 0x20(%2),%%r10 \n\t"  \
                     + "addq %3,%%rax       \n\t"  \
                     + "adcq $0,%%rdx       \n\t"  \
                     + "movq %%rax,0x18(%0) \n\t"  \
                     + "movq %%rdx,%1       \n\t"  \
                     + \
                     + "movq %%r11,%%rax    \n\t"  \
                     + "movq 0x28(%5),%%r11 \n\t"  \
                     + "mulq %4             \n\t"  \
                     + "addq %%r10,%%rax    \n\t"  \
                     + "adcq $0,%%rdx       \n\t"  \
                     + "movq 0x28(%2),%%r10 \n\t"  \
                     + "addq %3,%%rax       \n\t"  \
                     + "adcq $0,%%rdx       \n\t"  \
                     + "movq %%rax,0x20(%0) \n\t"  \
                     + "movq %%rdx,%1       \n\t"  \
                     + \
                     + "movq %%r11,%%rax    \n\t"  \
                     + "movq 0x30(%5),%%r11 \n\t"  \
                     + "mulq %4             \n\t"  \
                     + "addq %%r10,%%rax    \n\t"  \
                     + "adcq $0,%%rdx       \n\t"  \
                     + "movq 0x30(%2),%%r10 \n\t"  \
                     + "addq %3,%%rax       \n\t"  \
                     + "adcq $0,%%rdx       \n\t"  \
                     + "movq %%rax,0x28(%0) \n\t"  \
                     + "movq %%rdx,%1       \n\t"  \
                     + \
                     + "movq %%r11,%%rax    \n\t"  \
                     + "movq 0x38(%5),%%r11 \n\t"  \
                     + "mulq %4             \n\t"  \
                     + "addq %%r10,%%rax    \n\t"  \
                     + "adcq $0,%%rdx       \n\t"  \
                     + "movq 0x38(%2),%%r10 \n\t"  \
                     + "addq %3,%%rax       \n\t"  \
                     + "adcq $0,%%rdx       \n\t"  \
                     + "movq %%rax,0x30(%0) \n\t"  \
                     + "movq %%rdx,%1       \n\t"  \
                     + \
                     + "movq %%r11,%%rax    \n\t"  \
                     + "mulq %4             \n\t"  \
                     + "addq %%r10,%%rax    \n\t"  \
                     + "adcq $0,%%rdx       \n\t"  \
                     + "addq %3,%%rax       \n\t"  \
                     + "adcq $0,%%rdx       \n\t"  \
                     + "movq %%rax,0x38(%0) \n\t"  \
                     + "movq %%rdx,%1       \n\t"  \
                     + \
                     +:"=r"(_c), "=r"(cy)                    \
                     +: "0"(_c),  "1"(cy), "g"(mu), "r"(tmpm)\
                     +: "%rax", "%rdx", "%r10", "%r11", "%cc")
+                    +
+                    +
                     +#define PROPCARRY                           \
                     +asm(                                        \
                     +   "addq   %1,%0    \n\t"                   \
                     +   "setb   %%al     \n\t"                   \
                     +   "movzbq %%al,%1 \n\t"                    \
                     +:"=g"(_c[LO]), "=r"(cy)                     \
                     +:"0"(_c[LO]), "1"(cy)                       \
                     +: "%rax", "%cc")
+                    +
                     +/******************************************************************/
                     +#elif defined(TFM_SSE2)
                     +/* SSE2 code (assumes 32-bit fp_digits) */
                     +/* XMM register assignments:
                     + * xmm0  *tmpm++, then Mu * (*tmpm++)
                     + * xmm1  c[x], then Mu
                     + * xmm2  mp
                     + * xmm3  cy
                     + * xmm4  _c[LO]
                     + */
+                    +
                     +#define MONT_START \
                     +   asm("movd %0,%%mm2"::"g"(mp))
+                    +
                     +#define MONT_FINI \
                     +   asm("emms")
+                    +
                     +#define LOOP_START          \
                     +asm(                        \
                     +"movd %0,%%mm1        \n\t" \
                     +"pxor %%mm3,%%mm3     \n\t" \
                     +"pmuludq %%mm2,%%mm1  \n\t" \
                     +:: "g"(c[x]))
+                    +
                     +/* pmuludq on mmx registers does a 32x32->64 multiply. */
                     +#define INNERMUL               \
                     +asm(                           \
                     +   "movd %1,%%mm4        \n\t" \
                     +   "movd %2,%%mm0        \n\t" \
                     +   "paddq %%mm4,%%mm3    \n\t" \
                     +   "pmuludq %%mm1,%%mm0  \n\t" \
                     +   "paddq %%mm0,%%mm3    \n\t" \
                     +   "movd %%mm3,%0        \n\t" \
                     +   "psrlq $32, %%mm3     \n\t" \
                     +:"=g"(_c[LO]) : "0"(_c[LO]), "g"(*tmpm++) );
+                    +
                     +#define INNERMUL8 \
                     +asm(                           \
                     +   "movd 0(%1),%%mm4     \n\t" \
                     +   "movd 0(%2),%%mm0     \n\t" \
                     +   "paddq %%mm4,%%mm3    \n\t" \
                     +   "pmuludq %%mm1,%%mm0  \n\t" \
                     +   "movd 4(%2),%%mm5     \n\t" \
                     +   "paddq %%mm0,%%mm3    \n\t" \
                     +   "movd 4(%1),%%mm6     \n\t" \
                     +   "movd %%mm3,0(%0)     \n\t" \
                     +   "psrlq $32, %%mm3     \n\t" \
                     +\
                     +   "paddq %%mm6,%%mm3    \n\t" \
                     +   "pmuludq %%mm1,%%mm5  \n\t" \
                     +   "movd 8(%2),%%mm6     \n\t" \
                     +   "paddq %%mm5,%%mm3    \n\t" \
                     +   "movd 8(%1),%%mm7     \n\t" \
                     +   "movd %%mm3,4(%0)     \n\t" \
                     +   "psrlq $32, %%mm3     \n\t" \
                     +\
                     +   "paddq %%mm7,%%mm3    \n\t" \
                     +   "pmuludq %%mm1,%%mm6  \n\t" \
                     +   "movd 12(%2),%%mm7    \n\t" \
                     +   "paddq %%mm6,%%mm3    \n\t" \
                     +   "movd 12(%1),%%mm5     \n\t" \
                     +   "movd %%mm3,8(%0)     \n\t" \
                     +   "psrlq $32, %%mm3     \n\t" \
                     +\
                     +   "paddq %%mm5,%%mm3    \n\t" \
                     +   "pmuludq %%mm1,%%mm7  \n\t" \
                     +   "movd 16(%2),%%mm5    \n\t" \
                     +   "paddq %%mm7,%%mm3    \n\t" \
                     +   "movd 16(%1),%%mm6    \n\t" \
                     +   "movd %%mm3,12(%0)    \n\t" \
                     +   "psrlq $32, %%mm3     \n\t" \
                     +\
                     +   "paddq %%mm6,%%mm3    \n\t" \
                     +   "pmuludq %%mm1,%%mm5  \n\t" \
                     +   "movd 20(%2),%%mm6    \n\t" \
                     +   "paddq %%mm5,%%mm3    \n\t" \
                     +   "movd 20(%1),%%mm7    \n\t" \
                     +   "movd %%mm3,16(%0)    \n\t" \
                     +   "psrlq $32, %%mm3     \n\t" \
                     +\
                     +   "paddq %%mm7,%%mm3    \n\t" \
                     +   "pmuludq %%mm1,%%mm6  \n\t" \
                     +   "movd 24(%2),%%mm7    \n\t" \
                     +   "paddq %%mm6,%%mm3    \n\t" \
                     +   "movd 24(%1),%%mm5     \n\t" \
                     +   "movd %%mm3,20(%0)    \n\t" \
                     +   "psrlq $32, %%mm3     \n\t" \
                     +\
                     +   "paddq %%mm5,%%mm3    \n\t" \
                     +   "pmuludq %%mm1,%%mm7  \n\t" \
                     +   "movd 28(%2),%%mm5    \n\t" \
                     +   "paddq %%mm7,%%mm3    \n\t" \
                     +   "movd 28(%1),%%mm6    \n\t" \
                     +   "movd %%mm3,24(%0)    \n\t" \
                     +   "psrlq $32, %%mm3     \n\t" \
                     +\
                     +   "paddq %%mm6,%%mm3    \n\t" \
                     +   "pmuludq %%mm1,%%mm5  \n\t" \
                     +   "paddq %%mm5,%%mm3    \n\t" \
                     +   "movd %%mm3,28(%0)    \n\t" \
                     +   "psrlq $32, %%mm3     \n\t" \
                     +:"=r"(_c) : "0"(_c), "g"(tmpm) );
+                    +
                     +#define LOOP_END \
                     +asm( "movd %%mm3,%0  \n" :"=r"(cy))
+                    +
                     +#define PROPCARRY                           \
                     +asm(                                        \
                     +   "addl   %1,%0    \n\t"                   \
                     +   "setb   %%al     \n\t"                   \
                     +   "movzbl %%al,%1 \n\t"                    \
                     +:"=g"(_c[LO]), "=r"(cy)                     \
                     +:"0"(_c[LO]), "1"(cy)                       \
                     +: "%eax", "%cc")
+                    +
                     +/******************************************************************/
                     +#elif defined(TFM_ARM)
                     +   /* ARMv4 code */
+                    +
                     +#define MONT_START
                     +#define MONT_FINI
                     +#define LOOP_END
                     +#define LOOP_START \
                     +   mu = c[x] * mp
+                    +
                     +#define INNERMUL                    \
                     +asm(                                \
                     +    " LDR    r0,%1            \n\t" \
                     +    " ADDS   r0,r0,%0         \n\t" \
                     +    " MOVCS  %0,#1            \n\t" \
                     +    " MOVCC  %0,#0            \n\t" \
                     +    " UMLAL  r0,%0,%3,%4      \n\t" \
                     +    " STR    r0,%1            \n\t" \
                     +:"=r"(cy),"=m"(_c[0]):"0"(cy),"r"(mu),"r"(*tmpm++),"1"(_c[0]):"r0","%cc");
+                    +
                     +#define PROPCARRY                  \
                     +asm(                               \
                     +    " LDR   r0,%1            \n\t" \
                     +    " ADDS  r0,r0,%0         \n\t" \
                     +    " STR   r0,%1            \n\t" \
                     +    " MOVCS %0,#1            \n\t" \
                     +    " MOVCC %0,#0            \n\t" \
                     +:"=r"(cy),"=m"(_c[0]):"0"(cy),"1"(_c[0]):"r0","%cc");
+                    +
                     +/******************************************************************/
                     +#elif defined(TFM_PPC32)
+                    +
                     +/* PPC32 */
                     +#define MONT_START
                     +#define MONT_FINI
                     +#define LOOP_END
                     +#define LOOP_START \
                     +   mu = c[x] * mp
+                    +
                     +#define INNERMUL                     \
                     +asm(                                 \
                     +   " mullw    16,%3,%4       \n\t"   \
                     +   " mulhwu   17,%3,%4       \n\t"   \
                     +   " addc     16,16,%0       \n\t"   \
                     +   " addze    17,17          \n\t"   \
                     +   " lwz      18,%1          \n\t"   \
                     +   " addc     16,16,18       \n\t"   \
                     +   " addze    %0,17          \n\t"   \
                     +   " stw      16,%1          \n\t"   \
                     +:"=r"(cy),"=m"(_c[0]):"0"(cy),"r"(mu),"r"(tmpm[0]),"1"(_c[0]):"16", "17", "18","%cc"); ++tmpm;
+                    +
                     +#define PROPCARRY                    \
                     +asm(                                 \
                     +   " lwz      16,%1         \n\t"    \
                     +   " addc     16,16,%0      \n\t"    \
                     +   " stw      16,%1         \n\t"    \
                     +   " xor      %0,%0,%0      \n\t"    \
                     +   " addze    %0,%0         \n\t"    \
                     +:"=r"(cy),"=m"(_c[0]):"0"(cy),"1"(_c[0]):"16","%cc");
+                    +
                     +/******************************************************************/
                     +#elif defined(TFM_PPC64)
+                    +
                     +/* PPC64 */
                     +#define MONT_START
                     +#define MONT_FINI
                     +#define LOOP_END
                     +#define LOOP_START \
                     +   mu = c[x] * mp
+                    +
                     +#define INNERMUL                     \
                     +asm(                                 \
                     +   " mulld    r16,%3,%4       \n\t"   \
                     +   " mulhdu   r17,%3,%4       \n\t"   \
                     +   " addc     r16,16,%0       \n\t"   \
                     +   " addze    r17,r17          \n\t"   \
                     +   " ldx      r18,0,%1        \n\t"   \
                     +   " addc     r16,r16,r18       \n\t"   \
                     +   " addze    %0,r17          \n\t"   \
                     +   " sdx      r16,0,%1        \n\t"   \
                     +:"=r"(cy),"=m"(_c[0]):"0"(cy),"r"(mu),"r"(tmpm[0]),"1"(_c[0]):"r16", "r17", "r18","%cc"); ++tmpm;
+                    +
                     +#define PROPCARRY                    \
                     +asm(                                 \
                     +   " ldx      r16,0,%1       \n\t"    \
                     +   " addc     r16,r16,%0      \n\t"    \
                     +   " sdx      r16,0,%1       \n\t"    \
                     +   " xor      %0,%0,%0      \n\t"    \
                     +   " addze    %0,%0         \n\t"    \
                     +:"=r"(cy),"=m"(_c[0]):"0"(cy),"1"(_c[0]):"r16","%cc");
+                    +
                     +/******************************************************************/
                     +#elif defined(TFM_AVR32)
+                    +
                     +/* AVR32 */
                     +#define MONT_START
                     +#define MONT_FINI
                     +#define LOOP_END
                     +#define LOOP_START \
                     +   mu = c[x] * mp
+                    +
                     +#define INNERMUL                    \
                     +asm(                                \
                     +    " ld.w   r2,%1            \n\t" \
                     +    " add    r2,%0            \n\t" \
                     +    " eor    r3,r3            \n\t" \
                     +    " acr    r3               \n\t" \
                     +    " macu.d r2,%3,%4         \n\t" \
                     +    " st.w   %1,r2            \n\t" \
                     +    " mov    %0,r3            \n\t" \
                     +:"=r"(cy),"=r"(_c):"0"(cy),"r"(mu),"r"(*tmpm++),"1"(_c):"r2","r3");
+                    +
                     +#define PROPCARRY                    \
                     +asm(                                 \
                     +   " ld.w     r2,%1         \n\t"    \
                     +   " add      r2,%0         \n\t"    \
                     +   " st.w     %1,r2         \n\t"    \
                     +   " eor      %0,%0         \n\t"    \
                     +   " acr      %0            \n\t"    \
                     +:"=r"(cy),"=r"(&_c[0]):"0"(cy),"1"(&_c[0]):"r2","%cc");
+                    +
                     +/******************************************************************/
                     +#elif defined(TFM_MIPS)
+                    +
                     +/* MIPS */
                     +#define MONT_START
                     +#define MONT_FINI
                     +#define LOOP_END
                     +#define LOOP_START \
                     +   mu = c[x] * mp
+                    +
                     +#define INNERMUL                     \
                     +asm(                                 \
                     +   " multu    %3,%4          \n\t"   \
                     +   " mflo     $12            \n\t"   \
                     +   " mfhi     $13            \n\t"   \
                     +   " addu     $12,$12,%0     \n\t"   \
                     +   " sltu     $10,$12,%0     \n\t"   \
                     +   " addu     $13,$13,$10    \n\t"   \
                     +   " lw       $10,%1         \n\t"   \
                     +   " addu     $12,$12,$10    \n\t"   \
                     +   " sltu     $10,$12,$10    \n\t"   \
                     +   " addu     %0,$13,$10     \n\t"   \
                     +   " sw       $12,%1         \n\t"   \
                     +:"=r"(cy),"=m"(_c[0]):"0"(cy),"r"(mu),"r"(tmpm[0]),"1"(_c[0]):"$10","$12","$13"); ++tmpm;
+                    +
                     +#define PROPCARRY                    \
                     +asm(                                 \
                     +   " lw       $10,%1        \n\t"    \
                     +   " addu     $10,$10,%0    \n\t"    \
                     +   " sw       $10,%1        \n\t"    \
                     +   " sltu     %0,$10,%0     \n\t"    \
                     +:"=r"(cy),"=m"(_c[0]):"0"(cy),"1"(_c[0]):"$10");
+                    +
                     +/******************************************************************/
                     +#else
                     -/* computes xR**-1 == x (mod N) via Montgomery Reduction */
                     -int
                     -mp_montgomery_reduce (mp_int * x, mp_int * n, mp_digit rho)
                     -{
                     -  int     ix, res, digs;
                     -  mp_digit mu;
                     +/* ISO C code */
                     +#define MONT_START
                     +#define MONT_FINI
                     +#define LOOP_END
                     +#define LOOP_START \
                     +   mu = c[x] * mp
                     -  /* can the fast reduction [comba] method be used?
                     -   *
                     -   * Note that unlike in mul you're safely allowed *less*
                     -   * than the available columns [255 per default] since carries
                     -   * are fixed up in the inner loop.
                     -   */
                     -  digs = n->used * 2 + 1;
                     -  if ((digs < MP_WARRAY) &&
                     -      n->used <
                     -      (1 << ((CHAR_BIT * sizeof (mp_word)) - (2 * DIGIT_BIT)))) {
                     -    return fast_mp_montgomery_reduce (x, n, rho);
                     -  }
                     +#define INNERMUL                                      \
                     +   do { fp_word t;                                    \
                     +   _c[0] = t  = ((fp_word)_c[0] + (fp_word)cy) +      \
                     +                (((fp_word)mu) * ((fp_word)*tmpm++)); \
                     +   cy = (t >> DIGIT_BIT);                             \
                     +   } while (0)
                     -  /* grow the input as required */
                     -  if (x->alloc < digs) {
                     -    if ((res = mp_grow (x, digs)) != MP_OKAY) {
                     -      return res;
                     -    }
                     -  }
                     -  x->used = digs;
+                    -
                     -  for (ix = 0; ix < n->used; ix++) {
                     -    /* mu = ai * rho mod b
                     -     *
                     -     * The value of rho must be precalculated via
                     -     * montgomery_setup() such that
                     -     * it equals -1/n0 mod b this allows the
                     -     * following inner loop to reduce the
                     -     * input one digit at a time
                     -     */
                     -    mu = (mp_digit) (((mp_word)x->dp[ix]) * ((mp_word)rho) & MP_MASK);
                     +#define PROPCARRY \
                     +   do { fp_digit t = _c[0] += cy; cy = (t < cy); } while (0)
                     -    /* a = a + mu * m * b**i */
                     -    {
                     -      register int iy;
                     -      register mp_digit *tmpn, *tmpx, u;
                     -      register mp_word r;
                     +#endif
                     +/******************************************************************/
                     -      /* alias for digits of the modulus */
                     -      tmpn = n->dp;
                     -      /* alias for the digits of x [the input] */
                     -      tmpx = x->dp + ix;
                     +#define LO  0
                     -      /* set the carry to zero */
                     -      u = 0;
                     +#ifdef TFM_SMALL_MONT_SET
                     +#include "fp_mont_small.i"
                     +#endif
                     -      /* Multiply and add in place */
                     -      for (iy = 0; iy < n->used; iy++) {
                     -        /* compute product and sum */
                     -        r       = ((mp_word)mu) * ((mp_word)*tmpn++) +
                     -                  ((mp_word) u) + ((mp_word) * tmpx);
                     +/* computes x/R == x (mod N) via Montgomery Reduction */
                     +void fp_montgomery_reduce(fp_int *a, fp_int *m, fp_digit mp)
                     +{
                     +   fp_digit c[FP_SIZE], *_c, *tmpm, mu;
                     +   int      oldused, x, y, pa;
                     -        /* get carry */
                     -        u       = (mp_digit)(r >> ((mp_word) DIGIT_BIT));
                     +   /* bail if too large */
                     +   if (m->used > (FP_SIZE/2)) {
                     +      return;
                     +   }
                     -        /* fix digit */
                     -        *tmpx++ = (mp_digit)(r & ((mp_word) MP_MASK));
                     -      }
                     -      /* At this point the ix'th digit of x should be zero */
                     +#ifdef TFM_SMALL_MONT_SET
                     +   if (m->used <= 16) {
                     +      fp_montgomery_reduce_small(a, m, mp);
                     +      return;
                     +   }
                     +#endif
                     +#if defined(USE_MEMSET)
                     +   /* now zero the buff */
                     +   memset(c, 0, sizeof c);
                     +#endif
                     +   pa = m->used;
                     -      /* propagate carries upwards as required*/
                     -      while (u) {
                     -        *tmpx   += u;
                     -        u        = *tmpx >> DIGIT_BIT;
                     -        *tmpx++ &= MP_MASK;
                     -      }
                     -    }
                     +   /* copy the input */
                     +   oldused = a->used;
                     +   for (x = 0; x < oldused; x++) {
                     +       c[x] = a->dp[x];
                     +   }
                     +#if !defined(USE_MEMSET)
                     +   for (; x < 2*pa+1; x++) {
                     +       c[x] = 0;
                     +   }
                     +#endif
                     +   MONT_START;
+                    +
                     +   for (x = 0; x < pa; x++) {
                     +       fp_digit cy = 0;
                     +       /* get Mu for this round */
                     +       LOOP_START;
                     +       _c   = c + x;
                     +       tmpm = m->dp;
                     +       y = 0;
                     +       #if (defined(TFM_SSE2) || defined(TFM_X86_64))
                     +        for (; y < (pa & ~7); y += 8) {
                     +              INNERMUL8;
                     +              _c   += 8;
                     +              tmpm += 8;
                     +           }
                     +       #endif
+                    +
                     +       for (; y < pa; y++) {
                     +          INNERMUL;
                     +          ++_c;
                     +       }
                     +       LOOP_END;
                     +       while (cy) {
                     +           PROPCARRY;
                     +           ++_c;
                     +       }
                     +  }
+                    +
                     +  /* now copy out */
                     +  _c   = c + pa;
                     +  tmpm = a->dp;
                     +  for (x = 0; x < pa+1; x++) {
                     +     *tmpm++ = *_c++;
+                       }
                     -  /* at this point the n.used'th least
                     -   * significant digits of x are all zero
                     -   * which means we can shift x to the
                     -   * right by n.used digits and the
                     -   * residue is unchanged.
                     -   */
                     +  for (; x < oldused; x++)   {
                     +     *tmpm++ = 0;
                     +  }
                     -  /* x = x/b**n.used */
                     -  mp_clamp(x);
                     -  mp_rshd (x, n->used);
                     +  MONT_FINI;
                     -  /* if x >= n then x = x - n */
                     -  if (mp_cmp_mag (x, n) != MP_LT) {
                     -    return s_mp_sub (x, n, x);
                     +  a->used = pa+1;
                     +  fp_clamp(a);
+                    +
                     +  /* if A >= m then A = A - m */
                     +  if (fp_cmp_mag (a, m) != FP_LT) {
                     +    s_fp_sub (a, m, a);
+                       }
+                    -
                     -  return MP_OKAY;
+                     }
                     -#endif
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_montgomery_reduce.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
                     -/* End: bn_mp_montgomery_reduce.c */
                     +/* $Source: /cvs/libtom/tomsfastmath/src/mont/fp_montgomery_reduce.c,v $ */
                     +/* $Revision: 1.2 $ */
                     +/* $Date: 2007/03/14 23:47:42 $ */
                     -/* Start: bn_mp_montgomery_setup.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_MONTGOMERY_SETUP_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     +/* End: fp_montgomery_reduce.c */
+                    +
                     +/* Start: fp_montgomery_setup.c */
                     +/* TomsFastMath, a fast ISO C bignum library.
                     + *
                     + * This project is meant to fill in where LibTomMath
                     + * falls short.  That is speed ;-)
+                      *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     + * This project is public domain and free for all purposes.
                     + *
                     + * Tom St Denis, tomstdenis@gmail.com
                       */
                     +#include "bignum_fast.h"
                     -/* setups the montgomery reduction stuff */
                     -int
                     -mp_montgomery_setup (mp_int * n, mp_digit * rho)
                     +/* setups the montgomery reduction */
                     +int fp_montgomery_setup(fp_int *a, fp_digit *rho)
+                     {
                     -  mp_digit x, b;
                     +  fp_digit x, b;
                      /* fast inversion mod 2**k
+                      *
@@ -4887,142 +2298,186 @@ mp_montgomery_setup (mp_int * n, mp_digit * rho)
                       *                    =>  2*X*A - X*X*A*A = 1
                       *                    =>  2*(1) - (1)     = 1
                       */
                     -  b = n->dp[0];
                     +  b = a->dp[0];
                        if ((b & 1) == 0) {
                     -    return MP_VAL;
                     +    return FP_VAL;
+                       }
                        x = (((b + 2) & 4) << 1) + b; /* here x*a==1 mod 2**4 */
                        x *= 2 - b * x;               /* here x*a==1 mod 2**8 */
                     -#if !defined(MP_8BIT)
                        x *= 2 - b * x;               /* here x*a==1 mod 2**16 */
                     -#endif
                     -#if defined(MP_64BIT) || !(defined(MP_8BIT) || defined(MP_16BIT))
                        x *= 2 - b * x;               /* here x*a==1 mod 2**32 */
                     -#endif
                     -#ifdef MP_64BIT
                     +#ifdef FP_64BIT
                        x *= 2 - b * x;               /* here x*a==1 mod 2**64 */
                      #endif
                        /* rho = -1/m mod b */
                     -  *rho = (((mp_word)1 << ((mp_word) DIGIT_BIT)) - x) & MP_MASK;
                     +  *rho = (((fp_word) 1 << ((fp_word) DIGIT_BIT)) - ((fp_word)x));
                     -  return MP_OKAY;
                     +  return FP_OKAY;
+                     }
                     -#endif
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_montgomery_setup.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
                     -/* End: bn_mp_montgomery_setup.c */
                     +/* $Source: /cvs/libtom/tomsfastmath/src/mont/fp_montgomery_setup.c,v $ */
                     +/* $Revision: 1.1 $ */
                     +/* $Date: 2006/12/31 21:25:53 $ */
                     -/* Start: bn_mp_mul.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_MUL_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     +/* End: fp_montgomery_setup.c */
+                    +
                     +/* Start: fp_mul.c */
                     +/* TomsFastMath, a fast ISO C bignum library.
                     + *
                     + * This project is meant to fill in where LibTomMath
                     + * falls short.  That is speed ;-)
+                      *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     + * This project is public domain and free for all purposes.
                     + *
                     + * Tom St Denis, tomstdenis@gmail.com
                       */
                     +#include "bignum_fast.h"
                     -/* high level multiplication (handles sign) */
                     -int mp_mul (mp_int * a, mp_int * b, mp_int * c)
                     +/* c = a * b */
                     +void fp_mul(fp_int *A, fp_int *B, fp_int *C)
+                     {
                     -  int     res, neg;
                     -  neg = (a->sign == b->sign) ? MP_ZPOS : MP_NEG;
+                    -
                     -  /* use Toom-Cook? */
                     -#ifdef BN_MP_TOOM_MUL_C
                     -  if (MIN (a->used, b->used) >= TOOM_MUL_CUTOFF) {
                     -    res = mp_toom_mul(a, b, c);
                     -  } else
                     +    int   y, yy;
+                    +
                     +    /* call generic if we're out of range */
                     +    if (A->used + B->used > FP_SIZE) {
                     +       fp_mul_comba(A, B, C);
                     +       return ;
                     +    }
+                    +
                     +     y  = MAX(A->used, B->used);
                     +     yy = MIN(A->used, B->used);
                     +    /* pick a comba (unrolled 4/8/16/32 x or rolled) based on the size
                     +       of the largest input.  We also want to avoid doing excess mults if the
                     +       inputs are not close to the next power of two.  That is, for example,
                     +       if say y=17 then we would do (32-17)^2 = 225 unneeded multiplications
                     +    */
+                    +
                     +#ifdef TFM_MUL3
                     +        if (y <= 3) {
                     +           fp_mul_comba3(A,B,C);
                     +           return;
                     +        }
                      #endif
                     -#ifdef BN_MP_KARATSUBA_MUL_C
                     -  /* use Karatsuba? */
                     -  if (MIN (a->used, b->used) >= KARATSUBA_MUL_CUTOFF) {
                     -    res = mp_karatsuba_mul (a, b, c);
                     -  } else
                     +#ifdef TFM_MUL4
                     +        if (y == 4) {
                     +           fp_mul_comba4(A,B,C);
                     +           return;
                     +        }
                      #endif
                     -  {
                     -    /* can we use the fast multiplier?
                     -     *
                     -     * The fast multiplier can be used if the output will
                     -     * have less than MP_WARRAY digits and the number of
                     -     * digits won't affect carry propagation
                     -     */
                     -    int     digs = a->used + b->used + 1;
+                    -
                     -#ifdef BN_FAST_S_MP_MUL_DIGS_C
                     -    if ((digs < MP_WARRAY) &&
                     -        MIN(a->used, b->used) <=
                     -        (1 << ((CHAR_BIT * sizeof (mp_word)) - (2 * DIGIT_BIT)))) {
                     -      res = fast_s_mp_mul_digs (a, b, c, digs);
                     -    } else
                     +#ifdef TFM_MUL6
                     +        if (y <= 6) {
                     +           fp_mul_comba6(A,B,C);
                     +           return;
                     +        }
                      #endif
                     -#ifdef BN_S_MP_MUL_DIGS_C
                     -      res = s_mp_mul (a, b, c); /* uses s_mp_mul_digs */
                     -#else
                     -      res = MP_VAL;
                     +#ifdef TFM_MUL7
                     +        if (y == 7) {
                     +           fp_mul_comba7(A,B,C);
                     +           return;
                     +        }
                     +#endif
                     +#ifdef TFM_MUL8
                     +        if (y == 8) {
                     +           fp_mul_comba8(A,B,C);
                     +           return;
                     +        }
                     +#endif
                     +#ifdef TFM_MUL9
                     +        if (y == 9) {
                     +           fp_mul_comba9(A,B,C);
                     +           return;
                     +        }
                     +#endif
                     +#ifdef TFM_MUL12
                     +        if (y <= 12) {
                     +           fp_mul_comba12(A,B,C);
                     +           return;
                     +        }
                     +#endif
                     +#ifdef TFM_MUL17
                     +        if (y <= 17) {
                     +           fp_mul_comba17(A,B,C);
                     +           return;
                     +        }
                      #endif
                     -  }
                     -  c->sign = (c->used > 0) ? neg : MP_ZPOS;
                     -  return res;
                     -}
                     +#ifdef TFM_SMALL_SET
                     +        if (y <= 16) {
                     +           fp_mul_comba_small(A,B,C);
                     +           return;
                     +        }
                     +#endif
                     +#if defined(TFM_MUL20)
                     +        if (y <= 20) {
                     +           fp_mul_comba20(A,B,C);
                     +           return;
                     +        }
                     +#endif
                     +#if defined(TFM_MUL24)
                     +        if (yy >= 16 && y <= 24) {
                     +           fp_mul_comba24(A,B,C);
                     +           return;
                     +        }
                     +#endif
                     +#if defined(TFM_MUL28)
                     +        if (yy >= 20 && y <= 28) {
                     +           fp_mul_comba28(A,B,C);
                     +           return;
                     +        }
                     +#endif
                     +#if defined(TFM_MUL32)
                     +        if (yy >= 24 && y <= 32) {
                     +           fp_mul_comba32(A,B,C);
                     +           return;
                     +        }
                      #endif
                     +#if defined(TFM_MUL48)
                     +        if (yy >= 40 && y <= 48) {
                     +           fp_mul_comba48(A,B,C);
                     +           return;
                     +        }
                     +#endif
                     +#if defined(TFM_MUL64)
                     +        if (yy >= 56 && y <= 64) {
                     +           fp_mul_comba64(A,B,C);
                     +           return;
                     +        }
                     +#endif
                     +        fp_mul_comba(A,B,C);
                     +}
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_mul.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
                     -/* End: bn_mp_mul.c */
                     +/* $Source: /cvs/libtom/tomsfastmath/src/mul/fp_mul.c,v $ */
                     +/* $Revision: 1.1 $ */
                     +/* $Date: 2006/12/31 21:25:53 $ */
                     -/* Start: bn_mp_mul_2.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_MUL_2_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     +/* End: fp_mul.c */
+                    +
                     +/* Start: fp_mul_2.c */
                     +/* TomsFastMath, a fast ISO C bignum library.
                     + *
                     + * This project is meant to fill in where LibTomMath
                     + * falls short.  That is speed ;-)
+                      *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     + * This project is public domain and free for all purposes.
                     + *
                     + * Tom St Denis, tomstdenis@gmail.com
                       */
                     +#include "bignum_fast.h"
                     -/* b = a*2 */
                     -int mp_mul_2(mp_int * a, mp_int * b)
                     +void fp_mul_2(fp_int * a, fp_int * b)
+                     {
                     -  int     x, res, oldused;
+                    -
                     -  /* grow to accomodate result */
                     -  if (b->alloc < a->used + 1) {
                     -    if ((res = mp_grow (b, a->used + 1)) != MP_OKAY) {
                     -      return res;
                     -    }
                     -  }
+                    -
                     +  int     x, oldused;
+                    +
                        oldused = b->used;
                        b->used = a->used;
+                       {
                     -    register mp_digit r, rr, *tmpa, *tmpb;
                     +    register fp_digit r, rr, *tmpa, *tmpb;
                          /* alias for source */
                          tmpa = a->dp;
@@ -5037,10 +2492,10 @@ int mp_mul_2(mp_int * a, mp_int * b)
                            /* get what will be the *next* carry bit from the
                             * MSB of the current digit
                             */
                     -      rr = *tmpa >> ((mp_digit)(DIGIT_BIT - 1));
                     +      rr = *tmpa >> ((fp_digit)(DIGIT_BIT - 1));
                            /* now shift up this digit, add in the carry [from the previous] */
                     -      *tmpb++ = ((*tmpa++ << ((mp_digit)1)) | r) & MP_MASK;
                     +      *tmpb++ = ((*tmpa++ << ((fp_digit)1)) | r);
                            /* copy the carry that would be from the source
                             * digit into the next iteration
@@ -5049,7 +2504,7 @@ int mp_mul_2(mp_int * a, mp_int * b)
+                         }
                          /* new leading digit? */
                     -    if (r != 0) {
                     +    if (r != 0 && b->used != (FP_SIZE-1)) {
                            /* add a MSB which is always 1 at this point */
                            *tmpb = 1;
                            ++(b->used);
@@ -5064,690 +2519,4287 @@ int mp_mul_2(mp_int * a, mp_int * b)
+                         }
+                       }
                        b->sign = a->sign;
                     -  return MP_OKAY;
+                     }
                     -#endif
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_mul_2.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
                     -/* End: bn_mp_mul_2.c */
                     +/* $Source: /cvs/libtom/tomsfastmath/src/mul/fp_mul_2.c,v $ */
                     +/* $Revision: 1.1 $ */
                     +/* $Date: 2006/12/31 21:25:53 $ */
                     -/* Start: bn_mp_mul_2d.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_MUL_2D_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     +/* End: fp_mul_2.c */
+                    +
                     +/* Start: fp_mul_2d.c */
                     +/* TomsFastMath, a fast ISO C bignum library.
                     + *
                     + * This project is meant to fill in where LibTomMath
                     + * falls short.  That is speed ;-)
+                      *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     + * This project is public domain and free for all purposes.
                     + *
                     + * Tom St Denis, tomstdenis@gmail.com
                       */
                     +#include "bignum_fast.h"
                     -/* shift left by a certain bit count */
                     -int mp_mul_2d (mp_int * a, int b, mp_int * c)
                     +/* c = a * 2**d */
                     +void fp_mul_2d(fp_int *a, int b, fp_int *c)
+                     {
                     -  mp_digit d;
                     -  int      res;
                     +   fp_digit carry, carrytmp, shift;
                     +   int x;
                     -  /* copy */
                     -  if (a != c) {
                     -     if ((res = mp_copy (a, c)) != MP_OKAY) {
                     -       return res;
                     -     }
                     -  }
                     +   /* copy it */
                     +   fp_copy(a, c);
                     -  if (c->alloc < (int)(c->used + b/DIGIT_BIT + 1)) {
                     -     if ((res = mp_grow (c, c->used + b / DIGIT_BIT + 1)) != MP_OKAY) {
                     -       return res;
                     -     }
                     -  }
                     +   /* handle whole digits */
                     +   if (b >= DIGIT_BIT) {
                     +      fp_lshd(c, b/DIGIT_BIT);
                     +   }
                     +   b %= DIGIT_BIT;
+                    +
                     +   /* shift the digits */
                     +   if (b != 0) {
                     +      carry = 0;
                     +      shift = DIGIT_BIT - b;
                     +      for (x = 0; x < c->used; x++) {
                     +          carrytmp = c->dp[x] >> shift;
                     +          c->dp[x] = (c->dp[x] << b) + carry;
                     +          carry = carrytmp;
                     +      }
                     +      /* store last carry if room */
                     +      if (carry && x < FP_SIZE) {
                     +         c->dp[c->used++] = carry;
                     +      }
                     +   }
                     +   fp_clamp(c);
                     +}
                     -  /* shift by as many digits in the bit count */
                     -  if (b >= (int)DIGIT_BIT) {
                     -    if ((res = mp_lshd (c, b / DIGIT_BIT)) != MP_OKAY) {
                     -      return res;
                     -    }
                     -  }
                     -  /* shift any bit count < DIGIT_BIT */
                     -  d = (mp_digit) (b % DIGIT_BIT);
                     -  if (d != 0) {
                     -    register mp_digit *tmpc, shift, mask, r, rr;
                     -    register int x;
                     +/* $Source: /cvs/libtom/tomsfastmath/src/mul/fp_mul_2d.c,v $ */
                     +/* $Revision: 1.1 $ */
                     +/* $Date: 2006/12/31 21:25:53 $ */
                     -    /* bitmask for carries */
                     -    mask = (((mp_digit)1) << d) - 1;
                     +/* End: fp_mul_2d.c */
                     -    /* shift for msbs */
                     -    shift = DIGIT_BIT - d;
                     +/* Start: fp_mul_comba.c */
                     +/* TomsFastMath, a fast ISO C bignum library.
                     + *
                     + * This project is meant to fill in where LibTomMath
                     + * falls short.  That is speed ;-)
                     + *
                     + * This project is public domain and free for all purposes.
                     + *
                     + * Tom St Denis, tomstdenis@gmail.com
                     + */
                     -    /* alias */
                     -    tmpc = c->dp;
                     +/* About this file...
                     -    /* carry */
                     -    r    = 0;
                     -    for (x = 0; x < c->used; x++) {
                     -      /* get the higher bits of the current word */
                     -      rr = (*tmpc >> shift) & mask;
                     +*/
                     -      /* shift the current word and OR in the carry */
                     -      *tmpc = ((*tmpc << d) | r) & MP_MASK;
                     -      ++tmpc;
                     +#include "bignum_fast.h"
                     -      /* set the carry to the carry bits of the current word */
                     -      r = rr;
                     -    }
+                    -
                     -    /* set final carry */
                     -    if (r != 0) {
                     -       c->dp[(c->used)++] = r;
                     -    }
                     -  }
                     -  mp_clamp (c);
                     -  return MP_OKAY;
                     -}
                     +#if defined(TFM_PRESCOTT) && defined(TFM_SSE2)
                     +   #undef TFM_SSE2
                     +   #define TFM_X86
                      #endif
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_mul_2d.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
                     +/* these are the combas.  Worship them. */
                     +#if defined(TFM_X86)
                     +/* Generic x86 optimized code */
+                    +
                     +/* anything you need at the start */
                     +#define COMBA_START
+                    +
                     +/* clear the chaining variables */
                     +#define COMBA_CLEAR \
                     +   c0 = c1 = c2 = 0;
+                    +
                     +/* forward the carry to the next digit */
                     +#define COMBA_FORWARD \
                     +   do { c0 = c1; c1 = c2; c2 = 0; } while (0);
+                    +
                     +/* store the first sum */
                     +#define COMBA_STORE(x) \
                     +   x = c0;
                     -/* End: bn_mp_mul_2d.c */
                     +/* store the second sum [carry] */
                     +#define COMBA_STORE2(x) \
                     +   x = c1;
                     -/* Start: bn_mp_mul_d.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_MUL_D_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     - *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     - */
                     +/* anything you need at the end */
                     +#define COMBA_FINI
                     -/* multiply by a digit */
                     -int
                     -mp_mul_d (mp_int * a, mp_digit b, mp_int * c)
                     -{
                     -  mp_digit u, *tmpa, *tmpc;
                     -  mp_word  r;
                     -  int      ix, res, olduse;
                     +/* this should multiply i and j  */
                     +#define MULADD(i, j)                                      \
                     +asm(                                                      \
                     +     "movl  %6,%%eax     \n\t"                            \
                     +     "mull  %7           \n\t"                            \
                     +     "addl  %%eax,%0     \n\t"                            \
                     +     "adcl  %%edx,%1     \n\t"                            \
                     +     "adcl  $0,%2        \n\t"                            \
                     +     :"=r"(c0), "=r"(c1), "=r"(c2): "0"(c0), "1"(c1), "2"(c2), "m"(i), "m"(j)  :"%eax","%edx","%cc");
+                    +
                     +#elif defined(TFM_X86_64)
                     +/* x86-64 optimized */
                     -  /* make sure c is big enough to hold a*b */
                     -  if (c->alloc < a->used + 1) {
                     -    if ((res = mp_grow (c, a->used + 1)) != MP_OKAY) {
                     -      return res;
                     -    }
                     -  }
                     +/* anything you need at the start */
                     +#define COMBA_START
                     -  /* get the original destinations used count */
                     -  olduse = c->used;
                     +/* clear the chaining variables */
                     +#define COMBA_CLEAR \
                     +   c0 = c1 = c2 = 0;
                     -  /* set the sign */
                     -  c->sign = a->sign;
                     +/* forward the carry to the next digit */
                     +#define COMBA_FORWARD \
                     +   do { c0 = c1; c1 = c2; c2 = 0; } while (0);
                     -  /* alias for a->dp [source] */
                     -  tmpa = a->dp;
                     +/* store the first sum */
                     +#define COMBA_STORE(x) \
                     +   x = c0;
                     -  /* alias for c->dp [dest] */
                     -  tmpc = c->dp;
                     +/* store the second sum [carry] */
                     +#define COMBA_STORE2(x) \
                     +   x = c1;
                     -  /* zero carry */
                     -  u = 0;
                     +/* anything you need at the end */
                     +#define COMBA_FINI
                     -  /* compute columns */
                     -  for (ix = 0; ix < a->used; ix++) {
                     -    /* compute product and carry sum for this term */
                     -    r       = ((mp_word) u) + ((mp_word)*tmpa++) * ((mp_word)b);
                     +/* this should multiply i and j  */
                     +#define MULADD(i, j)                                      \
                     +asm  (                                                    \
                     +     "movq  %6,%%rax     \n\t"                            \
                     +     "mulq  %7           \n\t"                            \
                     +     "addq  %%rax,%0     \n\t"                            \
                     +     "adcq  %%rdx,%1     \n\t"                            \
                     +     "adcq  $0,%2        \n\t"                            \
                     +     :"=r"(c0), "=r"(c1), "=r"(c2): "0"(c0), "1"(c1), "2"(c2), "g"(i), "g"(j)  :"%rax","%rdx","%cc");
                     -    /* mask off higher bits to get a single digit */
                     -    *tmpc++ = (mp_digit) (r & ((mp_word) MP_MASK));
                     +#elif defined(TFM_SSE2)
                     +/* use SSE2 optimizations */
                     -    /* send carry into next iteration */
                     -    u       = (mp_digit) (r >> ((mp_word) DIGIT_BIT));
                     -  }
                     +/* anything you need at the start */
                     +#define COMBA_START
                     -  /* store final carry [if any] and increment ix offset  */
                     -  *tmpc++ = u;
                     -  ++ix;
                     +/* clear the chaining variables */
                     +#define COMBA_CLEAR \
                     +   c0 = c1 = c2 = 0;
                     -  /* now zero digits above the top */
                     -  while (ix++ < olduse) {
                     -     *tmpc++ = 0;
                     -  }
                     +/* forward the carry to the next digit */
                     +#define COMBA_FORWARD \
                     +   do { c0 = c1; c1 = c2; c2 = 0; } while (0);
                     -  /* set used count */
                     -  c->used = a->used + 1;
                     -  mp_clamp(c);
                     +/* store the first sum */
                     +#define COMBA_STORE(x) \
                     +   x = c0;
                     -  return MP_OKAY;
                     -}
                     -#endif
                     +/* store the second sum [carry] */
                     +#define COMBA_STORE2(x) \
                     +   x = c1;
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_mul_d.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
                     +/* anything you need at the end */
                     +#define COMBA_FINI \
                     +   asm("emms");
                     -/* End: bn_mp_mul_d.c */
                     +/* this should multiply i and j  */
                     +#define MULADD(i, j)                                     \
                     +asm(                                                     \
                     +    "movd  %6,%%mm0     \n\t"                            \
                     +    "movd  %7,%%mm1     \n\t"                            \
                     +    "pmuludq %%mm1,%%mm0\n\t"                            \
                     +    "movd  %%mm0,%%eax  \n\t"                            \
                     +    "psrlq $32,%%mm0    \n\t"                            \
                     +    "addl  %%eax,%0     \n\t"                            \
                     +    "movd  %%mm0,%%eax  \n\t"                            \
                     +    "adcl  %%eax,%1     \n\t"                            \
                     +    "adcl  $0,%2        \n\t"                            \
                     +    :"=r"(c0), "=r"(c1), "=r"(c2): "0"(c0), "1"(c1), "2"(c2), "m"(i), "m"(j)  :"%eax","%cc");
                     -/* Start: bn_mp_mulmod.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_MULMOD_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     - *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     - */
                     +#elif defined(TFM_ARM)
                     +/* ARM code */
                     -/* d = a * b (mod c) */
                     -int mp_mulmod (mp_int * a, mp_int * b, mp_int * c, mp_int * d)
                     -{
                     -  int     res;
                     -  mp_int  t;
                     +#define COMBA_START
+                    +
                     +#define COMBA_CLEAR \
                     +   c0 = c1 = c2 = 0;
                     -  if ((res = mp_init (&t)) != MP_OKAY) {
                     -    return res;
                     -  }
                     +#define COMBA_FORWARD \
                     +   do { c0 = c1; c1 = c2; c2 = 0; } while (0);
                     -  if ((res = mp_mul (a, b, &t)) != MP_OKAY) {
                     -    mp_clear (&t);
                     -    return res;
                     -  }
                     -  res = mp_mod (&t, c, d);
                     -  mp_clear (&t);
                     -  return res;
                     -}
                     -#endif
                     +#define COMBA_STORE(x) \
                     +   x = c0;
+                    +
                     +#define COMBA_STORE2(x) \
                     +   x = c1;
+                    +
                     +#define COMBA_FINI
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_mulmod.c,v $ */
                     -/* $Revision: 1.4 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
                     +#define MULADD(i, j)                                          \
                     +asm(                                                          \
                     +"  UMULL  r0,r1,%6,%7           \n\t"                         \
                     +"  ADDS   %0,%0,r0              \n\t"                         \
                     +"  ADCS   %1,%1,r1              \n\t"                         \
                     +"  ADC    %2,%2,#0              \n\t"                         \
                     +:"=r"(c0), "=r"(c1), "=r"(c2) : "0"(c0), "1"(c1), "2"(c2), "r"(i), "r"(j) : "r0", "r1", "%cc");
                     -/* End: bn_mp_mulmod.c */
                     +#elif defined(TFM_PPC32)
                     +/* For 32-bit PPC */
                     -/* Start: bn_mp_n_root.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_N_ROOT_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     - *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     - */
                     +#define COMBA_START
                     -/* find the n'th root of an integer
                     - *
                     - * Result found such that (c)**b <= a and (c+1)**b > a
                     - *
                     - * This algorithm uses Newton's approximation
                     - * x[i+1] = x[i] - f(x[i])/f'(x[i])
                     - * which will find the root in log(N) time where
                     - * each step involves a fair bit.  This is not meant to
                     - * find huge roots [square and cube, etc].
                     - */
                     -int mp_n_root (mp_int * a, mp_digit b, mp_int * c)
                     -{
                     -  mp_int  t1, t2, t3;
                     -  int     res, neg;
                     +#define COMBA_CLEAR \
                     +   c0 = c1 = c2 = 0;
                     -  /* input must be positive if b is even */
                     -  if ((b & 1) == 0 && a->sign == MP_NEG) {
                     -    return MP_VAL;
                     -  }
                     +#define COMBA_FORWARD \
                     +   do { c0 = c1; c1 = c2; c2 = 0; } while (0);
                     -  if ((res = mp_init (&t1)) != MP_OKAY) {
                     -    return res;
                     -  }
                     +#define COMBA_STORE(x) \
                     +   x = c0;
                     -  if ((res = mp_init (&t2)) != MP_OKAY) {
                     -    goto LBL_T1;
                     -  }
                     +#define COMBA_STORE2(x) \
                     +   x = c1;
                     -  if ((res = mp_init (&t3)) != MP_OKAY) {
                     -    goto LBL_T2;
                     -  }
                     +#define COMBA_FINI
+                    +
                     +/* untested: will mulhwu change the flags?  Docs say no */
                     +#define MULADD(i, j)              \
                     +asm(                              \
                     +   " mullw  16,%6,%7       \n\t" \
                     +   " addc   %0,%0,16       \n\t" \
                     +   " mulhwu 16,%6,%7       \n\t" \
                     +   " adde   %1,%1,16       \n\t" \
                     +   " addze  %2,%2          \n\t" \
                     +:"=r"(c0), "=r"(c1), "=r"(c2):"0"(c0), "1"(c1), "2"(c2), "r"(i), "r"(j):"16");
                     -  /* if a is negative fudge the sign but keep track */
                     -  neg     = a->sign;
                     -  a->sign = MP_ZPOS;
                     +#elif defined(TFM_PPC64)
                     +/* For 64-bit PPC */
                     -  /* t2 = 2 */
                     -  mp_set (&t2, 2);
                     +#define COMBA_START
                     -  do {
                     -    /* t1 = t2 */
                     -    if ((res = mp_copy (&t2, &t1)) != MP_OKAY) {
                     -      goto LBL_T3;
                     -    }
                     +#define COMBA_CLEAR \
                     +   c0 = c1 = c2 = 0;
                     -    /* t2 = t1 - ((t1**b - a) / (b * t1**(b-1))) */
+                    -
                     -    /* t3 = t1**(b-1) */
                     -    if ((res = mp_expt_d (&t1, b - 1, &t3)) != MP_OKAY) {
                     -      goto LBL_T3;
                     -    }
                     +#define COMBA_FORWARD \
                     +   do { c0 = c1; c1 = c2; c2 = 0; } while (0);
                     -    /* numerator */
                     -    /* t2 = t1**b */
                     -    if ((res = mp_mul (&t3, &t1, &t2)) != MP_OKAY) {
                     -      goto LBL_T3;
                     -    }
                     +#define COMBA_STORE(x) \
                     +   x = c0;
                     -    /* t2 = t1**b - a */
                     -    if ((res = mp_sub (&t2, a, &t2)) != MP_OKAY) {
                     -      goto LBL_T3;
                     -    }
                     +#define COMBA_STORE2(x) \
                     +   x = c1;
                     -    /* denominator */
                     -    /* t3 = t1**(b-1) * b  */
                     -    if ((res = mp_mul_d (&t3, b, &t3)) != MP_OKAY) {
                     -      goto LBL_T3;
                     -    }
                     +#define COMBA_FINI
+                    +
                     +/* untested: will mulhdu change the flags?  Docs say no */
                     +#define MULADD(i, j)              \
                     +asm(                              \
                     +   " mulld  r16,%6,%7       \n\t" \
                     +   " addc   %0,%0,16       \n\t" \
                     +   " mulhdu r16,%6,%7       \n\t" \
                     +   " adde   %1,%1,16       \n\t" \
                     +   " addze  %2,%2          \n\t" \
                     +:"=r"(c0), "=r"(c1), "=r"(c2):"0"(c0), "1"(c1), "2"(c2), "r"(i), "r"(j):"r16");
                     -    /* t3 = (t1**b - a)/(b * t1**(b-1)) */
                     -    if ((res = mp_div (&t2, &t3, &t3, NULL)) != MP_OKAY) {
                     -      goto LBL_T3;
                     -    }
                     +#elif defined(TFM_AVR32)
                     -    if ((res = mp_sub (&t1, &t3, &t2)) != MP_OKAY) {
                     -      goto LBL_T3;
                     -    }
                     -  }  while (mp_cmp (&t1, &t2) != MP_EQ);
                     +/* ISO C code */
                     -  /* result can be off by a few so check */
                     -  for (;;) {
                     -    if ((res = mp_expt_d (&t1, b, &t2)) != MP_OKAY) {
                     -      goto LBL_T3;
                     -    }
                     +#define COMBA_START
                     -    if (mp_cmp (&t2, a) == MP_GT) {
                     -      if ((res = mp_sub_d (&t1, 1, &t1)) != MP_OKAY) {
                     -         goto LBL_T3;
                     -      }
                     -    } else {
                     -      break;
                     -    }
                     -  }
                     +#define COMBA_CLEAR \
                     +   c0 = c1 = c2 = 0;
                     -  /* reset the sign of a first */
                     -  a->sign = neg;
                     +#define COMBA_FORWARD \
                     +   do { c0 = c1; c1 = c2; c2 = 0; } while (0);
                     -  /* set the result */
                     -  mp_exch (&t1, c);
                     +#define COMBA_STORE(x) \
                     +   x = c0;
                     -  /* set the sign of the result */
                     -  c->sign = neg;
                     +#define COMBA_STORE2(x) \
                     +   x = c1;
                     -  res = MP_OKAY;
                     +#define COMBA_FINI
+                    +
                     +#define MULADD(i, j)             \
                     +asm(                             \
                     +   " mulu.d r2,%6,%7        \n\t"\
                     +   " add    %0,r2           \n\t"\
                     +   " adc    %1,%1,r3        \n\t"\
                     +   " acr    %2              \n\t"\
                     +:"=r"(c0), "=r"(c1), "=r"(c2):"0"(c0), "1"(c1), "2"(c2), "r"(i), "r"(j):"r2","r3");
+                    +
                     +#elif defined(TFM_MIPS)
+                    +
                     +#define COMBA_START
+                    +
                     +#define COMBA_CLEAR \
                     +   c0 = c1 = c2 = 0;
+                    +
                     +#define COMBA_FORWARD \
                     +   do { c0 = c1; c1 = c2; c2 = 0; } while (0);
+                    +
                     +#define COMBA_STORE(x) \
                     +   x = c0;
+                    +
                     +#define COMBA_STORE2(x) \
                     +   x = c1;
+                    +
                     +#define COMBA_FINI
+                    +
                     +#define MULADD(i, j)              \
                     +asm(                              \
                     +   " multu  %6,%7          \n\t"  \
                     +   " mflo   $12            \n\t"  \
                     +   " mfhi   $13            \n\t"  \
                     +   " addu    %0,%0,$12     \n\t"  \
                     +   " sltu   $12,%0,$12     \n\t"  \
                     +   " addu    %1,%1,$13     \n\t"  \
                     +   " sltu   $13,%1,$13     \n\t"  \
                     +   " addu    %1,%1,$12     \n\t"  \
                     +   " sltu   $12,%1,$12     \n\t"  \
                     +   " addu    %2,%2,$13     \n\t"  \
                     +   " addu    %2,%2,$12     \n\t"  \
                     +:"=r"(c0), "=r"(c1), "=r"(c2):"0"(c0), "1"(c1), "2"(c2), "r"(i), "r"(j):"$12","$13");
+                    +
                     +#else
                     +/* ISO C code */
+                    +
                     +#define COMBA_START
+                    +
                     +#define COMBA_CLEAR \
                     +   c0 = c1 = c2 = 0;
+                    +
                     +#define COMBA_FORWARD \
                     +   do { c0 = c1; c1 = c2; c2 = 0; } while (0);
+                    +
                     +#define COMBA_STORE(x) \
                     +   x = c0;
+                    +
                     +#define COMBA_STORE2(x) \
                     +   x = c1;
+                    +
                     +#define COMBA_FINI
+                    +
                     +#define MULADD(i, j)                                                              \
                     +   do { fp_word t;                                                                \
                     +   t = (fp_word)c0 + ((fp_word)i) * ((fp_word)j); c0 = t;                         \
                     +   t = (fp_word)c1 + (t >> DIGIT_BIT);            c1 = t; c2 += t >> DIGIT_BIT;   \
                     +   } while (0);
+                    +
                     +#endif
+                    +
                     +#ifndef TFM_DEFINES
+                    +
                     +/* generic PxQ multiplier */
                     +void fp_mul_comba(fp_int *A, fp_int *B, fp_int *C)
                     +{
                     +   int       ix, iy, iz, tx, ty, pa;
                     +   fp_digit  c0, c1, c2, *tmpx, *tmpy;
                     +   fp_int    tmp, *dst;
+                    +
                     +   COMBA_START;
                     +   COMBA_CLEAR;
+                    +
                     +   /* get size of output and trim */
                     +   pa = A->used + B->used;
                     +   if (pa >= FP_SIZE) {
                     +      pa = FP_SIZE-1;
                     +   }
                     -LBL_T3:mp_clear (&t3);
                     -LBL_T2:mp_clear (&t2);
                     -LBL_T1:mp_clear (&t1);
                     -  return res;
                     +   if (A == C || B == C) {
                     +      fp_zero(&tmp);
                     +      dst = &tmp;
                     +   } else {
                     +      fp_zero(C);
                     +      dst = C;
                     +   }
+                    +
                     +   for (ix = 0; ix < pa; ix++) {
                     +      /* get offsets into the two bignums */
                     +      ty = MIN(ix, B->used-1);
                     +      tx = ix - ty;
+                    +
                     +      /* setup temp aliases */
                     +      tmpx = A->dp + tx;
                     +      tmpy = B->dp + ty;
+                    +
                     +      /* this is the number of times the loop will iterrate, essentially its
                     +         while (tx++ < a->used && ty-- >= 0) { ... }
                     +       */
                     +      iy = MIN(A->used-tx, ty+1);
+                    +
                     +      /* execute loop */
                     +      COMBA_FORWARD;
                     +      for (iz = 0; iz < iy; ++iz) {
                     +          MULADD(*tmpx++, *tmpy--);
                     +      }
+                    +
                     +      /* store term */
                     +      COMBA_STORE(dst->dp[ix]);
                     +  }
                     +  COMBA_FINI;
+                    +
                     +  dst->used = pa;
                     +  dst->sign = A->sign ^ B->sign;
                     +  fp_clamp(dst);
                     +  fp_copy(dst, C);
+                     }
+                    +
                      #endif
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_n_root.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
                     +/* $Source: /cvs/libtom/tomsfastmath/src/mul/fp_mul_comba.c,v $ */
                     +/* $Revision: 1.4 $ */
                     +/* $Date: 2007/03/14 23:47:42 $ */
                     -/* End: bn_mp_n_root.c */
                     -/* Start: bn_mp_neg.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_NEG_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     - *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     - */
                     +/* End: fp_mul_comba.c */
                     -/* b = -a */
                     -int mp_neg (mp_int * a, mp_int * b)
                     +/* Start: fp_mul_comba_12.c */
                     +#define TFM_DEFINES
                     +#include "fp_mul_comba.c"
+                    +
                     +#ifdef TFM_MUL12
                     +void fp_mul_comba12(fp_int *A, fp_int *B, fp_int *C)
+                     {
                     -  int     res;
                     -  if (a != b) {
                     -     if ((res = mp_copy (a, b)) != MP_OKAY) {
                     -        return res;
                     -     }
                     -  }
                     +   fp_digit c0, c1, c2, at[24];
+                    +
                     +   memcpy(at, A->dp, 12 * sizeof(fp_digit));
                     +   memcpy(at+12, B->dp, 12 * sizeof(fp_digit));
                     +   COMBA_START;
+                    +
                     +   COMBA_CLEAR;
                     +   /* 0 */
                     +   MULADD(at[0], at[12]);
                     +   COMBA_STORE(C->dp[0]);
                     +   /* 1 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[13]);    MULADD(at[1], at[12]);
                     +   COMBA_STORE(C->dp[1]);
                     +   /* 2 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[14]);    MULADD(at[1], at[13]);    MULADD(at[2], at[12]);
                     +   COMBA_STORE(C->dp[2]);
                     +   /* 3 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[15]);    MULADD(at[1], at[14]);    MULADD(at[2], at[13]);    MULADD(at[3], at[12]);
                     +   COMBA_STORE(C->dp[3]);
                     +   /* 4 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[16]);    MULADD(at[1], at[15]);    MULADD(at[2], at[14]);    MULADD(at[3], at[13]);    MULADD(at[4], at[12]);
                     +   COMBA_STORE(C->dp[4]);
                     +   /* 5 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[17]);    MULADD(at[1], at[16]);    MULADD(at[2], at[15]);    MULADD(at[3], at[14]);    MULADD(at[4], at[13]);    MULADD(at[5], at[12]);
                     +   COMBA_STORE(C->dp[5]);
                     +   /* 6 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[18]);    MULADD(at[1], at[17]);    MULADD(at[2], at[16]);    MULADD(at[3], at[15]);    MULADD(at[4], at[14]);    MULADD(at[5], at[13]);    MULADD(at[6], at[12]);
                     +   COMBA_STORE(C->dp[6]);
                     +   /* 7 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[19]);    MULADD(at[1], at[18]);    MULADD(at[2], at[17]);    MULADD(at[3], at[16]);    MULADD(at[4], at[15]);    MULADD(at[5], at[14]);    MULADD(at[6], at[13]);    MULADD(at[7], at[12]);
                     +   COMBA_STORE(C->dp[7]);
                     +   /* 8 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[20]);    MULADD(at[1], at[19]);    MULADD(at[2], at[18]);    MULADD(at[3], at[17]);    MULADD(at[4], at[16]);    MULADD(at[5], at[15]);    MULADD(at[6], at[14]);    MULADD(at[7], at[13]);    MULADD(at[8], at[12]);
                     +   COMBA_STORE(C->dp[8]);
                     +   /* 9 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[21]);    MULADD(at[1], at[20]);    MULADD(at[2], at[19]);    MULADD(at[3], at[18]);    MULADD(at[4], at[17]);    MULADD(at[5], at[16]);    MULADD(at[6], at[15]);    MULADD(at[7], at[14]);    MULADD(at[8], at[13]);    MULADD(at[9], at[12]);
                     +   COMBA_STORE(C->dp[9]);
                     +   /* 10 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[22]);    MULADD(at[1], at[21]);    MULADD(at[2], at[20]);    MULADD(at[3], at[19]);    MULADD(at[4], at[18]);    MULADD(at[5], at[17]);    MULADD(at[6], at[16]);    MULADD(at[7], at[15]);    MULADD(at[8], at[14]);    MULADD(at[9], at[13]);    MULADD(at[10], at[12]);
                     +   COMBA_STORE(C->dp[10]);
                     +   /* 11 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[23]);    MULADD(at[1], at[22]);    MULADD(at[2], at[21]);    MULADD(at[3], at[20]);    MULADD(at[4], at[19]);    MULADD(at[5], at[18]);    MULADD(at[6], at[17]);    MULADD(at[7], at[16]);    MULADD(at[8], at[15]);    MULADD(at[9], at[14]);    MULADD(at[10], at[13]);    MULADD(at[11], at[12]);
                     +   COMBA_STORE(C->dp[11]);
                     +   /* 12 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[1], at[23]);    MULADD(at[2], at[22]);    MULADD(at[3], at[21]);    MULADD(at[4], at[20]);    MULADD(at[5], at[19]);    MULADD(at[6], at[18]);    MULADD(at[7], at[17]);    MULADD(at[8], at[16]);    MULADD(at[9], at[15]);    MULADD(at[10], at[14]);    MULADD(at[11], at[13]);
                     +   COMBA_STORE(C->dp[12]);
                     +   /* 13 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[2], at[23]);    MULADD(at[3], at[22]);    MULADD(at[4], at[21]);    MULADD(at[5], at[20]);    MULADD(at[6], at[19]);    MULADD(at[7], at[18]);    MULADD(at[8], at[17]);    MULADD(at[9], at[16]);    MULADD(at[10], at[15]);    MULADD(at[11], at[14]);
                     +   COMBA_STORE(C->dp[13]);
                     +   /* 14 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[3], at[23]);    MULADD(at[4], at[22]);    MULADD(at[5], at[21]);    MULADD(at[6], at[20]);    MULADD(at[7], at[19]);    MULADD(at[8], at[18]);    MULADD(at[9], at[17]);    MULADD(at[10], at[16]);    MULADD(at[11], at[15]);
                     +   COMBA_STORE(C->dp[14]);
                     +   /* 15 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[4], at[23]);    MULADD(at[5], at[22]);    MULADD(at[6], at[21]);    MULADD(at[7], at[20]);    MULADD(at[8], at[19]);    MULADD(at[9], at[18]);    MULADD(at[10], at[17]);    MULADD(at[11], at[16]);
                     +   COMBA_STORE(C->dp[15]);
                     +   /* 16 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[5], at[23]);    MULADD(at[6], at[22]);    MULADD(at[7], at[21]);    MULADD(at[8], at[20]);    MULADD(at[9], at[19]);    MULADD(at[10], at[18]);    MULADD(at[11], at[17]);
                     +   COMBA_STORE(C->dp[16]);
                     +   /* 17 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[6], at[23]);    MULADD(at[7], at[22]);    MULADD(at[8], at[21]);    MULADD(at[9], at[20]);    MULADD(at[10], at[19]);    MULADD(at[11], at[18]);
                     +   COMBA_STORE(C->dp[17]);
                     +   /* 18 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[7], at[23]);    MULADD(at[8], at[22]);    MULADD(at[9], at[21]);    MULADD(at[10], at[20]);    MULADD(at[11], at[19]);
                     +   COMBA_STORE(C->dp[18]);
                     +   /* 19 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[8], at[23]);    MULADD(at[9], at[22]);    MULADD(at[10], at[21]);    MULADD(at[11], at[20]);
                     +   COMBA_STORE(C->dp[19]);
                     +   /* 20 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[9], at[23]);    MULADD(at[10], at[22]);    MULADD(at[11], at[21]);
                     +   COMBA_STORE(C->dp[20]);
                     +   /* 21 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[10], at[23]);    MULADD(at[11], at[22]);
                     +   COMBA_STORE(C->dp[21]);
                     +   /* 22 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[11], at[23]);
                     +   COMBA_STORE(C->dp[22]);
                     +   COMBA_STORE2(C->dp[23]);
                     +   C->used = 24;
                     +   C->sign = A->sign ^ B->sign;
                     +   fp_clamp(C);
                     +   COMBA_FINI;
                     +}
                     +#endif
                     -  if (mp_iszero(b) != MP_YES) {
                     -     b->sign = (a->sign == MP_ZPOS) ? MP_NEG : MP_ZPOS;
                     -  } else {
                     -     b->sign = MP_ZPOS;
                     -  }
                     +/* End: fp_mul_comba_12.c */
                     -  return MP_OKAY;
                     +/* Start: fp_mul_comba_17.c */
                     +#define TFM_DEFINES
                     +#include "fp_mul_comba.c"
+                    +
                     +#ifdef TFM_MUL17
                     +void fp_mul_comba17(fp_int *A, fp_int *B, fp_int *C)
                     +{
                     +   fp_digit c0, c1, c2, at[34];
+                    +
                     +   memcpy(at, A->dp, 17 * sizeof(fp_digit));
                     +   memcpy(at+17, B->dp, 17 * sizeof(fp_digit));
                     +   COMBA_START;
+                    +
                     +   COMBA_CLEAR;
                     +   /* 0 */
                     +   MULADD(at[0], at[17]);
                     +   COMBA_STORE(C->dp[0]);
                     +   /* 1 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[18]);    MULADD(at[1], at[17]);
                     +   COMBA_STORE(C->dp[1]);
                     +   /* 2 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[19]);    MULADD(at[1], at[18]);    MULADD(at[2], at[17]);
                     +   COMBA_STORE(C->dp[2]);
                     +   /* 3 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[20]);    MULADD(at[1], at[19]);    MULADD(at[2], at[18]);    MULADD(at[3], at[17]);
                     +   COMBA_STORE(C->dp[3]);
                     +   /* 4 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[21]);    MULADD(at[1], at[20]);    MULADD(at[2], at[19]);    MULADD(at[3], at[18]);    MULADD(at[4], at[17]);
                     +   COMBA_STORE(C->dp[4]);
                     +   /* 5 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[22]);    MULADD(at[1], at[21]);    MULADD(at[2], at[20]);    MULADD(at[3], at[19]);    MULADD(at[4], at[18]);    MULADD(at[5], at[17]);
                     +   COMBA_STORE(C->dp[5]);
                     +   /* 6 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[23]);    MULADD(at[1], at[22]);    MULADD(at[2], at[21]);    MULADD(at[3], at[20]);    MULADD(at[4], at[19]);    MULADD(at[5], at[18]);    MULADD(at[6], at[17]);
                     +   COMBA_STORE(C->dp[6]);
                     +   /* 7 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[24]);    MULADD(at[1], at[23]);    MULADD(at[2], at[22]);    MULADD(at[3], at[21]);    MULADD(at[4], at[20]);    MULADD(at[5], at[19]);    MULADD(at[6], at[18]);    MULADD(at[7], at[17]);
                     +   COMBA_STORE(C->dp[7]);
                     +   /* 8 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[25]);    MULADD(at[1], at[24]);    MULADD(at[2], at[23]);    MULADD(at[3], at[22]);    MULADD(at[4], at[21]);    MULADD(at[5], at[20]);    MULADD(at[6], at[19]);    MULADD(at[7], at[18]);    MULADD(at[8], at[17]);
                     +   COMBA_STORE(C->dp[8]);
                     +   /* 9 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[26]);    MULADD(at[1], at[25]);    MULADD(at[2], at[24]);    MULADD(at[3], at[23]);    MULADD(at[4], at[22]);    MULADD(at[5], at[21]);    MULADD(at[6], at[20]);    MULADD(at[7], at[19]);    MULADD(at[8], at[18]);    MULADD(at[9], at[17]);
                     +   COMBA_STORE(C->dp[9]);
                     +   /* 10 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[27]);    MULADD(at[1], at[26]);    MULADD(at[2], at[25]);    MULADD(at[3], at[24]);    MULADD(at[4], at[23]);    MULADD(at[5], at[22]);    MULADD(at[6], at[21]);    MULADD(at[7], at[20]);    MULADD(at[8], at[19]);    MULADD(at[9], at[18]);    MULADD(at[10], at[17]);
                     +   COMBA_STORE(C->dp[10]);
                     +   /* 11 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[28]);    MULADD(at[1], at[27]);    MULADD(at[2], at[26]);    MULADD(at[3], at[25]);    MULADD(at[4], at[24]);    MULADD(at[5], at[23]);    MULADD(at[6], at[22]);    MULADD(at[7], at[21]);    MULADD(at[8], at[20]);    MULADD(at[9], at[19]);    MULADD(at[10], at[18]);    MULADD(at[11], at[17]);
                     +   COMBA_STORE(C->dp[11]);
                     +   /* 12 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[29]);    MULADD(at[1], at[28]);    MULADD(at[2], at[27]);    MULADD(at[3], at[26]);    MULADD(at[4], at[25]);    MULADD(at[5], at[24]);    MULADD(at[6], at[23]);    MULADD(at[7], at[22]);    MULADD(at[8], at[21]);    MULADD(at[9], at[20]);    MULADD(at[10], at[19]);    MULADD(at[11], at[18]);    MULADD(at[12], at[17]);
                     +   COMBA_STORE(C->dp[12]);
                     +   /* 13 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[30]);    MULADD(at[1], at[29]);    MULADD(at[2], at[28]);    MULADD(at[3], at[27]);    MULADD(at[4], at[26]);    MULADD(at[5], at[25]);    MULADD(at[6], at[24]);    MULADD(at[7], at[23]);    MULADD(at[8], at[22]);    MULADD(at[9], at[21]);    MULADD(at[10], at[20]);    MULADD(at[11], at[19]);    MULADD(at[12], at[18]);    MULADD(at[13], at[17]);
                     +   COMBA_STORE(C->dp[13]);
                     +   /* 14 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[31]);    MULADD(at[1], at[30]);    MULADD(at[2], at[29]);    MULADD(at[3], at[28]);    MULADD(at[4], at[27]);    MULADD(at[5], at[26]);    MULADD(at[6], at[25]);    MULADD(at[7], at[24]);    MULADD(at[8], at[23]);    MULADD(at[9], at[22]);    MULADD(at[10], at[21]);    MULADD(at[11], at[20]);    MULADD(at[12], at[19]);    MULADD(at[13], at[18]);    MULADD(at[14], at[17]);
                     +   COMBA_STORE(C->dp[14]);
                     +   /* 15 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[32]);    MULADD(at[1], at[31]);    MULADD(at[2], at[30]);    MULADD(at[3], at[29]);    MULADD(at[4], at[28]);    MULADD(at[5], at[27]);    MULADD(at[6], at[26]);    MULADD(at[7], at[25]);    MULADD(at[8], at[24]);    MULADD(at[9], at[23]);    MULADD(at[10], at[22]);    MULADD(at[11], at[21]);    MULADD(at[12], at[20]);    MULADD(at[13], at[19]);    MULADD(at[14], at[18]);    MULADD(at[15], at[17]);
                     +   COMBA_STORE(C->dp[15]);
                     +   /* 16 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[33]);    MULADD(at[1], at[32]);    MULADD(at[2], at[31]);    MULADD(at[3], at[30]);    MULADD(at[4], at[29]);    MULADD(at[5], at[28]);    MULADD(at[6], at[27]);    MULADD(at[7], at[26]);    MULADD(at[8], at[25]);    MULADD(at[9], at[24]);    MULADD(at[10], at[23]);    MULADD(at[11], at[22]);    MULADD(at[12], at[21]);    MULADD(at[13], at[20]);    MULADD(at[14], at[19]);    MULADD(at[15], at[18]);    MULADD(at[16], at[17]);
                     +   COMBA_STORE(C->dp[16]);
                     +   /* 17 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[1], at[33]);    MULADD(at[2], at[32]);    MULADD(at[3], at[31]);    MULADD(at[4], at[30]);    MULADD(at[5], at[29]);    MULADD(at[6], at[28]);    MULADD(at[7], at[27]);    MULADD(at[8], at[26]);    MULADD(at[9], at[25]);    MULADD(at[10], at[24]);    MULADD(at[11], at[23]);    MULADD(at[12], at[22]);    MULADD(at[13], at[21]);    MULADD(at[14], at[20]);    MULADD(at[15], at[19]);    MULADD(at[16], at[18]);
                     +   COMBA_STORE(C->dp[17]);
                     +   /* 18 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[2], at[33]);    MULADD(at[3], at[32]);    MULADD(at[4], at[31]);    MULADD(at[5], at[30]);    MULADD(at[6], at[29]);    MULADD(at[7], at[28]);    MULADD(at[8], at[27]);    MULADD(at[9], at[26]);    MULADD(at[10], at[25]);    MULADD(at[11], at[24]);    MULADD(at[12], at[23]);    MULADD(at[13], at[22]);    MULADD(at[14], at[21]);    MULADD(at[15], at[20]);    MULADD(at[16], at[19]);
                     +   COMBA_STORE(C->dp[18]);
                     +   /* 19 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[3], at[33]);    MULADD(at[4], at[32]);    MULADD(at[5], at[31]);    MULADD(at[6], at[30]);    MULADD(at[7], at[29]);    MULADD(at[8], at[28]);    MULADD(at[9], at[27]);    MULADD(at[10], at[26]);    MULADD(at[11], at[25]);    MULADD(at[12], at[24]);    MULADD(at[13], at[23]);    MULADD(at[14], at[22]);    MULADD(at[15], at[21]);    MULADD(at[16], at[20]);
                     +   COMBA_STORE(C->dp[19]);
                     +   /* 20 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[4], at[33]);    MULADD(at[5], at[32]);    MULADD(at[6], at[31]);    MULADD(at[7], at[30]);    MULADD(at[8], at[29]);    MULADD(at[9], at[28]);    MULADD(at[10], at[27]);    MULADD(at[11], at[26]);    MULADD(at[12], at[25]);    MULADD(at[13], at[24]);    MULADD(at[14], at[23]);    MULADD(at[15], at[22]);    MULADD(at[16], at[21]);
                     +   COMBA_STORE(C->dp[20]);
                     +   /* 21 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[5], at[33]);    MULADD(at[6], at[32]);    MULADD(at[7], at[31]);    MULADD(at[8], at[30]);    MULADD(at[9], at[29]);    MULADD(at[10], at[28]);    MULADD(at[11], at[27]);    MULADD(at[12], at[26]);    MULADD(at[13], at[25]);    MULADD(at[14], at[24]);    MULADD(at[15], at[23]);    MULADD(at[16], at[22]);
                     +   COMBA_STORE(C->dp[21]);
                     +   /* 22 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[6], at[33]);    MULADD(at[7], at[32]);    MULADD(at[8], at[31]);    MULADD(at[9], at[30]);    MULADD(at[10], at[29]);    MULADD(at[11], at[28]);    MULADD(at[12], at[27]);    MULADD(at[13], at[26]);    MULADD(at[14], at[25]);    MULADD(at[15], at[24]);    MULADD(at[16], at[23]);
                     +   COMBA_STORE(C->dp[22]);
                     +   /* 23 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[7], at[33]);    MULADD(at[8], at[32]);    MULADD(at[9], at[31]);    MULADD(at[10], at[30]);    MULADD(at[11], at[29]);    MULADD(at[12], at[28]);    MULADD(at[13], at[27]);    MULADD(at[14], at[26]);    MULADD(at[15], at[25]);    MULADD(at[16], at[24]);
                     +   COMBA_STORE(C->dp[23]);
                     +   /* 24 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[8], at[33]);    MULADD(at[9], at[32]);    MULADD(at[10], at[31]);    MULADD(at[11], at[30]);    MULADD(at[12], at[29]);    MULADD(at[13], at[28]);    MULADD(at[14], at[27]);    MULADD(at[15], at[26]);    MULADD(at[16], at[25]);
                     +   COMBA_STORE(C->dp[24]);
                     +   /* 25 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[9], at[33]);    MULADD(at[10], at[32]);    MULADD(at[11], at[31]);    MULADD(at[12], at[30]);    MULADD(at[13], at[29]);    MULADD(at[14], at[28]);    MULADD(at[15], at[27]);    MULADD(at[16], at[26]);
                     +   COMBA_STORE(C->dp[25]);
                     +   /* 26 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[10], at[33]);    MULADD(at[11], at[32]);    MULADD(at[12], at[31]);    MULADD(at[13], at[30]);    MULADD(at[14], at[29]);    MULADD(at[15], at[28]);    MULADD(at[16], at[27]);
                     +   COMBA_STORE(C->dp[26]);
                     +   /* 27 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[11], at[33]);    MULADD(at[12], at[32]);    MULADD(at[13], at[31]);    MULADD(at[14], at[30]);    MULADD(at[15], at[29]);    MULADD(at[16], at[28]);
                     +   COMBA_STORE(C->dp[27]);
                     +   /* 28 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[12], at[33]);    MULADD(at[13], at[32]);    MULADD(at[14], at[31]);    MULADD(at[15], at[30]);    MULADD(at[16], at[29]);
                     +   COMBA_STORE(C->dp[28]);
                     +   /* 29 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[13], at[33]);    MULADD(at[14], at[32]);    MULADD(at[15], at[31]);    MULADD(at[16], at[30]);
                     +   COMBA_STORE(C->dp[29]);
                     +   /* 30 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[14], at[33]);    MULADD(at[15], at[32]);    MULADD(at[16], at[31]);
                     +   COMBA_STORE(C->dp[30]);
                     +   /* 31 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[15], at[33]);    MULADD(at[16], at[32]);
                     +   COMBA_STORE(C->dp[31]);
                     +   /* 32 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[16], at[33]);
                     +   COMBA_STORE(C->dp[32]);
                     +   COMBA_STORE2(C->dp[33]);
                     +   C->used = 34;
                     +   C->sign = A->sign ^ B->sign;
                     +   fp_clamp(C);
                     +   COMBA_FINI;
+                     }
                      #endif
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_neg.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
                     +/* End: fp_mul_comba_17.c */
                     -/* End: bn_mp_neg.c */
                     +/* Start: fp_mul_comba_20.c */
                     +#define TFM_DEFINES
                     +#include "fp_mul_comba.c"
                     -/* Start: bn_mp_or.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_OR_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     - *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     - */
                     +#ifdef TFM_MUL20
                     +void fp_mul_comba20(fp_int *A, fp_int *B, fp_int *C)
                     +{
                     +   fp_digit c0, c1, c2, at[40];
+                    +
                     +   memcpy(at, A->dp, 20 * sizeof(fp_digit));
                     +   memcpy(at+20, B->dp, 20 * sizeof(fp_digit));
                     +   COMBA_START;
+                    +
                     +   COMBA_CLEAR;
                     +   /* 0 */
                     +   MULADD(at[0], at[20]);
                     +   COMBA_STORE(C->dp[0]);
                     +   /* 1 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[21]);    MULADD(at[1], at[20]);
                     +   COMBA_STORE(C->dp[1]);
                     +   /* 2 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[22]);    MULADD(at[1], at[21]);    MULADD(at[2], at[20]);
                     +   COMBA_STORE(C->dp[2]);
                     +   /* 3 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[23]);    MULADD(at[1], at[22]);    MULADD(at[2], at[21]);    MULADD(at[3], at[20]);
                     +   COMBA_STORE(C->dp[3]);
                     +   /* 4 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[24]);    MULADD(at[1], at[23]);    MULADD(at[2], at[22]);    MULADD(at[3], at[21]);    MULADD(at[4], at[20]);
                     +   COMBA_STORE(C->dp[4]);
                     +   /* 5 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[25]);    MULADD(at[1], at[24]);    MULADD(at[2], at[23]);    MULADD(at[3], at[22]);    MULADD(at[4], at[21]);    MULADD(at[5], at[20]);
                     +   COMBA_STORE(C->dp[5]);
                     +   /* 6 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[26]);    MULADD(at[1], at[25]);    MULADD(at[2], at[24]);    MULADD(at[3], at[23]);    MULADD(at[4], at[22]);    MULADD(at[5], at[21]);    MULADD(at[6], at[20]);
                     +   COMBA_STORE(C->dp[6]);
                     +   /* 7 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[27]);    MULADD(at[1], at[26]);    MULADD(at[2], at[25]);    MULADD(at[3], at[24]);    MULADD(at[4], at[23]);    MULADD(at[5], at[22]);    MULADD(at[6], at[21]);    MULADD(at[7], at[20]);
                     +   COMBA_STORE(C->dp[7]);
                     +   /* 8 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[28]);    MULADD(at[1], at[27]);    MULADD(at[2], at[26]);    MULADD(at[3], at[25]);    MULADD(at[4], at[24]);    MULADD(at[5], at[23]);    MULADD(at[6], at[22]);    MULADD(at[7], at[21]);    MULADD(at[8], at[20]);
                     +   COMBA_STORE(C->dp[8]);
                     +   /* 9 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[29]);    MULADD(at[1], at[28]);    MULADD(at[2], at[27]);    MULADD(at[3], at[26]);    MULADD(at[4], at[25]);    MULADD(at[5], at[24]);    MULADD(at[6], at[23]);    MULADD(at[7], at[22]);    MULADD(at[8], at[21]);    MULADD(at[9], at[20]);
                     +   COMBA_STORE(C->dp[9]);
                     +   /* 10 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[30]);    MULADD(at[1], at[29]);    MULADD(at[2], at[28]);    MULADD(at[3], at[27]);    MULADD(at[4], at[26]);    MULADD(at[5], at[25]);    MULADD(at[6], at[24]);    MULADD(at[7], at[23]);    MULADD(at[8], at[22]);    MULADD(at[9], at[21]);    MULADD(at[10], at[20]);
                     +   COMBA_STORE(C->dp[10]);
                     +   /* 11 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[31]);    MULADD(at[1], at[30]);    MULADD(at[2], at[29]);    MULADD(at[3], at[28]);    MULADD(at[4], at[27]);    MULADD(at[5], at[26]);    MULADD(at[6], at[25]);    MULADD(at[7], at[24]);    MULADD(at[8], at[23]);    MULADD(at[9], at[22]);    MULADD(at[10], at[21]);    MULADD(at[11], at[20]);
                     +   COMBA_STORE(C->dp[11]);
                     +   /* 12 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[32]);    MULADD(at[1], at[31]);    MULADD(at[2], at[30]);    MULADD(at[3], at[29]);    MULADD(at[4], at[28]);    MULADD(at[5], at[27]);    MULADD(at[6], at[26]);    MULADD(at[7], at[25]);    MULADD(at[8], at[24]);    MULADD(at[9], at[23]);    MULADD(at[10], at[22]);    MULADD(at[11], at[21]);    MULADD(at[12], at[20]);
                     +   COMBA_STORE(C->dp[12]);
                     +   /* 13 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[33]);    MULADD(at[1], at[32]);    MULADD(at[2], at[31]);    MULADD(at[3], at[30]);    MULADD(at[4], at[29]);    MULADD(at[5], at[28]);    MULADD(at[6], at[27]);    MULADD(at[7], at[26]);    MULADD(at[8], at[25]);    MULADD(at[9], at[24]);    MULADD(at[10], at[23]);    MULADD(at[11], at[22]);    MULADD(at[12], at[21]);    MULADD(at[13], at[20]);
                     +   COMBA_STORE(C->dp[13]);
                     +   /* 14 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[34]);    MULADD(at[1], at[33]);    MULADD(at[2], at[32]);    MULADD(at[3], at[31]);    MULADD(at[4], at[30]);    MULADD(at[5], at[29]);    MULADD(at[6], at[28]);    MULADD(at[7], at[27]);    MULADD(at[8], at[26]);    MULADD(at[9], at[25]);    MULADD(at[10], at[24]);    MULADD(at[11], at[23]);    MULADD(at[12], at[22]);    MULADD(at[13], at[21]);    MULADD(at[14], at[20]);
                     +   COMBA_STORE(C->dp[14]);
                     +   /* 15 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[35]);    MULADD(at[1], at[34]);    MULADD(at[2], at[33]);    MULADD(at[3], at[32]);    MULADD(at[4], at[31]);    MULADD(at[5], at[30]);    MULADD(at[6], at[29]);    MULADD(at[7], at[28]);    MULADD(at[8], at[27]);    MULADD(at[9], at[26]);    MULADD(at[10], at[25]);    MULADD(at[11], at[24]);    MULADD(at[12], at[23]);    MULADD(at[13], at[22]);    MULADD(at[14], at[21]);    MULADD(at[15], at[20]);
                     +   COMBA_STORE(C->dp[15]);
                     +   /* 16 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[36]);    MULADD(at[1], at[35]);    MULADD(at[2], at[34]);    MULADD(at[3], at[33]);    MULADD(at[4], at[32]);    MULADD(at[5], at[31]);    MULADD(at[6], at[30]);    MULADD(at[7], at[29]);    MULADD(at[8], at[28]);    MULADD(at[9], at[27]);    MULADD(at[10], at[26]);    MULADD(at[11], at[25]);    MULADD(at[12], at[24]);    MULADD(at[13], at[23]);    MULADD(at[14], at[22]);    MULADD(at[15], at[21]);    MULADD(at[16], at[20]);
                     +   COMBA_STORE(C->dp[16]);
                     +   /* 17 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[37]);    MULADD(at[1], at[36]);    MULADD(at[2], at[35]);    MULADD(at[3], at[34]);    MULADD(at[4], at[33]);    MULADD(at[5], at[32]);    MULADD(at[6], at[31]);    MULADD(at[7], at[30]);    MULADD(at[8], at[29]);    MULADD(at[9], at[28]);    MULADD(at[10], at[27]);    MULADD(at[11], at[26]);    MULADD(at[12], at[25]);    MULADD(at[13], at[24]);    MULADD(at[14], at[23]);    MULADD(at[15], at[22]);    MULADD(at[16], at[21]);    MULADD(at[17], at[20]);
                     +   COMBA_STORE(C->dp[17]);
                     +   /* 18 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[38]);    MULADD(at[1], at[37]);    MULADD(at[2], at[36]);    MULADD(at[3], at[35]);    MULADD(at[4], at[34]);    MULADD(at[5], at[33]);    MULADD(at[6], at[32]);    MULADD(at[7], at[31]);    MULADD(at[8], at[30]);    MULADD(at[9], at[29]);    MULADD(at[10], at[28]);    MULADD(at[11], at[27]);    MULADD(at[12], at[26]);    MULADD(at[13], at[25]);    MULADD(at[14], at[24]);    MULADD(at[15], at[23]);    MULADD(at[16], at[22]);    MULADD(at[17], at[21]);    MULADD(at[18], at[20]);
                     +   COMBA_STORE(C->dp[18]);
                     +   /* 19 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[39]);    MULADD(at[1], at[38]);    MULADD(at[2], at[37]);    MULADD(at[3], at[36]);    MULADD(at[4], at[35]);    MULADD(at[5], at[34]);    MULADD(at[6], at[33]);    MULADD(at[7], at[32]);    MULADD(at[8], at[31]);    MULADD(at[9], at[30]);    MULADD(at[10], at[29]);    MULADD(at[11], at[28]);    MULADD(at[12], at[27]);    MULADD(at[13], at[26]);    MULADD(at[14], at[25]);    MULADD(at[15], at[24]);    MULADD(at[16], at[23]);    MULADD(at[17], at[22]);    MULADD(at[18], at[21]);    MULADD(at[19], at[20]);
                     +   COMBA_STORE(C->dp[19]);
                     +   /* 20 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[1], at[39]);    MULADD(at[2], at[38]);    MULADD(at[3], at[37]);    MULADD(at[4], at[36]);    MULADD(at[5], at[35]);    MULADD(at[6], at[34]);    MULADD(at[7], at[33]);    MULADD(at[8], at[32]);    MULADD(at[9], at[31]);    MULADD(at[10], at[30]);    MULADD(at[11], at[29]);    MULADD(at[12], at[28]);    MULADD(at[13], at[27]);    MULADD(at[14], at[26]);    MULADD(at[15], at[25]);    MULADD(at[16], at[24]);    MULADD(at[17], at[23]);    MULADD(at[18], at[22]);    MULADD(at[19], at[21]);
                     +   COMBA_STORE(C->dp[20]);
                     +   /* 21 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[2], at[39]);    MULADD(at[3], at[38]);    MULADD(at[4], at[37]);    MULADD(at[5], at[36]);    MULADD(at[6], at[35]);    MULADD(at[7], at[34]);    MULADD(at[8], at[33]);    MULADD(at[9], at[32]);    MULADD(at[10], at[31]);    MULADD(at[11], at[30]);    MULADD(at[12], at[29]);    MULADD(at[13], at[28]);    MULADD(at[14], at[27]);    MULADD(at[15], at[26]);    MULADD(at[16], at[25]);    MULADD(at[17], at[24]);    MULADD(at[18], at[23]);    MULADD(at[19], at[22]);
                     +   COMBA_STORE(C->dp[21]);
                     +   /* 22 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[3], at[39]);    MULADD(at[4], at[38]);    MULADD(at[5], at[37]);    MULADD(at[6], at[36]);    MULADD(at[7], at[35]);    MULADD(at[8], at[34]);    MULADD(at[9], at[33]);    MULADD(at[10], at[32]);    MULADD(at[11], at[31]);    MULADD(at[12], at[30]);    MULADD(at[13], at[29]);    MULADD(at[14], at[28]);    MULADD(at[15], at[27]);    MULADD(at[16], at[26]);    MULADD(at[17], at[25]);    MULADD(at[18], at[24]);    MULADD(at[19], at[23]);
                     +   COMBA_STORE(C->dp[22]);
                     +   /* 23 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[4], at[39]);    MULADD(at[5], at[38]);    MULADD(at[6], at[37]);    MULADD(at[7], at[36]);    MULADD(at[8], at[35]);    MULADD(at[9], at[34]);    MULADD(at[10], at[33]);    MULADD(at[11], at[32]);    MULADD(at[12], at[31]);    MULADD(at[13], at[30]);    MULADD(at[14], at[29]);    MULADD(at[15], at[28]);    MULADD(at[16], at[27]);    MULADD(at[17], at[26]);    MULADD(at[18], at[25]);    MULADD(at[19], at[24]);
                     +   COMBA_STORE(C->dp[23]);
                     +   /* 24 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[5], at[39]);    MULADD(at[6], at[38]);    MULADD(at[7], at[37]);    MULADD(at[8], at[36]);    MULADD(at[9], at[35]);    MULADD(at[10], at[34]);    MULADD(at[11], at[33]);    MULADD(at[12], at[32]);    MULADD(at[13], at[31]);    MULADD(at[14], at[30]);    MULADD(at[15], at[29]);    MULADD(at[16], at[28]);    MULADD(at[17], at[27]);    MULADD(at[18], at[26]);    MULADD(at[19], at[25]);
                     +   COMBA_STORE(C->dp[24]);
                     +   /* 25 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[6], at[39]);    MULADD(at[7], at[38]);    MULADD(at[8], at[37]);    MULADD(at[9], at[36]);    MULADD(at[10], at[35]);    MULADD(at[11], at[34]);    MULADD(at[12], at[33]);    MULADD(at[13], at[32]);    MULADD(at[14], at[31]);    MULADD(at[15], at[30]);    MULADD(at[16], at[29]);    MULADD(at[17], at[28]);    MULADD(at[18], at[27]);    MULADD(at[19], at[26]);
                     +   COMBA_STORE(C->dp[25]);
                     +   /* 26 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[7], at[39]);    MULADD(at[8], at[38]);    MULADD(at[9], at[37]);    MULADD(at[10], at[36]);    MULADD(at[11], at[35]);    MULADD(at[12], at[34]);    MULADD(at[13], at[33]);    MULADD(at[14], at[32]);    MULADD(at[15], at[31]);    MULADD(at[16], at[30]);    MULADD(at[17], at[29]);    MULADD(at[18], at[28]);    MULADD(at[19], at[27]);
                     +   COMBA_STORE(C->dp[26]);
                     +   /* 27 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[8], at[39]);    MULADD(at[9], at[38]);    MULADD(at[10], at[37]);    MULADD(at[11], at[36]);    MULADD(at[12], at[35]);    MULADD(at[13], at[34]);    MULADD(at[14], at[33]);    MULADD(at[15], at[32]);    MULADD(at[16], at[31]);    MULADD(at[17], at[30]);    MULADD(at[18], at[29]);    MULADD(at[19], at[28]);
                     +   COMBA_STORE(C->dp[27]);
                     +   /* 28 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[9], at[39]);    MULADD(at[10], at[38]);    MULADD(at[11], at[37]);    MULADD(at[12], at[36]);    MULADD(at[13], at[35]);    MULADD(at[14], at[34]);    MULADD(at[15], at[33]);    MULADD(at[16], at[32]);    MULADD(at[17], at[31]);    MULADD(at[18], at[30]);    MULADD(at[19], at[29]);
                     +   COMBA_STORE(C->dp[28]);
                     +   /* 29 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[10], at[39]);    MULADD(at[11], at[38]);    MULADD(at[12], at[37]);    MULADD(at[13], at[36]);    MULADD(at[14], at[35]);    MULADD(at[15], at[34]);    MULADD(at[16], at[33]);    MULADD(at[17], at[32]);    MULADD(at[18], at[31]);    MULADD(at[19], at[30]);
                     +   COMBA_STORE(C->dp[29]);
                     +   /* 30 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[11], at[39]);    MULADD(at[12], at[38]);    MULADD(at[13], at[37]);    MULADD(at[14], at[36]);    MULADD(at[15], at[35]);    MULADD(at[16], at[34]);    MULADD(at[17], at[33]);    MULADD(at[18], at[32]);    MULADD(at[19], at[31]);
                     +   COMBA_STORE(C->dp[30]);
                     +   /* 31 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[12], at[39]);    MULADD(at[13], at[38]);    MULADD(at[14], at[37]);    MULADD(at[15], at[36]);    MULADD(at[16], at[35]);    MULADD(at[17], at[34]);    MULADD(at[18], at[33]);    MULADD(at[19], at[32]);
                     +   COMBA_STORE(C->dp[31]);
                     +   /* 32 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[13], at[39]);    MULADD(at[14], at[38]);    MULADD(at[15], at[37]);    MULADD(at[16], at[36]);    MULADD(at[17], at[35]);    MULADD(at[18], at[34]);    MULADD(at[19], at[33]);
                     +   COMBA_STORE(C->dp[32]);
                     +   /* 33 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[14], at[39]);    MULADD(at[15], at[38]);    MULADD(at[16], at[37]);    MULADD(at[17], at[36]);    MULADD(at[18], at[35]);    MULADD(at[19], at[34]);
                     +   COMBA_STORE(C->dp[33]);
                     +   /* 34 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[15], at[39]);    MULADD(at[16], at[38]);    MULADD(at[17], at[37]);    MULADD(at[18], at[36]);    MULADD(at[19], at[35]);
                     +   COMBA_STORE(C->dp[34]);
                     +   /* 35 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[16], at[39]);    MULADD(at[17], at[38]);    MULADD(at[18], at[37]);    MULADD(at[19], at[36]);
                     +   COMBA_STORE(C->dp[35]);
                     +   /* 36 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[17], at[39]);    MULADD(at[18], at[38]);    MULADD(at[19], at[37]);
                     +   COMBA_STORE(C->dp[36]);
                     +   /* 37 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[18], at[39]);    MULADD(at[19], at[38]);
                     +   COMBA_STORE(C->dp[37]);
                     +   /* 38 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[19], at[39]);
                     +   COMBA_STORE(C->dp[38]);
                     +   COMBA_STORE2(C->dp[39]);
                     +   C->used = 40;
                     +   C->sign = A->sign ^ B->sign;
                     +   fp_clamp(C);
                     +   COMBA_FINI;
                     +}
                     +#endif
+                    +
                     +/* End: fp_mul_comba_20.c */
                     -/* OR two ints together */
                     -int mp_or (mp_int * a, mp_int * b, mp_int * c)
                     +/* Start: fp_mul_comba_24.c */
                     +#define TFM_DEFINES
                     +#include "fp_mul_comba.c"
+                    +
                     +#ifdef TFM_MUL24
                     +void fp_mul_comba24(fp_int *A, fp_int *B, fp_int *C)
+                     {
                     -  int     res, ix, px;
                     -  mp_int  t, *x;
                     +   fp_digit c0, c1, c2, at[48];
+                    +
                     +   memcpy(at, A->dp, 24 * sizeof(fp_digit));
                     +   memcpy(at+24, B->dp, 24 * sizeof(fp_digit));
                     +   COMBA_START;
+                    +
                     +   COMBA_CLEAR;
                     +   /* 0 */
                     +   MULADD(at[0], at[24]);
                     +   COMBA_STORE(C->dp[0]);
                     +   /* 1 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[25]);    MULADD(at[1], at[24]);
                     +   COMBA_STORE(C->dp[1]);
                     +   /* 2 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[26]);    MULADD(at[1], at[25]);    MULADD(at[2], at[24]);
                     +   COMBA_STORE(C->dp[2]);
                     +   /* 3 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[27]);    MULADD(at[1], at[26]);    MULADD(at[2], at[25]);    MULADD(at[3], at[24]);
                     +   COMBA_STORE(C->dp[3]);
                     +   /* 4 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[28]);    MULADD(at[1], at[27]);    MULADD(at[2], at[26]);    MULADD(at[3], at[25]);    MULADD(at[4], at[24]);
                     +   COMBA_STORE(C->dp[4]);
                     +   /* 5 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[29]);    MULADD(at[1], at[28]);    MULADD(at[2], at[27]);    MULADD(at[3], at[26]);    MULADD(at[4], at[25]);    MULADD(at[5], at[24]);
                     +   COMBA_STORE(C->dp[5]);
                     +   /* 6 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[30]);    MULADD(at[1], at[29]);    MULADD(at[2], at[28]);    MULADD(at[3], at[27]);    MULADD(at[4], at[26]);    MULADD(at[5], at[25]);    MULADD(at[6], at[24]);
                     +   COMBA_STORE(C->dp[6]);
                     +   /* 7 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[31]);    MULADD(at[1], at[30]);    MULADD(at[2], at[29]);    MULADD(at[3], at[28]);    MULADD(at[4], at[27]);    MULADD(at[5], at[26]);    MULADD(at[6], at[25]);    MULADD(at[7], at[24]);
                     +   COMBA_STORE(C->dp[7]);
                     +   /* 8 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[32]);    MULADD(at[1], at[31]);    MULADD(at[2], at[30]);    MULADD(at[3], at[29]);    MULADD(at[4], at[28]);    MULADD(at[5], at[27]);    MULADD(at[6], at[26]);    MULADD(at[7], at[25]);    MULADD(at[8], at[24]);
                     +   COMBA_STORE(C->dp[8]);
                     +   /* 9 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[33]);    MULADD(at[1], at[32]);    MULADD(at[2], at[31]);    MULADD(at[3], at[30]);    MULADD(at[4], at[29]);    MULADD(at[5], at[28]);    MULADD(at[6], at[27]);    MULADD(at[7], at[26]);    MULADD(at[8], at[25]);    MULADD(at[9], at[24]);
                     +   COMBA_STORE(C->dp[9]);
                     +   /* 10 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[34]);    MULADD(at[1], at[33]);    MULADD(at[2], at[32]);    MULADD(at[3], at[31]);    MULADD(at[4], at[30]);    MULADD(at[5], at[29]);    MULADD(at[6], at[28]);    MULADD(at[7], at[27]);    MULADD(at[8], at[26]);    MULADD(at[9], at[25]);    MULADD(at[10], at[24]);
                     +   COMBA_STORE(C->dp[10]);
                     +   /* 11 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[35]);    MULADD(at[1], at[34]);    MULADD(at[2], at[33]);    MULADD(at[3], at[32]);    MULADD(at[4], at[31]);    MULADD(at[5], at[30]);    MULADD(at[6], at[29]);    MULADD(at[7], at[28]);    MULADD(at[8], at[27]);    MULADD(at[9], at[26]);    MULADD(at[10], at[25]);    MULADD(at[11], at[24]);
                     +   COMBA_STORE(C->dp[11]);
                     +   /* 12 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[36]);    MULADD(at[1], at[35]);    MULADD(at[2], at[34]);    MULADD(at[3], at[33]);    MULADD(at[4], at[32]);    MULADD(at[5], at[31]);    MULADD(at[6], at[30]);    MULADD(at[7], at[29]);    MULADD(at[8], at[28]);    MULADD(at[9], at[27]);    MULADD(at[10], at[26]);    MULADD(at[11], at[25]);    MULADD(at[12], at[24]);
                     +   COMBA_STORE(C->dp[12]);
                     +   /* 13 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[37]);    MULADD(at[1], at[36]);    MULADD(at[2], at[35]);    MULADD(at[3], at[34]);    MULADD(at[4], at[33]);    MULADD(at[5], at[32]);    MULADD(at[6], at[31]);    MULADD(at[7], at[30]);    MULADD(at[8], at[29]);    MULADD(at[9], at[28]);    MULADD(at[10], at[27]);    MULADD(at[11], at[26]);    MULADD(at[12], at[25]);    MULADD(at[13], at[24]);
                     +   COMBA_STORE(C->dp[13]);
                     +   /* 14 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[38]);    MULADD(at[1], at[37]);    MULADD(at[2], at[36]);    MULADD(at[3], at[35]);    MULADD(at[4], at[34]);    MULADD(at[5], at[33]);    MULADD(at[6], at[32]);    MULADD(at[7], at[31]);    MULADD(at[8], at[30]);    MULADD(at[9], at[29]);    MULADD(at[10], at[28]);    MULADD(at[11], at[27]);    MULADD(at[12], at[26]);    MULADD(at[13], at[25]);    MULADD(at[14], at[24]);
                     +   COMBA_STORE(C->dp[14]);
                     +   /* 15 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[39]);    MULADD(at[1], at[38]);    MULADD(at[2], at[37]);    MULADD(at[3], at[36]);    MULADD(at[4], at[35]);    MULADD(at[5], at[34]);    MULADD(at[6], at[33]);    MULADD(at[7], at[32]);    MULADD(at[8], at[31]);    MULADD(at[9], at[30]);    MULADD(at[10], at[29]);    MULADD(at[11], at[28]);    MULADD(at[12], at[27]);    MULADD(at[13], at[26]);    MULADD(at[14], at[25]);    MULADD(at[15], at[24]);
                     +   COMBA_STORE(C->dp[15]);
                     +   /* 16 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[40]);    MULADD(at[1], at[39]);    MULADD(at[2], at[38]);    MULADD(at[3], at[37]);    MULADD(at[4], at[36]);    MULADD(at[5], at[35]);    MULADD(at[6], at[34]);    MULADD(at[7], at[33]);    MULADD(at[8], at[32]);    MULADD(at[9], at[31]);    MULADD(at[10], at[30]);    MULADD(at[11], at[29]);    MULADD(at[12], at[28]);    MULADD(at[13], at[27]);    MULADD(at[14], at[26]);    MULADD(at[15], at[25]);    MULADD(at[16], at[24]);
                     +   COMBA_STORE(C->dp[16]);
                     +   /* 17 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[41]);    MULADD(at[1], at[40]);    MULADD(at[2], at[39]);    MULADD(at[3], at[38]);    MULADD(at[4], at[37]);    MULADD(at[5], at[36]);    MULADD(at[6], at[35]);    MULADD(at[7], at[34]);    MULADD(at[8], at[33]);    MULADD(at[9], at[32]);    MULADD(at[10], at[31]);    MULADD(at[11], at[30]);    MULADD(at[12], at[29]);    MULADD(at[13], at[28]);    MULADD(at[14], at[27]);    MULADD(at[15], at[26]);    MULADD(at[16], at[25]);    MULADD(at[17], at[24]);
                     +   COMBA_STORE(C->dp[17]);
                     +   /* 18 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[42]);    MULADD(at[1], at[41]);    MULADD(at[2], at[40]);    MULADD(at[3], at[39]);    MULADD(at[4], at[38]);    MULADD(at[5], at[37]);    MULADD(at[6], at[36]);    MULADD(at[7], at[35]);    MULADD(at[8], at[34]);    MULADD(at[9], at[33]);    MULADD(at[10], at[32]);    MULADD(at[11], at[31]);    MULADD(at[12], at[30]);    MULADD(at[13], at[29]);    MULADD(at[14], at[28]);    MULADD(at[15], at[27]);    MULADD(at[16], at[26]);    MULADD(at[17], at[25]);    MULADD(at[18], at[24]);
                     +   COMBA_STORE(C->dp[18]);
                     +   /* 19 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[43]);    MULADD(at[1], at[42]);    MULADD(at[2], at[41]);    MULADD(at[3], at[40]);    MULADD(at[4], at[39]);    MULADD(at[5], at[38]);    MULADD(at[6], at[37]);    MULADD(at[7], at[36]);    MULADD(at[8], at[35]);    MULADD(at[9], at[34]);    MULADD(at[10], at[33]);    MULADD(at[11], at[32]);    MULADD(at[12], at[31]);    MULADD(at[13], at[30]);    MULADD(at[14], at[29]);    MULADD(at[15], at[28]);    MULADD(at[16], at[27]);    MULADD(at[17], at[26]);    MULADD(at[18], at[25]);    MULADD(at[19], at[24]);
                     +   COMBA_STORE(C->dp[19]);
                     +   /* 20 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[44]);    MULADD(at[1], at[43]);    MULADD(at[2], at[42]);    MULADD(at[3], at[41]);    MULADD(at[4], at[40]);    MULADD(at[5], at[39]);    MULADD(at[6], at[38]);    MULADD(at[7], at[37]);    MULADD(at[8], at[36]);    MULADD(at[9], at[35]);    MULADD(at[10], at[34]);    MULADD(at[11], at[33]);    MULADD(at[12], at[32]);    MULADD(at[13], at[31]);    MULADD(at[14], at[30]);    MULADD(at[15], at[29]);    MULADD(at[16], at[28]);    MULADD(at[17], at[27]);    MULADD(at[18], at[26]);    MULADD(at[19], at[25]);    MULADD(at[20], at[24]);
                     +   COMBA_STORE(C->dp[20]);
                     +   /* 21 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[45]);    MULADD(at[1], at[44]);    MULADD(at[2], at[43]);    MULADD(at[3], at[42]);    MULADD(at[4], at[41]);    MULADD(at[5], at[40]);    MULADD(at[6], at[39]);    MULADD(at[7], at[38]);    MULADD(at[8], at[37]);    MULADD(at[9], at[36]);    MULADD(at[10], at[35]);    MULADD(at[11], at[34]);    MULADD(at[12], at[33]);    MULADD(at[13], at[32]);    MULADD(at[14], at[31]);    MULADD(at[15], at[30]);    MULADD(at[16], at[29]);    MULADD(at[17], at[28]);    MULADD(at[18], at[27]);    MULADD(at[19], at[26]);    MULADD(at[20], at[25]);    MULADD(at[21], at[24]);
                     +   COMBA_STORE(C->dp[21]);
                     +   /* 22 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[46]);    MULADD(at[1], at[45]);    MULADD(at[2], at[44]);    MULADD(at[3], at[43]);    MULADD(at[4], at[42]);    MULADD(at[5], at[41]);    MULADD(at[6], at[40]);    MULADD(at[7], at[39]);    MULADD(at[8], at[38]);    MULADD(at[9], at[37]);    MULADD(at[10], at[36]);    MULADD(at[11], at[35]);    MULADD(at[12], at[34]);    MULADD(at[13], at[33]);    MULADD(at[14], at[32]);    MULADD(at[15], at[31]);    MULADD(at[16], at[30]);    MULADD(at[17], at[29]);    MULADD(at[18], at[28]);    MULADD(at[19], at[27]);    MULADD(at[20], at[26]);    MULADD(at[21], at[25]);    MULADD(at[22], at[24]);
                     +   COMBA_STORE(C->dp[22]);
                     +   /* 23 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[47]);    MULADD(at[1], at[46]);    MULADD(at[2], at[45]);    MULADD(at[3], at[44]);    MULADD(at[4], at[43]);    MULADD(at[5], at[42]);    MULADD(at[6], at[41]);    MULADD(at[7], at[40]);    MULADD(at[8], at[39]);    MULADD(at[9], at[38]);    MULADD(at[10], at[37]);    MULADD(at[11], at[36]);    MULADD(at[12], at[35]);    MULADD(at[13], at[34]);    MULADD(at[14], at[33]);    MULADD(at[15], at[32]);    MULADD(at[16], at[31]);    MULADD(at[17], at[30]);    MULADD(at[18], at[29]);    MULADD(at[19], at[28]);    MULADD(at[20], at[27]);    MULADD(at[21], at[26]);    MULADD(at[22], at[25]);    MULADD(at[23], at[24]);
                     +   COMBA_STORE(C->dp[23]);
                     +   /* 24 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[1], at[47]);    MULADD(at[2], at[46]);    MULADD(at[3], at[45]);    MULADD(at[4], at[44]);    MULADD(at[5], at[43]);    MULADD(at[6], at[42]);    MULADD(at[7], at[41]);    MULADD(at[8], at[40]);    MULADD(at[9], at[39]);    MULADD(at[10], at[38]);    MULADD(at[11], at[37]);    MULADD(at[12], at[36]);    MULADD(at[13], at[35]);    MULADD(at[14], at[34]);    MULADD(at[15], at[33]);    MULADD(at[16], at[32]);    MULADD(at[17], at[31]);    MULADD(at[18], at[30]);    MULADD(at[19], at[29]);    MULADD(at[20], at[28]);    MULADD(at[21], at[27]);    MULADD(at[22], at[26]);    MULADD(at[23], at[25]);
                     +   COMBA_STORE(C->dp[24]);
                     +   /* 25 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[2], at[47]);    MULADD(at[3], at[46]);    MULADD(at[4], at[45]);    MULADD(at[5], at[44]);    MULADD(at[6], at[43]);    MULADD(at[7], at[42]);    MULADD(at[8], at[41]);    MULADD(at[9], at[40]);    MULADD(at[10], at[39]);    MULADD(at[11], at[38]);    MULADD(at[12], at[37]);    MULADD(at[13], at[36]);    MULADD(at[14], at[35]);    MULADD(at[15], at[34]);    MULADD(at[16], at[33]);    MULADD(at[17], at[32]);    MULADD(at[18], at[31]);    MULADD(at[19], at[30]);    MULADD(at[20], at[29]);    MULADD(at[21], at[28]);    MULADD(at[22], at[27]);    MULADD(at[23], at[26]);
                     +   COMBA_STORE(C->dp[25]);
                     +   /* 26 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[3], at[47]);    MULADD(at[4], at[46]);    MULADD(at[5], at[45]);    MULADD(at[6], at[44]);    MULADD(at[7], at[43]);    MULADD(at[8], at[42]);    MULADD(at[9], at[41]);    MULADD(at[10], at[40]);    MULADD(at[11], at[39]);    MULADD(at[12], at[38]);    MULADD(at[13], at[37]);    MULADD(at[14], at[36]);    MULADD(at[15], at[35]);    MULADD(at[16], at[34]);    MULADD(at[17], at[33]);    MULADD(at[18], at[32]);    MULADD(at[19], at[31]);    MULADD(at[20], at[30]);    MULADD(at[21], at[29]);    MULADD(at[22], at[28]);    MULADD(at[23], at[27]);
                     +   COMBA_STORE(C->dp[26]);
                     +   /* 27 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[4], at[47]);    MULADD(at[5], at[46]);    MULADD(at[6], at[45]);    MULADD(at[7], at[44]);    MULADD(at[8], at[43]);    MULADD(at[9], at[42]);    MULADD(at[10], at[41]);    MULADD(at[11], at[40]);    MULADD(at[12], at[39]);    MULADD(at[13], at[38]);    MULADD(at[14], at[37]);    MULADD(at[15], at[36]);    MULADD(at[16], at[35]);    MULADD(at[17], at[34]);    MULADD(at[18], at[33]);    MULADD(at[19], at[32]);    MULADD(at[20], at[31]);    MULADD(at[21], at[30]);    MULADD(at[22], at[29]);    MULADD(at[23], at[28]);
                     +   COMBA_STORE(C->dp[27]);
                     +   /* 28 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[5], at[47]);    MULADD(at[6], at[46]);    MULADD(at[7], at[45]);    MULADD(at[8], at[44]);    MULADD(at[9], at[43]);    MULADD(at[10], at[42]);    MULADD(at[11], at[41]);    MULADD(at[12], at[40]);    MULADD(at[13], at[39]);    MULADD(at[14], at[38]);    MULADD(at[15], at[37]);    MULADD(at[16], at[36]);    MULADD(at[17], at[35]);    MULADD(at[18], at[34]);    MULADD(at[19], at[33]);    MULADD(at[20], at[32]);    MULADD(at[21], at[31]);    MULADD(at[22], at[30]);    MULADD(at[23], at[29]);
                     +   COMBA_STORE(C->dp[28]);
                     +   /* 29 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[6], at[47]);    MULADD(at[7], at[46]);    MULADD(at[8], at[45]);    MULADD(at[9], at[44]);    MULADD(at[10], at[43]);    MULADD(at[11], at[42]);    MULADD(at[12], at[41]);    MULADD(at[13], at[40]);    MULADD(at[14], at[39]);    MULADD(at[15], at[38]);    MULADD(at[16], at[37]);    MULADD(at[17], at[36]);    MULADD(at[18], at[35]);    MULADD(at[19], at[34]);    MULADD(at[20], at[33]);    MULADD(at[21], at[32]);    MULADD(at[22], at[31]);    MULADD(at[23], at[30]);
                     +   COMBA_STORE(C->dp[29]);
                     +   /* 30 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[7], at[47]);    MULADD(at[8], at[46]);    MULADD(at[9], at[45]);    MULADD(at[10], at[44]);    MULADD(at[11], at[43]);    MULADD(at[12], at[42]);    MULADD(at[13], at[41]);    MULADD(at[14], at[40]);    MULADD(at[15], at[39]);    MULADD(at[16], at[38]);    MULADD(at[17], at[37]);    MULADD(at[18], at[36]);    MULADD(at[19], at[35]);    MULADD(at[20], at[34]);    MULADD(at[21], at[33]);    MULADD(at[22], at[32]);    MULADD(at[23], at[31]);
                     +   COMBA_STORE(C->dp[30]);
                     +   /* 31 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[8], at[47]);    MULADD(at[9], at[46]);    MULADD(at[10], at[45]);    MULADD(at[11], at[44]);    MULADD(at[12], at[43]);    MULADD(at[13], at[42]);    MULADD(at[14], at[41]);    MULADD(at[15], at[40]);    MULADD(at[16], at[39]);    MULADD(at[17], at[38]);    MULADD(at[18], at[37]);    MULADD(at[19], at[36]);    MULADD(at[20], at[35]);    MULADD(at[21], at[34]);    MULADD(at[22], at[33]);    MULADD(at[23], at[32]);
                     +   COMBA_STORE(C->dp[31]);
                     +   /* 32 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[9], at[47]);    MULADD(at[10], at[46]);    MULADD(at[11], at[45]);    MULADD(at[12], at[44]);    MULADD(at[13], at[43]);    MULADD(at[14], at[42]);    MULADD(at[15], at[41]);    MULADD(at[16], at[40]);    MULADD(at[17], at[39]);    MULADD(at[18], at[38]);    MULADD(at[19], at[37]);    MULADD(at[20], at[36]);    MULADD(at[21], at[35]);    MULADD(at[22], at[34]);    MULADD(at[23], at[33]);
                     +   COMBA_STORE(C->dp[32]);
                     +   /* 33 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[10], at[47]);    MULADD(at[11], at[46]);    MULADD(at[12], at[45]);    MULADD(at[13], at[44]);    MULADD(at[14], at[43]);    MULADD(at[15], at[42]);    MULADD(at[16], at[41]);    MULADD(at[17], at[40]);    MULADD(at[18], at[39]);    MULADD(at[19], at[38]);    MULADD(at[20], at[37]);    MULADD(at[21], at[36]);    MULADD(at[22], at[35]);    MULADD(at[23], at[34]);
                     +   COMBA_STORE(C->dp[33]);
                     +   /* 34 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[11], at[47]);    MULADD(at[12], at[46]);    MULADD(at[13], at[45]);    MULADD(at[14], at[44]);    MULADD(at[15], at[43]);    MULADD(at[16], at[42]);    MULADD(at[17], at[41]);    MULADD(at[18], at[40]);    MULADD(at[19], at[39]);    MULADD(at[20], at[38]);    MULADD(at[21], at[37]);    MULADD(at[22], at[36]);    MULADD(at[23], at[35]);
                     +   COMBA_STORE(C->dp[34]);
                     +   /* 35 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[12], at[47]);    MULADD(at[13], at[46]);    MULADD(at[14], at[45]);    MULADD(at[15], at[44]);    MULADD(at[16], at[43]);    MULADD(at[17], at[42]);    MULADD(at[18], at[41]);    MULADD(at[19], at[40]);    MULADD(at[20], at[39]);    MULADD(at[21], at[38]);    MULADD(at[22], at[37]);    MULADD(at[23], at[36]);
                     +   COMBA_STORE(C->dp[35]);
                     +   /* 36 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[13], at[47]);    MULADD(at[14], at[46]);    MULADD(at[15], at[45]);    MULADD(at[16], at[44]);    MULADD(at[17], at[43]);    MULADD(at[18], at[42]);    MULADD(at[19], at[41]);    MULADD(at[20], at[40]);    MULADD(at[21], at[39]);    MULADD(at[22], at[38]);    MULADD(at[23], at[37]);
                     +   COMBA_STORE(C->dp[36]);
                     +   /* 37 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[14], at[47]);    MULADD(at[15], at[46]);    MULADD(at[16], at[45]);    MULADD(at[17], at[44]);    MULADD(at[18], at[43]);    MULADD(at[19], at[42]);    MULADD(at[20], at[41]);    MULADD(at[21], at[40]);    MULADD(at[22], at[39]);    MULADD(at[23], at[38]);
                     +   COMBA_STORE(C->dp[37]);
                     +   /* 38 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[15], at[47]);    MULADD(at[16], at[46]);    MULADD(at[17], at[45]);    MULADD(at[18], at[44]);    MULADD(at[19], at[43]);    MULADD(at[20], at[42]);    MULADD(at[21], at[41]);    MULADD(at[22], at[40]);    MULADD(at[23], at[39]);
                     +   COMBA_STORE(C->dp[38]);
                     +   /* 39 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[16], at[47]);    MULADD(at[17], at[46]);    MULADD(at[18], at[45]);    MULADD(at[19], at[44]);    MULADD(at[20], at[43]);    MULADD(at[21], at[42]);    MULADD(at[22], at[41]);    MULADD(at[23], at[40]);
                     +   COMBA_STORE(C->dp[39]);
                     +   /* 40 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[17], at[47]);    MULADD(at[18], at[46]);    MULADD(at[19], at[45]);    MULADD(at[20], at[44]);    MULADD(at[21], at[43]);    MULADD(at[22], at[42]);    MULADD(at[23], at[41]);
                     +   COMBA_STORE(C->dp[40]);
                     +   /* 41 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[18], at[47]);    MULADD(at[19], at[46]);    MULADD(at[20], at[45]);    MULADD(at[21], at[44]);    MULADD(at[22], at[43]);    MULADD(at[23], at[42]);
                     +   COMBA_STORE(C->dp[41]);
                     +   /* 42 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[19], at[47]);    MULADD(at[20], at[46]);    MULADD(at[21], at[45]);    MULADD(at[22], at[44]);    MULADD(at[23], at[43]);
                     +   COMBA_STORE(C->dp[42]);
                     +   /* 43 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[20], at[47]);    MULADD(at[21], at[46]);    MULADD(at[22], at[45]);    MULADD(at[23], at[44]);
                     +   COMBA_STORE(C->dp[43]);
                     +   /* 44 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[21], at[47]);    MULADD(at[22], at[46]);    MULADD(at[23], at[45]);
                     +   COMBA_STORE(C->dp[44]);
                     +   /* 45 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[22], at[47]);    MULADD(at[23], at[46]);
                     +   COMBA_STORE(C->dp[45]);
                     +   /* 46 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[23], at[47]);
                     +   COMBA_STORE(C->dp[46]);
                     +   COMBA_STORE2(C->dp[47]);
                     +   C->used = 48;
                     +   C->sign = A->sign ^ B->sign;
                     +   fp_clamp(C);
                     +   COMBA_FINI;
                     +}
                     +#endif
                     -  if (a->used > b->used) {
                     -    if ((res = mp_init_copy (&t, a)) != MP_OKAY) {
                     -      return res;
                     -    }
                     -    px = b->used;
                     -    x = b;
                     -  } else {
                     -    if ((res = mp_init_copy (&t, b)) != MP_OKAY) {
                     -      return res;
                     -    }
                     -    px = a->used;
                     -    x = a;
                     -  }
                     +/* End: fp_mul_comba_24.c */
                     -  for (ix = 0; ix < px; ix++) {
                     -    t.dp[ix] |= x->dp[ix];
                     -  }
                     -  mp_clamp (&t);
                     -  mp_exch (c, &t);
                     -  mp_clear (&t);
                     -  return MP_OKAY;
                     +/* Start: fp_mul_comba_28.c */
                     +#define TFM_DEFINES
                     +#include "fp_mul_comba.c"
+                    +
                     +#ifdef TFM_MUL28
                     +void fp_mul_comba28(fp_int *A, fp_int *B, fp_int *C)
                     +{
                     +   fp_digit c0, c1, c2, at[56];
+                    +
                     +   memcpy(at, A->dp, 28 * sizeof(fp_digit));
                     +   memcpy(at+28, B->dp, 28 * sizeof(fp_digit));
                     +   COMBA_START;
+                    +
                     +   COMBA_CLEAR;
                     +   /* 0 */
                     +   MULADD(at[0], at[28]);
                     +   COMBA_STORE(C->dp[0]);
                     +   /* 1 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[29]);    MULADD(at[1], at[28]);
                     +   COMBA_STORE(C->dp[1]);
                     +   /* 2 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[30]);    MULADD(at[1], at[29]);    MULADD(at[2], at[28]);
                     +   COMBA_STORE(C->dp[2]);
                     +   /* 3 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[31]);    MULADD(at[1], at[30]);    MULADD(at[2], at[29]);    MULADD(at[3], at[28]);
                     +   COMBA_STORE(C->dp[3]);
                     +   /* 4 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[32]);    MULADD(at[1], at[31]);    MULADD(at[2], at[30]);    MULADD(at[3], at[29]);    MULADD(at[4], at[28]);
                     +   COMBA_STORE(C->dp[4]);
                     +   /* 5 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[33]);    MULADD(at[1], at[32]);    MULADD(at[2], at[31]);    MULADD(at[3], at[30]);    MULADD(at[4], at[29]);    MULADD(at[5], at[28]);
                     +   COMBA_STORE(C->dp[5]);
                     +   /* 6 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[34]);    MULADD(at[1], at[33]);    MULADD(at[2], at[32]);    MULADD(at[3], at[31]);    MULADD(at[4], at[30]);    MULADD(at[5], at[29]);    MULADD(at[6], at[28]);
                     +   COMBA_STORE(C->dp[6]);
                     +   /* 7 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[35]);    MULADD(at[1], at[34]);    MULADD(at[2], at[33]);    MULADD(at[3], at[32]);    MULADD(at[4], at[31]);    MULADD(at[5], at[30]);    MULADD(at[6], at[29]);    MULADD(at[7], at[28]);
                     +   COMBA_STORE(C->dp[7]);
                     +   /* 8 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[36]);    MULADD(at[1], at[35]);    MULADD(at[2], at[34]);    MULADD(at[3], at[33]);    MULADD(at[4], at[32]);    MULADD(at[5], at[31]);    MULADD(at[6], at[30]);    MULADD(at[7], at[29]);    MULADD(at[8], at[28]);
                     +   COMBA_STORE(C->dp[8]);
                     +   /* 9 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[37]);    MULADD(at[1], at[36]);    MULADD(at[2], at[35]);    MULADD(at[3], at[34]);    MULADD(at[4], at[33]);    MULADD(at[5], at[32]);    MULADD(at[6], at[31]);    MULADD(at[7], at[30]);    MULADD(at[8], at[29]);    MULADD(at[9], at[28]);
                     +   COMBA_STORE(C->dp[9]);
                     +   /* 10 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[38]);    MULADD(at[1], at[37]);    MULADD(at[2], at[36]);    MULADD(at[3], at[35]);    MULADD(at[4], at[34]);    MULADD(at[5], at[33]);    MULADD(at[6], at[32]);    MULADD(at[7], at[31]);    MULADD(at[8], at[30]);    MULADD(at[9], at[29]);    MULADD(at[10], at[28]);
                     +   COMBA_STORE(C->dp[10]);
                     +   /* 11 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[39]);    MULADD(at[1], at[38]);    MULADD(at[2], at[37]);    MULADD(at[3], at[36]);    MULADD(at[4], at[35]);    MULADD(at[5], at[34]);    MULADD(at[6], at[33]);    MULADD(at[7], at[32]);    MULADD(at[8], at[31]);    MULADD(at[9], at[30]);    MULADD(at[10], at[29]);    MULADD(at[11], at[28]);
                     +   COMBA_STORE(C->dp[11]);
                     +   /* 12 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[40]);    MULADD(at[1], at[39]);    MULADD(at[2], at[38]);    MULADD(at[3], at[37]);    MULADD(at[4], at[36]);    MULADD(at[5], at[35]);    MULADD(at[6], at[34]);    MULADD(at[7], at[33]);    MULADD(at[8], at[32]);    MULADD(at[9], at[31]);    MULADD(at[10], at[30]);    MULADD(at[11], at[29]);    MULADD(at[12], at[28]);
                     +   COMBA_STORE(C->dp[12]);
                     +   /* 13 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[41]);    MULADD(at[1], at[40]);    MULADD(at[2], at[39]);    MULADD(at[3], at[38]);    MULADD(at[4], at[37]);    MULADD(at[5], at[36]);    MULADD(at[6], at[35]);    MULADD(at[7], at[34]);    MULADD(at[8], at[33]);    MULADD(at[9], at[32]);    MULADD(at[10], at[31]);    MULADD(at[11], at[30]);    MULADD(at[12], at[29]);    MULADD(at[13], at[28]);
                     +   COMBA_STORE(C->dp[13]);
                     +   /* 14 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[42]);    MULADD(at[1], at[41]);    MULADD(at[2], at[40]);    MULADD(at[3], at[39]);    MULADD(at[4], at[38]);    MULADD(at[5], at[37]);    MULADD(at[6], at[36]);    MULADD(at[7], at[35]);    MULADD(at[8], at[34]);    MULADD(at[9], at[33]);    MULADD(at[10], at[32]);    MULADD(at[11], at[31]);    MULADD(at[12], at[30]);    MULADD(at[13], at[29]);    MULADD(at[14], at[28]);
                     +   COMBA_STORE(C->dp[14]);
                     +   /* 15 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[43]);    MULADD(at[1], at[42]);    MULADD(at[2], at[41]);    MULADD(at[3], at[40]);    MULADD(at[4], at[39]);    MULADD(at[5], at[38]);    MULADD(at[6], at[37]);    MULADD(at[7], at[36]);    MULADD(at[8], at[35]);    MULADD(at[9], at[34]);    MULADD(at[10], at[33]);    MULADD(at[11], at[32]);    MULADD(at[12], at[31]);    MULADD(at[13], at[30]);    MULADD(at[14], at[29]);    MULADD(at[15], at[28]);
                     +   COMBA_STORE(C->dp[15]);
                     +   /* 16 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[44]);    MULADD(at[1], at[43]);    MULADD(at[2], at[42]);    MULADD(at[3], at[41]);    MULADD(at[4], at[40]);    MULADD(at[5], at[39]);    MULADD(at[6], at[38]);    MULADD(at[7], at[37]);    MULADD(at[8], at[36]);    MULADD(at[9], at[35]);    MULADD(at[10], at[34]);    MULADD(at[11], at[33]);    MULADD(at[12], at[32]);    MULADD(at[13], at[31]);    MULADD(at[14], at[30]);    MULADD(at[15], at[29]);    MULADD(at[16], at[28]);
                     +   COMBA_STORE(C->dp[16]);
                     +   /* 17 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[45]);    MULADD(at[1], at[44]);    MULADD(at[2], at[43]);    MULADD(at[3], at[42]);    MULADD(at[4], at[41]);    MULADD(at[5], at[40]);    MULADD(at[6], at[39]);    MULADD(at[7], at[38]);    MULADD(at[8], at[37]);    MULADD(at[9], at[36]);    MULADD(at[10], at[35]);    MULADD(at[11], at[34]);    MULADD(at[12], at[33]);    MULADD(at[13], at[32]);    MULADD(at[14], at[31]);    MULADD(at[15], at[30]);    MULADD(at[16], at[29]);    MULADD(at[17], at[28]);
                     +   COMBA_STORE(C->dp[17]);
                     +   /* 18 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[46]);    MULADD(at[1], at[45]);    MULADD(at[2], at[44]);    MULADD(at[3], at[43]);    MULADD(at[4], at[42]);    MULADD(at[5], at[41]);    MULADD(at[6], at[40]);    MULADD(at[7], at[39]);    MULADD(at[8], at[38]);    MULADD(at[9], at[37]);    MULADD(at[10], at[36]);    MULADD(at[11], at[35]);    MULADD(at[12], at[34]);    MULADD(at[13], at[33]);    MULADD(at[14], at[32]);    MULADD(at[15], at[31]);    MULADD(at[16], at[30]);    MULADD(at[17], at[29]);    MULADD(at[18], at[28]);
                     +   COMBA_STORE(C->dp[18]);
                     +   /* 19 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[47]);    MULADD(at[1], at[46]);    MULADD(at[2], at[45]);    MULADD(at[3], at[44]);    MULADD(at[4], at[43]);    MULADD(at[5], at[42]);    MULADD(at[6], at[41]);    MULADD(at[7], at[40]);    MULADD(at[8], at[39]);    MULADD(at[9], at[38]);    MULADD(at[10], at[37]);    MULADD(at[11], at[36]);    MULADD(at[12], at[35]);    MULADD(at[13], at[34]);    MULADD(at[14], at[33]);    MULADD(at[15], at[32]);    MULADD(at[16], at[31]);    MULADD(at[17], at[30]);    MULADD(at[18], at[29]);    MULADD(at[19], at[28]);
                     +   COMBA_STORE(C->dp[19]);
                     +   /* 20 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[48]);    MULADD(at[1], at[47]);    MULADD(at[2], at[46]);    MULADD(at[3], at[45]);    MULADD(at[4], at[44]);    MULADD(at[5], at[43]);    MULADD(at[6], at[42]);    MULADD(at[7], at[41]);    MULADD(at[8], at[40]);    MULADD(at[9], at[39]);    MULADD(at[10], at[38]);    MULADD(at[11], at[37]);    MULADD(at[12], at[36]);    MULADD(at[13], at[35]);    MULADD(at[14], at[34]);    MULADD(at[15], at[33]);    MULADD(at[16], at[32]);    MULADD(at[17], at[31]);    MULADD(at[18], at[30]);    MULADD(at[19], at[29]);    MULADD(at[20], at[28]);
                     +   COMBA_STORE(C->dp[20]);
                     +   /* 21 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[49]);    MULADD(at[1], at[48]);    MULADD(at[2], at[47]);    MULADD(at[3], at[46]);    MULADD(at[4], at[45]);    MULADD(at[5], at[44]);    MULADD(at[6], at[43]);    MULADD(at[7], at[42]);    MULADD(at[8], at[41]);    MULADD(at[9], at[40]);    MULADD(at[10], at[39]);    MULADD(at[11], at[38]);    MULADD(at[12], at[37]);    MULADD(at[13], at[36]);    MULADD(at[14], at[35]);    MULADD(at[15], at[34]);    MULADD(at[16], at[33]);    MULADD(at[17], at[32]);    MULADD(at[18], at[31]);    MULADD(at[19], at[30]);    MULADD(at[20], at[29]);    MULADD(at[21], at[28]);
                     +   COMBA_STORE(C->dp[21]);
                     +   /* 22 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[50]);    MULADD(at[1], at[49]);    MULADD(at[2], at[48]);    MULADD(at[3], at[47]);    MULADD(at[4], at[46]);    MULADD(at[5], at[45]);    MULADD(at[6], at[44]);    MULADD(at[7], at[43]);    MULADD(at[8], at[42]);    MULADD(at[9], at[41]);    MULADD(at[10], at[40]);    MULADD(at[11], at[39]);    MULADD(at[12], at[38]);    MULADD(at[13], at[37]);    MULADD(at[14], at[36]);    MULADD(at[15], at[35]);    MULADD(at[16], at[34]);    MULADD(at[17], at[33]);    MULADD(at[18], at[32]);    MULADD(at[19], at[31]);    MULADD(at[20], at[30]);    MULADD(at[21], at[29]);    MULADD(at[22], at[28]);
                     +   COMBA_STORE(C->dp[22]);
                     +   /* 23 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[51]);    MULADD(at[1], at[50]);    MULADD(at[2], at[49]);    MULADD(at[3], at[48]);    MULADD(at[4], at[47]);    MULADD(at[5], at[46]);    MULADD(at[6], at[45]);    MULADD(at[7], at[44]);    MULADD(at[8], at[43]);    MULADD(at[9], at[42]);    MULADD(at[10], at[41]);    MULADD(at[11], at[40]);    MULADD(at[12], at[39]);    MULADD(at[13], at[38]);    MULADD(at[14], at[37]);    MULADD(at[15], at[36]);    MULADD(at[16], at[35]);    MULADD(at[17], at[34]);    MULADD(at[18], at[33]);    MULADD(at[19], at[32]);    MULADD(at[20], at[31]);    MULADD(at[21], at[30]);    MULADD(at[22], at[29]);    MULADD(at[23], at[28]);
                     +   COMBA_STORE(C->dp[23]);
                     +   /* 24 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[52]);    MULADD(at[1], at[51]);    MULADD(at[2], at[50]);    MULADD(at[3], at[49]);    MULADD(at[4], at[48]);    MULADD(at[5], at[47]);    MULADD(at[6], at[46]);    MULADD(at[7], at[45]);    MULADD(at[8], at[44]);    MULADD(at[9], at[43]);    MULADD(at[10], at[42]);    MULADD(at[11], at[41]);    MULADD(at[12], at[40]);    MULADD(at[13], at[39]);    MULADD(at[14], at[38]);    MULADD(at[15], at[37]);    MULADD(at[16], at[36]);    MULADD(at[17], at[35]);    MULADD(at[18], at[34]);    MULADD(at[19], at[33]);    MULADD(at[20], at[32]);    MULADD(at[21], at[31]);    MULADD(at[22], at[30]);    MULADD(at[23], at[29]);    MULADD(at[24], at[28]);
                     +   COMBA_STORE(C->dp[24]);
                     +   /* 25 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[53]);    MULADD(at[1], at[52]);    MULADD(at[2], at[51]);    MULADD(at[3], at[50]);    MULADD(at[4], at[49]);    MULADD(at[5], at[48]);    MULADD(at[6], at[47]);    MULADD(at[7], at[46]);    MULADD(at[8], at[45]);    MULADD(at[9], at[44]);    MULADD(at[10], at[43]);    MULADD(at[11], at[42]);    MULADD(at[12], at[41]);    MULADD(at[13], at[40]);    MULADD(at[14], at[39]);    MULADD(at[15], at[38]);    MULADD(at[16], at[37]);    MULADD(at[17], at[36]);    MULADD(at[18], at[35]);    MULADD(at[19], at[34]);    MULADD(at[20], at[33]);    MULADD(at[21], at[32]);    MULADD(at[22], at[31]);    MULADD(at[23], at[30]);    MULADD(at[24], at[29]);    MULADD(at[25], at[28]);
                     +   COMBA_STORE(C->dp[25]);
                     +   /* 26 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[54]);    MULADD(at[1], at[53]);    MULADD(at[2], at[52]);    MULADD(at[3], at[51]);    MULADD(at[4], at[50]);    MULADD(at[5], at[49]);    MULADD(at[6], at[48]);    MULADD(at[7], at[47]);    MULADD(at[8], at[46]);    MULADD(at[9], at[45]);    MULADD(at[10], at[44]);    MULADD(at[11], at[43]);    MULADD(at[12], at[42]);    MULADD(at[13], at[41]);    MULADD(at[14], at[40]);    MULADD(at[15], at[39]);    MULADD(at[16], at[38]);    MULADD(at[17], at[37]);    MULADD(at[18], at[36]);    MULADD(at[19], at[35]);    MULADD(at[20], at[34]);    MULADD(at[21], at[33]);    MULADD(at[22], at[32]);    MULADD(at[23], at[31]);    MULADD(at[24], at[30]);    MULADD(at[25], at[29]);    MULADD(at[26], at[28]);
                     +   COMBA_STORE(C->dp[26]);
                     +   /* 27 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[55]);    MULADD(at[1], at[54]);    MULADD(at[2], at[53]);    MULADD(at[3], at[52]);    MULADD(at[4], at[51]);    MULADD(at[5], at[50]);    MULADD(at[6], at[49]);    MULADD(at[7], at[48]);    MULADD(at[8], at[47]);    MULADD(at[9], at[46]);    MULADD(at[10], at[45]);    MULADD(at[11], at[44]);    MULADD(at[12], at[43]);    MULADD(at[13], at[42]);    MULADD(at[14], at[41]);    MULADD(at[15], at[40]);    MULADD(at[16], at[39]);    MULADD(at[17], at[38]);    MULADD(at[18], at[37]);    MULADD(at[19], at[36]);    MULADD(at[20], at[35]);    MULADD(at[21], at[34]);    MULADD(at[22], at[33]);    MULADD(at[23], at[32]);    MULADD(at[24], at[31]);    MULADD(at[25], at[30]);    MULADD(at[26], at[29]);    MULADD(at[27], at[28]);
                     +   COMBA_STORE(C->dp[27]);
                     +   /* 28 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[1], at[55]);    MULADD(at[2], at[54]);    MULADD(at[3], at[53]);    MULADD(at[4], at[52]);    MULADD(at[5], at[51]);    MULADD(at[6], at[50]);    MULADD(at[7], at[49]);    MULADD(at[8], at[48]);    MULADD(at[9], at[47]);    MULADD(at[10], at[46]);    MULADD(at[11], at[45]);    MULADD(at[12], at[44]);    MULADD(at[13], at[43]);    MULADD(at[14], at[42]);    MULADD(at[15], at[41]);    MULADD(at[16], at[40]);    MULADD(at[17], at[39]);    MULADD(at[18], at[38]);    MULADD(at[19], at[37]);    MULADD(at[20], at[36]);    MULADD(at[21], at[35]);    MULADD(at[22], at[34]);    MULADD(at[23], at[33]);    MULADD(at[24], at[32]);    MULADD(at[25], at[31]);    MULADD(at[26], at[30]);    MULADD(at[27], at[29]);
                     +   COMBA_STORE(C->dp[28]);
                     +   /* 29 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[2], at[55]);    MULADD(at[3], at[54]);    MULADD(at[4], at[53]);    MULADD(at[5], at[52]);    MULADD(at[6], at[51]);    MULADD(at[7], at[50]);    MULADD(at[8], at[49]);    MULADD(at[9], at[48]);    MULADD(at[10], at[47]);    MULADD(at[11], at[46]);    MULADD(at[12], at[45]);    MULADD(at[13], at[44]);    MULADD(at[14], at[43]);    MULADD(at[15], at[42]);    MULADD(at[16], at[41]);    MULADD(at[17], at[40]);    MULADD(at[18], at[39]);    MULADD(at[19], at[38]);    MULADD(at[20], at[37]);    MULADD(at[21], at[36]);    MULADD(at[22], at[35]);    MULADD(at[23], at[34]);    MULADD(at[24], at[33]);    MULADD(at[25], at[32]);    MULADD(at[26], at[31]);    MULADD(at[27], at[30]);
                     +   COMBA_STORE(C->dp[29]);
                     +   /* 30 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[3], at[55]);    MULADD(at[4], at[54]);    MULADD(at[5], at[53]);    MULADD(at[6], at[52]);    MULADD(at[7], at[51]);    MULADD(at[8], at[50]);    MULADD(at[9], at[49]);    MULADD(at[10], at[48]);    MULADD(at[11], at[47]);    MULADD(at[12], at[46]);    MULADD(at[13], at[45]);    MULADD(at[14], at[44]);    MULADD(at[15], at[43]);    MULADD(at[16], at[42]);    MULADD(at[17], at[41]);    MULADD(at[18], at[40]);    MULADD(at[19], at[39]);    MULADD(at[20], at[38]);    MULADD(at[21], at[37]);    MULADD(at[22], at[36]);    MULADD(at[23], at[35]);    MULADD(at[24], at[34]);    MULADD(at[25], at[33]);    MULADD(at[26], at[32]);    MULADD(at[27], at[31]);
                     +   COMBA_STORE(C->dp[30]);
                     +   /* 31 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[4], at[55]);    MULADD(at[5], at[54]);    MULADD(at[6], at[53]);    MULADD(at[7], at[52]);    MULADD(at[8], at[51]);    MULADD(at[9], at[50]);    MULADD(at[10], at[49]);    MULADD(at[11], at[48]);    MULADD(at[12], at[47]);    MULADD(at[13], at[46]);    MULADD(at[14], at[45]);    MULADD(at[15], at[44]);    MULADD(at[16], at[43]);    MULADD(at[17], at[42]);    MULADD(at[18], at[41]);    MULADD(at[19], at[40]);    MULADD(at[20], at[39]);    MULADD(at[21], at[38]);    MULADD(at[22], at[37]);    MULADD(at[23], at[36]);    MULADD(at[24], at[35]);    MULADD(at[25], at[34]);    MULADD(at[26], at[33]);    MULADD(at[27], at[32]);
                     +   COMBA_STORE(C->dp[31]);
                     +   /* 32 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[5], at[55]);    MULADD(at[6], at[54]);    MULADD(at[7], at[53]);    MULADD(at[8], at[52]);    MULADD(at[9], at[51]);    MULADD(at[10], at[50]);    MULADD(at[11], at[49]);    MULADD(at[12], at[48]);    MULADD(at[13], at[47]);    MULADD(at[14], at[46]);    MULADD(at[15], at[45]);    MULADD(at[16], at[44]);    MULADD(at[17], at[43]);    MULADD(at[18], at[42]);    MULADD(at[19], at[41]);    MULADD(at[20], at[40]);    MULADD(at[21], at[39]);    MULADD(at[22], at[38]);    MULADD(at[23], at[37]);    MULADD(at[24], at[36]);    MULADD(at[25], at[35]);    MULADD(at[26], at[34]);    MULADD(at[27], at[33]);
                     +   COMBA_STORE(C->dp[32]);
                     +   /* 33 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[6], at[55]);    MULADD(at[7], at[54]);    MULADD(at[8], at[53]);    MULADD(at[9], at[52]);    MULADD(at[10], at[51]);    MULADD(at[11], at[50]);    MULADD(at[12], at[49]);    MULADD(at[13], at[48]);    MULADD(at[14], at[47]);    MULADD(at[15], at[46]);    MULADD(at[16], at[45]);    MULADD(at[17], at[44]);    MULADD(at[18], at[43]);    MULADD(at[19], at[42]);    MULADD(at[20], at[41]);    MULADD(at[21], at[40]);    MULADD(at[22], at[39]);    MULADD(at[23], at[38]);    MULADD(at[24], at[37]);    MULADD(at[25], at[36]);    MULADD(at[26], at[35]);    MULADD(at[27], at[34]);
                     +   COMBA_STORE(C->dp[33]);
                     +   /* 34 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[7], at[55]);    MULADD(at[8], at[54]);    MULADD(at[9], at[53]);    MULADD(at[10], at[52]);    MULADD(at[11], at[51]);    MULADD(at[12], at[50]);    MULADD(at[13], at[49]);    MULADD(at[14], at[48]);    MULADD(at[15], at[47]);    MULADD(at[16], at[46]);    MULADD(at[17], at[45]);    MULADD(at[18], at[44]);    MULADD(at[19], at[43]);    MULADD(at[20], at[42]);    MULADD(at[21], at[41]);    MULADD(at[22], at[40]);    MULADD(at[23], at[39]);    MULADD(at[24], at[38]);    MULADD(at[25], at[37]);    MULADD(at[26], at[36]);    MULADD(at[27], at[35]);
                     +   COMBA_STORE(C->dp[34]);
                     +   /* 35 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[8], at[55]);    MULADD(at[9], at[54]);    MULADD(at[10], at[53]);    MULADD(at[11], at[52]);    MULADD(at[12], at[51]);    MULADD(at[13], at[50]);    MULADD(at[14], at[49]);    MULADD(at[15], at[48]);    MULADD(at[16], at[47]);    MULADD(at[17], at[46]);    MULADD(at[18], at[45]);    MULADD(at[19], at[44]);    MULADD(at[20], at[43]);    MULADD(at[21], at[42]);    MULADD(at[22], at[41]);    MULADD(at[23], at[40]);    MULADD(at[24], at[39]);    MULADD(at[25], at[38]);    MULADD(at[26], at[37]);    MULADD(at[27], at[36]);
                     +   COMBA_STORE(C->dp[35]);
                     +   /* 36 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[9], at[55]);    MULADD(at[10], at[54]);    MULADD(at[11], at[53]);    MULADD(at[12], at[52]);    MULADD(at[13], at[51]);    MULADD(at[14], at[50]);    MULADD(at[15], at[49]);    MULADD(at[16], at[48]);    MULADD(at[17], at[47]);    MULADD(at[18], at[46]);    MULADD(at[19], at[45]);    MULADD(at[20], at[44]);    MULADD(at[21], at[43]);    MULADD(at[22], at[42]);    MULADD(at[23], at[41]);    MULADD(at[24], at[40]);    MULADD(at[25], at[39]);    MULADD(at[26], at[38]);    MULADD(at[27], at[37]);
                     +   COMBA_STORE(C->dp[36]);
                     +   /* 37 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[10], at[55]);    MULADD(at[11], at[54]);    MULADD(at[12], at[53]);    MULADD(at[13], at[52]);    MULADD(at[14], at[51]);    MULADD(at[15], at[50]);    MULADD(at[16], at[49]);    MULADD(at[17], at[48]);    MULADD(at[18], at[47]);    MULADD(at[19], at[46]);    MULADD(at[20], at[45]);    MULADD(at[21], at[44]);    MULADD(at[22], at[43]);    MULADD(at[23], at[42]);    MULADD(at[24], at[41]);    MULADD(at[25], at[40]);    MULADD(at[26], at[39]);    MULADD(at[27], at[38]);
                     +   COMBA_STORE(C->dp[37]);
                     +   /* 38 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[11], at[55]);    MULADD(at[12], at[54]);    MULADD(at[13], at[53]);    MULADD(at[14], at[52]);    MULADD(at[15], at[51]);    MULADD(at[16], at[50]);    MULADD(at[17], at[49]);    MULADD(at[18], at[48]);    MULADD(at[19], at[47]);    MULADD(at[20], at[46]);    MULADD(at[21], at[45]);    MULADD(at[22], at[44]);    MULADD(at[23], at[43]);    MULADD(at[24], at[42]);    MULADD(at[25], at[41]);    MULADD(at[26], at[40]);    MULADD(at[27], at[39]);
                     +   COMBA_STORE(C->dp[38]);
                     +   /* 39 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[12], at[55]);    MULADD(at[13], at[54]);    MULADD(at[14], at[53]);    MULADD(at[15], at[52]);    MULADD(at[16], at[51]);    MULADD(at[17], at[50]);    MULADD(at[18], at[49]);    MULADD(at[19], at[48]);    MULADD(at[20], at[47]);    MULADD(at[21], at[46]);    MULADD(at[22], at[45]);    MULADD(at[23], at[44]);    MULADD(at[24], at[43]);    MULADD(at[25], at[42]);    MULADD(at[26], at[41]);    MULADD(at[27], at[40]);
                     +   COMBA_STORE(C->dp[39]);
                     +   /* 40 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[13], at[55]);    MULADD(at[14], at[54]);    MULADD(at[15], at[53]);    MULADD(at[16], at[52]);    MULADD(at[17], at[51]);    MULADD(at[18], at[50]);    MULADD(at[19], at[49]);    MULADD(at[20], at[48]);    MULADD(at[21], at[47]);    MULADD(at[22], at[46]);    MULADD(at[23], at[45]);    MULADD(at[24], at[44]);    MULADD(at[25], at[43]);    MULADD(at[26], at[42]);    MULADD(at[27], at[41]);
                     +   COMBA_STORE(C->dp[40]);
                     +   /* 41 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[14], at[55]);    MULADD(at[15], at[54]);    MULADD(at[16], at[53]);    MULADD(at[17], at[52]);    MULADD(at[18], at[51]);    MULADD(at[19], at[50]);    MULADD(at[20], at[49]);    MULADD(at[21], at[48]);    MULADD(at[22], at[47]);    MULADD(at[23], at[46]);    MULADD(at[24], at[45]);    MULADD(at[25], at[44]);    MULADD(at[26], at[43]);    MULADD(at[27], at[42]);
                     +   COMBA_STORE(C->dp[41]);
                     +   /* 42 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[15], at[55]);    MULADD(at[16], at[54]);    MULADD(at[17], at[53]);    MULADD(at[18], at[52]);    MULADD(at[19], at[51]);    MULADD(at[20], at[50]);    MULADD(at[21], at[49]);    MULADD(at[22], at[48]);    MULADD(at[23], at[47]);    MULADD(at[24], at[46]);    MULADD(at[25], at[45]);    MULADD(at[26], at[44]);    MULADD(at[27], at[43]);
                     +   COMBA_STORE(C->dp[42]);
                     +   /* 43 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[16], at[55]);    MULADD(at[17], at[54]);    MULADD(at[18], at[53]);    MULADD(at[19], at[52]);    MULADD(at[20], at[51]);    MULADD(at[21], at[50]);    MULADD(at[22], at[49]);    MULADD(at[23], at[48]);    MULADD(at[24], at[47]);    MULADD(at[25], at[46]);    MULADD(at[26], at[45]);    MULADD(at[27], at[44]);
                     +   COMBA_STORE(C->dp[43]);
                     +   /* 44 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[17], at[55]);    MULADD(at[18], at[54]);    MULADD(at[19], at[53]);    MULADD(at[20], at[52]);    MULADD(at[21], at[51]);    MULADD(at[22], at[50]);    MULADD(at[23], at[49]);    MULADD(at[24], at[48]);    MULADD(at[25], at[47]);    MULADD(at[26], at[46]);    MULADD(at[27], at[45]);
                     +   COMBA_STORE(C->dp[44]);
                     +   /* 45 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[18], at[55]);    MULADD(at[19], at[54]);    MULADD(at[20], at[53]);    MULADD(at[21], at[52]);    MULADD(at[22], at[51]);    MULADD(at[23], at[50]);    MULADD(at[24], at[49]);    MULADD(at[25], at[48]);    MULADD(at[26], at[47]);    MULADD(at[27], at[46]);
                     +   COMBA_STORE(C->dp[45]);
                     +   /* 46 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[19], at[55]);    MULADD(at[20], at[54]);    MULADD(at[21], at[53]);    MULADD(at[22], at[52]);    MULADD(at[23], at[51]);    MULADD(at[24], at[50]);    MULADD(at[25], at[49]);    MULADD(at[26], at[48]);    MULADD(at[27], at[47]);
                     +   COMBA_STORE(C->dp[46]);
                     +   /* 47 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[20], at[55]);    MULADD(at[21], at[54]);    MULADD(at[22], at[53]);    MULADD(at[23], at[52]);    MULADD(at[24], at[51]);    MULADD(at[25], at[50]);    MULADD(at[26], at[49]);    MULADD(at[27], at[48]);
                     +   COMBA_STORE(C->dp[47]);
                     +   /* 48 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[21], at[55]);    MULADD(at[22], at[54]);    MULADD(at[23], at[53]);    MULADD(at[24], at[52]);    MULADD(at[25], at[51]);    MULADD(at[26], at[50]);    MULADD(at[27], at[49]);
                     +   COMBA_STORE(C->dp[48]);
                     +   /* 49 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[22], at[55]);    MULADD(at[23], at[54]);    MULADD(at[24], at[53]);    MULADD(at[25], at[52]);    MULADD(at[26], at[51]);    MULADD(at[27], at[50]);
                     +   COMBA_STORE(C->dp[49]);
                     +   /* 50 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[23], at[55]);    MULADD(at[24], at[54]);    MULADD(at[25], at[53]);    MULADD(at[26], at[52]);    MULADD(at[27], at[51]);
                     +   COMBA_STORE(C->dp[50]);
                     +   /* 51 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[24], at[55]);    MULADD(at[25], at[54]);    MULADD(at[26], at[53]);    MULADD(at[27], at[52]);
                     +   COMBA_STORE(C->dp[51]);
                     +   /* 52 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[25], at[55]);    MULADD(at[26], at[54]);    MULADD(at[27], at[53]);
                     +   COMBA_STORE(C->dp[52]);
                     +   /* 53 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[26], at[55]);    MULADD(at[27], at[54]);
                     +   COMBA_STORE(C->dp[53]);
                     +   /* 54 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[27], at[55]);
                     +   COMBA_STORE(C->dp[54]);
                     +   COMBA_STORE2(C->dp[55]);
                     +   C->used = 56;
                     +   C->sign = A->sign ^ B->sign;
                     +   fp_clamp(C);
                     +   COMBA_FINI;
+                     }
                      #endif
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_or.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
                     +/* End: fp_mul_comba_28.c */
                     -/* End: bn_mp_or.c */
                     +/* Start: fp_mul_comba_3.c */
                     +#define TFM_DEFINES
                     +#include "fp_mul_comba.c"
                     -/* Start: bn_mp_prime_fermat.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_PRIME_FERMAT_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     - *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     - */
                     +#ifdef TFM_MUL3
                     +void fp_mul_comba3(fp_int *A, fp_int *B, fp_int *C)
                     +{
                     +   fp_digit c0, c1, c2, at[6];
+                    +
                     +   memcpy(at, A->dp, 3 * sizeof(fp_digit));
                     +   memcpy(at+3, B->dp, 3 * sizeof(fp_digit));
                     +   COMBA_START;
+                    +
                     +   COMBA_CLEAR;
                     +   /* 0 */
                     +   MULADD(at[0], at[3]);
                     +   COMBA_STORE(C->dp[0]);
                     +   /* 1 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[4]);    MULADD(at[1], at[3]);
                     +   COMBA_STORE(C->dp[1]);
                     +   /* 2 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[5]);    MULADD(at[1], at[4]);    MULADD(at[2], at[3]);
                     +   COMBA_STORE(C->dp[2]);
                     +   /* 3 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[1], at[5]);    MULADD(at[2], at[4]);
                     +   COMBA_STORE(C->dp[3]);
                     +   /* 4 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[2], at[5]);
                     +   COMBA_STORE(C->dp[4]);
                     +   COMBA_STORE2(C->dp[5]);
                     +   C->used = 6;
                     +   C->sign = A->sign ^ B->sign;
                     +   fp_clamp(C);
                     +   COMBA_FINI;
                     +}
                     +#endif
                     -/* performs one Fermat test.
                     - *
                     - * If "a" were prime then b**a == b (mod a) since the order of
                     - * the multiplicative sub-group would be phi(a) = a-1.  That means
                     - * it would be the same as b**(a mod (a-1)) == b**1 == b (mod a).
                     - *
                     - * Sets result to 1 if the congruence holds, or zero otherwise.
                     - */
                     -int mp_prime_fermat (mp_int * a, mp_int * b, int *result)
                     +/* End: fp_mul_comba_3.c */
+                    +
                     +/* Start: fp_mul_comba_32.c */
                     +#define TFM_DEFINES
                     +#include "fp_mul_comba.c"
+                    +
                     +#ifdef TFM_MUL32
                     +void fp_mul_comba32(fp_int *A, fp_int *B, fp_int *C)
+                     {
                     -  mp_int  t;
                     -  int     err;
                     +   fp_digit c0, c1, c2, at[64];
                     +   int out_size;
+                    +
                     +   out_size = A->used + B->used;
                     +   memcpy(at, A->dp, 32 * sizeof(fp_digit));
                     +   memcpy(at+32, B->dp, 32 * sizeof(fp_digit));
                     +   COMBA_START;
+                    +
                     +   COMBA_CLEAR;
                     +   /* 0 */
                     +   MULADD(at[0], at[32]);
                     +   COMBA_STORE(C->dp[0]);
                     +   /* 1 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[33]);    MULADD(at[1], at[32]);
                     +   COMBA_STORE(C->dp[1]);
                     +   /* 2 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[34]);    MULADD(at[1], at[33]);    MULADD(at[2], at[32]);
                     +   COMBA_STORE(C->dp[2]);
                     +   /* 3 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[35]);    MULADD(at[1], at[34]);    MULADD(at[2], at[33]);    MULADD(at[3], at[32]);
                     +   COMBA_STORE(C->dp[3]);
                     +   /* 4 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[36]);    MULADD(at[1], at[35]);    MULADD(at[2], at[34]);    MULADD(at[3], at[33]);    MULADD(at[4], at[32]);
                     +   COMBA_STORE(C->dp[4]);
                     +   /* 5 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[37]);    MULADD(at[1], at[36]);    MULADD(at[2], at[35]);    MULADD(at[3], at[34]);    MULADD(at[4], at[33]);    MULADD(at[5], at[32]);
                     +   COMBA_STORE(C->dp[5]);
                     +   /* 6 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[38]);    MULADD(at[1], at[37]);    MULADD(at[2], at[36]);    MULADD(at[3], at[35]);    MULADD(at[4], at[34]);    MULADD(at[5], at[33]);    MULADD(at[6], at[32]);
                     +   COMBA_STORE(C->dp[6]);
                     +   /* 7 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[39]);    MULADD(at[1], at[38]);    MULADD(at[2], at[37]);    MULADD(at[3], at[36]);    MULADD(at[4], at[35]);    MULADD(at[5], at[34]);    MULADD(at[6], at[33]);    MULADD(at[7], at[32]);
                     +   COMBA_STORE(C->dp[7]);
                     +   /* 8 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[40]);    MULADD(at[1], at[39]);    MULADD(at[2], at[38]);    MULADD(at[3], at[37]);    MULADD(at[4], at[36]);    MULADD(at[5], at[35]);    MULADD(at[6], at[34]);    MULADD(at[7], at[33]);    MULADD(at[8], at[32]);
                     +   COMBA_STORE(C->dp[8]);
                     +   /* 9 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[41]);    MULADD(at[1], at[40]);    MULADD(at[2], at[39]);    MULADD(at[3], at[38]);    MULADD(at[4], at[37]);    MULADD(at[5], at[36]);    MULADD(at[6], at[35]);    MULADD(at[7], at[34]);    MULADD(at[8], at[33]);    MULADD(at[9], at[32]);
                     +   COMBA_STORE(C->dp[9]);
                     +   /* 10 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[42]);    MULADD(at[1], at[41]);    MULADD(at[2], at[40]);    MULADD(at[3], at[39]);    MULADD(at[4], at[38]);    MULADD(at[5], at[37]);    MULADD(at[6], at[36]);    MULADD(at[7], at[35]);    MULADD(at[8], at[34]);    MULADD(at[9], at[33]);    MULADD(at[10], at[32]);
                     +   COMBA_STORE(C->dp[10]);
                     +   /* 11 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[43]);    MULADD(at[1], at[42]);    MULADD(at[2], at[41]);    MULADD(at[3], at[40]);    MULADD(at[4], at[39]);    MULADD(at[5], at[38]);    MULADD(at[6], at[37]);    MULADD(at[7], at[36]);    MULADD(at[8], at[35]);    MULADD(at[9], at[34]);    MULADD(at[10], at[33]);    MULADD(at[11], at[32]);
                     +   COMBA_STORE(C->dp[11]);
                     +   /* 12 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[44]);    MULADD(at[1], at[43]);    MULADD(at[2], at[42]);    MULADD(at[3], at[41]);    MULADD(at[4], at[40]);    MULADD(at[5], at[39]);    MULADD(at[6], at[38]);    MULADD(at[7], at[37]);    MULADD(at[8], at[36]);    MULADD(at[9], at[35]);    MULADD(at[10], at[34]);    MULADD(at[11], at[33]);    MULADD(at[12], at[32]);
                     +   COMBA_STORE(C->dp[12]);
                     +   /* 13 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[45]);    MULADD(at[1], at[44]);    MULADD(at[2], at[43]);    MULADD(at[3], at[42]);    MULADD(at[4], at[41]);    MULADD(at[5], at[40]);    MULADD(at[6], at[39]);    MULADD(at[7], at[38]);    MULADD(at[8], at[37]);    MULADD(at[9], at[36]);    MULADD(at[10], at[35]);    MULADD(at[11], at[34]);    MULADD(at[12], at[33]);    MULADD(at[13], at[32]);
                     +   COMBA_STORE(C->dp[13]);
                     +   /* 14 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[46]);    MULADD(at[1], at[45]);    MULADD(at[2], at[44]);    MULADD(at[3], at[43]);    MULADD(at[4], at[42]);    MULADD(at[5], at[41]);    MULADD(at[6], at[40]);    MULADD(at[7], at[39]);    MULADD(at[8], at[38]);    MULADD(at[9], at[37]);    MULADD(at[10], at[36]);    MULADD(at[11], at[35]);    MULADD(at[12], at[34]);    MULADD(at[13], at[33]);    MULADD(at[14], at[32]);
                     +   COMBA_STORE(C->dp[14]);
                     +   /* 15 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[47]);    MULADD(at[1], at[46]);    MULADD(at[2], at[45]);    MULADD(at[3], at[44]);    MULADD(at[4], at[43]);    MULADD(at[5], at[42]);    MULADD(at[6], at[41]);    MULADD(at[7], at[40]);    MULADD(at[8], at[39]);    MULADD(at[9], at[38]);    MULADD(at[10], at[37]);    MULADD(at[11], at[36]);    MULADD(at[12], at[35]);    MULADD(at[13], at[34]);    MULADD(at[14], at[33]);    MULADD(at[15], at[32]);
                     +   COMBA_STORE(C->dp[15]);
                     +   /* 16 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[48]);    MULADD(at[1], at[47]);    MULADD(at[2], at[46]);    MULADD(at[3], at[45]);    MULADD(at[4], at[44]);    MULADD(at[5], at[43]);    MULADD(at[6], at[42]);    MULADD(at[7], at[41]);    MULADD(at[8], at[40]);    MULADD(at[9], at[39]);    MULADD(at[10], at[38]);    MULADD(at[11], at[37]);    MULADD(at[12], at[36]);    MULADD(at[13], at[35]);    MULADD(at[14], at[34]);    MULADD(at[15], at[33]);    MULADD(at[16], at[32]);
                     +   COMBA_STORE(C->dp[16]);
                     +   /* 17 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[49]);    MULADD(at[1], at[48]);    MULADD(at[2], at[47]);    MULADD(at[3], at[46]);    MULADD(at[4], at[45]);    MULADD(at[5], at[44]);    MULADD(at[6], at[43]);    MULADD(at[7], at[42]);    MULADD(at[8], at[41]);    MULADD(at[9], at[40]);    MULADD(at[10], at[39]);    MULADD(at[11], at[38]);    MULADD(at[12], at[37]);    MULADD(at[13], at[36]);    MULADD(at[14], at[35]);    MULADD(at[15], at[34]);    MULADD(at[16], at[33]);    MULADD(at[17], at[32]);
                     +   COMBA_STORE(C->dp[17]);
                     +   /* 18 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[50]);    MULADD(at[1], at[49]);    MULADD(at[2], at[48]);    MULADD(at[3], at[47]);    MULADD(at[4], at[46]);    MULADD(at[5], at[45]);    MULADD(at[6], at[44]);    MULADD(at[7], at[43]);    MULADD(at[8], at[42]);    MULADD(at[9], at[41]);    MULADD(at[10], at[40]);    MULADD(at[11], at[39]);    MULADD(at[12], at[38]);    MULADD(at[13], at[37]);    MULADD(at[14], at[36]);    MULADD(at[15], at[35]);    MULADD(at[16], at[34]);    MULADD(at[17], at[33]);    MULADD(at[18], at[32]);
                     +   COMBA_STORE(C->dp[18]);
                     +   /* 19 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[51]);    MULADD(at[1], at[50]);    MULADD(at[2], at[49]);    MULADD(at[3], at[48]);    MULADD(at[4], at[47]);    MULADD(at[5], at[46]);    MULADD(at[6], at[45]);    MULADD(at[7], at[44]);    MULADD(at[8], at[43]);    MULADD(at[9], at[42]);    MULADD(at[10], at[41]);    MULADD(at[11], at[40]);    MULADD(at[12], at[39]);    MULADD(at[13], at[38]);    MULADD(at[14], at[37]);    MULADD(at[15], at[36]);    MULADD(at[16], at[35]);    MULADD(at[17], at[34]);    MULADD(at[18], at[33]);    MULADD(at[19], at[32]);
                     +   COMBA_STORE(C->dp[19]);
                     +   /* 20 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[52]);    MULADD(at[1], at[51]);    MULADD(at[2], at[50]);    MULADD(at[3], at[49]);    MULADD(at[4], at[48]);    MULADD(at[5], at[47]);    MULADD(at[6], at[46]);    MULADD(at[7], at[45]);    MULADD(at[8], at[44]);    MULADD(at[9], at[43]);    MULADD(at[10], at[42]);    MULADD(at[11], at[41]);    MULADD(at[12], at[40]);    MULADD(at[13], at[39]);    MULADD(at[14], at[38]);    MULADD(at[15], at[37]);    MULADD(at[16], at[36]);    MULADD(at[17], at[35]);    MULADD(at[18], at[34]);    MULADD(at[19], at[33]);    MULADD(at[20], at[32]);
                     +   COMBA_STORE(C->dp[20]);
                     +   /* 21 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[53]);    MULADD(at[1], at[52]);    MULADD(at[2], at[51]);    MULADD(at[3], at[50]);    MULADD(at[4], at[49]);    MULADD(at[5], at[48]);    MULADD(at[6], at[47]);    MULADD(at[7], at[46]);    MULADD(at[8], at[45]);    MULADD(at[9], at[44]);    MULADD(at[10], at[43]);    MULADD(at[11], at[42]);    MULADD(at[12], at[41]);    MULADD(at[13], at[40]);    MULADD(at[14], at[39]);    MULADD(at[15], at[38]);    MULADD(at[16], at[37]);    MULADD(at[17], at[36]);    MULADD(at[18], at[35]);    MULADD(at[19], at[34]);    MULADD(at[20], at[33]);    MULADD(at[21], at[32]);
                     +   COMBA_STORE(C->dp[21]);
                     +   /* 22 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[54]);    MULADD(at[1], at[53]);    MULADD(at[2], at[52]);    MULADD(at[3], at[51]);    MULADD(at[4], at[50]);    MULADD(at[5], at[49]);    MULADD(at[6], at[48]);    MULADD(at[7], at[47]);    MULADD(at[8], at[46]);    MULADD(at[9], at[45]);    MULADD(at[10], at[44]);    MULADD(at[11], at[43]);    MULADD(at[12], at[42]);    MULADD(at[13], at[41]);    MULADD(at[14], at[40]);    MULADD(at[15], at[39]);    MULADD(at[16], at[38]);    MULADD(at[17], at[37]);    MULADD(at[18], at[36]);    MULADD(at[19], at[35]);    MULADD(at[20], at[34]);    MULADD(at[21], at[33]);    MULADD(at[22], at[32]);
                     +   COMBA_STORE(C->dp[22]);
                     +   /* 23 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[55]);    MULADD(at[1], at[54]);    MULADD(at[2], at[53]);    MULADD(at[3], at[52]);    MULADD(at[4], at[51]);    MULADD(at[5], at[50]);    MULADD(at[6], at[49]);    MULADD(at[7], at[48]);    MULADD(at[8], at[47]);    MULADD(at[9], at[46]);    MULADD(at[10], at[45]);    MULADD(at[11], at[44]);    MULADD(at[12], at[43]);    MULADD(at[13], at[42]);    MULADD(at[14], at[41]);    MULADD(at[15], at[40]);    MULADD(at[16], at[39]);    MULADD(at[17], at[38]);    MULADD(at[18], at[37]);    MULADD(at[19], at[36]);    MULADD(at[20], at[35]);    MULADD(at[21], at[34]);    MULADD(at[22], at[33]);    MULADD(at[23], at[32]);
                     +   COMBA_STORE(C->dp[23]);
                     +   /* 24 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[56]);    MULADD(at[1], at[55]);    MULADD(at[2], at[54]);    MULADD(at[3], at[53]);    MULADD(at[4], at[52]);    MULADD(at[5], at[51]);    MULADD(at[6], at[50]);    MULADD(at[7], at[49]);    MULADD(at[8], at[48]);    MULADD(at[9], at[47]);    MULADD(at[10], at[46]);    MULADD(at[11], at[45]);    MULADD(at[12], at[44]);    MULADD(at[13], at[43]);    MULADD(at[14], at[42]);    MULADD(at[15], at[41]);    MULADD(at[16], at[40]);    MULADD(at[17], at[39]);    MULADD(at[18], at[38]);    MULADD(at[19], at[37]);    MULADD(at[20], at[36]);    MULADD(at[21], at[35]);    MULADD(at[22], at[34]);    MULADD(at[23], at[33]);    MULADD(at[24], at[32]);
                     +   COMBA_STORE(C->dp[24]);
                     +   /* 25 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[57]);    MULADD(at[1], at[56]);    MULADD(at[2], at[55]);    MULADD(at[3], at[54]);    MULADD(at[4], at[53]);    MULADD(at[5], at[52]);    MULADD(at[6], at[51]);    MULADD(at[7], at[50]);    MULADD(at[8], at[49]);    MULADD(at[9], at[48]);    MULADD(at[10], at[47]);    MULADD(at[11], at[46]);    MULADD(at[12], at[45]);    MULADD(at[13], at[44]);    MULADD(at[14], at[43]);    MULADD(at[15], at[42]);    MULADD(at[16], at[41]);    MULADD(at[17], at[40]);    MULADD(at[18], at[39]);    MULADD(at[19], at[38]);    MULADD(at[20], at[37]);    MULADD(at[21], at[36]);    MULADD(at[22], at[35]);    MULADD(at[23], at[34]);    MULADD(at[24], at[33]);    MULADD(at[25], at[32]);
                     +   COMBA_STORE(C->dp[25]);
                     +   /* 26 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[58]);    MULADD(at[1], at[57]);    MULADD(at[2], at[56]);    MULADD(at[3], at[55]);    MULADD(at[4], at[54]);    MULADD(at[5], at[53]);    MULADD(at[6], at[52]);    MULADD(at[7], at[51]);    MULADD(at[8], at[50]);    MULADD(at[9], at[49]);    MULADD(at[10], at[48]);    MULADD(at[11], at[47]);    MULADD(at[12], at[46]);    MULADD(at[13], at[45]);    MULADD(at[14], at[44]);    MULADD(at[15], at[43]);    MULADD(at[16], at[42]);    MULADD(at[17], at[41]);    MULADD(at[18], at[40]);    MULADD(at[19], at[39]);    MULADD(at[20], at[38]);    MULADD(at[21], at[37]);    MULADD(at[22], at[36]);    MULADD(at[23], at[35]);    MULADD(at[24], at[34]);    MULADD(at[25], at[33]);    MULADD(at[26], at[32]);
                     +   COMBA_STORE(C->dp[26]);
                     +   /* 27 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[59]);    MULADD(at[1], at[58]);    MULADD(at[2], at[57]);    MULADD(at[3], at[56]);    MULADD(at[4], at[55]);    MULADD(at[5], at[54]);    MULADD(at[6], at[53]);    MULADD(at[7], at[52]);    MULADD(at[8], at[51]);    MULADD(at[9], at[50]);    MULADD(at[10], at[49]);    MULADD(at[11], at[48]);    MULADD(at[12], at[47]);    MULADD(at[13], at[46]);    MULADD(at[14], at[45]);    MULADD(at[15], at[44]);    MULADD(at[16], at[43]);    MULADD(at[17], at[42]);    MULADD(at[18], at[41]);    MULADD(at[19], at[40]);    MULADD(at[20], at[39]);    MULADD(at[21], at[38]);    MULADD(at[22], at[37]);    MULADD(at[23], at[36]);    MULADD(at[24], at[35]);    MULADD(at[25], at[34]);    MULADD(at[26], at[33]);    MULADD(at[27], at[32]);
                     +   COMBA_STORE(C->dp[27]);
                     +   /* 28 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[60]);    MULADD(at[1], at[59]);    MULADD(at[2], at[58]);    MULADD(at[3], at[57]);    MULADD(at[4], at[56]);    MULADD(at[5], at[55]);    MULADD(at[6], at[54]);    MULADD(at[7], at[53]);    MULADD(at[8], at[52]);    MULADD(at[9], at[51]);    MULADD(at[10], at[50]);    MULADD(at[11], at[49]);    MULADD(at[12], at[48]);    MULADD(at[13], at[47]);    MULADD(at[14], at[46]);    MULADD(at[15], at[45]);    MULADD(at[16], at[44]);    MULADD(at[17], at[43]);    MULADD(at[18], at[42]);    MULADD(at[19], at[41]);    MULADD(at[20], at[40]);    MULADD(at[21], at[39]);    MULADD(at[22], at[38]);    MULADD(at[23], at[37]);    MULADD(at[24], at[36]);    MULADD(at[25], at[35]);    MULADD(at[26], at[34]);    MULADD(at[27], at[33]);    MULADD(at[28], at[32]);
                     +   COMBA_STORE(C->dp[28]);
                     +   /* 29 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[61]);    MULADD(at[1], at[60]);    MULADD(at[2], at[59]);    MULADD(at[3], at[58]);    MULADD(at[4], at[57]);    MULADD(at[5], at[56]);    MULADD(at[6], at[55]);    MULADD(at[7], at[54]);    MULADD(at[8], at[53]);    MULADD(at[9], at[52]);    MULADD(at[10], at[51]);    MULADD(at[11], at[50]);    MULADD(at[12], at[49]);    MULADD(at[13], at[48]);    MULADD(at[14], at[47]);    MULADD(at[15], at[46]);    MULADD(at[16], at[45]);    MULADD(at[17], at[44]);    MULADD(at[18], at[43]);    MULADD(at[19], at[42]);    MULADD(at[20], at[41]);    MULADD(at[21], at[40]);    MULADD(at[22], at[39]);    MULADD(at[23], at[38]);    MULADD(at[24], at[37]);    MULADD(at[25], at[36]);    MULADD(at[26], at[35]);    MULADD(at[27], at[34]);    MULADD(at[28], at[33]);    MULADD(at[29], at[32]);
                     +   COMBA_STORE(C->dp[29]);
                     +   /* 30 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[62]);    MULADD(at[1], at[61]);    MULADD(at[2], at[60]);    MULADD(at[3], at[59]);    MULADD(at[4], at[58]);    MULADD(at[5], at[57]);    MULADD(at[6], at[56]);    MULADD(at[7], at[55]);    MULADD(at[8], at[54]);    MULADD(at[9], at[53]);    MULADD(at[10], at[52]);    MULADD(at[11], at[51]);    MULADD(at[12], at[50]);    MULADD(at[13], at[49]);    MULADD(at[14], at[48]);    MULADD(at[15], at[47]);    MULADD(at[16], at[46]);    MULADD(at[17], at[45]);    MULADD(at[18], at[44]);    MULADD(at[19], at[43]);    MULADD(at[20], at[42]);    MULADD(at[21], at[41]);    MULADD(at[22], at[40]);    MULADD(at[23], at[39]);    MULADD(at[24], at[38]);    MULADD(at[25], at[37]);    MULADD(at[26], at[36]);    MULADD(at[27], at[35]);    MULADD(at[28], at[34]);    MULADD(at[29], at[33]);    MULADD(at[30], at[32]);
                     +   COMBA_STORE(C->dp[30]);
                     +   /* 31 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[63]);    MULADD(at[1], at[62]);    MULADD(at[2], at[61]);    MULADD(at[3], at[60]);    MULADD(at[4], at[59]);    MULADD(at[5], at[58]);    MULADD(at[6], at[57]);    MULADD(at[7], at[56]);    MULADD(at[8], at[55]);    MULADD(at[9], at[54]);    MULADD(at[10], at[53]);    MULADD(at[11], at[52]);    MULADD(at[12], at[51]);    MULADD(at[13], at[50]);    MULADD(at[14], at[49]);    MULADD(at[15], at[48]);    MULADD(at[16], at[47]);    MULADD(at[17], at[46]);    MULADD(at[18], at[45]);    MULADD(at[19], at[44]);    MULADD(at[20], at[43]);    MULADD(at[21], at[42]);    MULADD(at[22], at[41]);    MULADD(at[23], at[40]);    MULADD(at[24], at[39]);    MULADD(at[25], at[38]);    MULADD(at[26], at[37]);    MULADD(at[27], at[36]);    MULADD(at[28], at[35]);    MULADD(at[29], at[34]);    MULADD(at[30], at[33]);    MULADD(at[31], at[32]);
                     +   COMBA_STORE(C->dp[31]);
                     +   /* 32 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[1], at[63]);    MULADD(at[2], at[62]);    MULADD(at[3], at[61]);    MULADD(at[4], at[60]);    MULADD(at[5], at[59]);    MULADD(at[6], at[58]);    MULADD(at[7], at[57]);    MULADD(at[8], at[56]);    MULADD(at[9], at[55]);    MULADD(at[10], at[54]);    MULADD(at[11], at[53]);    MULADD(at[12], at[52]);    MULADD(at[13], at[51]);    MULADD(at[14], at[50]);    MULADD(at[15], at[49]);    MULADD(at[16], at[48]);    MULADD(at[17], at[47]);    MULADD(at[18], at[46]);    MULADD(at[19], at[45]);    MULADD(at[20], at[44]);    MULADD(at[21], at[43]);    MULADD(at[22], at[42]);    MULADD(at[23], at[41]);    MULADD(at[24], at[40]);    MULADD(at[25], at[39]);    MULADD(at[26], at[38]);    MULADD(at[27], at[37]);    MULADD(at[28], at[36]);    MULADD(at[29], at[35]);    MULADD(at[30], at[34]);    MULADD(at[31], at[33]);
                     +   COMBA_STORE(C->dp[32]);
                     +   /* 33 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[2], at[63]);    MULADD(at[3], at[62]);    MULADD(at[4], at[61]);    MULADD(at[5], at[60]);    MULADD(at[6], at[59]);    MULADD(at[7], at[58]);    MULADD(at[8], at[57]);    MULADD(at[9], at[56]);    MULADD(at[10], at[55]);    MULADD(at[11], at[54]);    MULADD(at[12], at[53]);    MULADD(at[13], at[52]);    MULADD(at[14], at[51]);    MULADD(at[15], at[50]);    MULADD(at[16], at[49]);    MULADD(at[17], at[48]);    MULADD(at[18], at[47]);    MULADD(at[19], at[46]);    MULADD(at[20], at[45]);    MULADD(at[21], at[44]);    MULADD(at[22], at[43]);    MULADD(at[23], at[42]);    MULADD(at[24], at[41]);    MULADD(at[25], at[40]);    MULADD(at[26], at[39]);    MULADD(at[27], at[38]);    MULADD(at[28], at[37]);    MULADD(at[29], at[36]);    MULADD(at[30], at[35]);    MULADD(at[31], at[34]);
                     +   COMBA_STORE(C->dp[33]);
                     +   /* 34 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[3], at[63]);    MULADD(at[4], at[62]);    MULADD(at[5], at[61]);    MULADD(at[6], at[60]);    MULADD(at[7], at[59]);    MULADD(at[8], at[58]);    MULADD(at[9], at[57]);    MULADD(at[10], at[56]);    MULADD(at[11], at[55]);    MULADD(at[12], at[54]);    MULADD(at[13], at[53]);    MULADD(at[14], at[52]);    MULADD(at[15], at[51]);    MULADD(at[16], at[50]);    MULADD(at[17], at[49]);    MULADD(at[18], at[48]);    MULADD(at[19], at[47]);    MULADD(at[20], at[46]);    MULADD(at[21], at[45]);    MULADD(at[22], at[44]);    MULADD(at[23], at[43]);    MULADD(at[24], at[42]);    MULADD(at[25], at[41]);    MULADD(at[26], at[40]);    MULADD(at[27], at[39]);    MULADD(at[28], at[38]);    MULADD(at[29], at[37]);    MULADD(at[30], at[36]);    MULADD(at[31], at[35]);
                     +   COMBA_STORE(C->dp[34]);
                     +   /* 35 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[4], at[63]);    MULADD(at[5], at[62]);    MULADD(at[6], at[61]);    MULADD(at[7], at[60]);    MULADD(at[8], at[59]);    MULADD(at[9], at[58]);    MULADD(at[10], at[57]);    MULADD(at[11], at[56]);    MULADD(at[12], at[55]);    MULADD(at[13], at[54]);    MULADD(at[14], at[53]);    MULADD(at[15], at[52]);    MULADD(at[16], at[51]);    MULADD(at[17], at[50]);    MULADD(at[18], at[49]);    MULADD(at[19], at[48]);    MULADD(at[20], at[47]);    MULADD(at[21], at[46]);    MULADD(at[22], at[45]);    MULADD(at[23], at[44]);    MULADD(at[24], at[43]);    MULADD(at[25], at[42]);    MULADD(at[26], at[41]);    MULADD(at[27], at[40]);    MULADD(at[28], at[39]);    MULADD(at[29], at[38]);    MULADD(at[30], at[37]);    MULADD(at[31], at[36]);
                     +   COMBA_STORE(C->dp[35]);
                     +   /* 36 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[5], at[63]);    MULADD(at[6], at[62]);    MULADD(at[7], at[61]);    MULADD(at[8], at[60]);    MULADD(at[9], at[59]);    MULADD(at[10], at[58]);    MULADD(at[11], at[57]);    MULADD(at[12], at[56]);    MULADD(at[13], at[55]);    MULADD(at[14], at[54]);    MULADD(at[15], at[53]);    MULADD(at[16], at[52]);    MULADD(at[17], at[51]);    MULADD(at[18], at[50]);    MULADD(at[19], at[49]);    MULADD(at[20], at[48]);    MULADD(at[21], at[47]);    MULADD(at[22], at[46]);    MULADD(at[23], at[45]);    MULADD(at[24], at[44]);    MULADD(at[25], at[43]);    MULADD(at[26], at[42]);    MULADD(at[27], at[41]);    MULADD(at[28], at[40]);    MULADD(at[29], at[39]);    MULADD(at[30], at[38]);    MULADD(at[31], at[37]);
                     +   COMBA_STORE(C->dp[36]);
                     +   /* 37 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[6], at[63]);    MULADD(at[7], at[62]);    MULADD(at[8], at[61]);    MULADD(at[9], at[60]);    MULADD(at[10], at[59]);    MULADD(at[11], at[58]);    MULADD(at[12], at[57]);    MULADD(at[13], at[56]);    MULADD(at[14], at[55]);    MULADD(at[15], at[54]);    MULADD(at[16], at[53]);    MULADD(at[17], at[52]);    MULADD(at[18], at[51]);    MULADD(at[19], at[50]);    MULADD(at[20], at[49]);    MULADD(at[21], at[48]);    MULADD(at[22], at[47]);    MULADD(at[23], at[46]);    MULADD(at[24], at[45]);    MULADD(at[25], at[44]);    MULADD(at[26], at[43]);    MULADD(at[27], at[42]);    MULADD(at[28], at[41]);    MULADD(at[29], at[40]);    MULADD(at[30], at[39]);    MULADD(at[31], at[38]);
                     +   COMBA_STORE(C->dp[37]);
                     +   /* 38 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[7], at[63]);    MULADD(at[8], at[62]);    MULADD(at[9], at[61]);    MULADD(at[10], at[60]);    MULADD(at[11], at[59]);    MULADD(at[12], at[58]);    MULADD(at[13], at[57]);    MULADD(at[14], at[56]);    MULADD(at[15], at[55]);    MULADD(at[16], at[54]);    MULADD(at[17], at[53]);    MULADD(at[18], at[52]);    MULADD(at[19], at[51]);    MULADD(at[20], at[50]);    MULADD(at[21], at[49]);    MULADD(at[22], at[48]);    MULADD(at[23], at[47]);    MULADD(at[24], at[46]);    MULADD(at[25], at[45]);    MULADD(at[26], at[44]);    MULADD(at[27], at[43]);    MULADD(at[28], at[42]);    MULADD(at[29], at[41]);    MULADD(at[30], at[40]);    MULADD(at[31], at[39]);
                     +   COMBA_STORE(C->dp[38]);
+                    +
                     +   /* early out at 40 digits, 40*32==1280, or two 640 bit operands */
                     +   if (out_size <= 40) { COMBA_STORE2(C->dp[39]); C->used = 40; C->sign = A->sign ^ B->sign; fp_clamp(C); COMBA_FINI; return; }
+                    +
                     +   /* 39 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[8], at[63]);    MULADD(at[9], at[62]);    MULADD(at[10], at[61]);    MULADD(at[11], at[60]);    MULADD(at[12], at[59]);    MULADD(at[13], at[58]);    MULADD(at[14], at[57]);    MULADD(at[15], at[56]);    MULADD(at[16], at[55]);    MULADD(at[17], at[54]);    MULADD(at[18], at[53]);    MULADD(at[19], at[52]);    MULADD(at[20], at[51]);    MULADD(at[21], at[50]);    MULADD(at[22], at[49]);    MULADD(at[23], at[48]);    MULADD(at[24], at[47]);    MULADD(at[25], at[46]);    MULADD(at[26], at[45]);    MULADD(at[27], at[44]);    MULADD(at[28], at[43]);    MULADD(at[29], at[42]);    MULADD(at[30], at[41]);    MULADD(at[31], at[40]);
                     +   COMBA_STORE(C->dp[39]);
                     +   /* 40 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[9], at[63]);    MULADD(at[10], at[62]);    MULADD(at[11], at[61]);    MULADD(at[12], at[60]);    MULADD(at[13], at[59]);    MULADD(at[14], at[58]);    MULADD(at[15], at[57]);    MULADD(at[16], at[56]);    MULADD(at[17], at[55]);    MULADD(at[18], at[54]);    MULADD(at[19], at[53]);    MULADD(at[20], at[52]);    MULADD(at[21], at[51]);    MULADD(at[22], at[50]);    MULADD(at[23], at[49]);    MULADD(at[24], at[48]);    MULADD(at[25], at[47]);    MULADD(at[26], at[46]);    MULADD(at[27], at[45]);    MULADD(at[28], at[44]);    MULADD(at[29], at[43]);    MULADD(at[30], at[42]);    MULADD(at[31], at[41]);
                     +   COMBA_STORE(C->dp[40]);
                     +   /* 41 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[10], at[63]);    MULADD(at[11], at[62]);    MULADD(at[12], at[61]);    MULADD(at[13], at[60]);    MULADD(at[14], at[59]);    MULADD(at[15], at[58]);    MULADD(at[16], at[57]);    MULADD(at[17], at[56]);    MULADD(at[18], at[55]);    MULADD(at[19], at[54]);    MULADD(at[20], at[53]);    MULADD(at[21], at[52]);    MULADD(at[22], at[51]);    MULADD(at[23], at[50]);    MULADD(at[24], at[49]);    MULADD(at[25], at[48]);    MULADD(at[26], at[47]);    MULADD(at[27], at[46]);    MULADD(at[28], at[45]);    MULADD(at[29], at[44]);    MULADD(at[30], at[43]);    MULADD(at[31], at[42]);
                     +   COMBA_STORE(C->dp[41]);
                     +   /* 42 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[11], at[63]);    MULADD(at[12], at[62]);    MULADD(at[13], at[61]);    MULADD(at[14], at[60]);    MULADD(at[15], at[59]);    MULADD(at[16], at[58]);    MULADD(at[17], at[57]);    MULADD(at[18], at[56]);    MULADD(at[19], at[55]);    MULADD(at[20], at[54]);    MULADD(at[21], at[53]);    MULADD(at[22], at[52]);    MULADD(at[23], at[51]);    MULADD(at[24], at[50]);    MULADD(at[25], at[49]);    MULADD(at[26], at[48]);    MULADD(at[27], at[47]);    MULADD(at[28], at[46]);    MULADD(at[29], at[45]);    MULADD(at[30], at[44]);    MULADD(at[31], at[43]);
                     +   COMBA_STORE(C->dp[42]);
                     +   /* 43 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[12], at[63]);    MULADD(at[13], at[62]);    MULADD(at[14], at[61]);    MULADD(at[15], at[60]);    MULADD(at[16], at[59]);    MULADD(at[17], at[58]);    MULADD(at[18], at[57]);    MULADD(at[19], at[56]);    MULADD(at[20], at[55]);    MULADD(at[21], at[54]);    MULADD(at[22], at[53]);    MULADD(at[23], at[52]);    MULADD(at[24], at[51]);    MULADD(at[25], at[50]);    MULADD(at[26], at[49]);    MULADD(at[27], at[48]);    MULADD(at[28], at[47]);    MULADD(at[29], at[46]);    MULADD(at[30], at[45]);    MULADD(at[31], at[44]);
                     +   COMBA_STORE(C->dp[43]);
                     +   /* 44 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[13], at[63]);    MULADD(at[14], at[62]);    MULADD(at[15], at[61]);    MULADD(at[16], at[60]);    MULADD(at[17], at[59]);    MULADD(at[18], at[58]);    MULADD(at[19], at[57]);    MULADD(at[20], at[56]);    MULADD(at[21], at[55]);    MULADD(at[22], at[54]);    MULADD(at[23], at[53]);    MULADD(at[24], at[52]);    MULADD(at[25], at[51]);    MULADD(at[26], at[50]);    MULADD(at[27], at[49]);    MULADD(at[28], at[48]);    MULADD(at[29], at[47]);    MULADD(at[30], at[46]);    MULADD(at[31], at[45]);
                     +   COMBA_STORE(C->dp[44]);
                     +   /* 45 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[14], at[63]);    MULADD(at[15], at[62]);    MULADD(at[16], at[61]);    MULADD(at[17], at[60]);    MULADD(at[18], at[59]);    MULADD(at[19], at[58]);    MULADD(at[20], at[57]);    MULADD(at[21], at[56]);    MULADD(at[22], at[55]);    MULADD(at[23], at[54]);    MULADD(at[24], at[53]);    MULADD(at[25], at[52]);    MULADD(at[26], at[51]);    MULADD(at[27], at[50]);    MULADD(at[28], at[49]);    MULADD(at[29], at[48]);    MULADD(at[30], at[47]);    MULADD(at[31], at[46]);
                     +   COMBA_STORE(C->dp[45]);
                     +   /* 46 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[15], at[63]);    MULADD(at[16], at[62]);    MULADD(at[17], at[61]);    MULADD(at[18], at[60]);    MULADD(at[19], at[59]);    MULADD(at[20], at[58]);    MULADD(at[21], at[57]);    MULADD(at[22], at[56]);    MULADD(at[23], at[55]);    MULADD(at[24], at[54]);    MULADD(at[25], at[53]);    MULADD(at[26], at[52]);    MULADD(at[27], at[51]);    MULADD(at[28], at[50]);    MULADD(at[29], at[49]);    MULADD(at[30], at[48]);    MULADD(at[31], at[47]);
                     +   COMBA_STORE(C->dp[46]);
+                    +
                     +   /* early out at 48 digits, 48*32==1536, or two 768 bit operands */
                     +   if (out_size <= 48) { COMBA_STORE2(C->dp[47]); C->used = 48; C->sign = A->sign ^ B->sign; fp_clamp(C); COMBA_FINI; return; }
+                    +
                     +   /* 47 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[16], at[63]);    MULADD(at[17], at[62]);    MULADD(at[18], at[61]);    MULADD(at[19], at[60]);    MULADD(at[20], at[59]);    MULADD(at[21], at[58]);    MULADD(at[22], at[57]);    MULADD(at[23], at[56]);    MULADD(at[24], at[55]);    MULADD(at[25], at[54]);    MULADD(at[26], at[53]);    MULADD(at[27], at[52]);    MULADD(at[28], at[51]);    MULADD(at[29], at[50]);    MULADD(at[30], at[49]);    MULADD(at[31], at[48]);
                     +   COMBA_STORE(C->dp[47]);
                     +   /* 48 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[17], at[63]);    MULADD(at[18], at[62]);    MULADD(at[19], at[61]);    MULADD(at[20], at[60]);    MULADD(at[21], at[59]);    MULADD(at[22], at[58]);    MULADD(at[23], at[57]);    MULADD(at[24], at[56]);    MULADD(at[25], at[55]);    MULADD(at[26], at[54]);    MULADD(at[27], at[53]);    MULADD(at[28], at[52]);    MULADD(at[29], at[51]);    MULADD(at[30], at[50]);    MULADD(at[31], at[49]);
                     +   COMBA_STORE(C->dp[48]);
                     +   /* 49 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[18], at[63]);    MULADD(at[19], at[62]);    MULADD(at[20], at[61]);    MULADD(at[21], at[60]);    MULADD(at[22], at[59]);    MULADD(at[23], at[58]);    MULADD(at[24], at[57]);    MULADD(at[25], at[56]);    MULADD(at[26], at[55]);    MULADD(at[27], at[54]);    MULADD(at[28], at[53]);    MULADD(at[29], at[52]);    MULADD(at[30], at[51]);    MULADD(at[31], at[50]);
                     +   COMBA_STORE(C->dp[49]);
                     +   /* 50 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[19], at[63]);    MULADD(at[20], at[62]);    MULADD(at[21], at[61]);    MULADD(at[22], at[60]);    MULADD(at[23], at[59]);    MULADD(at[24], at[58]);    MULADD(at[25], at[57]);    MULADD(at[26], at[56]);    MULADD(at[27], at[55]);    MULADD(at[28], at[54]);    MULADD(at[29], at[53]);    MULADD(at[30], at[52]);    MULADD(at[31], at[51]);
                     +   COMBA_STORE(C->dp[50]);
                     +   /* 51 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[20], at[63]);    MULADD(at[21], at[62]);    MULADD(at[22], at[61]);    MULADD(at[23], at[60]);    MULADD(at[24], at[59]);    MULADD(at[25], at[58]);    MULADD(at[26], at[57]);    MULADD(at[27], at[56]);    MULADD(at[28], at[55]);    MULADD(at[29], at[54]);    MULADD(at[30], at[53]);    MULADD(at[31], at[52]);
                     +   COMBA_STORE(C->dp[51]);
                     +   /* 52 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[21], at[63]);    MULADD(at[22], at[62]);    MULADD(at[23], at[61]);    MULADD(at[24], at[60]);    MULADD(at[25], at[59]);    MULADD(at[26], at[58]);    MULADD(at[27], at[57]);    MULADD(at[28], at[56]);    MULADD(at[29], at[55]);    MULADD(at[30], at[54]);    MULADD(at[31], at[53]);
                     +   COMBA_STORE(C->dp[52]);
                     +   /* 53 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[22], at[63]);    MULADD(at[23], at[62]);    MULADD(at[24], at[61]);    MULADD(at[25], at[60]);    MULADD(at[26], at[59]);    MULADD(at[27], at[58]);    MULADD(at[28], at[57]);    MULADD(at[29], at[56]);    MULADD(at[30], at[55]);    MULADD(at[31], at[54]);
                     +   COMBA_STORE(C->dp[53]);
                     +   /* 54 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[23], at[63]);    MULADD(at[24], at[62]);    MULADD(at[25], at[61]);    MULADD(at[26], at[60]);    MULADD(at[27], at[59]);    MULADD(at[28], at[58]);    MULADD(at[29], at[57]);    MULADD(at[30], at[56]);    MULADD(at[31], at[55]);
                     +   COMBA_STORE(C->dp[54]);
+                    +
                     +   /* early out at 56 digits, 56*32==1792, or two 896 bit operands */
                     +   if (out_size <= 56) { COMBA_STORE2(C->dp[55]); C->used = 56; C->sign = A->sign ^ B->sign; fp_clamp(C); COMBA_FINI; return; }
+                    +
                     +   /* 55 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[24], at[63]);    MULADD(at[25], at[62]);    MULADD(at[26], at[61]);    MULADD(at[27], at[60]);    MULADD(at[28], at[59]);    MULADD(at[29], at[58]);    MULADD(at[30], at[57]);    MULADD(at[31], at[56]);
                     +   COMBA_STORE(C->dp[55]);
                     +   /* 56 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[25], at[63]);    MULADD(at[26], at[62]);    MULADD(at[27], at[61]);    MULADD(at[28], at[60]);    MULADD(at[29], at[59]);    MULADD(at[30], at[58]);    MULADD(at[31], at[57]);
                     +   COMBA_STORE(C->dp[56]);
                     +   /* 57 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[26], at[63]);    MULADD(at[27], at[62]);    MULADD(at[28], at[61]);    MULADD(at[29], at[60]);    MULADD(at[30], at[59]);    MULADD(at[31], at[58]);
                     +   COMBA_STORE(C->dp[57]);
                     +   /* 58 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[27], at[63]);    MULADD(at[28], at[62]);    MULADD(at[29], at[61]);    MULADD(at[30], at[60]);    MULADD(at[31], at[59]);
                     +   COMBA_STORE(C->dp[58]);
                     +   /* 59 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[28], at[63]);    MULADD(at[29], at[62]);    MULADD(at[30], at[61]);    MULADD(at[31], at[60]);
                     +   COMBA_STORE(C->dp[59]);
                     +   /* 60 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[29], at[63]);    MULADD(at[30], at[62]);    MULADD(at[31], at[61]);
                     +   COMBA_STORE(C->dp[60]);
                     +   /* 61 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[30], at[63]);    MULADD(at[31], at[62]);
                     +   COMBA_STORE(C->dp[61]);
                     +   /* 62 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[31], at[63]);
                     +   COMBA_STORE(C->dp[62]);
                     +   COMBA_STORE2(C->dp[63]);
                     +   C->used = 64;
                     +   C->sign = A->sign ^ B->sign;
                     +   fp_clamp(C);
                     +   COMBA_FINI;
                     +}
                     +#endif
                     -  /* default to composite  */
                     -  *result = MP_NO;
                     +/* End: fp_mul_comba_32.c */
                     -  /* ensure b > 1 */
                     -  if (mp_cmp_d(b, 1) != MP_GT) {
                     -     return MP_VAL;
                     -  }
                     +/* Start: fp_mul_comba_4.c */
                     +#define TFM_DEFINES
                     +#include "fp_mul_comba.c"
                     -  /* init t */
                     -  if ((err = mp_init (&t)) != MP_OKAY) {
                     -    return err;
                     -  }
                     +#ifdef TFM_MUL4
                     +void fp_mul_comba4(fp_int *A, fp_int *B, fp_int *C)
                     +{
                     +   fp_digit c0, c1, c2, at[8];
+                    +
                     +   memcpy(at, A->dp, 4 * sizeof(fp_digit));
                     +   memcpy(at+4, B->dp, 4 * sizeof(fp_digit));
                     +   COMBA_START;
+                    +
                     +   COMBA_CLEAR;
                     +   /* 0 */
                     +   MULADD(at[0], at[4]);
                     +   COMBA_STORE(C->dp[0]);
                     +   /* 1 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[5]);    MULADD(at[1], at[4]);
                     +   COMBA_STORE(C->dp[1]);
                     +   /* 2 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[6]);    MULADD(at[1], at[5]);    MULADD(at[2], at[4]);
                     +   COMBA_STORE(C->dp[2]);
                     +   /* 3 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[7]);    MULADD(at[1], at[6]);    MULADD(at[2], at[5]);    MULADD(at[3], at[4]);
                     +   COMBA_STORE(C->dp[3]);
                     +   /* 4 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[1], at[7]);    MULADD(at[2], at[6]);    MULADD(at[3], at[5]);
                     +   COMBA_STORE(C->dp[4]);
                     +   /* 5 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[2], at[7]);    MULADD(at[3], at[6]);
                     +   COMBA_STORE(C->dp[5]);
                     +   /* 6 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[3], at[7]);
                     +   COMBA_STORE(C->dp[6]);
                     +   COMBA_STORE2(C->dp[7]);
                     +   C->used = 8;
                     +   C->sign = A->sign ^ B->sign;
                     +   fp_clamp(C);
                     +   COMBA_FINI;
                     +}
                     +#endif
                     -  /* compute t = b**a mod a */
                     -  if ((err = mp_exptmod (b, a, a, &t)) != MP_OKAY) {
                     -    goto LBL_T;
                     -  }
                     +/* End: fp_mul_comba_4.c */
                     -  /* is it equal to b? */
                     -  if (mp_cmp (&t, b) == MP_EQ) {
                     -    *result = MP_YES;
                     -  }
                     +/* Start: fp_mul_comba_48.c */
                     +#define TFM_DEFINES
                     +#include "fp_mul_comba.c"
                     -  err = MP_OKAY;
                     -LBL_T:mp_clear (&t);
                     -  return err;
                     +#ifdef TFM_MUL48
                     +void fp_mul_comba48(fp_int *A, fp_int *B, fp_int *C)
                     +{
                     +   fp_digit c0, c1, c2, at[96];
+                    +
                     +   memcpy(at, A->dp, 48 * sizeof(fp_digit));
                     +   memcpy(at+48, B->dp, 48 * sizeof(fp_digit));
                     +   COMBA_START;
+                    +
                     +   COMBA_CLEAR;
                     +   /* 0 */
                     +   MULADD(at[0], at[48]);
                     +   COMBA_STORE(C->dp[0]);
                     +   /* 1 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[49]);    MULADD(at[1], at[48]);
                     +   COMBA_STORE(C->dp[1]);
                     +   /* 2 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[50]);    MULADD(at[1], at[49]);    MULADD(at[2], at[48]);
                     +   COMBA_STORE(C->dp[2]);
                     +   /* 3 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[51]);    MULADD(at[1], at[50]);    MULADD(at[2], at[49]);    MULADD(at[3], at[48]);
                     +   COMBA_STORE(C->dp[3]);
                     +   /* 4 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[52]);    MULADD(at[1], at[51]);    MULADD(at[2], at[50]);    MULADD(at[3], at[49]);    MULADD(at[4], at[48]);
                     +   COMBA_STORE(C->dp[4]);
                     +   /* 5 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[53]);    MULADD(at[1], at[52]);    MULADD(at[2], at[51]);    MULADD(at[3], at[50]);    MULADD(at[4], at[49]);    MULADD(at[5], at[48]);
                     +   COMBA_STORE(C->dp[5]);
                     +   /* 6 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[54]);    MULADD(at[1], at[53]);    MULADD(at[2], at[52]);    MULADD(at[3], at[51]);    MULADD(at[4], at[50]);    MULADD(at[5], at[49]);    MULADD(at[6], at[48]);
                     +   COMBA_STORE(C->dp[6]);
                     +   /* 7 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[55]);    MULADD(at[1], at[54]);    MULADD(at[2], at[53]);    MULADD(at[3], at[52]);    MULADD(at[4], at[51]);    MULADD(at[5], at[50]);    MULADD(at[6], at[49]);    MULADD(at[7], at[48]);
                     +   COMBA_STORE(C->dp[7]);
                     +   /* 8 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[56]);    MULADD(at[1], at[55]);    MULADD(at[2], at[54]);    MULADD(at[3], at[53]);    MULADD(at[4], at[52]);    MULADD(at[5], at[51]);    MULADD(at[6], at[50]);    MULADD(at[7], at[49]);    MULADD(at[8], at[48]);
                     +   COMBA_STORE(C->dp[8]);
                     +   /* 9 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[57]);    MULADD(at[1], at[56]);    MULADD(at[2], at[55]);    MULADD(at[3], at[54]);    MULADD(at[4], at[53]);    MULADD(at[5], at[52]);    MULADD(at[6], at[51]);    MULADD(at[7], at[50]);    MULADD(at[8], at[49]);    MULADD(at[9], at[48]);
                     +   COMBA_STORE(C->dp[9]);
                     +   /* 10 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[58]);    MULADD(at[1], at[57]);    MULADD(at[2], at[56]);    MULADD(at[3], at[55]);    MULADD(at[4], at[54]);    MULADD(at[5], at[53]);    MULADD(at[6], at[52]);    MULADD(at[7], at[51]);    MULADD(at[8], at[50]);    MULADD(at[9], at[49]);    MULADD(at[10], at[48]);
                     +   COMBA_STORE(C->dp[10]);
                     +   /* 11 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[59]);    MULADD(at[1], at[58]);    MULADD(at[2], at[57]);    MULADD(at[3], at[56]);    MULADD(at[4], at[55]);    MULADD(at[5], at[54]);    MULADD(at[6], at[53]);    MULADD(at[7], at[52]);    MULADD(at[8], at[51]);    MULADD(at[9], at[50]);    MULADD(at[10], at[49]);    MULADD(at[11], at[48]);
                     +   COMBA_STORE(C->dp[11]);
                     +   /* 12 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[60]);    MULADD(at[1], at[59]);    MULADD(at[2], at[58]);    MULADD(at[3], at[57]);    MULADD(at[4], at[56]);    MULADD(at[5], at[55]);    MULADD(at[6], at[54]);    MULADD(at[7], at[53]);    MULADD(at[8], at[52]);    MULADD(at[9], at[51]);    MULADD(at[10], at[50]);    MULADD(at[11], at[49]);    MULADD(at[12], at[48]);
                     +   COMBA_STORE(C->dp[12]);
                     +   /* 13 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[61]);    MULADD(at[1], at[60]);    MULADD(at[2], at[59]);    MULADD(at[3], at[58]);    MULADD(at[4], at[57]);    MULADD(at[5], at[56]);    MULADD(at[6], at[55]);    MULADD(at[7], at[54]);    MULADD(at[8], at[53]);    MULADD(at[9], at[52]);    MULADD(at[10], at[51]);    MULADD(at[11], at[50]);    MULADD(at[12], at[49]);    MULADD(at[13], at[48]);
                     +   COMBA_STORE(C->dp[13]);
                     +   /* 14 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[62]);    MULADD(at[1], at[61]);    MULADD(at[2], at[60]);    MULADD(at[3], at[59]);    MULADD(at[4], at[58]);    MULADD(at[5], at[57]);    MULADD(at[6], at[56]);    MULADD(at[7], at[55]);    MULADD(at[8], at[54]);    MULADD(at[9], at[53]);    MULADD(at[10], at[52]);    MULADD(at[11], at[51]);    MULADD(at[12], at[50]);    MULADD(at[13], at[49]);    MULADD(at[14], at[48]);
                     +   COMBA_STORE(C->dp[14]);
                     +   /* 15 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[63]);    MULADD(at[1], at[62]);    MULADD(at[2], at[61]);    MULADD(at[3], at[60]);    MULADD(at[4], at[59]);    MULADD(at[5], at[58]);    MULADD(at[6], at[57]);    MULADD(at[7], at[56]);    MULADD(at[8], at[55]);    MULADD(at[9], at[54]);    MULADD(at[10], at[53]);    MULADD(at[11], at[52]);    MULADD(at[12], at[51]);    MULADD(at[13], at[50]);    MULADD(at[14], at[49]);    MULADD(at[15], at[48]);
                     +   COMBA_STORE(C->dp[15]);
                     +   /* 16 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[64]);    MULADD(at[1], at[63]);    MULADD(at[2], at[62]);    MULADD(at[3], at[61]);    MULADD(at[4], at[60]);    MULADD(at[5], at[59]);    MULADD(at[6], at[58]);    MULADD(at[7], at[57]);    MULADD(at[8], at[56]);    MULADD(at[9], at[55]);    MULADD(at[10], at[54]);    MULADD(at[11], at[53]);    MULADD(at[12], at[52]);    MULADD(at[13], at[51]);    MULADD(at[14], at[50]);    MULADD(at[15], at[49]);    MULADD(at[16], at[48]);
                     +   COMBA_STORE(C->dp[16]);
                     +   /* 17 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[65]);    MULADD(at[1], at[64]);    MULADD(at[2], at[63]);    MULADD(at[3], at[62]);    MULADD(at[4], at[61]);    MULADD(at[5], at[60]);    MULADD(at[6], at[59]);    MULADD(at[7], at[58]);    MULADD(at[8], at[57]);    MULADD(at[9], at[56]);    MULADD(at[10], at[55]);    MULADD(at[11], at[54]);    MULADD(at[12], at[53]);    MULADD(at[13], at[52]);    MULADD(at[14], at[51]);    MULADD(at[15], at[50]);    MULADD(at[16], at[49]);    MULADD(at[17], at[48]);
                     +   COMBA_STORE(C->dp[17]);
                     +   /* 18 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[66]);    MULADD(at[1], at[65]);    MULADD(at[2], at[64]);    MULADD(at[3], at[63]);    MULADD(at[4], at[62]);    MULADD(at[5], at[61]);    MULADD(at[6], at[60]);    MULADD(at[7], at[59]);    MULADD(at[8], at[58]);    MULADD(at[9], at[57]);    MULADD(at[10], at[56]);    MULADD(at[11], at[55]);    MULADD(at[12], at[54]);    MULADD(at[13], at[53]);    MULADD(at[14], at[52]);    MULADD(at[15], at[51]);    MULADD(at[16], at[50]);    MULADD(at[17], at[49]);    MULADD(at[18], at[48]);
                     +   COMBA_STORE(C->dp[18]);
                     +   /* 19 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[67]);    MULADD(at[1], at[66]);    MULADD(at[2], at[65]);    MULADD(at[3], at[64]);    MULADD(at[4], at[63]);    MULADD(at[5], at[62]);    MULADD(at[6], at[61]);    MULADD(at[7], at[60]);    MULADD(at[8], at[59]);    MULADD(at[9], at[58]);    MULADD(at[10], at[57]);    MULADD(at[11], at[56]);    MULADD(at[12], at[55]);    MULADD(at[13], at[54]);    MULADD(at[14], at[53]);    MULADD(at[15], at[52]);    MULADD(at[16], at[51]);    MULADD(at[17], at[50]);    MULADD(at[18], at[49]);    MULADD(at[19], at[48]);
                     +   COMBA_STORE(C->dp[19]);
                     +   /* 20 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[68]);    MULADD(at[1], at[67]);    MULADD(at[2], at[66]);    MULADD(at[3], at[65]);    MULADD(at[4], at[64]);    MULADD(at[5], at[63]);    MULADD(at[6], at[62]);    MULADD(at[7], at[61]);    MULADD(at[8], at[60]);    MULADD(at[9], at[59]);    MULADD(at[10], at[58]);    MULADD(at[11], at[57]);    MULADD(at[12], at[56]);    MULADD(at[13], at[55]);    MULADD(at[14], at[54]);    MULADD(at[15], at[53]);    MULADD(at[16], at[52]);    MULADD(at[17], at[51]);    MULADD(at[18], at[50]);    MULADD(at[19], at[49]);    MULADD(at[20], at[48]);
                     +   COMBA_STORE(C->dp[20]);
                     +   /* 21 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[69]);    MULADD(at[1], at[68]);    MULADD(at[2], at[67]);    MULADD(at[3], at[66]);    MULADD(at[4], at[65]);    MULADD(at[5], at[64]);    MULADD(at[6], at[63]);    MULADD(at[7], at[62]);    MULADD(at[8], at[61]);    MULADD(at[9], at[60]);    MULADD(at[10], at[59]);    MULADD(at[11], at[58]);    MULADD(at[12], at[57]);    MULADD(at[13], at[56]);    MULADD(at[14], at[55]);    MULADD(at[15], at[54]);    MULADD(at[16], at[53]);    MULADD(at[17], at[52]);    MULADD(at[18], at[51]);    MULADD(at[19], at[50]);    MULADD(at[20], at[49]);    MULADD(at[21], at[48]);
                     +   COMBA_STORE(C->dp[21]);
                     +   /* 22 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[70]);    MULADD(at[1], at[69]);    MULADD(at[2], at[68]);    MULADD(at[3], at[67]);    MULADD(at[4], at[66]);    MULADD(at[5], at[65]);    MULADD(at[6], at[64]);    MULADD(at[7], at[63]);    MULADD(at[8], at[62]);    MULADD(at[9], at[61]);    MULADD(at[10], at[60]);    MULADD(at[11], at[59]);    MULADD(at[12], at[58]);    MULADD(at[13], at[57]);    MULADD(at[14], at[56]);    MULADD(at[15], at[55]);    MULADD(at[16], at[54]);    MULADD(at[17], at[53]);    MULADD(at[18], at[52]);    MULADD(at[19], at[51]);    MULADD(at[20], at[50]);    MULADD(at[21], at[49]);    MULADD(at[22], at[48]);
                     +   COMBA_STORE(C->dp[22]);
                     +   /* 23 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[71]);    MULADD(at[1], at[70]);    MULADD(at[2], at[69]);    MULADD(at[3], at[68]);    MULADD(at[4], at[67]);    MULADD(at[5], at[66]);    MULADD(at[6], at[65]);    MULADD(at[7], at[64]);    MULADD(at[8], at[63]);    MULADD(at[9], at[62]);    MULADD(at[10], at[61]);    MULADD(at[11], at[60]);    MULADD(at[12], at[59]);    MULADD(at[13], at[58]);    MULADD(at[14], at[57]);    MULADD(at[15], at[56]);    MULADD(at[16], at[55]);    MULADD(at[17], at[54]);    MULADD(at[18], at[53]);    MULADD(at[19], at[52]);    MULADD(at[20], at[51]);    MULADD(at[21], at[50]);    MULADD(at[22], at[49]);    MULADD(at[23], at[48]);
                     +   COMBA_STORE(C->dp[23]);
                     +   /* 24 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[72]);    MULADD(at[1], at[71]);    MULADD(at[2], at[70]);    MULADD(at[3], at[69]);    MULADD(at[4], at[68]);    MULADD(at[5], at[67]);    MULADD(at[6], at[66]);    MULADD(at[7], at[65]);    MULADD(at[8], at[64]);    MULADD(at[9], at[63]);    MULADD(at[10], at[62]);    MULADD(at[11], at[61]);    MULADD(at[12], at[60]);    MULADD(at[13], at[59]);    MULADD(at[14], at[58]);    MULADD(at[15], at[57]);    MULADD(at[16], at[56]);    MULADD(at[17], at[55]);    MULADD(at[18], at[54]);    MULADD(at[19], at[53]);    MULADD(at[20], at[52]);    MULADD(at[21], at[51]);    MULADD(at[22], at[50]);    MULADD(at[23], at[49]);    MULADD(at[24], at[48]);
                     +   COMBA_STORE(C->dp[24]);
                     +   /* 25 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[73]);    MULADD(at[1], at[72]);    MULADD(at[2], at[71]);    MULADD(at[3], at[70]);    MULADD(at[4], at[69]);    MULADD(at[5], at[68]);    MULADD(at[6], at[67]);    MULADD(at[7], at[66]);    MULADD(at[8], at[65]);    MULADD(at[9], at[64]);    MULADD(at[10], at[63]);    MULADD(at[11], at[62]);    MULADD(at[12], at[61]);    MULADD(at[13], at[60]);    MULADD(at[14], at[59]);    MULADD(at[15], at[58]);    MULADD(at[16], at[57]);    MULADD(at[17], at[56]);    MULADD(at[18], at[55]);    MULADD(at[19], at[54]);    MULADD(at[20], at[53]);    MULADD(at[21], at[52]);    MULADD(at[22], at[51]);    MULADD(at[23], at[50]);    MULADD(at[24], at[49]);    MULADD(at[25], at[48]);
                     +   COMBA_STORE(C->dp[25]);
                     +   /* 26 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[74]);    MULADD(at[1], at[73]);    MULADD(at[2], at[72]);    MULADD(at[3], at[71]);    MULADD(at[4], at[70]);    MULADD(at[5], at[69]);    MULADD(at[6], at[68]);    MULADD(at[7], at[67]);    MULADD(at[8], at[66]);    MULADD(at[9], at[65]);    MULADD(at[10], at[64]);    MULADD(at[11], at[63]);    MULADD(at[12], at[62]);    MULADD(at[13], at[61]);    MULADD(at[14], at[60]);    MULADD(at[15], at[59]);    MULADD(at[16], at[58]);    MULADD(at[17], at[57]);    MULADD(at[18], at[56]);    MULADD(at[19], at[55]);    MULADD(at[20], at[54]);    MULADD(at[21], at[53]);    MULADD(at[22], at[52]);    MULADD(at[23], at[51]);    MULADD(at[24], at[50]);    MULADD(at[25], at[49]);    MULADD(at[26], at[48]);
                     +   COMBA_STORE(C->dp[26]);
                     +   /* 27 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[75]);    MULADD(at[1], at[74]);    MULADD(at[2], at[73]);    MULADD(at[3], at[72]);    MULADD(at[4], at[71]);    MULADD(at[5], at[70]);    MULADD(at[6], at[69]);    MULADD(at[7], at[68]);    MULADD(at[8], at[67]);    MULADD(at[9], at[66]);    MULADD(at[10], at[65]);    MULADD(at[11], at[64]);    MULADD(at[12], at[63]);    MULADD(at[13], at[62]);    MULADD(at[14], at[61]);    MULADD(at[15], at[60]);    MULADD(at[16], at[59]);    MULADD(at[17], at[58]);    MULADD(at[18], at[57]);    MULADD(at[19], at[56]);    MULADD(at[20], at[55]);    MULADD(at[21], at[54]);    MULADD(at[22], at[53]);    MULADD(at[23], at[52]);    MULADD(at[24], at[51]);    MULADD(at[25], at[50]);    MULADD(at[26], at[49]);    MULADD(at[27], at[48]);
                     +   COMBA_STORE(C->dp[27]);
                     +   /* 28 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[76]);    MULADD(at[1], at[75]);    MULADD(at[2], at[74]);    MULADD(at[3], at[73]);    MULADD(at[4], at[72]);    MULADD(at[5], at[71]);    MULADD(at[6], at[70]);    MULADD(at[7], at[69]);    MULADD(at[8], at[68]);    MULADD(at[9], at[67]);    MULADD(at[10], at[66]);    MULADD(at[11], at[65]);    MULADD(at[12], at[64]);    MULADD(at[13], at[63]);    MULADD(at[14], at[62]);    MULADD(at[15], at[61]);    MULADD(at[16], at[60]);    MULADD(at[17], at[59]);    MULADD(at[18], at[58]);    MULADD(at[19], at[57]);    MULADD(at[20], at[56]);    MULADD(at[21], at[55]);    MULADD(at[22], at[54]);    MULADD(at[23], at[53]);    MULADD(at[24], at[52]);    MULADD(at[25], at[51]);    MULADD(at[26], at[50]);    MULADD(at[27], at[49]);    MULADD(at[28], at[48]);
                     +   COMBA_STORE(C->dp[28]);
                     +   /* 29 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[77]);    MULADD(at[1], at[76]);    MULADD(at[2], at[75]);    MULADD(at[3], at[74]);    MULADD(at[4], at[73]);    MULADD(at[5], at[72]);    MULADD(at[6], at[71]);    MULADD(at[7], at[70]);    MULADD(at[8], at[69]);    MULADD(at[9], at[68]);    MULADD(at[10], at[67]);    MULADD(at[11], at[66]);    MULADD(at[12], at[65]);    MULADD(at[13], at[64]);    MULADD(at[14], at[63]);    MULADD(at[15], at[62]);    MULADD(at[16], at[61]);    MULADD(at[17], at[60]);    MULADD(at[18], at[59]);    MULADD(at[19], at[58]);    MULADD(at[20], at[57]);    MULADD(at[21], at[56]);    MULADD(at[22], at[55]);    MULADD(at[23], at[54]);    MULADD(at[24], at[53]);    MULADD(at[25], at[52]);    MULADD(at[26], at[51]);    MULADD(at[27], at[50]);    MULADD(at[28], at[49]);    MULADD(at[29], at[48]);
                     +   COMBA_STORE(C->dp[29]);
                     +   /* 30 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[78]);    MULADD(at[1], at[77]);    MULADD(at[2], at[76]);    MULADD(at[3], at[75]);    MULADD(at[4], at[74]);    MULADD(at[5], at[73]);    MULADD(at[6], at[72]);    MULADD(at[7], at[71]);    MULADD(at[8], at[70]);    MULADD(at[9], at[69]);    MULADD(at[10], at[68]);    MULADD(at[11], at[67]);    MULADD(at[12], at[66]);    MULADD(at[13], at[65]);    MULADD(at[14], at[64]);    MULADD(at[15], at[63]);    MULADD(at[16], at[62]);    MULADD(at[17], at[61]);    MULADD(at[18], at[60]);    MULADD(at[19], at[59]);    MULADD(at[20], at[58]);    MULADD(at[21], at[57]);    MULADD(at[22], at[56]);    MULADD(at[23], at[55]);    MULADD(at[24], at[54]);    MULADD(at[25], at[53]);    MULADD(at[26], at[52]);    MULADD(at[27], at[51]);    MULADD(at[28], at[50]);    MULADD(at[29], at[49]);    MULADD(at[30], at[48]);
                     +   COMBA_STORE(C->dp[30]);
                     +   /* 31 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[79]);    MULADD(at[1], at[78]);    MULADD(at[2], at[77]);    MULADD(at[3], at[76]);    MULADD(at[4], at[75]);    MULADD(at[5], at[74]);    MULADD(at[6], at[73]);    MULADD(at[7], at[72]);    MULADD(at[8], at[71]);    MULADD(at[9], at[70]);    MULADD(at[10], at[69]);    MULADD(at[11], at[68]);    MULADD(at[12], at[67]);    MULADD(at[13], at[66]);    MULADD(at[14], at[65]);    MULADD(at[15], at[64]);    MULADD(at[16], at[63]);    MULADD(at[17], at[62]);    MULADD(at[18], at[61]);    MULADD(at[19], at[60]);    MULADD(at[20], at[59]);    MULADD(at[21], at[58]);    MULADD(at[22], at[57]);    MULADD(at[23], at[56]);    MULADD(at[24], at[55]);    MULADD(at[25], at[54]);    MULADD(at[26], at[53]);    MULADD(at[27], at[52]);    MULADD(at[28], at[51]);    MULADD(at[29], at[50]);    MULADD(at[30], at[49]);    MULADD(at[31], at[48]);
                     +   COMBA_STORE(C->dp[31]);
                     +   /* 32 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[80]);    MULADD(at[1], at[79]);    MULADD(at[2], at[78]);    MULADD(at[3], at[77]);    MULADD(at[4], at[76]);    MULADD(at[5], at[75]);    MULADD(at[6], at[74]);    MULADD(at[7], at[73]);    MULADD(at[8], at[72]);    MULADD(at[9], at[71]);    MULADD(at[10], at[70]);    MULADD(at[11], at[69]);    MULADD(at[12], at[68]);    MULADD(at[13], at[67]);    MULADD(at[14], at[66]);    MULADD(at[15], at[65]);    MULADD(at[16], at[64]);    MULADD(at[17], at[63]);    MULADD(at[18], at[62]);    MULADD(at[19], at[61]);    MULADD(at[20], at[60]);    MULADD(at[21], at[59]);    MULADD(at[22], at[58]);    MULADD(at[23], at[57]);    MULADD(at[24], at[56]);    MULADD(at[25], at[55]);    MULADD(at[26], at[54]);    MULADD(at[27], at[53]);    MULADD(at[28], at[52]);    MULADD(at[29], at[51]);    MULADD(at[30], at[50]);    MULADD(at[31], at[49]);    MULADD(at[32], at[48]);
                     +   COMBA_STORE(C->dp[32]);
                     +   /* 33 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[81]);    MULADD(at[1], at[80]);    MULADD(at[2], at[79]);    MULADD(at[3], at[78]);    MULADD(at[4], at[77]);    MULADD(at[5], at[76]);    MULADD(at[6], at[75]);    MULADD(at[7], at[74]);    MULADD(at[8], at[73]);    MULADD(at[9], at[72]);    MULADD(at[10], at[71]);    MULADD(at[11], at[70]);    MULADD(at[12], at[69]);    MULADD(at[13], at[68]);    MULADD(at[14], at[67]);    MULADD(at[15], at[66]);    MULADD(at[16], at[65]);    MULADD(at[17], at[64]);    MULADD(at[18], at[63]);    MULADD(at[19], at[62]);    MULADD(at[20], at[61]);    MULADD(at[21], at[60]);    MULADD(at[22], at[59]);    MULADD(at[23], at[58]);    MULADD(at[24], at[57]);    MULADD(at[25], at[56]);    MULADD(at[26], at[55]);    MULADD(at[27], at[54]);    MULADD(at[28], at[53]);    MULADD(at[29], at[52]);    MULADD(at[30], at[51]);    MULADD(at[31], at[50]);    MULADD(at[32], at[49]);    MULADD(at[33], at[48]);
                     +   COMBA_STORE(C->dp[33]);
                     +   /* 34 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[82]);    MULADD(at[1], at[81]);    MULADD(at[2], at[80]);    MULADD(at[3], at[79]);    MULADD(at[4], at[78]);    MULADD(at[5], at[77]);    MULADD(at[6], at[76]);    MULADD(at[7], at[75]);    MULADD(at[8], at[74]);    MULADD(at[9], at[73]);    MULADD(at[10], at[72]);    MULADD(at[11], at[71]);    MULADD(at[12], at[70]);    MULADD(at[13], at[69]);    MULADD(at[14], at[68]);    MULADD(at[15], at[67]);    MULADD(at[16], at[66]);    MULADD(at[17], at[65]);    MULADD(at[18], at[64]);    MULADD(at[19], at[63]);    MULADD(at[20], at[62]);    MULADD(at[21], at[61]);    MULADD(at[22], at[60]);    MULADD(at[23], at[59]);    MULADD(at[24], at[58]);    MULADD(at[25], at[57]);    MULADD(at[26], at[56]);    MULADD(at[27], at[55]);    MULADD(at[28], at[54]);    MULADD(at[29], at[53]);    MULADD(at[30], at[52]);    MULADD(at[31], at[51]);    MULADD(at[32], at[50]);    MULADD(at[33], at[49]);    MULADD(at[34], at[48]);
                     +   COMBA_STORE(C->dp[34]);
                     +   /* 35 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[83]);    MULADD(at[1], at[82]);    MULADD(at[2], at[81]);    MULADD(at[3], at[80]);    MULADD(at[4], at[79]);    MULADD(at[5], at[78]);    MULADD(at[6], at[77]);    MULADD(at[7], at[76]);    MULADD(at[8], at[75]);    MULADD(at[9], at[74]);    MULADD(at[10], at[73]);    MULADD(at[11], at[72]);    MULADD(at[12], at[71]);    MULADD(at[13], at[70]);    MULADD(at[14], at[69]);    MULADD(at[15], at[68]);    MULADD(at[16], at[67]);    MULADD(at[17], at[66]);    MULADD(at[18], at[65]);    MULADD(at[19], at[64]);    MULADD(at[20], at[63]);    MULADD(at[21], at[62]);    MULADD(at[22], at[61]);    MULADD(at[23], at[60]);    MULADD(at[24], at[59]);    MULADD(at[25], at[58]);    MULADD(at[26], at[57]);    MULADD(at[27], at[56]);    MULADD(at[28], at[55]);    MULADD(at[29], at[54]);    MULADD(at[30], at[53]);    MULADD(at[31], at[52]);    MULADD(at[32], at[51]);    MULADD(at[33], at[50]);    MULADD(at[34], at[49]);    MULADD(at[35], at[48]);
                     +   COMBA_STORE(C->dp[35]);
                     +   /* 36 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[84]);    MULADD(at[1], at[83]);    MULADD(at[2], at[82]);    MULADD(at[3], at[81]);    MULADD(at[4], at[80]);    MULADD(at[5], at[79]);    MULADD(at[6], at[78]);    MULADD(at[7], at[77]);    MULADD(at[8], at[76]);    MULADD(at[9], at[75]);    MULADD(at[10], at[74]);    MULADD(at[11], at[73]);    MULADD(at[12], at[72]);    MULADD(at[13], at[71]);    MULADD(at[14], at[70]);    MULADD(at[15], at[69]);    MULADD(at[16], at[68]);    MULADD(at[17], at[67]);    MULADD(at[18], at[66]);    MULADD(at[19], at[65]);    MULADD(at[20], at[64]);    MULADD(at[21], at[63]);    MULADD(at[22], at[62]);    MULADD(at[23], at[61]);    MULADD(at[24], at[60]);    MULADD(at[25], at[59]);    MULADD(at[26], at[58]);    MULADD(at[27], at[57]);    MULADD(at[28], at[56]);    MULADD(at[29], at[55]);    MULADD(at[30], at[54]);    MULADD(at[31], at[53]);    MULADD(at[32], at[52]);    MULADD(at[33], at[51]);    MULADD(at[34], at[50]);    MULADD(at[35], at[49]);    MULADD(at[36], at[48]);
                     +   COMBA_STORE(C->dp[36]);
                     +   /* 37 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[85]);    MULADD(at[1], at[84]);    MULADD(at[2], at[83]);    MULADD(at[3], at[82]);    MULADD(at[4], at[81]);    MULADD(at[5], at[80]);    MULADD(at[6], at[79]);    MULADD(at[7], at[78]);    MULADD(at[8], at[77]);    MULADD(at[9], at[76]);    MULADD(at[10], at[75]);    MULADD(at[11], at[74]);    MULADD(at[12], at[73]);    MULADD(at[13], at[72]);    MULADD(at[14], at[71]);    MULADD(at[15], at[70]);    MULADD(at[16], at[69]);    MULADD(at[17], at[68]);    MULADD(at[18], at[67]);    MULADD(at[19], at[66]);    MULADD(at[20], at[65]);    MULADD(at[21], at[64]);    MULADD(at[22], at[63]);    MULADD(at[23], at[62]);    MULADD(at[24], at[61]);    MULADD(at[25], at[60]);    MULADD(at[26], at[59]);    MULADD(at[27], at[58]);    MULADD(at[28], at[57]);    MULADD(at[29], at[56]);    MULADD(at[30], at[55]);    MULADD(at[31], at[54]);    MULADD(at[32], at[53]);    MULADD(at[33], at[52]);    MULADD(at[34], at[51]);    MULADD(at[35], at[50]);    MULADD(at[36], at[49]);    MULADD(at[37], at[48]);
                     +   COMBA_STORE(C->dp[37]);
                     +   /* 38 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[86]);    MULADD(at[1], at[85]);    MULADD(at[2], at[84]);    MULADD(at[3], at[83]);    MULADD(at[4], at[82]);    MULADD(at[5], at[81]);    MULADD(at[6], at[80]);    MULADD(at[7], at[79]);    MULADD(at[8], at[78]);    MULADD(at[9], at[77]);    MULADD(at[10], at[76]);    MULADD(at[11], at[75]);    MULADD(at[12], at[74]);    MULADD(at[13], at[73]);    MULADD(at[14], at[72]);    MULADD(at[15], at[71]);    MULADD(at[16], at[70]);    MULADD(at[17], at[69]);    MULADD(at[18], at[68]);    MULADD(at[19], at[67]);    MULADD(at[20], at[66]);    MULADD(at[21], at[65]);    MULADD(at[22], at[64]);    MULADD(at[23], at[63]);    MULADD(at[24], at[62]);    MULADD(at[25], at[61]);    MULADD(at[26], at[60]);    MULADD(at[27], at[59]);    MULADD(at[28], at[58]);    MULADD(at[29], at[57]);    MULADD(at[30], at[56]);    MULADD(at[31], at[55]);    MULADD(at[32], at[54]);    MULADD(at[33], at[53]);    MULADD(at[34], at[52]);    MULADD(at[35], at[51]);    MULADD(at[36], at[50]);    MULADD(at[37], at[49]);    MULADD(at[38], at[48]);
                     +   COMBA_STORE(C->dp[38]);
                     +   /* 39 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[87]);    MULADD(at[1], at[86]);    MULADD(at[2], at[85]);    MULADD(at[3], at[84]);    MULADD(at[4], at[83]);    MULADD(at[5], at[82]);    MULADD(at[6], at[81]);    MULADD(at[7], at[80]);    MULADD(at[8], at[79]);    MULADD(at[9], at[78]);    MULADD(at[10], at[77]);    MULADD(at[11], at[76]);    MULADD(at[12], at[75]);    MULADD(at[13], at[74]);    MULADD(at[14], at[73]);    MULADD(at[15], at[72]);    MULADD(at[16], at[71]);    MULADD(at[17], at[70]);    MULADD(at[18], at[69]);    MULADD(at[19], at[68]);    MULADD(at[20], at[67]);    MULADD(at[21], at[66]);    MULADD(at[22], at[65]);    MULADD(at[23], at[64]);    MULADD(at[24], at[63]);    MULADD(at[25], at[62]);    MULADD(at[26], at[61]);    MULADD(at[27], at[60]);    MULADD(at[28], at[59]);    MULADD(at[29], at[58]);    MULADD(at[30], at[57]);    MULADD(at[31], at[56]);    MULADD(at[32], at[55]);    MULADD(at[33], at[54]);    MULADD(at[34], at[53]);    MULADD(at[35], at[52]);    MULADD(at[36], at[51]);    MULADD(at[37], at[50]);    MULADD(at[38], at[49]);    MULADD(at[39], at[48]);
                     +   COMBA_STORE(C->dp[39]);
                     +   /* 40 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[88]);    MULADD(at[1], at[87]);    MULADD(at[2], at[86]);    MULADD(at[3], at[85]);    MULADD(at[4], at[84]);    MULADD(at[5], at[83]);    MULADD(at[6], at[82]);    MULADD(at[7], at[81]);    MULADD(at[8], at[80]);    MULADD(at[9], at[79]);    MULADD(at[10], at[78]);    MULADD(at[11], at[77]);    MULADD(at[12], at[76]);    MULADD(at[13], at[75]);    MULADD(at[14], at[74]);    MULADD(at[15], at[73]);    MULADD(at[16], at[72]);    MULADD(at[17], at[71]);    MULADD(at[18], at[70]);    MULADD(at[19], at[69]);    MULADD(at[20], at[68]);    MULADD(at[21], at[67]);    MULADD(at[22], at[66]);    MULADD(at[23], at[65]);    MULADD(at[24], at[64]);    MULADD(at[25], at[63]);    MULADD(at[26], at[62]);    MULADD(at[27], at[61]);    MULADD(at[28], at[60]);    MULADD(at[29], at[59]);    MULADD(at[30], at[58]);    MULADD(at[31], at[57]);    MULADD(at[32], at[56]);    MULADD(at[33], at[55]);    MULADD(at[34], at[54]);    MULADD(at[35], at[53]);    MULADD(at[36], at[52]);    MULADD(at[37], at[51]);    MULADD(at[38], at[50]);    MULADD(at[39], at[49]);    MULADD(at[40], at[48]);
                     +   COMBA_STORE(C->dp[40]);
                     +   /* 41 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[89]);    MULADD(at[1], at[88]);    MULADD(at[2], at[87]);    MULADD(at[3], at[86]);    MULADD(at[4], at[85]);    MULADD(at[5], at[84]);    MULADD(at[6], at[83]);    MULADD(at[7], at[82]);    MULADD(at[8], at[81]);    MULADD(at[9], at[80]);    MULADD(at[10], at[79]);    MULADD(at[11], at[78]);    MULADD(at[12], at[77]);    MULADD(at[13], at[76]);    MULADD(at[14], at[75]);    MULADD(at[15], at[74]);    MULADD(at[16], at[73]);    MULADD(at[17], at[72]);    MULADD(at[18], at[71]);    MULADD(at[19], at[70]);    MULADD(at[20], at[69]);    MULADD(at[21], at[68]);    MULADD(at[22], at[67]);    MULADD(at[23], at[66]);    MULADD(at[24], at[65]);    MULADD(at[25], at[64]);    MULADD(at[26], at[63]);    MULADD(at[27], at[62]);    MULADD(at[28], at[61]);    MULADD(at[29], at[60]);    MULADD(at[30], at[59]);    MULADD(at[31], at[58]);    MULADD(at[32], at[57]);    MULADD(at[33], at[56]);    MULADD(at[34], at[55]);    MULADD(at[35], at[54]);    MULADD(at[36], at[53]);    MULADD(at[37], at[52]);    MULADD(at[38], at[51]);    MULADD(at[39], at[50]);    MULADD(at[40], at[49]);    MULADD(at[41], at[48]);
                     +   COMBA_STORE(C->dp[41]);
                     +   /* 42 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[90]);    MULADD(at[1], at[89]);    MULADD(at[2], at[88]);    MULADD(at[3], at[87]);    MULADD(at[4], at[86]);    MULADD(at[5], at[85]);    MULADD(at[6], at[84]);    MULADD(at[7], at[83]);    MULADD(at[8], at[82]);    MULADD(at[9], at[81]);    MULADD(at[10], at[80]);    MULADD(at[11], at[79]);    MULADD(at[12], at[78]);    MULADD(at[13], at[77]);    MULADD(at[14], at[76]);    MULADD(at[15], at[75]);    MULADD(at[16], at[74]);    MULADD(at[17], at[73]);    MULADD(at[18], at[72]);    MULADD(at[19], at[71]);    MULADD(at[20], at[70]);    MULADD(at[21], at[69]);    MULADD(at[22], at[68]);    MULADD(at[23], at[67]);    MULADD(at[24], at[66]);    MULADD(at[25], at[65]);    MULADD(at[26], at[64]);    MULADD(at[27], at[63]);    MULADD(at[28], at[62]);    MULADD(at[29], at[61]);    MULADD(at[30], at[60]);    MULADD(at[31], at[59]);    MULADD(at[32], at[58]);    MULADD(at[33], at[57]);    MULADD(at[34], at[56]);    MULADD(at[35], at[55]);    MULADD(at[36], at[54]);    MULADD(at[37], at[53]);    MULADD(at[38], at[52]);    MULADD(at[39], at[51]);    MULADD(at[40], at[50]);    MULADD(at[41], at[49]);    MULADD(at[42], at[48]);
                     +   COMBA_STORE(C->dp[42]);
                     +   /* 43 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[91]);    MULADD(at[1], at[90]);    MULADD(at[2], at[89]);    MULADD(at[3], at[88]);    MULADD(at[4], at[87]);    MULADD(at[5], at[86]);    MULADD(at[6], at[85]);    MULADD(at[7], at[84]);    MULADD(at[8], at[83]);    MULADD(at[9], at[82]);    MULADD(at[10], at[81]);    MULADD(at[11], at[80]);    MULADD(at[12], at[79]);    MULADD(at[13], at[78]);    MULADD(at[14], at[77]);    MULADD(at[15], at[76]);    MULADD(at[16], at[75]);    MULADD(at[17], at[74]);    MULADD(at[18], at[73]);    MULADD(at[19], at[72]);    MULADD(at[20], at[71]);    MULADD(at[21], at[70]);    MULADD(at[22], at[69]);    MULADD(at[23], at[68]);    MULADD(at[24], at[67]);    MULADD(at[25], at[66]);    MULADD(at[26], at[65]);    MULADD(at[27], at[64]);    MULADD(at[28], at[63]);    MULADD(at[29], at[62]);    MULADD(at[30], at[61]);    MULADD(at[31], at[60]);    MULADD(at[32], at[59]);    MULADD(at[33], at[58]);    MULADD(at[34], at[57]);    MULADD(at[35], at[56]);    MULADD(at[36], at[55]);    MULADD(at[37], at[54]);    MULADD(at[38], at[53]);    MULADD(at[39], at[52]);    MULADD(at[40], at[51]);    MULADD(at[41], at[50]);    MULADD(at[42], at[49]);    MULADD(at[43], at[48]);
                     +   COMBA_STORE(C->dp[43]);
                     +   /* 44 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[92]);    MULADD(at[1], at[91]);    MULADD(at[2], at[90]);    MULADD(at[3], at[89]);    MULADD(at[4], at[88]);    MULADD(at[5], at[87]);    MULADD(at[6], at[86]);    MULADD(at[7], at[85]);    MULADD(at[8], at[84]);    MULADD(at[9], at[83]);    MULADD(at[10], at[82]);    MULADD(at[11], at[81]);    MULADD(at[12], at[80]);    MULADD(at[13], at[79]);    MULADD(at[14], at[78]);    MULADD(at[15], at[77]);    MULADD(at[16], at[76]);    MULADD(at[17], at[75]);    MULADD(at[18], at[74]);    MULADD(at[19], at[73]);    MULADD(at[20], at[72]);    MULADD(at[21], at[71]);    MULADD(at[22], at[70]);    MULADD(at[23], at[69]);    MULADD(at[24], at[68]);    MULADD(at[25], at[67]);    MULADD(at[26], at[66]);    MULADD(at[27], at[65]);    MULADD(at[28], at[64]);    MULADD(at[29], at[63]);    MULADD(at[30], at[62]);    MULADD(at[31], at[61]);    MULADD(at[32], at[60]);    MULADD(at[33], at[59]);    MULADD(at[34], at[58]);    MULADD(at[35], at[57]);    MULADD(at[36], at[56]);    MULADD(at[37], at[55]);    MULADD(at[38], at[54]);    MULADD(at[39], at[53]);    MULADD(at[40], at[52]);    MULADD(at[41], at[51]);    MULADD(at[42], at[50]);    MULADD(at[43], at[49]);    MULADD(at[44], at[48]);
                     +   COMBA_STORE(C->dp[44]);
                     +   /* 45 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[93]);    MULADD(at[1], at[92]);    MULADD(at[2], at[91]);    MULADD(at[3], at[90]);    MULADD(at[4], at[89]);    MULADD(at[5], at[88]);    MULADD(at[6], at[87]);    MULADD(at[7], at[86]);    MULADD(at[8], at[85]);    MULADD(at[9], at[84]);    MULADD(at[10], at[83]);    MULADD(at[11], at[82]);    MULADD(at[12], at[81]);    MULADD(at[13], at[80]);    MULADD(at[14], at[79]);    MULADD(at[15], at[78]);    MULADD(at[16], at[77]);    MULADD(at[17], at[76]);    MULADD(at[18], at[75]);    MULADD(at[19], at[74]);    MULADD(at[20], at[73]);    MULADD(at[21], at[72]);    MULADD(at[22], at[71]);    MULADD(at[23], at[70]);    MULADD(at[24], at[69]);    MULADD(at[25], at[68]);    MULADD(at[26], at[67]);    MULADD(at[27], at[66]);    MULADD(at[28], at[65]);    MULADD(at[29], at[64]);    MULADD(at[30], at[63]);    MULADD(at[31], at[62]);    MULADD(at[32], at[61]);    MULADD(at[33], at[60]);    MULADD(at[34], at[59]);    MULADD(at[35], at[58]);    MULADD(at[36], at[57]);    MULADD(at[37], at[56]);    MULADD(at[38], at[55]);    MULADD(at[39], at[54]);    MULADD(at[40], at[53]);    MULADD(at[41], at[52]);    MULADD(at[42], at[51]);    MULADD(at[43], at[50]);    MULADD(at[44], at[49]);    MULADD(at[45], at[48]);
                     +   COMBA_STORE(C->dp[45]);
                     +   /* 46 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[94]);    MULADD(at[1], at[93]);    MULADD(at[2], at[92]);    MULADD(at[3], at[91]);    MULADD(at[4], at[90]);    MULADD(at[5], at[89]);    MULADD(at[6], at[88]);    MULADD(at[7], at[87]);    MULADD(at[8], at[86]);    MULADD(at[9], at[85]);    MULADD(at[10], at[84]);    MULADD(at[11], at[83]);    MULADD(at[12], at[82]);    MULADD(at[13], at[81]);    MULADD(at[14], at[80]);    MULADD(at[15], at[79]);    MULADD(at[16], at[78]);    MULADD(at[17], at[77]);    MULADD(at[18], at[76]);    MULADD(at[19], at[75]);    MULADD(at[20], at[74]);    MULADD(at[21], at[73]);    MULADD(at[22], at[72]);    MULADD(at[23], at[71]);    MULADD(at[24], at[70]);    MULADD(at[25], at[69]);    MULADD(at[26], at[68]);    MULADD(at[27], at[67]);    MULADD(at[28], at[66]);    MULADD(at[29], at[65]);    MULADD(at[30], at[64]);    MULADD(at[31], at[63]);    MULADD(at[32], at[62]);    MULADD(at[33], at[61]);    MULADD(at[34], at[60]);    MULADD(at[35], at[59]);    MULADD(at[36], at[58]);    MULADD(at[37], at[57]);    MULADD(at[38], at[56]);    MULADD(at[39], at[55]);    MULADD(at[40], at[54]);    MULADD(at[41], at[53]);    MULADD(at[42], at[52]);    MULADD(at[43], at[51]);    MULADD(at[44], at[50]);    MULADD(at[45], at[49]);    MULADD(at[46], at[48]);
                     +   COMBA_STORE(C->dp[46]);
                     +   /* 47 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[95]);    MULADD(at[1], at[94]);    MULADD(at[2], at[93]);    MULADD(at[3], at[92]);    MULADD(at[4], at[91]);    MULADD(at[5], at[90]);    MULADD(at[6], at[89]);    MULADD(at[7], at[88]);    MULADD(at[8], at[87]);    MULADD(at[9], at[86]);    MULADD(at[10], at[85]);    MULADD(at[11], at[84]);    MULADD(at[12], at[83]);    MULADD(at[13], at[82]);    MULADD(at[14], at[81]);    MULADD(at[15], at[80]);    MULADD(at[16], at[79]);    MULADD(at[17], at[78]);    MULADD(at[18], at[77]);    MULADD(at[19], at[76]);    MULADD(at[20], at[75]);    MULADD(at[21], at[74]);    MULADD(at[22], at[73]);    MULADD(at[23], at[72]);    MULADD(at[24], at[71]);    MULADD(at[25], at[70]);    MULADD(at[26], at[69]);    MULADD(at[27], at[68]);    MULADD(at[28], at[67]);    MULADD(at[29], at[66]);    MULADD(at[30], at[65]);    MULADD(at[31], at[64]);    MULADD(at[32], at[63]);    MULADD(at[33], at[62]);    MULADD(at[34], at[61]);    MULADD(at[35], at[60]);    MULADD(at[36], at[59]);    MULADD(at[37], at[58]);    MULADD(at[38], at[57]);    MULADD(at[39], at[56]);    MULADD(at[40], at[55]);    MULADD(at[41], at[54]);    MULADD(at[42], at[53]);    MULADD(at[43], at[52]);    MULADD(at[44], at[51]);    MULADD(at[45], at[50]);    MULADD(at[46], at[49]);    MULADD(at[47], at[48]);
                     +   COMBA_STORE(C->dp[47]);
                     +   /* 48 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[1], at[95]);    MULADD(at[2], at[94]);    MULADD(at[3], at[93]);    MULADD(at[4], at[92]);    MULADD(at[5], at[91]);    MULADD(at[6], at[90]);    MULADD(at[7], at[89]);    MULADD(at[8], at[88]);    MULADD(at[9], at[87]);    MULADD(at[10], at[86]);    MULADD(at[11], at[85]);    MULADD(at[12], at[84]);    MULADD(at[13], at[83]);    MULADD(at[14], at[82]);    MULADD(at[15], at[81]);    MULADD(at[16], at[80]);    MULADD(at[17], at[79]);    MULADD(at[18], at[78]);    MULADD(at[19], at[77]);    MULADD(at[20], at[76]);    MULADD(at[21], at[75]);    MULADD(at[22], at[74]);    MULADD(at[23], at[73]);    MULADD(at[24], at[72]);    MULADD(at[25], at[71]);    MULADD(at[26], at[70]);    MULADD(at[27], at[69]);    MULADD(at[28], at[68]);    MULADD(at[29], at[67]);    MULADD(at[30], at[66]);    MULADD(at[31], at[65]);    MULADD(at[32], at[64]);    MULADD(at[33], at[63]);    MULADD(at[34], at[62]);    MULADD(at[35], at[61]);    MULADD(at[36], at[60]);    MULADD(at[37], at[59]);    MULADD(at[38], at[58]);    MULADD(at[39], at[57]);    MULADD(at[40], at[56]);    MULADD(at[41], at[55]);    MULADD(at[42], at[54]);    MULADD(at[43], at[53]);    MULADD(at[44], at[52]);    MULADD(at[45], at[51]);    MULADD(at[46], at[50]);    MULADD(at[47], at[49]);
                     +   COMBA_STORE(C->dp[48]);
                     +   /* 49 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[2], at[95]);    MULADD(at[3], at[94]);    MULADD(at[4], at[93]);    MULADD(at[5], at[92]);    MULADD(at[6], at[91]);    MULADD(at[7], at[90]);    MULADD(at[8], at[89]);    MULADD(at[9], at[88]);    MULADD(at[10], at[87]);    MULADD(at[11], at[86]);    MULADD(at[12], at[85]);    MULADD(at[13], at[84]);    MULADD(at[14], at[83]);    MULADD(at[15], at[82]);    MULADD(at[16], at[81]);    MULADD(at[17], at[80]);    MULADD(at[18], at[79]);    MULADD(at[19], at[78]);    MULADD(at[20], at[77]);    MULADD(at[21], at[76]);    MULADD(at[22], at[75]);    MULADD(at[23], at[74]);    MULADD(at[24], at[73]);    MULADD(at[25], at[72]);    MULADD(at[26], at[71]);    MULADD(at[27], at[70]);    MULADD(at[28], at[69]);    MULADD(at[29], at[68]);    MULADD(at[30], at[67]);    MULADD(at[31], at[66]);    MULADD(at[32], at[65]);    MULADD(at[33], at[64]);    MULADD(at[34], at[63]);    MULADD(at[35], at[62]);    MULADD(at[36], at[61]);    MULADD(at[37], at[60]);    MULADD(at[38], at[59]);    MULADD(at[39], at[58]);    MULADD(at[40], at[57]);    MULADD(at[41], at[56]);    MULADD(at[42], at[55]);    MULADD(at[43], at[54]);    MULADD(at[44], at[53]);    MULADD(at[45], at[52]);    MULADD(at[46], at[51]);    MULADD(at[47], at[50]);
                     +   COMBA_STORE(C->dp[49]);
                     +   /* 50 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[3], at[95]);    MULADD(at[4], at[94]);    MULADD(at[5], at[93]);    MULADD(at[6], at[92]);    MULADD(at[7], at[91]);    MULADD(at[8], at[90]);    MULADD(at[9], at[89]);    MULADD(at[10], at[88]);    MULADD(at[11], at[87]);    MULADD(at[12], at[86]);    MULADD(at[13], at[85]);    MULADD(at[14], at[84]);    MULADD(at[15], at[83]);    MULADD(at[16], at[82]);    MULADD(at[17], at[81]);    MULADD(at[18], at[80]);    MULADD(at[19], at[79]);    MULADD(at[20], at[78]);    MULADD(at[21], at[77]);    MULADD(at[22], at[76]);    MULADD(at[23], at[75]);    MULADD(at[24], at[74]);    MULADD(at[25], at[73]);    MULADD(at[26], at[72]);    MULADD(at[27], at[71]);    MULADD(at[28], at[70]);    MULADD(at[29], at[69]);    MULADD(at[30], at[68]);    MULADD(at[31], at[67]);    MULADD(at[32], at[66]);    MULADD(at[33], at[65]);    MULADD(at[34], at[64]);    MULADD(at[35], at[63]);    MULADD(at[36], at[62]);    MULADD(at[37], at[61]);    MULADD(at[38], at[60]);    MULADD(at[39], at[59]);    MULADD(at[40], at[58]);    MULADD(at[41], at[57]);    MULADD(at[42], at[56]);    MULADD(at[43], at[55]);    MULADD(at[44], at[54]);    MULADD(at[45], at[53]);    MULADD(at[46], at[52]);    MULADD(at[47], at[51]);
                     +   COMBA_STORE(C->dp[50]);
                     +   /* 51 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[4], at[95]);    MULADD(at[5], at[94]);    MULADD(at[6], at[93]);    MULADD(at[7], at[92]);    MULADD(at[8], at[91]);    MULADD(at[9], at[90]);    MULADD(at[10], at[89]);    MULADD(at[11], at[88]);    MULADD(at[12], at[87]);    MULADD(at[13], at[86]);    MULADD(at[14], at[85]);    MULADD(at[15], at[84]);    MULADD(at[16], at[83]);    MULADD(at[17], at[82]);    MULADD(at[18], at[81]);    MULADD(at[19], at[80]);    MULADD(at[20], at[79]);    MULADD(at[21], at[78]);    MULADD(at[22], at[77]);    MULADD(at[23], at[76]);    MULADD(at[24], at[75]);    MULADD(at[25], at[74]);    MULADD(at[26], at[73]);    MULADD(at[27], at[72]);    MULADD(at[28], at[71]);    MULADD(at[29], at[70]);    MULADD(at[30], at[69]);    MULADD(at[31], at[68]);    MULADD(at[32], at[67]);    MULADD(at[33], at[66]);    MULADD(at[34], at[65]);    MULADD(at[35], at[64]);    MULADD(at[36], at[63]);    MULADD(at[37], at[62]);    MULADD(at[38], at[61]);    MULADD(at[39], at[60]);    MULADD(at[40], at[59]);    MULADD(at[41], at[58]);    MULADD(at[42], at[57]);    MULADD(at[43], at[56]);    MULADD(at[44], at[55]);    MULADD(at[45], at[54]);    MULADD(at[46], at[53]);    MULADD(at[47], at[52]);
                     +   COMBA_STORE(C->dp[51]);
                     +   /* 52 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[5], at[95]);    MULADD(at[6], at[94]);    MULADD(at[7], at[93]);    MULADD(at[8], at[92]);    MULADD(at[9], at[91]);    MULADD(at[10], at[90]);    MULADD(at[11], at[89]);    MULADD(at[12], at[88]);    MULADD(at[13], at[87]);    MULADD(at[14], at[86]);    MULADD(at[15], at[85]);    MULADD(at[16], at[84]);    MULADD(at[17], at[83]);    MULADD(at[18], at[82]);    MULADD(at[19], at[81]);    MULADD(at[20], at[80]);    MULADD(at[21], at[79]);    MULADD(at[22], at[78]);    MULADD(at[23], at[77]);    MULADD(at[24], at[76]);    MULADD(at[25], at[75]);    MULADD(at[26], at[74]);    MULADD(at[27], at[73]);    MULADD(at[28], at[72]);    MULADD(at[29], at[71]);    MULADD(at[30], at[70]);    MULADD(at[31], at[69]);    MULADD(at[32], at[68]);    MULADD(at[33], at[67]);    MULADD(at[34], at[66]);    MULADD(at[35], at[65]);    MULADD(at[36], at[64]);    MULADD(at[37], at[63]);    MULADD(at[38], at[62]);    MULADD(at[39], at[61]);    MULADD(at[40], at[60]);    MULADD(at[41], at[59]);    MULADD(at[42], at[58]);    MULADD(at[43], at[57]);    MULADD(at[44], at[56]);    MULADD(at[45], at[55]);    MULADD(at[46], at[54]);    MULADD(at[47], at[53]);
                     +   COMBA_STORE(C->dp[52]);
                     +   /* 53 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[6], at[95]);    MULADD(at[7], at[94]);    MULADD(at[8], at[93]);    MULADD(at[9], at[92]);    MULADD(at[10], at[91]);    MULADD(at[11], at[90]);    MULADD(at[12], at[89]);    MULADD(at[13], at[88]);    MULADD(at[14], at[87]);    MULADD(at[15], at[86]);    MULADD(at[16], at[85]);    MULADD(at[17], at[84]);    MULADD(at[18], at[83]);    MULADD(at[19], at[82]);    MULADD(at[20], at[81]);    MULADD(at[21], at[80]);    MULADD(at[22], at[79]);    MULADD(at[23], at[78]);    MULADD(at[24], at[77]);    MULADD(at[25], at[76]);    MULADD(at[26], at[75]);    MULADD(at[27], at[74]);    MULADD(at[28], at[73]);    MULADD(at[29], at[72]);    MULADD(at[30], at[71]);    MULADD(at[31], at[70]);    MULADD(at[32], at[69]);    MULADD(at[33], at[68]);    MULADD(at[34], at[67]);    MULADD(at[35], at[66]);    MULADD(at[36], at[65]);    MULADD(at[37], at[64]);    MULADD(at[38], at[63]);    MULADD(at[39], at[62]);    MULADD(at[40], at[61]);    MULADD(at[41], at[60]);    MULADD(at[42], at[59]);    MULADD(at[43], at[58]);    MULADD(at[44], at[57]);    MULADD(at[45], at[56]);    MULADD(at[46], at[55]);    MULADD(at[47], at[54]);
                     +   COMBA_STORE(C->dp[53]);
                     +   /* 54 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[7], at[95]);    MULADD(at[8], at[94]);    MULADD(at[9], at[93]);    MULADD(at[10], at[92]);    MULADD(at[11], at[91]);    MULADD(at[12], at[90]);    MULADD(at[13], at[89]);    MULADD(at[14], at[88]);    MULADD(at[15], at[87]);    MULADD(at[16], at[86]);    MULADD(at[17], at[85]);    MULADD(at[18], at[84]);    MULADD(at[19], at[83]);    MULADD(at[20], at[82]);    MULADD(at[21], at[81]);    MULADD(at[22], at[80]);    MULADD(at[23], at[79]);    MULADD(at[24], at[78]);    MULADD(at[25], at[77]);    MULADD(at[26], at[76]);    MULADD(at[27], at[75]);    MULADD(at[28], at[74]);    MULADD(at[29], at[73]);    MULADD(at[30], at[72]);    MULADD(at[31], at[71]);    MULADD(at[32], at[70]);    MULADD(at[33], at[69]);    MULADD(at[34], at[68]);    MULADD(at[35], at[67]);    MULADD(at[36], at[66]);    MULADD(at[37], at[65]);    MULADD(at[38], at[64]);    MULADD(at[39], at[63]);    MULADD(at[40], at[62]);    MULADD(at[41], at[61]);    MULADD(at[42], at[60]);    MULADD(at[43], at[59]);    MULADD(at[44], at[58]);    MULADD(at[45], at[57]);    MULADD(at[46], at[56]);    MULADD(at[47], at[55]);
                     +   COMBA_STORE(C->dp[54]);
                     +   /* 55 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[8], at[95]);    MULADD(at[9], at[94]);    MULADD(at[10], at[93]);    MULADD(at[11], at[92]);    MULADD(at[12], at[91]);    MULADD(at[13], at[90]);    MULADD(at[14], at[89]);    MULADD(at[15], at[88]);    MULADD(at[16], at[87]);    MULADD(at[17], at[86]);    MULADD(at[18], at[85]);    MULADD(at[19], at[84]);    MULADD(at[20], at[83]);    MULADD(at[21], at[82]);    MULADD(at[22], at[81]);    MULADD(at[23], at[80]);    MULADD(at[24], at[79]);    MULADD(at[25], at[78]);    MULADD(at[26], at[77]);    MULADD(at[27], at[76]);    MULADD(at[28], at[75]);    MULADD(at[29], at[74]);    MULADD(at[30], at[73]);    MULADD(at[31], at[72]);    MULADD(at[32], at[71]);    MULADD(at[33], at[70]);    MULADD(at[34], at[69]);    MULADD(at[35], at[68]);    MULADD(at[36], at[67]);    MULADD(at[37], at[66]);    MULADD(at[38], at[65]);    MULADD(at[39], at[64]);    MULADD(at[40], at[63]);    MULADD(at[41], at[62]);    MULADD(at[42], at[61]);    MULADD(at[43], at[60]);    MULADD(at[44], at[59]);    MULADD(at[45], at[58]);    MULADD(at[46], at[57]);    MULADD(at[47], at[56]);
                     +   COMBA_STORE(C->dp[55]);
                     +   /* 56 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[9], at[95]);    MULADD(at[10], at[94]);    MULADD(at[11], at[93]);    MULADD(at[12], at[92]);    MULADD(at[13], at[91]);    MULADD(at[14], at[90]);    MULADD(at[15], at[89]);    MULADD(at[16], at[88]);    MULADD(at[17], at[87]);    MULADD(at[18], at[86]);    MULADD(at[19], at[85]);    MULADD(at[20], at[84]);    MULADD(at[21], at[83]);    MULADD(at[22], at[82]);    MULADD(at[23], at[81]);    MULADD(at[24], at[80]);    MULADD(at[25], at[79]);    MULADD(at[26], at[78]);    MULADD(at[27], at[77]);    MULADD(at[28], at[76]);    MULADD(at[29], at[75]);    MULADD(at[30], at[74]);    MULADD(at[31], at[73]);    MULADD(at[32], at[72]);    MULADD(at[33], at[71]);    MULADD(at[34], at[70]);    MULADD(at[35], at[69]);    MULADD(at[36], at[68]);    MULADD(at[37], at[67]);    MULADD(at[38], at[66]);    MULADD(at[39], at[65]);    MULADD(at[40], at[64]);    MULADD(at[41], at[63]);    MULADD(at[42], at[62]);    MULADD(at[43], at[61]);    MULADD(at[44], at[60]);    MULADD(at[45], at[59]);    MULADD(at[46], at[58]);    MULADD(at[47], at[57]);
                     +   COMBA_STORE(C->dp[56]);
                     +   /* 57 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[10], at[95]);    MULADD(at[11], at[94]);    MULADD(at[12], at[93]);    MULADD(at[13], at[92]);    MULADD(at[14], at[91]);    MULADD(at[15], at[90]);    MULADD(at[16], at[89]);    MULADD(at[17], at[88]);    MULADD(at[18], at[87]);    MULADD(at[19], at[86]);    MULADD(at[20], at[85]);    MULADD(at[21], at[84]);    MULADD(at[22], at[83]);    MULADD(at[23], at[82]);    MULADD(at[24], at[81]);    MULADD(at[25], at[80]);    MULADD(at[26], at[79]);    MULADD(at[27], at[78]);    MULADD(at[28], at[77]);    MULADD(at[29], at[76]);    MULADD(at[30], at[75]);    MULADD(at[31], at[74]);    MULADD(at[32], at[73]);    MULADD(at[33], at[72]);    MULADD(at[34], at[71]);    MULADD(at[35], at[70]);    MULADD(at[36], at[69]);    MULADD(at[37], at[68]);    MULADD(at[38], at[67]);    MULADD(at[39], at[66]);    MULADD(at[40], at[65]);    MULADD(at[41], at[64]);    MULADD(at[42], at[63]);    MULADD(at[43], at[62]);    MULADD(at[44], at[61]);    MULADD(at[45], at[60]);    MULADD(at[46], at[59]);    MULADD(at[47], at[58]);
                     +   COMBA_STORE(C->dp[57]);
                     +   /* 58 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[11], at[95]);    MULADD(at[12], at[94]);    MULADD(at[13], at[93]);    MULADD(at[14], at[92]);    MULADD(at[15], at[91]);    MULADD(at[16], at[90]);    MULADD(at[17], at[89]);    MULADD(at[18], at[88]);    MULADD(at[19], at[87]);    MULADD(at[20], at[86]);    MULADD(at[21], at[85]);    MULADD(at[22], at[84]);    MULADD(at[23], at[83]);    MULADD(at[24], at[82]);    MULADD(at[25], at[81]);    MULADD(at[26], at[80]);    MULADD(at[27], at[79]);    MULADD(at[28], at[78]);    MULADD(at[29], at[77]);    MULADD(at[30], at[76]);    MULADD(at[31], at[75]);    MULADD(at[32], at[74]);    MULADD(at[33], at[73]);    MULADD(at[34], at[72]);    MULADD(at[35], at[71]);    MULADD(at[36], at[70]);    MULADD(at[37], at[69]);    MULADD(at[38], at[68]);    MULADD(at[39], at[67]);    MULADD(at[40], at[66]);    MULADD(at[41], at[65]);    MULADD(at[42], at[64]);    MULADD(at[43], at[63]);    MULADD(at[44], at[62]);    MULADD(at[45], at[61]);    MULADD(at[46], at[60]);    MULADD(at[47], at[59]);
                     +   COMBA_STORE(C->dp[58]);
                     +   /* 59 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[12], at[95]);    MULADD(at[13], at[94]);    MULADD(at[14], at[93]);    MULADD(at[15], at[92]);    MULADD(at[16], at[91]);    MULADD(at[17], at[90]);    MULADD(at[18], at[89]);    MULADD(at[19], at[88]);    MULADD(at[20], at[87]);    MULADD(at[21], at[86]);    MULADD(at[22], at[85]);    MULADD(at[23], at[84]);    MULADD(at[24], at[83]);    MULADD(at[25], at[82]);    MULADD(at[26], at[81]);    MULADD(at[27], at[80]);    MULADD(at[28], at[79]);    MULADD(at[29], at[78]);    MULADD(at[30], at[77]);    MULADD(at[31], at[76]);    MULADD(at[32], at[75]);    MULADD(at[33], at[74]);    MULADD(at[34], at[73]);    MULADD(at[35], at[72]);    MULADD(at[36], at[71]);    MULADD(at[37], at[70]);    MULADD(at[38], at[69]);    MULADD(at[39], at[68]);    MULADD(at[40], at[67]);    MULADD(at[41], at[66]);    MULADD(at[42], at[65]);    MULADD(at[43], at[64]);    MULADD(at[44], at[63]);    MULADD(at[45], at[62]);    MULADD(at[46], at[61]);    MULADD(at[47], at[60]);
                     +   COMBA_STORE(C->dp[59]);
                     +   /* 60 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[13], at[95]);    MULADD(at[14], at[94]);    MULADD(at[15], at[93]);    MULADD(at[16], at[92]);    MULADD(at[17], at[91]);    MULADD(at[18], at[90]);    MULADD(at[19], at[89]);    MULADD(at[20], at[88]);    MULADD(at[21], at[87]);    MULADD(at[22], at[86]);    MULADD(at[23], at[85]);    MULADD(at[24], at[84]);    MULADD(at[25], at[83]);    MULADD(at[26], at[82]);    MULADD(at[27], at[81]);    MULADD(at[28], at[80]);    MULADD(at[29], at[79]);    MULADD(at[30], at[78]);    MULADD(at[31], at[77]);    MULADD(at[32], at[76]);    MULADD(at[33], at[75]);    MULADD(at[34], at[74]);    MULADD(at[35], at[73]);    MULADD(at[36], at[72]);    MULADD(at[37], at[71]);    MULADD(at[38], at[70]);    MULADD(at[39], at[69]);    MULADD(at[40], at[68]);    MULADD(at[41], at[67]);    MULADD(at[42], at[66]);    MULADD(at[43], at[65]);    MULADD(at[44], at[64]);    MULADD(at[45], at[63]);    MULADD(at[46], at[62]);    MULADD(at[47], at[61]);
                     +   COMBA_STORE(C->dp[60]);
                     +   /* 61 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[14], at[95]);    MULADD(at[15], at[94]);    MULADD(at[16], at[93]);    MULADD(at[17], at[92]);    MULADD(at[18], at[91]);    MULADD(at[19], at[90]);    MULADD(at[20], at[89]);    MULADD(at[21], at[88]);    MULADD(at[22], at[87]);    MULADD(at[23], at[86]);    MULADD(at[24], at[85]);    MULADD(at[25], at[84]);    MULADD(at[26], at[83]);    MULADD(at[27], at[82]);    MULADD(at[28], at[81]);    MULADD(at[29], at[80]);    MULADD(at[30], at[79]);    MULADD(at[31], at[78]);    MULADD(at[32], at[77]);    MULADD(at[33], at[76]);    MULADD(at[34], at[75]);    MULADD(at[35], at[74]);    MULADD(at[36], at[73]);    MULADD(at[37], at[72]);    MULADD(at[38], at[71]);    MULADD(at[39], at[70]);    MULADD(at[40], at[69]);    MULADD(at[41], at[68]);    MULADD(at[42], at[67]);    MULADD(at[43], at[66]);    MULADD(at[44], at[65]);    MULADD(at[45], at[64]);    MULADD(at[46], at[63]);    MULADD(at[47], at[62]);
                     +   COMBA_STORE(C->dp[61]);
                     +   /* 62 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[15], at[95]);    MULADD(at[16], at[94]);    MULADD(at[17], at[93]);    MULADD(at[18], at[92]);    MULADD(at[19], at[91]);    MULADD(at[20], at[90]);    MULADD(at[21], at[89]);    MULADD(at[22], at[88]);    MULADD(at[23], at[87]);    MULADD(at[24], at[86]);    MULADD(at[25], at[85]);    MULADD(at[26], at[84]);    MULADD(at[27], at[83]);    MULADD(at[28], at[82]);    MULADD(at[29], at[81]);    MULADD(at[30], at[80]);    MULADD(at[31], at[79]);    MULADD(at[32], at[78]);    MULADD(at[33], at[77]);    MULADD(at[34], at[76]);    MULADD(at[35], at[75]);    MULADD(at[36], at[74]);    MULADD(at[37], at[73]);    MULADD(at[38], at[72]);    MULADD(at[39], at[71]);    MULADD(at[40], at[70]);    MULADD(at[41], at[69]);    MULADD(at[42], at[68]);    MULADD(at[43], at[67]);    MULADD(at[44], at[66]);    MULADD(at[45], at[65]);    MULADD(at[46], at[64]);    MULADD(at[47], at[63]);
                     +   COMBA_STORE(C->dp[62]);
                     +   /* 63 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[16], at[95]);    MULADD(at[17], at[94]);    MULADD(at[18], at[93]);    MULADD(at[19], at[92]);    MULADD(at[20], at[91]);    MULADD(at[21], at[90]);    MULADD(at[22], at[89]);    MULADD(at[23], at[88]);    MULADD(at[24], at[87]);    MULADD(at[25], at[86]);    MULADD(at[26], at[85]);    MULADD(at[27], at[84]);    MULADD(at[28], at[83]);    MULADD(at[29], at[82]);    MULADD(at[30], at[81]);    MULADD(at[31], at[80]);    MULADD(at[32], at[79]);    MULADD(at[33], at[78]);    MULADD(at[34], at[77]);    MULADD(at[35], at[76]);    MULADD(at[36], at[75]);    MULADD(at[37], at[74]);    MULADD(at[38], at[73]);    MULADD(at[39], at[72]);    MULADD(at[40], at[71]);    MULADD(at[41], at[70]);    MULADD(at[42], at[69]);    MULADD(at[43], at[68]);    MULADD(at[44], at[67]);    MULADD(at[45], at[66]);    MULADD(at[46], at[65]);    MULADD(at[47], at[64]);
                     +   COMBA_STORE(C->dp[63]);
                     +   /* 64 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[17], at[95]);    MULADD(at[18], at[94]);    MULADD(at[19], at[93]);    MULADD(at[20], at[92]);    MULADD(at[21], at[91]);    MULADD(at[22], at[90]);    MULADD(at[23], at[89]);    MULADD(at[24], at[88]);    MULADD(at[25], at[87]);    MULADD(at[26], at[86]);    MULADD(at[27], at[85]);    MULADD(at[28], at[84]);    MULADD(at[29], at[83]);    MULADD(at[30], at[82]);    MULADD(at[31], at[81]);    MULADD(at[32], at[80]);    MULADD(at[33], at[79]);    MULADD(at[34], at[78]);    MULADD(at[35], at[77]);    MULADD(at[36], at[76]);    MULADD(at[37], at[75]);    MULADD(at[38], at[74]);    MULADD(at[39], at[73]);    MULADD(at[40], at[72]);    MULADD(at[41], at[71]);    MULADD(at[42], at[70]);    MULADD(at[43], at[69]);    MULADD(at[44], at[68]);    MULADD(at[45], at[67]);    MULADD(at[46], at[66]);    MULADD(at[47], at[65]);
                     +   COMBA_STORE(C->dp[64]);
                     +   /* 65 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[18], at[95]);    MULADD(at[19], at[94]);    MULADD(at[20], at[93]);    MULADD(at[21], at[92]);    MULADD(at[22], at[91]);    MULADD(at[23], at[90]);    MULADD(at[24], at[89]);    MULADD(at[25], at[88]);    MULADD(at[26], at[87]);    MULADD(at[27], at[86]);    MULADD(at[28], at[85]);    MULADD(at[29], at[84]);    MULADD(at[30], at[83]);    MULADD(at[31], at[82]);    MULADD(at[32], at[81]);    MULADD(at[33], at[80]);    MULADD(at[34], at[79]);    MULADD(at[35], at[78]);    MULADD(at[36], at[77]);    MULADD(at[37], at[76]);    MULADD(at[38], at[75]);    MULADD(at[39], at[74]);    MULADD(at[40], at[73]);    MULADD(at[41], at[72]);    MULADD(at[42], at[71]);    MULADD(at[43], at[70]);    MULADD(at[44], at[69]);    MULADD(at[45], at[68]);    MULADD(at[46], at[67]);    MULADD(at[47], at[66]);
                     +   COMBA_STORE(C->dp[65]);
                     +   /* 66 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[19], at[95]);    MULADD(at[20], at[94]);    MULADD(at[21], at[93]);    MULADD(at[22], at[92]);    MULADD(at[23], at[91]);    MULADD(at[24], at[90]);    MULADD(at[25], at[89]);    MULADD(at[26], at[88]);    MULADD(at[27], at[87]);    MULADD(at[28], at[86]);    MULADD(at[29], at[85]);    MULADD(at[30], at[84]);    MULADD(at[31], at[83]);    MULADD(at[32], at[82]);    MULADD(at[33], at[81]);    MULADD(at[34], at[80]);    MULADD(at[35], at[79]);    MULADD(at[36], at[78]);    MULADD(at[37], at[77]);    MULADD(at[38], at[76]);    MULADD(at[39], at[75]);    MULADD(at[40], at[74]);    MULADD(at[41], at[73]);    MULADD(at[42], at[72]);    MULADD(at[43], at[71]);    MULADD(at[44], at[70]);    MULADD(at[45], at[69]);    MULADD(at[46], at[68]);    MULADD(at[47], at[67]);
                     +   COMBA_STORE(C->dp[66]);
                     +   /* 67 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[20], at[95]);    MULADD(at[21], at[94]);    MULADD(at[22], at[93]);    MULADD(at[23], at[92]);    MULADD(at[24], at[91]);    MULADD(at[25], at[90]);    MULADD(at[26], at[89]);    MULADD(at[27], at[88]);    MULADD(at[28], at[87]);    MULADD(at[29], at[86]);    MULADD(at[30], at[85]);    MULADD(at[31], at[84]);    MULADD(at[32], at[83]);    MULADD(at[33], at[82]);    MULADD(at[34], at[81]);    MULADD(at[35], at[80]);    MULADD(at[36], at[79]);    MULADD(at[37], at[78]);    MULADD(at[38], at[77]);    MULADD(at[39], at[76]);    MULADD(at[40], at[75]);    MULADD(at[41], at[74]);    MULADD(at[42], at[73]);    MULADD(at[43], at[72]);    MULADD(at[44], at[71]);    MULADD(at[45], at[70]);    MULADD(at[46], at[69]);    MULADD(at[47], at[68]);
                     +   COMBA_STORE(C->dp[67]);
                     +   /* 68 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[21], at[95]);    MULADD(at[22], at[94]);    MULADD(at[23], at[93]);    MULADD(at[24], at[92]);    MULADD(at[25], at[91]);    MULADD(at[26], at[90]);    MULADD(at[27], at[89]);    MULADD(at[28], at[88]);    MULADD(at[29], at[87]);    MULADD(at[30], at[86]);    MULADD(at[31], at[85]);    MULADD(at[32], at[84]);    MULADD(at[33], at[83]);    MULADD(at[34], at[82]);    MULADD(at[35], at[81]);    MULADD(at[36], at[80]);    MULADD(at[37], at[79]);    MULADD(at[38], at[78]);    MULADD(at[39], at[77]);    MULADD(at[40], at[76]);    MULADD(at[41], at[75]);    MULADD(at[42], at[74]);    MULADD(at[43], at[73]);    MULADD(at[44], at[72]);    MULADD(at[45], at[71]);    MULADD(at[46], at[70]);    MULADD(at[47], at[69]);
                     +   COMBA_STORE(C->dp[68]);
                     +   /* 69 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[22], at[95]);    MULADD(at[23], at[94]);    MULADD(at[24], at[93]);    MULADD(at[25], at[92]);    MULADD(at[26], at[91]);    MULADD(at[27], at[90]);    MULADD(at[28], at[89]);    MULADD(at[29], at[88]);    MULADD(at[30], at[87]);    MULADD(at[31], at[86]);    MULADD(at[32], at[85]);    MULADD(at[33], at[84]);    MULADD(at[34], at[83]);    MULADD(at[35], at[82]);    MULADD(at[36], at[81]);    MULADD(at[37], at[80]);    MULADD(at[38], at[79]);    MULADD(at[39], at[78]);    MULADD(at[40], at[77]);    MULADD(at[41], at[76]);    MULADD(at[42], at[75]);    MULADD(at[43], at[74]);    MULADD(at[44], at[73]);    MULADD(at[45], at[72]);    MULADD(at[46], at[71]);    MULADD(at[47], at[70]);
                     +   COMBA_STORE(C->dp[69]);
                     +   /* 70 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[23], at[95]);    MULADD(at[24], at[94]);    MULADD(at[25], at[93]);    MULADD(at[26], at[92]);    MULADD(at[27], at[91]);    MULADD(at[28], at[90]);    MULADD(at[29], at[89]);    MULADD(at[30], at[88]);    MULADD(at[31], at[87]);    MULADD(at[32], at[86]);    MULADD(at[33], at[85]);    MULADD(at[34], at[84]);    MULADD(at[35], at[83]);    MULADD(at[36], at[82]);    MULADD(at[37], at[81]);    MULADD(at[38], at[80]);    MULADD(at[39], at[79]);    MULADD(at[40], at[78]);    MULADD(at[41], at[77]);    MULADD(at[42], at[76]);    MULADD(at[43], at[75]);    MULADD(at[44], at[74]);    MULADD(at[45], at[73]);    MULADD(at[46], at[72]);    MULADD(at[47], at[71]);
                     +   COMBA_STORE(C->dp[70]);
                     +   /* 71 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[24], at[95]);    MULADD(at[25], at[94]);    MULADD(at[26], at[93]);    MULADD(at[27], at[92]);    MULADD(at[28], at[91]);    MULADD(at[29], at[90]);    MULADD(at[30], at[89]);    MULADD(at[31], at[88]);    MULADD(at[32], at[87]);    MULADD(at[33], at[86]);    MULADD(at[34], at[85]);    MULADD(at[35], at[84]);    MULADD(at[36], at[83]);    MULADD(at[37], at[82]);    MULADD(at[38], at[81]);    MULADD(at[39], at[80]);    MULADD(at[40], at[79]);    MULADD(at[41], at[78]);    MULADD(at[42], at[77]);    MULADD(at[43], at[76]);    MULADD(at[44], at[75]);    MULADD(at[45], at[74]);    MULADD(at[46], at[73]);    MULADD(at[47], at[72]);
                     +   COMBA_STORE(C->dp[71]);
                     +   /* 72 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[25], at[95]);    MULADD(at[26], at[94]);    MULADD(at[27], at[93]);    MULADD(at[28], at[92]);    MULADD(at[29], at[91]);    MULADD(at[30], at[90]);    MULADD(at[31], at[89]);    MULADD(at[32], at[88]);    MULADD(at[33], at[87]);    MULADD(at[34], at[86]);    MULADD(at[35], at[85]);    MULADD(at[36], at[84]);    MULADD(at[37], at[83]);    MULADD(at[38], at[82]);    MULADD(at[39], at[81]);    MULADD(at[40], at[80]);    MULADD(at[41], at[79]);    MULADD(at[42], at[78]);    MULADD(at[43], at[77]);    MULADD(at[44], at[76]);    MULADD(at[45], at[75]);    MULADD(at[46], at[74]);    MULADD(at[47], at[73]);
                     +   COMBA_STORE(C->dp[72]);
                     +   /* 73 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[26], at[95]);    MULADD(at[27], at[94]);    MULADD(at[28], at[93]);    MULADD(at[29], at[92]);    MULADD(at[30], at[91]);    MULADD(at[31], at[90]);    MULADD(at[32], at[89]);    MULADD(at[33], at[88]);    MULADD(at[34], at[87]);    MULADD(at[35], at[86]);    MULADD(at[36], at[85]);    MULADD(at[37], at[84]);    MULADD(at[38], at[83]);    MULADD(at[39], at[82]);    MULADD(at[40], at[81]);    MULADD(at[41], at[80]);    MULADD(at[42], at[79]);    MULADD(at[43], at[78]);    MULADD(at[44], at[77]);    MULADD(at[45], at[76]);    MULADD(at[46], at[75]);    MULADD(at[47], at[74]);
                     +   COMBA_STORE(C->dp[73]);
                     +   /* 74 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[27], at[95]);    MULADD(at[28], at[94]);    MULADD(at[29], at[93]);    MULADD(at[30], at[92]);    MULADD(at[31], at[91]);    MULADD(at[32], at[90]);    MULADD(at[33], at[89]);    MULADD(at[34], at[88]);    MULADD(at[35], at[87]);    MULADD(at[36], at[86]);    MULADD(at[37], at[85]);    MULADD(at[38], at[84]);    MULADD(at[39], at[83]);    MULADD(at[40], at[82]);    MULADD(at[41], at[81]);    MULADD(at[42], at[80]);    MULADD(at[43], at[79]);    MULADD(at[44], at[78]);    MULADD(at[45], at[77]);    MULADD(at[46], at[76]);    MULADD(at[47], at[75]);
                     +   COMBA_STORE(C->dp[74]);
                     +   /* 75 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[28], at[95]);    MULADD(at[29], at[94]);    MULADD(at[30], at[93]);    MULADD(at[31], at[92]);    MULADD(at[32], at[91]);    MULADD(at[33], at[90]);    MULADD(at[34], at[89]);    MULADD(at[35], at[88]);    MULADD(at[36], at[87]);    MULADD(at[37], at[86]);    MULADD(at[38], at[85]);    MULADD(at[39], at[84]);    MULADD(at[40], at[83]);    MULADD(at[41], at[82]);    MULADD(at[42], at[81]);    MULADD(at[43], at[80]);    MULADD(at[44], at[79]);    MULADD(at[45], at[78]);    MULADD(at[46], at[77]);    MULADD(at[47], at[76]);
                     +   COMBA_STORE(C->dp[75]);
                     +   /* 76 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[29], at[95]);    MULADD(at[30], at[94]);    MULADD(at[31], at[93]);    MULADD(at[32], at[92]);    MULADD(at[33], at[91]);    MULADD(at[34], at[90]);    MULADD(at[35], at[89]);    MULADD(at[36], at[88]);    MULADD(at[37], at[87]);    MULADD(at[38], at[86]);    MULADD(at[39], at[85]);    MULADD(at[40], at[84]);    MULADD(at[41], at[83]);    MULADD(at[42], at[82]);    MULADD(at[43], at[81]);    MULADD(at[44], at[80]);    MULADD(at[45], at[79]);    MULADD(at[46], at[78]);    MULADD(at[47], at[77]);
                     +   COMBA_STORE(C->dp[76]);
                     +   /* 77 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[30], at[95]);    MULADD(at[31], at[94]);    MULADD(at[32], at[93]);    MULADD(at[33], at[92]);    MULADD(at[34], at[91]);    MULADD(at[35], at[90]);    MULADD(at[36], at[89]);    MULADD(at[37], at[88]);    MULADD(at[38], at[87]);    MULADD(at[39], at[86]);    MULADD(at[40], at[85]);    MULADD(at[41], at[84]);    MULADD(at[42], at[83]);    MULADD(at[43], at[82]);    MULADD(at[44], at[81]);    MULADD(at[45], at[80]);    MULADD(at[46], at[79]);    MULADD(at[47], at[78]);
                     +   COMBA_STORE(C->dp[77]);
                     +   /* 78 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[31], at[95]);    MULADD(at[32], at[94]);    MULADD(at[33], at[93]);    MULADD(at[34], at[92]);    MULADD(at[35], at[91]);    MULADD(at[36], at[90]);    MULADD(at[37], at[89]);    MULADD(at[38], at[88]);    MULADD(at[39], at[87]);    MULADD(at[40], at[86]);    MULADD(at[41], at[85]);    MULADD(at[42], at[84]);    MULADD(at[43], at[83]);    MULADD(at[44], at[82]);    MULADD(at[45], at[81]);    MULADD(at[46], at[80]);    MULADD(at[47], at[79]);
                     +   COMBA_STORE(C->dp[78]);
                     +   /* 79 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[32], at[95]);    MULADD(at[33], at[94]);    MULADD(at[34], at[93]);    MULADD(at[35], at[92]);    MULADD(at[36], at[91]);    MULADD(at[37], at[90]);    MULADD(at[38], at[89]);    MULADD(at[39], at[88]);    MULADD(at[40], at[87]);    MULADD(at[41], at[86]);    MULADD(at[42], at[85]);    MULADD(at[43], at[84]);    MULADD(at[44], at[83]);    MULADD(at[45], at[82]);    MULADD(at[46], at[81]);    MULADD(at[47], at[80]);
                     +   COMBA_STORE(C->dp[79]);
                     +   /* 80 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[33], at[95]);    MULADD(at[34], at[94]);    MULADD(at[35], at[93]);    MULADD(at[36], at[92]);    MULADD(at[37], at[91]);    MULADD(at[38], at[90]);    MULADD(at[39], at[89]);    MULADD(at[40], at[88]);    MULADD(at[41], at[87]);    MULADD(at[42], at[86]);    MULADD(at[43], at[85]);    MULADD(at[44], at[84]);    MULADD(at[45], at[83]);    MULADD(at[46], at[82]);    MULADD(at[47], at[81]);
                     +   COMBA_STORE(C->dp[80]);
                     +   /* 81 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[34], at[95]);    MULADD(at[35], at[94]);    MULADD(at[36], at[93]);    MULADD(at[37], at[92]);    MULADD(at[38], at[91]);    MULADD(at[39], at[90]);    MULADD(at[40], at[89]);    MULADD(at[41], at[88]);    MULADD(at[42], at[87]);    MULADD(at[43], at[86]);    MULADD(at[44], at[85]);    MULADD(at[45], at[84]);    MULADD(at[46], at[83]);    MULADD(at[47], at[82]);
                     +   COMBA_STORE(C->dp[81]);
                     +   /* 82 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[35], at[95]);    MULADD(at[36], at[94]);    MULADD(at[37], at[93]);    MULADD(at[38], at[92]);    MULADD(at[39], at[91]);    MULADD(at[40], at[90]);    MULADD(at[41], at[89]);    MULADD(at[42], at[88]);    MULADD(at[43], at[87]);    MULADD(at[44], at[86]);    MULADD(at[45], at[85]);    MULADD(at[46], at[84]);    MULADD(at[47], at[83]);
                     +   COMBA_STORE(C->dp[82]);
                     +   /* 83 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[36], at[95]);    MULADD(at[37], at[94]);    MULADD(at[38], at[93]);    MULADD(at[39], at[92]);    MULADD(at[40], at[91]);    MULADD(at[41], at[90]);    MULADD(at[42], at[89]);    MULADD(at[43], at[88]);    MULADD(at[44], at[87]);    MULADD(at[45], at[86]);    MULADD(at[46], at[85]);    MULADD(at[47], at[84]);
                     +   COMBA_STORE(C->dp[83]);
                     +   /* 84 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[37], at[95]);    MULADD(at[38], at[94]);    MULADD(at[39], at[93]);    MULADD(at[40], at[92]);    MULADD(at[41], at[91]);    MULADD(at[42], at[90]);    MULADD(at[43], at[89]);    MULADD(at[44], at[88]);    MULADD(at[45], at[87]);    MULADD(at[46], at[86]);    MULADD(at[47], at[85]);
                     +   COMBA_STORE(C->dp[84]);
                     +   /* 85 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[38], at[95]);    MULADD(at[39], at[94]);    MULADD(at[40], at[93]);    MULADD(at[41], at[92]);    MULADD(at[42], at[91]);    MULADD(at[43], at[90]);    MULADD(at[44], at[89]);    MULADD(at[45], at[88]);    MULADD(at[46], at[87]);    MULADD(at[47], at[86]);
                     +   COMBA_STORE(C->dp[85]);
                     +   /* 86 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[39], at[95]);    MULADD(at[40], at[94]);    MULADD(at[41], at[93]);    MULADD(at[42], at[92]);    MULADD(at[43], at[91]);    MULADD(at[44], at[90]);    MULADD(at[45], at[89]);    MULADD(at[46], at[88]);    MULADD(at[47], at[87]);
                     +   COMBA_STORE(C->dp[86]);
                     +   /* 87 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[40], at[95]);    MULADD(at[41], at[94]);    MULADD(at[42], at[93]);    MULADD(at[43], at[92]);    MULADD(at[44], at[91]);    MULADD(at[45], at[90]);    MULADD(at[46], at[89]);    MULADD(at[47], at[88]);
                     +   COMBA_STORE(C->dp[87]);
                     +   /* 88 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[41], at[95]);    MULADD(at[42], at[94]);    MULADD(at[43], at[93]);    MULADD(at[44], at[92]);    MULADD(at[45], at[91]);    MULADD(at[46], at[90]);    MULADD(at[47], at[89]);
                     +   COMBA_STORE(C->dp[88]);
                     +   /* 89 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[42], at[95]);    MULADD(at[43], at[94]);    MULADD(at[44], at[93]);    MULADD(at[45], at[92]);    MULADD(at[46], at[91]);    MULADD(at[47], at[90]);
                     +   COMBA_STORE(C->dp[89]);
                     +   /* 90 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[43], at[95]);    MULADD(at[44], at[94]);    MULADD(at[45], at[93]);    MULADD(at[46], at[92]);    MULADD(at[47], at[91]);
                     +   COMBA_STORE(C->dp[90]);
                     +   /* 91 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[44], at[95]);    MULADD(at[45], at[94]);    MULADD(at[46], at[93]);    MULADD(at[47], at[92]);
                     +   COMBA_STORE(C->dp[91]);
                     +   /* 92 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[45], at[95]);    MULADD(at[46], at[94]);    MULADD(at[47], at[93]);
                     +   COMBA_STORE(C->dp[92]);
                     +   /* 93 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[46], at[95]);    MULADD(at[47], at[94]);
                     +   COMBA_STORE(C->dp[93]);
                     +   /* 94 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[47], at[95]);
                     +   COMBA_STORE(C->dp[94]);
                     +   COMBA_STORE2(C->dp[95]);
                     +   C->used = 96;
                     +   C->sign = A->sign ^ B->sign;
                     +   fp_clamp(C);
                     +   COMBA_FINI;
+                     }
                      #endif
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_prime_fermat.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
                     +/* End: fp_mul_comba_48.c */
                     -/* End: bn_mp_prime_fermat.c */
                     +/* Start: fp_mul_comba_6.c */
                     +#define TFM_DEFINES
                     +#include "fp_mul_comba.c"
                     -/* Start: bn_mp_prime_is_divisible.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_PRIME_IS_DIVISIBLE_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     - *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     - */
                     +#ifdef TFM_MUL6
                     +void fp_mul_comba6(fp_int *A, fp_int *B, fp_int *C)
                     +{
                     +   fp_digit c0, c1, c2, at[12];
+                    +
                     +   memcpy(at, A->dp, 6 * sizeof(fp_digit));
                     +   memcpy(at+6, B->dp, 6 * sizeof(fp_digit));
                     +   COMBA_START;
+                    +
                     +   COMBA_CLEAR;
                     +   /* 0 */
                     +   MULADD(at[0], at[6]);
                     +   COMBA_STORE(C->dp[0]);
                     +   /* 1 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[7]);    MULADD(at[1], at[6]);
                     +   COMBA_STORE(C->dp[1]);
                     +   /* 2 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[8]);    MULADD(at[1], at[7]);    MULADD(at[2], at[6]);
                     +   COMBA_STORE(C->dp[2]);
                     +   /* 3 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[9]);    MULADD(at[1], at[8]);    MULADD(at[2], at[7]);    MULADD(at[3], at[6]);
                     +   COMBA_STORE(C->dp[3]);
                     +   /* 4 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[10]);    MULADD(at[1], at[9]);    MULADD(at[2], at[8]);    MULADD(at[3], at[7]);    MULADD(at[4], at[6]);
                     +   COMBA_STORE(C->dp[4]);
                     +   /* 5 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[11]);    MULADD(at[1], at[10]);    MULADD(at[2], at[9]);    MULADD(at[3], at[8]);    MULADD(at[4], at[7]);    MULADD(at[5], at[6]);
                     +   COMBA_STORE(C->dp[5]);
                     +   /* 6 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[1], at[11]);    MULADD(at[2], at[10]);    MULADD(at[3], at[9]);    MULADD(at[4], at[8]);    MULADD(at[5], at[7]);
                     +   COMBA_STORE(C->dp[6]);
                     +   /* 7 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[2], at[11]);    MULADD(at[3], at[10]);    MULADD(at[4], at[9]);    MULADD(at[5], at[8]);
                     +   COMBA_STORE(C->dp[7]);
                     +   /* 8 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[3], at[11]);    MULADD(at[4], at[10]);    MULADD(at[5], at[9]);
                     +   COMBA_STORE(C->dp[8]);
                     +   /* 9 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[4], at[11]);    MULADD(at[5], at[10]);
                     +   COMBA_STORE(C->dp[9]);
                     +   /* 10 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[5], at[11]);
                     +   COMBA_STORE(C->dp[10]);
                     +   COMBA_STORE2(C->dp[11]);
                     +   C->used = 12;
                     +   C->sign = A->sign ^ B->sign;
                     +   fp_clamp(C);
                     +   COMBA_FINI;
                     +}
                     +#endif
                     -/* determines if an integers is divisible by one
                     - * of the first PRIME_SIZE primes or not
                     - *
                     - * sets result to 0 if not, 1 if yes
                     - */
                     -int mp_prime_is_divisible (mp_int * a, int *result)
                     +/* End: fp_mul_comba_6.c */
+                    +
                     +/* Start: fp_mul_comba_64.c */
                     +#define TFM_DEFINES
                     +#include "fp_mul_comba.c"
+                    +
                     +#ifdef TFM_MUL64
                     +void fp_mul_comba64(fp_int *A, fp_int *B, fp_int *C)
+                     {
                     -  int     err, ix;
                     -  mp_digit res;
                     +   fp_digit c0, c1, c2, at[128];
+                    +
                     +   memcpy(at, A->dp, 64 * sizeof(fp_digit));
                     +   memcpy(at+64, B->dp, 64 * sizeof(fp_digit));
                     +   COMBA_START;
+                    +
                     +   COMBA_CLEAR;
                     +   /* 0 */
                     +   MULADD(at[0], at[64]);
                     +   COMBA_STORE(C->dp[0]);
                     +   /* 1 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[65]);    MULADD(at[1], at[64]);
                     +   COMBA_STORE(C->dp[1]);
                     +   /* 2 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[66]);    MULADD(at[1], at[65]);    MULADD(at[2], at[64]);
                     +   COMBA_STORE(C->dp[2]);
                     +   /* 3 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[67]);    MULADD(at[1], at[66]);    MULADD(at[2], at[65]);    MULADD(at[3], at[64]);
                     +   COMBA_STORE(C->dp[3]);
                     +   /* 4 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[68]);    MULADD(at[1], at[67]);    MULADD(at[2], at[66]);    MULADD(at[3], at[65]);    MULADD(at[4], at[64]);
                     +   COMBA_STORE(C->dp[4]);
                     +   /* 5 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[69]);    MULADD(at[1], at[68]);    MULADD(at[2], at[67]);    MULADD(at[3], at[66]);    MULADD(at[4], at[65]);    MULADD(at[5], at[64]);
                     +   COMBA_STORE(C->dp[5]);
                     +   /* 6 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[70]);    MULADD(at[1], at[69]);    MULADD(at[2], at[68]);    MULADD(at[3], at[67]);    MULADD(at[4], at[66]);    MULADD(at[5], at[65]);    MULADD(at[6], at[64]);
                     +   COMBA_STORE(C->dp[6]);
                     +   /* 7 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[71]);    MULADD(at[1], at[70]);    MULADD(at[2], at[69]);    MULADD(at[3], at[68]);    MULADD(at[4], at[67]);    MULADD(at[5], at[66]);    MULADD(at[6], at[65]);    MULADD(at[7], at[64]);
                     +   COMBA_STORE(C->dp[7]);
                     +   /* 8 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[72]);    MULADD(at[1], at[71]);    MULADD(at[2], at[70]);    MULADD(at[3], at[69]);    MULADD(at[4], at[68]);    MULADD(at[5], at[67]);    MULADD(at[6], at[66]);    MULADD(at[7], at[65]);    MULADD(at[8], at[64]);
                     +   COMBA_STORE(C->dp[8]);
                     +   /* 9 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[73]);    MULADD(at[1], at[72]);    MULADD(at[2], at[71]);    MULADD(at[3], at[70]);    MULADD(at[4], at[69]);    MULADD(at[5], at[68]);    MULADD(at[6], at[67]);    MULADD(at[7], at[66]);    MULADD(at[8], at[65]);    MULADD(at[9], at[64]);
                     +   COMBA_STORE(C->dp[9]);
                     +   /* 10 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[74]);    MULADD(at[1], at[73]);    MULADD(at[2], at[72]);    MULADD(at[3], at[71]);    MULADD(at[4], at[70]);    MULADD(at[5], at[69]);    MULADD(at[6], at[68]);    MULADD(at[7], at[67]);    MULADD(at[8], at[66]);    MULADD(at[9], at[65]);    MULADD(at[10], at[64]);
                     +   COMBA_STORE(C->dp[10]);
                     +   /* 11 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[75]);    MULADD(at[1], at[74]);    MULADD(at[2], at[73]);    MULADD(at[3], at[72]);    MULADD(at[4], at[71]);    MULADD(at[5], at[70]);    MULADD(at[6], at[69]);    MULADD(at[7], at[68]);    MULADD(at[8], at[67]);    MULADD(at[9], at[66]);    MULADD(at[10], at[65]);    MULADD(at[11], at[64]);
                     +   COMBA_STORE(C->dp[11]);
                     +   /* 12 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[76]);    MULADD(at[1], at[75]);    MULADD(at[2], at[74]);    MULADD(at[3], at[73]);    MULADD(at[4], at[72]);    MULADD(at[5], at[71]);    MULADD(at[6], at[70]);    MULADD(at[7], at[69]);    MULADD(at[8], at[68]);    MULADD(at[9], at[67]);    MULADD(at[10], at[66]);    MULADD(at[11], at[65]);    MULADD(at[12], at[64]);
                     +   COMBA_STORE(C->dp[12]);
                     +   /* 13 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[77]);    MULADD(at[1], at[76]);    MULADD(at[2], at[75]);    MULADD(at[3], at[74]);    MULADD(at[4], at[73]);    MULADD(at[5], at[72]);    MULADD(at[6], at[71]);    MULADD(at[7], at[70]);    MULADD(at[8], at[69]);    MULADD(at[9], at[68]);    MULADD(at[10], at[67]);    MULADD(at[11], at[66]);    MULADD(at[12], at[65]);    MULADD(at[13], at[64]);
                     +   COMBA_STORE(C->dp[13]);
                     +   /* 14 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[78]);    MULADD(at[1], at[77]);    MULADD(at[2], at[76]);    MULADD(at[3], at[75]);    MULADD(at[4], at[74]);    MULADD(at[5], at[73]);    MULADD(at[6], at[72]);    MULADD(at[7], at[71]);    MULADD(at[8], at[70]);    MULADD(at[9], at[69]);    MULADD(at[10], at[68]);    MULADD(at[11], at[67]);    MULADD(at[12], at[66]);    MULADD(at[13], at[65]);    MULADD(at[14], at[64]);
                     +   COMBA_STORE(C->dp[14]);
                     +   /* 15 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[79]);    MULADD(at[1], at[78]);    MULADD(at[2], at[77]);    MULADD(at[3], at[76]);    MULADD(at[4], at[75]);    MULADD(at[5], at[74]);    MULADD(at[6], at[73]);    MULADD(at[7], at[72]);    MULADD(at[8], at[71]);    MULADD(at[9], at[70]);    MULADD(at[10], at[69]);    MULADD(at[11], at[68]);    MULADD(at[12], at[67]);    MULADD(at[13], at[66]);    MULADD(at[14], at[65]);    MULADD(at[15], at[64]);
                     +   COMBA_STORE(C->dp[15]);
                     +   /* 16 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[80]);    MULADD(at[1], at[79]);    MULADD(at[2], at[78]);    MULADD(at[3], at[77]);    MULADD(at[4], at[76]);    MULADD(at[5], at[75]);    MULADD(at[6], at[74]);    MULADD(at[7], at[73]);    MULADD(at[8], at[72]);    MULADD(at[9], at[71]);    MULADD(at[10], at[70]);    MULADD(at[11], at[69]);    MULADD(at[12], at[68]);    MULADD(at[13], at[67]);    MULADD(at[14], at[66]);    MULADD(at[15], at[65]);    MULADD(at[16], at[64]);
                     +   COMBA_STORE(C->dp[16]);
                     +   /* 17 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[81]);    MULADD(at[1], at[80]);    MULADD(at[2], at[79]);    MULADD(at[3], at[78]);    MULADD(at[4], at[77]);    MULADD(at[5], at[76]);    MULADD(at[6], at[75]);    MULADD(at[7], at[74]);    MULADD(at[8], at[73]);    MULADD(at[9], at[72]);    MULADD(at[10], at[71]);    MULADD(at[11], at[70]);    MULADD(at[12], at[69]);    MULADD(at[13], at[68]);    MULADD(at[14], at[67]);    MULADD(at[15], at[66]);    MULADD(at[16], at[65]);    MULADD(at[17], at[64]);
                     +   COMBA_STORE(C->dp[17]);
                     +   /* 18 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[82]);    MULADD(at[1], at[81]);    MULADD(at[2], at[80]);    MULADD(at[3], at[79]);    MULADD(at[4], at[78]);    MULADD(at[5], at[77]);    MULADD(at[6], at[76]);    MULADD(at[7], at[75]);    MULADD(at[8], at[74]);    MULADD(at[9], at[73]);    MULADD(at[10], at[72]);    MULADD(at[11], at[71]);    MULADD(at[12], at[70]);    MULADD(at[13], at[69]);    MULADD(at[14], at[68]);    MULADD(at[15], at[67]);    MULADD(at[16], at[66]);    MULADD(at[17], at[65]);    MULADD(at[18], at[64]);
                     +   COMBA_STORE(C->dp[18]);
                     +   /* 19 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[83]);    MULADD(at[1], at[82]);    MULADD(at[2], at[81]);    MULADD(at[3], at[80]);    MULADD(at[4], at[79]);    MULADD(at[5], at[78]);    MULADD(at[6], at[77]);    MULADD(at[7], at[76]);    MULADD(at[8], at[75]);    MULADD(at[9], at[74]);    MULADD(at[10], at[73]);    MULADD(at[11], at[72]);    MULADD(at[12], at[71]);    MULADD(at[13], at[70]);    MULADD(at[14], at[69]);    MULADD(at[15], at[68]);    MULADD(at[16], at[67]);    MULADD(at[17], at[66]);    MULADD(at[18], at[65]);    MULADD(at[19], at[64]);
                     +   COMBA_STORE(C->dp[19]);
                     +   /* 20 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[84]);    MULADD(at[1], at[83]);    MULADD(at[2], at[82]);    MULADD(at[3], at[81]);    MULADD(at[4], at[80]);    MULADD(at[5], at[79]);    MULADD(at[6], at[78]);    MULADD(at[7], at[77]);    MULADD(at[8], at[76]);    MULADD(at[9], at[75]);    MULADD(at[10], at[74]);    MULADD(at[11], at[73]);    MULADD(at[12], at[72]);    MULADD(at[13], at[71]);    MULADD(at[14], at[70]);    MULADD(at[15], at[69]);    MULADD(at[16], at[68]);    MULADD(at[17], at[67]);    MULADD(at[18], at[66]);    MULADD(at[19], at[65]);    MULADD(at[20], at[64]);
                     +   COMBA_STORE(C->dp[20]);
                     +   /* 21 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[85]);    MULADD(at[1], at[84]);    MULADD(at[2], at[83]);    MULADD(at[3], at[82]);    MULADD(at[4], at[81]);    MULADD(at[5], at[80]);    MULADD(at[6], at[79]);    MULADD(at[7], at[78]);    MULADD(at[8], at[77]);    MULADD(at[9], at[76]);    MULADD(at[10], at[75]);    MULADD(at[11], at[74]);    MULADD(at[12], at[73]);    MULADD(at[13], at[72]);    MULADD(at[14], at[71]);    MULADD(at[15], at[70]);    MULADD(at[16], at[69]);    MULADD(at[17], at[68]);    MULADD(at[18], at[67]);    MULADD(at[19], at[66]);    MULADD(at[20], at[65]);    MULADD(at[21], at[64]);
                     +   COMBA_STORE(C->dp[21]);
                     +   /* 22 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[86]);    MULADD(at[1], at[85]);    MULADD(at[2], at[84]);    MULADD(at[3], at[83]);    MULADD(at[4], at[82]);    MULADD(at[5], at[81]);    MULADD(at[6], at[80]);    MULADD(at[7], at[79]);    MULADD(at[8], at[78]);    MULADD(at[9], at[77]);    MULADD(at[10], at[76]);    MULADD(at[11], at[75]);    MULADD(at[12], at[74]);    MULADD(at[13], at[73]);    MULADD(at[14], at[72]);    MULADD(at[15], at[71]);    MULADD(at[16], at[70]);    MULADD(at[17], at[69]);    MULADD(at[18], at[68]);    MULADD(at[19], at[67]);    MULADD(at[20], at[66]);    MULADD(at[21], at[65]);    MULADD(at[22], at[64]);
                     +   COMBA_STORE(C->dp[22]);
                     +   /* 23 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[87]);    MULADD(at[1], at[86]);    MULADD(at[2], at[85]);    MULADD(at[3], at[84]);    MULADD(at[4], at[83]);    MULADD(at[5], at[82]);    MULADD(at[6], at[81]);    MULADD(at[7], at[80]);    MULADD(at[8], at[79]);    MULADD(at[9], at[78]);    MULADD(at[10], at[77]);    MULADD(at[11], at[76]);    MULADD(at[12], at[75]);    MULADD(at[13], at[74]);    MULADD(at[14], at[73]);    MULADD(at[15], at[72]);    MULADD(at[16], at[71]);    MULADD(at[17], at[70]);    MULADD(at[18], at[69]);    MULADD(at[19], at[68]);    MULADD(at[20], at[67]);    MULADD(at[21], at[66]);    MULADD(at[22], at[65]);    MULADD(at[23], at[64]);
                     +   COMBA_STORE(C->dp[23]);
                     +   /* 24 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[88]);    MULADD(at[1], at[87]);    MULADD(at[2], at[86]);    MULADD(at[3], at[85]);    MULADD(at[4], at[84]);    MULADD(at[5], at[83]);    MULADD(at[6], at[82]);    MULADD(at[7], at[81]);    MULADD(at[8], at[80]);    MULADD(at[9], at[79]);    MULADD(at[10], at[78]);    MULADD(at[11], at[77]);    MULADD(at[12], at[76]);    MULADD(at[13], at[75]);    MULADD(at[14], at[74]);    MULADD(at[15], at[73]);    MULADD(at[16], at[72]);    MULADD(at[17], at[71]);    MULADD(at[18], at[70]);    MULADD(at[19], at[69]);    MULADD(at[20], at[68]);    MULADD(at[21], at[67]);    MULADD(at[22], at[66]);    MULADD(at[23], at[65]);    MULADD(at[24], at[64]);
                     +   COMBA_STORE(C->dp[24]);
                     +   /* 25 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[89]);    MULADD(at[1], at[88]);    MULADD(at[2], at[87]);    MULADD(at[3], at[86]);    MULADD(at[4], at[85]);    MULADD(at[5], at[84]);    MULADD(at[6], at[83]);    MULADD(at[7], at[82]);    MULADD(at[8], at[81]);    MULADD(at[9], at[80]);    MULADD(at[10], at[79]);    MULADD(at[11], at[78]);    MULADD(at[12], at[77]);    MULADD(at[13], at[76]);    MULADD(at[14], at[75]);    MULADD(at[15], at[74]);    MULADD(at[16], at[73]);    MULADD(at[17], at[72]);    MULADD(at[18], at[71]);    MULADD(at[19], at[70]);    MULADD(at[20], at[69]);    MULADD(at[21], at[68]);    MULADD(at[22], at[67]);    MULADD(at[23], at[66]);    MULADD(at[24], at[65]);    MULADD(at[25], at[64]);
                     +   COMBA_STORE(C->dp[25]);
                     +   /* 26 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[90]);    MULADD(at[1], at[89]);    MULADD(at[2], at[88]);    MULADD(at[3], at[87]);    MULADD(at[4], at[86]);    MULADD(at[5], at[85]);    MULADD(at[6], at[84]);    MULADD(at[7], at[83]);    MULADD(at[8], at[82]);    MULADD(at[9], at[81]);    MULADD(at[10], at[80]);    MULADD(at[11], at[79]);    MULADD(at[12], at[78]);    MULADD(at[13], at[77]);    MULADD(at[14], at[76]);    MULADD(at[15], at[75]);    MULADD(at[16], at[74]);    MULADD(at[17], at[73]);    MULADD(at[18], at[72]);    MULADD(at[19], at[71]);    MULADD(at[20], at[70]);    MULADD(at[21], at[69]);    MULADD(at[22], at[68]);    MULADD(at[23], at[67]);    MULADD(at[24], at[66]);    MULADD(at[25], at[65]);    MULADD(at[26], at[64]);
                     +   COMBA_STORE(C->dp[26]);
                     +   /* 27 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[91]);    MULADD(at[1], at[90]);    MULADD(at[2], at[89]);    MULADD(at[3], at[88]);    MULADD(at[4], at[87]);    MULADD(at[5], at[86]);    MULADD(at[6], at[85]);    MULADD(at[7], at[84]);    MULADD(at[8], at[83]);    MULADD(at[9], at[82]);    MULADD(at[10], at[81]);    MULADD(at[11], at[80]);    MULADD(at[12], at[79]);    MULADD(at[13], at[78]);    MULADD(at[14], at[77]);    MULADD(at[15], at[76]);    MULADD(at[16], at[75]);    MULADD(at[17], at[74]);    MULADD(at[18], at[73]);    MULADD(at[19], at[72]);    MULADD(at[20], at[71]);    MULADD(at[21], at[70]);    MULADD(at[22], at[69]);    MULADD(at[23], at[68]);    MULADD(at[24], at[67]);    MULADD(at[25], at[66]);    MULADD(at[26], at[65]);    MULADD(at[27], at[64]);
                     +   COMBA_STORE(C->dp[27]);
                     +   /* 28 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[92]);    MULADD(at[1], at[91]);    MULADD(at[2], at[90]);    MULADD(at[3], at[89]);    MULADD(at[4], at[88]);    MULADD(at[5], at[87]);    MULADD(at[6], at[86]);    MULADD(at[7], at[85]);    MULADD(at[8], at[84]);    MULADD(at[9], at[83]);    MULADD(at[10], at[82]);    MULADD(at[11], at[81]);    MULADD(at[12], at[80]);    MULADD(at[13], at[79]);    MULADD(at[14], at[78]);    MULADD(at[15], at[77]);    MULADD(at[16], at[76]);    MULADD(at[17], at[75]);    MULADD(at[18], at[74]);    MULADD(at[19], at[73]);    MULADD(at[20], at[72]);    MULADD(at[21], at[71]);    MULADD(at[22], at[70]);    MULADD(at[23], at[69]);    MULADD(at[24], at[68]);    MULADD(at[25], at[67]);    MULADD(at[26], at[66]);    MULADD(at[27], at[65]);    MULADD(at[28], at[64]);
                     +   COMBA_STORE(C->dp[28]);
                     +   /* 29 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[93]);    MULADD(at[1], at[92]);    MULADD(at[2], at[91]);    MULADD(at[3], at[90]);    MULADD(at[4], at[89]);    MULADD(at[5], at[88]);    MULADD(at[6], at[87]);    MULADD(at[7], at[86]);    MULADD(at[8], at[85]);    MULADD(at[9], at[84]);    MULADD(at[10], at[83]);    MULADD(at[11], at[82]);    MULADD(at[12], at[81]);    MULADD(at[13], at[80]);    MULADD(at[14], at[79]);    MULADD(at[15], at[78]);    MULADD(at[16], at[77]);    MULADD(at[17], at[76]);    MULADD(at[18], at[75]);    MULADD(at[19], at[74]);    MULADD(at[20], at[73]);    MULADD(at[21], at[72]);    MULADD(at[22], at[71]);    MULADD(at[23], at[70]);    MULADD(at[24], at[69]);    MULADD(at[25], at[68]);    MULADD(at[26], at[67]);    MULADD(at[27], at[66]);    MULADD(at[28], at[65]);    MULADD(at[29], at[64]);
                     +   COMBA_STORE(C->dp[29]);
                     +   /* 30 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[94]);    MULADD(at[1], at[93]);    MULADD(at[2], at[92]);    MULADD(at[3], at[91]);    MULADD(at[4], at[90]);    MULADD(at[5], at[89]);    MULADD(at[6], at[88]);    MULADD(at[7], at[87]);    MULADD(at[8], at[86]);    MULADD(at[9], at[85]);    MULADD(at[10], at[84]);    MULADD(at[11], at[83]);    MULADD(at[12], at[82]);    MULADD(at[13], at[81]);    MULADD(at[14], at[80]);    MULADD(at[15], at[79]);    MULADD(at[16], at[78]);    MULADD(at[17], at[77]);    MULADD(at[18], at[76]);    MULADD(at[19], at[75]);    MULADD(at[20], at[74]);    MULADD(at[21], at[73]);    MULADD(at[22], at[72]);    MULADD(at[23], at[71]);    MULADD(at[24], at[70]);    MULADD(at[25], at[69]);    MULADD(at[26], at[68]);    MULADD(at[27], at[67]);    MULADD(at[28], at[66]);    MULADD(at[29], at[65]);    MULADD(at[30], at[64]);
                     +   COMBA_STORE(C->dp[30]);
                     +   /* 31 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[95]);    MULADD(at[1], at[94]);    MULADD(at[2], at[93]);    MULADD(at[3], at[92]);    MULADD(at[4], at[91]);    MULADD(at[5], at[90]);    MULADD(at[6], at[89]);    MULADD(at[7], at[88]);    MULADD(at[8], at[87]);    MULADD(at[9], at[86]);    MULADD(at[10], at[85]);    MULADD(at[11], at[84]);    MULADD(at[12], at[83]);    MULADD(at[13], at[82]);    MULADD(at[14], at[81]);    MULADD(at[15], at[80]);    MULADD(at[16], at[79]);    MULADD(at[17], at[78]);    MULADD(at[18], at[77]);    MULADD(at[19], at[76]);    MULADD(at[20], at[75]);    MULADD(at[21], at[74]);    MULADD(at[22], at[73]);    MULADD(at[23], at[72]);    MULADD(at[24], at[71]);    MULADD(at[25], at[70]);    MULADD(at[26], at[69]);    MULADD(at[27], at[68]);    MULADD(at[28], at[67]);    MULADD(at[29], at[66]);    MULADD(at[30], at[65]);    MULADD(at[31], at[64]);
                     +   COMBA_STORE(C->dp[31]);
                     +   /* 32 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[96]);    MULADD(at[1], at[95]);    MULADD(at[2], at[94]);    MULADD(at[3], at[93]);    MULADD(at[4], at[92]);    MULADD(at[5], at[91]);    MULADD(at[6], at[90]);    MULADD(at[7], at[89]);    MULADD(at[8], at[88]);    MULADD(at[9], at[87]);    MULADD(at[10], at[86]);    MULADD(at[11], at[85]);    MULADD(at[12], at[84]);    MULADD(at[13], at[83]);    MULADD(at[14], at[82]);    MULADD(at[15], at[81]);    MULADD(at[16], at[80]);    MULADD(at[17], at[79]);    MULADD(at[18], at[78]);    MULADD(at[19], at[77]);    MULADD(at[20], at[76]);    MULADD(at[21], at[75]);    MULADD(at[22], at[74]);    MULADD(at[23], at[73]);    MULADD(at[24], at[72]);    MULADD(at[25], at[71]);    MULADD(at[26], at[70]);    MULADD(at[27], at[69]);    MULADD(at[28], at[68]);    MULADD(at[29], at[67]);    MULADD(at[30], at[66]);    MULADD(at[31], at[65]);    MULADD(at[32], at[64]);
                     +   COMBA_STORE(C->dp[32]);
                     +   /* 33 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[97]);    MULADD(at[1], at[96]);    MULADD(at[2], at[95]);    MULADD(at[3], at[94]);    MULADD(at[4], at[93]);    MULADD(at[5], at[92]);    MULADD(at[6], at[91]);    MULADD(at[7], at[90]);    MULADD(at[8], at[89]);    MULADD(at[9], at[88]);    MULADD(at[10], at[87]);    MULADD(at[11], at[86]);    MULADD(at[12], at[85]);    MULADD(at[13], at[84]);    MULADD(at[14], at[83]);    MULADD(at[15], at[82]);    MULADD(at[16], at[81]);    MULADD(at[17], at[80]);    MULADD(at[18], at[79]);    MULADD(at[19], at[78]);    MULADD(at[20], at[77]);    MULADD(at[21], at[76]);    MULADD(at[22], at[75]);    MULADD(at[23], at[74]);    MULADD(at[24], at[73]);    MULADD(at[25], at[72]);    MULADD(at[26], at[71]);    MULADD(at[27], at[70]);    MULADD(at[28], at[69]);    MULADD(at[29], at[68]);    MULADD(at[30], at[67]);    MULADD(at[31], at[66]);    MULADD(at[32], at[65]);    MULADD(at[33], at[64]);
                     +   COMBA_STORE(C->dp[33]);
                     +   /* 34 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[98]);    MULADD(at[1], at[97]);    MULADD(at[2], at[96]);    MULADD(at[3], at[95]);    MULADD(at[4], at[94]);    MULADD(at[5], at[93]);    MULADD(at[6], at[92]);    MULADD(at[7], at[91]);    MULADD(at[8], at[90]);    MULADD(at[9], at[89]);    MULADD(at[10], at[88]);    MULADD(at[11], at[87]);    MULADD(at[12], at[86]);    MULADD(at[13], at[85]);    MULADD(at[14], at[84]);    MULADD(at[15], at[83]);    MULADD(at[16], at[82]);    MULADD(at[17], at[81]);    MULADD(at[18], at[80]);    MULADD(at[19], at[79]);    MULADD(at[20], at[78]);    MULADD(at[21], at[77]);    MULADD(at[22], at[76]);    MULADD(at[23], at[75]);    MULADD(at[24], at[74]);    MULADD(at[25], at[73]);    MULADD(at[26], at[72]);    MULADD(at[27], at[71]);    MULADD(at[28], at[70]);    MULADD(at[29], at[69]);    MULADD(at[30], at[68]);    MULADD(at[31], at[67]);    MULADD(at[32], at[66]);    MULADD(at[33], at[65]);    MULADD(at[34], at[64]);
                     +   COMBA_STORE(C->dp[34]);
                     +   /* 35 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[99]);    MULADD(at[1], at[98]);    MULADD(at[2], at[97]);    MULADD(at[3], at[96]);    MULADD(at[4], at[95]);    MULADD(at[5], at[94]);    MULADD(at[6], at[93]);    MULADD(at[7], at[92]);    MULADD(at[8], at[91]);    MULADD(at[9], at[90]);    MULADD(at[10], at[89]);    MULADD(at[11], at[88]);    MULADD(at[12], at[87]);    MULADD(at[13], at[86]);    MULADD(at[14], at[85]);    MULADD(at[15], at[84]);    MULADD(at[16], at[83]);    MULADD(at[17], at[82]);    MULADD(at[18], at[81]);    MULADD(at[19], at[80]);    MULADD(at[20], at[79]);    MULADD(at[21], at[78]);    MULADD(at[22], at[77]);    MULADD(at[23], at[76]);    MULADD(at[24], at[75]);    MULADD(at[25], at[74]);    MULADD(at[26], at[73]);    MULADD(at[27], at[72]);    MULADD(at[28], at[71]);    MULADD(at[29], at[70]);    MULADD(at[30], at[69]);    MULADD(at[31], at[68]);    MULADD(at[32], at[67]);    MULADD(at[33], at[66]);    MULADD(at[34], at[65]);    MULADD(at[35], at[64]);
                     +   COMBA_STORE(C->dp[35]);
                     +   /* 36 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[100]);    MULADD(at[1], at[99]);    MULADD(at[2], at[98]);    MULADD(at[3], at[97]);    MULADD(at[4], at[96]);    MULADD(at[5], at[95]);    MULADD(at[6], at[94]);    MULADD(at[7], at[93]);    MULADD(at[8], at[92]);    MULADD(at[9], at[91]);    MULADD(at[10], at[90]);    MULADD(at[11], at[89]);    MULADD(at[12], at[88]);    MULADD(at[13], at[87]);    MULADD(at[14], at[86]);    MULADD(at[15], at[85]);    MULADD(at[16], at[84]);    MULADD(at[17], at[83]);    MULADD(at[18], at[82]);    MULADD(at[19], at[81]);    MULADD(at[20], at[80]);    MULADD(at[21], at[79]);    MULADD(at[22], at[78]);    MULADD(at[23], at[77]);    MULADD(at[24], at[76]);    MULADD(at[25], at[75]);    MULADD(at[26], at[74]);    MULADD(at[27], at[73]);    MULADD(at[28], at[72]);    MULADD(at[29], at[71]);    MULADD(at[30], at[70]);    MULADD(at[31], at[69]);    MULADD(at[32], at[68]);    MULADD(at[33], at[67]);    MULADD(at[34], at[66]);    MULADD(at[35], at[65]);    MULADD(at[36], at[64]);
                     +   COMBA_STORE(C->dp[36]);
                     +   /* 37 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[101]);    MULADD(at[1], at[100]);    MULADD(at[2], at[99]);    MULADD(at[3], at[98]);    MULADD(at[4], at[97]);    MULADD(at[5], at[96]);    MULADD(at[6], at[95]);    MULADD(at[7], at[94]);    MULADD(at[8], at[93]);    MULADD(at[9], at[92]);    MULADD(at[10], at[91]);    MULADD(at[11], at[90]);    MULADD(at[12], at[89]);    MULADD(at[13], at[88]);    MULADD(at[14], at[87]);    MULADD(at[15], at[86]);    MULADD(at[16], at[85]);    MULADD(at[17], at[84]);    MULADD(at[18], at[83]);    MULADD(at[19], at[82]);    MULADD(at[20], at[81]);    MULADD(at[21], at[80]);    MULADD(at[22], at[79]);    MULADD(at[23], at[78]);    MULADD(at[24], at[77]);    MULADD(at[25], at[76]);    MULADD(at[26], at[75]);    MULADD(at[27], at[74]);    MULADD(at[28], at[73]);    MULADD(at[29], at[72]);    MULADD(at[30], at[71]);    MULADD(at[31], at[70]);    MULADD(at[32], at[69]);    MULADD(at[33], at[68]);    MULADD(at[34], at[67]);    MULADD(at[35], at[66]);    MULADD(at[36], at[65]);    MULADD(at[37], at[64]);
                     +   COMBA_STORE(C->dp[37]);
                     +   /* 38 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[102]);    MULADD(at[1], at[101]);    MULADD(at[2], at[100]);    MULADD(at[3], at[99]);    MULADD(at[4], at[98]);    MULADD(at[5], at[97]);    MULADD(at[6], at[96]);    MULADD(at[7], at[95]);    MULADD(at[8], at[94]);    MULADD(at[9], at[93]);    MULADD(at[10], at[92]);    MULADD(at[11], at[91]);    MULADD(at[12], at[90]);    MULADD(at[13], at[89]);    MULADD(at[14], at[88]);    MULADD(at[15], at[87]);    MULADD(at[16], at[86]);    MULADD(at[17], at[85]);    MULADD(at[18], at[84]);    MULADD(at[19], at[83]);    MULADD(at[20], at[82]);    MULADD(at[21], at[81]);    MULADD(at[22], at[80]);    MULADD(at[23], at[79]);    MULADD(at[24], at[78]);    MULADD(at[25], at[77]);    MULADD(at[26], at[76]);    MULADD(at[27], at[75]);    MULADD(at[28], at[74]);    MULADD(at[29], at[73]);    MULADD(at[30], at[72]);    MULADD(at[31], at[71]);    MULADD(at[32], at[70]);    MULADD(at[33], at[69]);    MULADD(at[34], at[68]);    MULADD(at[35], at[67]);    MULADD(at[36], at[66]);    MULADD(at[37], at[65]);    MULADD(at[38], at[64]);
                     +   COMBA_STORE(C->dp[38]);
                     +   /* 39 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[103]);    MULADD(at[1], at[102]);    MULADD(at[2], at[101]);    MULADD(at[3], at[100]);    MULADD(at[4], at[99]);    MULADD(at[5], at[98]);    MULADD(at[6], at[97]);    MULADD(at[7], at[96]);    MULADD(at[8], at[95]);    MULADD(at[9], at[94]);    MULADD(at[10], at[93]);    MULADD(at[11], at[92]);    MULADD(at[12], at[91]);    MULADD(at[13], at[90]);    MULADD(at[14], at[89]);    MULADD(at[15], at[88]);    MULADD(at[16], at[87]);    MULADD(at[17], at[86]);    MULADD(at[18], at[85]);    MULADD(at[19], at[84]);    MULADD(at[20], at[83]);    MULADD(at[21], at[82]);    MULADD(at[22], at[81]);    MULADD(at[23], at[80]);    MULADD(at[24], at[79]);    MULADD(at[25], at[78]);    MULADD(at[26], at[77]);    MULADD(at[27], at[76]);    MULADD(at[28], at[75]);    MULADD(at[29], at[74]);    MULADD(at[30], at[73]);    MULADD(at[31], at[72]);    MULADD(at[32], at[71]);    MULADD(at[33], at[70]);    MULADD(at[34], at[69]);    MULADD(at[35], at[68]);    MULADD(at[36], at[67]);    MULADD(at[37], at[66]);    MULADD(at[38], at[65]);    MULADD(at[39], at[64]);
                     +   COMBA_STORE(C->dp[39]);
                     +   /* 40 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[104]);    MULADD(at[1], at[103]);    MULADD(at[2], at[102]);    MULADD(at[3], at[101]);    MULADD(at[4], at[100]);    MULADD(at[5], at[99]);    MULADD(at[6], at[98]);    MULADD(at[7], at[97]);    MULADD(at[8], at[96]);    MULADD(at[9], at[95]);    MULADD(at[10], at[94]);    MULADD(at[11], at[93]);    MULADD(at[12], at[92]);    MULADD(at[13], at[91]);    MULADD(at[14], at[90]);    MULADD(at[15], at[89]);    MULADD(at[16], at[88]);    MULADD(at[17], at[87]);    MULADD(at[18], at[86]);    MULADD(at[19], at[85]);    MULADD(at[20], at[84]);    MULADD(at[21], at[83]);    MULADD(at[22], at[82]);    MULADD(at[23], at[81]);    MULADD(at[24], at[80]);    MULADD(at[25], at[79]);    MULADD(at[26], at[78]);    MULADD(at[27], at[77]);    MULADD(at[28], at[76]);    MULADD(at[29], at[75]);    MULADD(at[30], at[74]);    MULADD(at[31], at[73]);    MULADD(at[32], at[72]);    MULADD(at[33], at[71]);    MULADD(at[34], at[70]);    MULADD(at[35], at[69]);    MULADD(at[36], at[68]);    MULADD(at[37], at[67]);    MULADD(at[38], at[66]);    MULADD(at[39], at[65]);    MULADD(at[40], at[64]);
                     +   COMBA_STORE(C->dp[40]);
                     +   /* 41 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[105]);    MULADD(at[1], at[104]);    MULADD(at[2], at[103]);    MULADD(at[3], at[102]);    MULADD(at[4], at[101]);    MULADD(at[5], at[100]);    MULADD(at[6], at[99]);    MULADD(at[7], at[98]);    MULADD(at[8], at[97]);    MULADD(at[9], at[96]);    MULADD(at[10], at[95]);    MULADD(at[11], at[94]);    MULADD(at[12], at[93]);    MULADD(at[13], at[92]);    MULADD(at[14], at[91]);    MULADD(at[15], at[90]);    MULADD(at[16], at[89]);    MULADD(at[17], at[88]);    MULADD(at[18], at[87]);    MULADD(at[19], at[86]);    MULADD(at[20], at[85]);    MULADD(at[21], at[84]);    MULADD(at[22], at[83]);    MULADD(at[23], at[82]);    MULADD(at[24], at[81]);    MULADD(at[25], at[80]);    MULADD(at[26], at[79]);    MULADD(at[27], at[78]);    MULADD(at[28], at[77]);    MULADD(at[29], at[76]);    MULADD(at[30], at[75]);    MULADD(at[31], at[74]);    MULADD(at[32], at[73]);    MULADD(at[33], at[72]);    MULADD(at[34], at[71]);    MULADD(at[35], at[70]);    MULADD(at[36], at[69]);    MULADD(at[37], at[68]);    MULADD(at[38], at[67]);    MULADD(at[39], at[66]);    MULADD(at[40], at[65]);    MULADD(at[41], at[64]);
                     +   COMBA_STORE(C->dp[41]);
                     +   /* 42 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[106]);    MULADD(at[1], at[105]);    MULADD(at[2], at[104]);    MULADD(at[3], at[103]);    MULADD(at[4], at[102]);    MULADD(at[5], at[101]);    MULADD(at[6], at[100]);    MULADD(at[7], at[99]);    MULADD(at[8], at[98]);    MULADD(at[9], at[97]);    MULADD(at[10], at[96]);    MULADD(at[11], at[95]);    MULADD(at[12], at[94]);    MULADD(at[13], at[93]);    MULADD(at[14], at[92]);    MULADD(at[15], at[91]);    MULADD(at[16], at[90]);    MULADD(at[17], at[89]);    MULADD(at[18], at[88]);    MULADD(at[19], at[87]);    MULADD(at[20], at[86]);    MULADD(at[21], at[85]);    MULADD(at[22], at[84]);    MULADD(at[23], at[83]);    MULADD(at[24], at[82]);    MULADD(at[25], at[81]);    MULADD(at[26], at[80]);    MULADD(at[27], at[79]);    MULADD(at[28], at[78]);    MULADD(at[29], at[77]);    MULADD(at[30], at[76]);    MULADD(at[31], at[75]);    MULADD(at[32], at[74]);    MULADD(at[33], at[73]);    MULADD(at[34], at[72]);    MULADD(at[35], at[71]);    MULADD(at[36], at[70]);    MULADD(at[37], at[69]);    MULADD(at[38], at[68]);    MULADD(at[39], at[67]);    MULADD(at[40], at[66]);    MULADD(at[41], at[65]);    MULADD(at[42], at[64]);
                     +   COMBA_STORE(C->dp[42]);
                     +   /* 43 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[107]);    MULADD(at[1], at[106]);    MULADD(at[2], at[105]);    MULADD(at[3], at[104]);    MULADD(at[4], at[103]);    MULADD(at[5], at[102]);    MULADD(at[6], at[101]);    MULADD(at[7], at[100]);    MULADD(at[8], at[99]);    MULADD(at[9], at[98]);    MULADD(at[10], at[97]);    MULADD(at[11], at[96]);    MULADD(at[12], at[95]);    MULADD(at[13], at[94]);    MULADD(at[14], at[93]);    MULADD(at[15], at[92]);    MULADD(at[16], at[91]);    MULADD(at[17], at[90]);    MULADD(at[18], at[89]);    MULADD(at[19], at[88]);    MULADD(at[20], at[87]);    MULADD(at[21], at[86]);    MULADD(at[22], at[85]);    MULADD(at[23], at[84]);    MULADD(at[24], at[83]);    MULADD(at[25], at[82]);    MULADD(at[26], at[81]);    MULADD(at[27], at[80]);    MULADD(at[28], at[79]);    MULADD(at[29], at[78]);    MULADD(at[30], at[77]);    MULADD(at[31], at[76]);    MULADD(at[32], at[75]);    MULADD(at[33], at[74]);    MULADD(at[34], at[73]);    MULADD(at[35], at[72]);    MULADD(at[36], at[71]);    MULADD(at[37], at[70]);    MULADD(at[38], at[69]);    MULADD(at[39], at[68]);    MULADD(at[40], at[67]);    MULADD(at[41], at[66]);    MULADD(at[42], at[65]);    MULADD(at[43], at[64]);
                     +   COMBA_STORE(C->dp[43]);
                     +   /* 44 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[108]);    MULADD(at[1], at[107]);    MULADD(at[2], at[106]);    MULADD(at[3], at[105]);    MULADD(at[4], at[104]);    MULADD(at[5], at[103]);    MULADD(at[6], at[102]);    MULADD(at[7], at[101]);    MULADD(at[8], at[100]);    MULADD(at[9], at[99]);    MULADD(at[10], at[98]);    MULADD(at[11], at[97]);    MULADD(at[12], at[96]);    MULADD(at[13], at[95]);    MULADD(at[14], at[94]);    MULADD(at[15], at[93]);    MULADD(at[16], at[92]);    MULADD(at[17], at[91]);    MULADD(at[18], at[90]);    MULADD(at[19], at[89]);    MULADD(at[20], at[88]);    MULADD(at[21], at[87]);    MULADD(at[22], at[86]);    MULADD(at[23], at[85]);    MULADD(at[24], at[84]);    MULADD(at[25], at[83]);    MULADD(at[26], at[82]);    MULADD(at[27], at[81]);    MULADD(at[28], at[80]);    MULADD(at[29], at[79]);    MULADD(at[30], at[78]);    MULADD(at[31], at[77]);    MULADD(at[32], at[76]);    MULADD(at[33], at[75]);    MULADD(at[34], at[74]);    MULADD(at[35], at[73]);    MULADD(at[36], at[72]);    MULADD(at[37], at[71]);    MULADD(at[38], at[70]);    MULADD(at[39], at[69]);    MULADD(at[40], at[68]);    MULADD(at[41], at[67]);    MULADD(at[42], at[66]);    MULADD(at[43], at[65]);    MULADD(at[44], at[64]);
                     +   COMBA_STORE(C->dp[44]);
                     +   /* 45 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[109]);    MULADD(at[1], at[108]);    MULADD(at[2], at[107]);    MULADD(at[3], at[106]);    MULADD(at[4], at[105]);    MULADD(at[5], at[104]);    MULADD(at[6], at[103]);    MULADD(at[7], at[102]);    MULADD(at[8], at[101]);    MULADD(at[9], at[100]);    MULADD(at[10], at[99]);    MULADD(at[11], at[98]);    MULADD(at[12], at[97]);    MULADD(at[13], at[96]);    MULADD(at[14], at[95]);    MULADD(at[15], at[94]);    MULADD(at[16], at[93]);    MULADD(at[17], at[92]);    MULADD(at[18], at[91]);    MULADD(at[19], at[90]);    MULADD(at[20], at[89]);    MULADD(at[21], at[88]);    MULADD(at[22], at[87]);    MULADD(at[23], at[86]);    MULADD(at[24], at[85]);    MULADD(at[25], at[84]);    MULADD(at[26], at[83]);    MULADD(at[27], at[82]);    MULADD(at[28], at[81]);    MULADD(at[29], at[80]);    MULADD(at[30], at[79]);    MULADD(at[31], at[78]);    MULADD(at[32], at[77]);    MULADD(at[33], at[76]);    MULADD(at[34], at[75]);    MULADD(at[35], at[74]);    MULADD(at[36], at[73]);    MULADD(at[37], at[72]);    MULADD(at[38], at[71]);    MULADD(at[39], at[70]);    MULADD(at[40], at[69]);    MULADD(at[41], at[68]);    MULADD(at[42], at[67]);    MULADD(at[43], at[66]);    MULADD(at[44], at[65]);    MULADD(at[45], at[64]);
                     +   COMBA_STORE(C->dp[45]);
                     +   /* 46 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[110]);    MULADD(at[1], at[109]);    MULADD(at[2], at[108]);    MULADD(at[3], at[107]);    MULADD(at[4], at[106]);    MULADD(at[5], at[105]);    MULADD(at[6], at[104]);    MULADD(at[7], at[103]);    MULADD(at[8], at[102]);    MULADD(at[9], at[101]);    MULADD(at[10], at[100]);    MULADD(at[11], at[99]);    MULADD(at[12], at[98]);    MULADD(at[13], at[97]);    MULADD(at[14], at[96]);    MULADD(at[15], at[95]);    MULADD(at[16], at[94]);    MULADD(at[17], at[93]);    MULADD(at[18], at[92]);    MULADD(at[19], at[91]);    MULADD(at[20], at[90]);    MULADD(at[21], at[89]);    MULADD(at[22], at[88]);    MULADD(at[23], at[87]);    MULADD(at[24], at[86]);    MULADD(at[25], at[85]);    MULADD(at[26], at[84]);    MULADD(at[27], at[83]);    MULADD(at[28], at[82]);    MULADD(at[29], at[81]);    MULADD(at[30], at[80]);    MULADD(at[31], at[79]);    MULADD(at[32], at[78]);    MULADD(at[33], at[77]);    MULADD(at[34], at[76]);    MULADD(at[35], at[75]);    MULADD(at[36], at[74]);    MULADD(at[37], at[73]);    MULADD(at[38], at[72]);    MULADD(at[39], at[71]);    MULADD(at[40], at[70]);    MULADD(at[41], at[69]);    MULADD(at[42], at[68]);    MULADD(at[43], at[67]);    MULADD(at[44], at[66]);    MULADD(at[45], at[65]);    MULADD(at[46], at[64]);
                     +   COMBA_STORE(C->dp[46]);
                     +   /* 47 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[111]);    MULADD(at[1], at[110]);    MULADD(at[2], at[109]);    MULADD(at[3], at[108]);    MULADD(at[4], at[107]);    MULADD(at[5], at[106]);    MULADD(at[6], at[105]);    MULADD(at[7], at[104]);    MULADD(at[8], at[103]);    MULADD(at[9], at[102]);    MULADD(at[10], at[101]);    MULADD(at[11], at[100]);    MULADD(at[12], at[99]);    MULADD(at[13], at[98]);    MULADD(at[14], at[97]);    MULADD(at[15], at[96]);    MULADD(at[16], at[95]);    MULADD(at[17], at[94]);    MULADD(at[18], at[93]);    MULADD(at[19], at[92]);    MULADD(at[20], at[91]);    MULADD(at[21], at[90]);    MULADD(at[22], at[89]);    MULADD(at[23], at[88]);    MULADD(at[24], at[87]);    MULADD(at[25], at[86]);    MULADD(at[26], at[85]);    MULADD(at[27], at[84]);    MULADD(at[28], at[83]);    MULADD(at[29], at[82]);    MULADD(at[30], at[81]);    MULADD(at[31], at[80]);    MULADD(at[32], at[79]);    MULADD(at[33], at[78]);    MULADD(at[34], at[77]);    MULADD(at[35], at[76]);    MULADD(at[36], at[75]);    MULADD(at[37], at[74]);    MULADD(at[38], at[73]);    MULADD(at[39], at[72]);    MULADD(at[40], at[71]);    MULADD(at[41], at[70]);    MULADD(at[42], at[69]);    MULADD(at[43], at[68]);    MULADD(at[44], at[67]);    MULADD(at[45], at[66]);    MULADD(at[46], at[65]);    MULADD(at[47], at[64]);
                     +   COMBA_STORE(C->dp[47]);
                     +   /* 48 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[112]);    MULADD(at[1], at[111]);    MULADD(at[2], at[110]);    MULADD(at[3], at[109]);    MULADD(at[4], at[108]);    MULADD(at[5], at[107]);    MULADD(at[6], at[106]);    MULADD(at[7], at[105]);    MULADD(at[8], at[104]);    MULADD(at[9], at[103]);    MULADD(at[10], at[102]);    MULADD(at[11], at[101]);    MULADD(at[12], at[100]);    MULADD(at[13], at[99]);    MULADD(at[14], at[98]);    MULADD(at[15], at[97]);    MULADD(at[16], at[96]);    MULADD(at[17], at[95]);    MULADD(at[18], at[94]);    MULADD(at[19], at[93]);    MULADD(at[20], at[92]);    MULADD(at[21], at[91]);    MULADD(at[22], at[90]);    MULADD(at[23], at[89]);    MULADD(at[24], at[88]);    MULADD(at[25], at[87]);    MULADD(at[26], at[86]);    MULADD(at[27], at[85]);    MULADD(at[28], at[84]);    MULADD(at[29], at[83]);    MULADD(at[30], at[82]);    MULADD(at[31], at[81]);    MULADD(at[32], at[80]);    MULADD(at[33], at[79]);    MULADD(at[34], at[78]);    MULADD(at[35], at[77]);    MULADD(at[36], at[76]);    MULADD(at[37], at[75]);    MULADD(at[38], at[74]);    MULADD(at[39], at[73]);    MULADD(at[40], at[72]);    MULADD(at[41], at[71]);    MULADD(at[42], at[70]);    MULADD(at[43], at[69]);    MULADD(at[44], at[68]);    MULADD(at[45], at[67]);    MULADD(at[46], at[66]);    MULADD(at[47], at[65]);    MULADD(at[48], at[64]);
                     +   COMBA_STORE(C->dp[48]);
                     +   /* 49 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[113]);    MULADD(at[1], at[112]);    MULADD(at[2], at[111]);    MULADD(at[3], at[110]);    MULADD(at[4], at[109]);    MULADD(at[5], at[108]);    MULADD(at[6], at[107]);    MULADD(at[7], at[106]);    MULADD(at[8], at[105]);    MULADD(at[9], at[104]);    MULADD(at[10], at[103]);    MULADD(at[11], at[102]);    MULADD(at[12], at[101]);    MULADD(at[13], at[100]);    MULADD(at[14], at[99]);    MULADD(at[15], at[98]);    MULADD(at[16], at[97]);    MULADD(at[17], at[96]);    MULADD(at[18], at[95]);    MULADD(at[19], at[94]);    MULADD(at[20], at[93]);    MULADD(at[21], at[92]);    MULADD(at[22], at[91]);    MULADD(at[23], at[90]);    MULADD(at[24], at[89]);    MULADD(at[25], at[88]);    MULADD(at[26], at[87]);    MULADD(at[27], at[86]);    MULADD(at[28], at[85]);    MULADD(at[29], at[84]);    MULADD(at[30], at[83]);    MULADD(at[31], at[82]);    MULADD(at[32], at[81]);    MULADD(at[33], at[80]);    MULADD(at[34], at[79]);    MULADD(at[35], at[78]);    MULADD(at[36], at[77]);    MULADD(at[37], at[76]);    MULADD(at[38], at[75]);    MULADD(at[39], at[74]);    MULADD(at[40], at[73]);    MULADD(at[41], at[72]);    MULADD(at[42], at[71]);    MULADD(at[43], at[70]);    MULADD(at[44], at[69]);    MULADD(at[45], at[68]);    MULADD(at[46], at[67]);    MULADD(at[47], at[66]);    MULADD(at[48], at[65]);    MULADD(at[49], at[64]);
                     +   COMBA_STORE(C->dp[49]);
                     +   /* 50 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[114]);    MULADD(at[1], at[113]);    MULADD(at[2], at[112]);    MULADD(at[3], at[111]);    MULADD(at[4], at[110]);    MULADD(at[5], at[109]);    MULADD(at[6], at[108]);    MULADD(at[7], at[107]);    MULADD(at[8], at[106]);    MULADD(at[9], at[105]);    MULADD(at[10], at[104]);    MULADD(at[11], at[103]);    MULADD(at[12], at[102]);    MULADD(at[13], at[101]);    MULADD(at[14], at[100]);    MULADD(at[15], at[99]);    MULADD(at[16], at[98]);    MULADD(at[17], at[97]);    MULADD(at[18], at[96]);    MULADD(at[19], at[95]);    MULADD(at[20], at[94]);    MULADD(at[21], at[93]);    MULADD(at[22], at[92]);    MULADD(at[23], at[91]);    MULADD(at[24], at[90]);    MULADD(at[25], at[89]);    MULADD(at[26], at[88]);    MULADD(at[27], at[87]);    MULADD(at[28], at[86]);    MULADD(at[29], at[85]);    MULADD(at[30], at[84]);    MULADD(at[31], at[83]);    MULADD(at[32], at[82]);    MULADD(at[33], at[81]);    MULADD(at[34], at[80]);    MULADD(at[35], at[79]);    MULADD(at[36], at[78]);    MULADD(at[37], at[77]);    MULADD(at[38], at[76]);    MULADD(at[39], at[75]);    MULADD(at[40], at[74]);    MULADD(at[41], at[73]);    MULADD(at[42], at[72]);    MULADD(at[43], at[71]);    MULADD(at[44], at[70]);    MULADD(at[45], at[69]);    MULADD(at[46], at[68]);    MULADD(at[47], at[67]);    MULADD(at[48], at[66]);    MULADD(at[49], at[65]);    MULADD(at[50], at[64]);
                     +   COMBA_STORE(C->dp[50]);
                     +   /* 51 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[115]);    MULADD(at[1], at[114]);    MULADD(at[2], at[113]);    MULADD(at[3], at[112]);    MULADD(at[4], at[111]);    MULADD(at[5], at[110]);    MULADD(at[6], at[109]);    MULADD(at[7], at[108]);    MULADD(at[8], at[107]);    MULADD(at[9], at[106]);    MULADD(at[10], at[105]);    MULADD(at[11], at[104]);    MULADD(at[12], at[103]);    MULADD(at[13], at[102]);    MULADD(at[14], at[101]);    MULADD(at[15], at[100]);    MULADD(at[16], at[99]);    MULADD(at[17], at[98]);    MULADD(at[18], at[97]);    MULADD(at[19], at[96]);    MULADD(at[20], at[95]);    MULADD(at[21], at[94]);    MULADD(at[22], at[93]);    MULADD(at[23], at[92]);    MULADD(at[24], at[91]);    MULADD(at[25], at[90]);    MULADD(at[26], at[89]);    MULADD(at[27], at[88]);    MULADD(at[28], at[87]);    MULADD(at[29], at[86]);    MULADD(at[30], at[85]);    MULADD(at[31], at[84]);    MULADD(at[32], at[83]);    MULADD(at[33], at[82]);    MULADD(at[34], at[81]);    MULADD(at[35], at[80]);    MULADD(at[36], at[79]);    MULADD(at[37], at[78]);    MULADD(at[38], at[77]);    MULADD(at[39], at[76]);    MULADD(at[40], at[75]);    MULADD(at[41], at[74]);    MULADD(at[42], at[73]);    MULADD(at[43], at[72]);    MULADD(at[44], at[71]);    MULADD(at[45], at[70]);    MULADD(at[46], at[69]);    MULADD(at[47], at[68]);    MULADD(at[48], at[67]);    MULADD(at[49], at[66]);    MULADD(at[50], at[65]);    MULADD(at[51], at[64]);
                     +   COMBA_STORE(C->dp[51]);
                     +   /* 52 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[116]);    MULADD(at[1], at[115]);    MULADD(at[2], at[114]);    MULADD(at[3], at[113]);    MULADD(at[4], at[112]);    MULADD(at[5], at[111]);    MULADD(at[6], at[110]);    MULADD(at[7], at[109]);    MULADD(at[8], at[108]);    MULADD(at[9], at[107]);    MULADD(at[10], at[106]);    MULADD(at[11], at[105]);    MULADD(at[12], at[104]);    MULADD(at[13], at[103]);    MULADD(at[14], at[102]);    MULADD(at[15], at[101]);    MULADD(at[16], at[100]);    MULADD(at[17], at[99]);    MULADD(at[18], at[98]);    MULADD(at[19], at[97]);    MULADD(at[20], at[96]);    MULADD(at[21], at[95]);    MULADD(at[22], at[94]);    MULADD(at[23], at[93]);    MULADD(at[24], at[92]);    MULADD(at[25], at[91]);    MULADD(at[26], at[90]);    MULADD(at[27], at[89]);    MULADD(at[28], at[88]);    MULADD(at[29], at[87]);    MULADD(at[30], at[86]);    MULADD(at[31], at[85]);    MULADD(at[32], at[84]);    MULADD(at[33], at[83]);    MULADD(at[34], at[82]);    MULADD(at[35], at[81]);    MULADD(at[36], at[80]);    MULADD(at[37], at[79]);    MULADD(at[38], at[78]);    MULADD(at[39], at[77]);    MULADD(at[40], at[76]);    MULADD(at[41], at[75]);    MULADD(at[42], at[74]);    MULADD(at[43], at[73]);    MULADD(at[44], at[72]);    MULADD(at[45], at[71]);    MULADD(at[46], at[70]);    MULADD(at[47], at[69]);    MULADD(at[48], at[68]);    MULADD(at[49], at[67]);    MULADD(at[50], at[66]);    MULADD(at[51], at[65]);    MULADD(at[52], at[64]);
                     +   COMBA_STORE(C->dp[52]);
                     +   /* 53 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[117]);    MULADD(at[1], at[116]);    MULADD(at[2], at[115]);    MULADD(at[3], at[114]);    MULADD(at[4], at[113]);    MULADD(at[5], at[112]);    MULADD(at[6], at[111]);    MULADD(at[7], at[110]);    MULADD(at[8], at[109]);    MULADD(at[9], at[108]);    MULADD(at[10], at[107]);    MULADD(at[11], at[106]);    MULADD(at[12], at[105]);    MULADD(at[13], at[104]);    MULADD(at[14], at[103]);    MULADD(at[15], at[102]);    MULADD(at[16], at[101]);    MULADD(at[17], at[100]);    MULADD(at[18], at[99]);    MULADD(at[19], at[98]);    MULADD(at[20], at[97]);    MULADD(at[21], at[96]);    MULADD(at[22], at[95]);    MULADD(at[23], at[94]);    MULADD(at[24], at[93]);    MULADD(at[25], at[92]);    MULADD(at[26], at[91]);    MULADD(at[27], at[90]);    MULADD(at[28], at[89]);    MULADD(at[29], at[88]);    MULADD(at[30], at[87]);    MULADD(at[31], at[86]);    MULADD(at[32], at[85]);    MULADD(at[33], at[84]);    MULADD(at[34], at[83]);    MULADD(at[35], at[82]);    MULADD(at[36], at[81]);    MULADD(at[37], at[80]);    MULADD(at[38], at[79]);    MULADD(at[39], at[78]);    MULADD(at[40], at[77]);    MULADD(at[41], at[76]);    MULADD(at[42], at[75]);    MULADD(at[43], at[74]);    MULADD(at[44], at[73]);    MULADD(at[45], at[72]);    MULADD(at[46], at[71]);    MULADD(at[47], at[70]);    MULADD(at[48], at[69]);    MULADD(at[49], at[68]);    MULADD(at[50], at[67]);    MULADD(at[51], at[66]);    MULADD(at[52], at[65]);    MULADD(at[53], at[64]);
                     +   COMBA_STORE(C->dp[53]);
                     +   /* 54 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[118]);    MULADD(at[1], at[117]);    MULADD(at[2], at[116]);    MULADD(at[3], at[115]);    MULADD(at[4], at[114]);    MULADD(at[5], at[113]);    MULADD(at[6], at[112]);    MULADD(at[7], at[111]);    MULADD(at[8], at[110]);    MULADD(at[9], at[109]);    MULADD(at[10], at[108]);    MULADD(at[11], at[107]);    MULADD(at[12], at[106]);    MULADD(at[13], at[105]);    MULADD(at[14], at[104]);    MULADD(at[15], at[103]);    MULADD(at[16], at[102]);    MULADD(at[17], at[101]);    MULADD(at[18], at[100]);    MULADD(at[19], at[99]);    MULADD(at[20], at[98]);    MULADD(at[21], at[97]);    MULADD(at[22], at[96]);    MULADD(at[23], at[95]);    MULADD(at[24], at[94]);    MULADD(at[25], at[93]);    MULADD(at[26], at[92]);    MULADD(at[27], at[91]);    MULADD(at[28], at[90]);    MULADD(at[29], at[89]);    MULADD(at[30], at[88]);    MULADD(at[31], at[87]);    MULADD(at[32], at[86]);    MULADD(at[33], at[85]);    MULADD(at[34], at[84]);    MULADD(at[35], at[83]);    MULADD(at[36], at[82]);    MULADD(at[37], at[81]);    MULADD(at[38], at[80]);    MULADD(at[39], at[79]);    MULADD(at[40], at[78]);    MULADD(at[41], at[77]);    MULADD(at[42], at[76]);    MULADD(at[43], at[75]);    MULADD(at[44], at[74]);    MULADD(at[45], at[73]);    MULADD(at[46], at[72]);    MULADD(at[47], at[71]);    MULADD(at[48], at[70]);    MULADD(at[49], at[69]);    MULADD(at[50], at[68]);    MULADD(at[51], at[67]);    MULADD(at[52], at[66]);    MULADD(at[53], at[65]);    MULADD(at[54], at[64]);
                     +   COMBA_STORE(C->dp[54]);
                     +   /* 55 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[119]);    MULADD(at[1], at[118]);    MULADD(at[2], at[117]);    MULADD(at[3], at[116]);    MULADD(at[4], at[115]);    MULADD(at[5], at[114]);    MULADD(at[6], at[113]);    MULADD(at[7], at[112]);    MULADD(at[8], at[111]);    MULADD(at[9], at[110]);    MULADD(at[10], at[109]);    MULADD(at[11], at[108]);    MULADD(at[12], at[107]);    MULADD(at[13], at[106]);    MULADD(at[14], at[105]);    MULADD(at[15], at[104]);    MULADD(at[16], at[103]);    MULADD(at[17], at[102]);    MULADD(at[18], at[101]);    MULADD(at[19], at[100]);    MULADD(at[20], at[99]);    MULADD(at[21], at[98]);    MULADD(at[22], at[97]);    MULADD(at[23], at[96]);    MULADD(at[24], at[95]);    MULADD(at[25], at[94]);    MULADD(at[26], at[93]);    MULADD(at[27], at[92]);    MULADD(at[28], at[91]);    MULADD(at[29], at[90]);    MULADD(at[30], at[89]);    MULADD(at[31], at[88]);    MULADD(at[32], at[87]);    MULADD(at[33], at[86]);    MULADD(at[34], at[85]);    MULADD(at[35], at[84]);    MULADD(at[36], at[83]);    MULADD(at[37], at[82]);    MULADD(at[38], at[81]);    MULADD(at[39], at[80]);    MULADD(at[40], at[79]);    MULADD(at[41], at[78]);    MULADD(at[42], at[77]);    MULADD(at[43], at[76]);    MULADD(at[44], at[75]);    MULADD(at[45], at[74]);    MULADD(at[46], at[73]);    MULADD(at[47], at[72]);    MULADD(at[48], at[71]);    MULADD(at[49], at[70]);    MULADD(at[50], at[69]);    MULADD(at[51], at[68]);    MULADD(at[52], at[67]);    MULADD(at[53], at[66]);    MULADD(at[54], at[65]);    MULADD(at[55], at[64]);
                     +   COMBA_STORE(C->dp[55]);
                     +   /* 56 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[120]);    MULADD(at[1], at[119]);    MULADD(at[2], at[118]);    MULADD(at[3], at[117]);    MULADD(at[4], at[116]);    MULADD(at[5], at[115]);    MULADD(at[6], at[114]);    MULADD(at[7], at[113]);    MULADD(at[8], at[112]);    MULADD(at[9], at[111]);    MULADD(at[10], at[110]);    MULADD(at[11], at[109]);    MULADD(at[12], at[108]);    MULADD(at[13], at[107]);    MULADD(at[14], at[106]);    MULADD(at[15], at[105]);    MULADD(at[16], at[104]);    MULADD(at[17], at[103]);    MULADD(at[18], at[102]);    MULADD(at[19], at[101]);    MULADD(at[20], at[100]);    MULADD(at[21], at[99]);    MULADD(at[22], at[98]);    MULADD(at[23], at[97]);    MULADD(at[24], at[96]);    MULADD(at[25], at[95]);    MULADD(at[26], at[94]);    MULADD(at[27], at[93]);    MULADD(at[28], at[92]);    MULADD(at[29], at[91]);    MULADD(at[30], at[90]);    MULADD(at[31], at[89]);    MULADD(at[32], at[88]);    MULADD(at[33], at[87]);    MULADD(at[34], at[86]);    MULADD(at[35], at[85]);    MULADD(at[36], at[84]);    MULADD(at[37], at[83]);    MULADD(at[38], at[82]);    MULADD(at[39], at[81]);    MULADD(at[40], at[80]);    MULADD(at[41], at[79]);    MULADD(at[42], at[78]);    MULADD(at[43], at[77]);    MULADD(at[44], at[76]);    MULADD(at[45], at[75]);    MULADD(at[46], at[74]);    MULADD(at[47], at[73]);    MULADD(at[48], at[72]);    MULADD(at[49], at[71]);    MULADD(at[50], at[70]);    MULADD(at[51], at[69]);    MULADD(at[52], at[68]);    MULADD(at[53], at[67]);    MULADD(at[54], at[66]);    MULADD(at[55], at[65]);    MULADD(at[56], at[64]);
                     +   COMBA_STORE(C->dp[56]);
                     +   /* 57 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[121]);    MULADD(at[1], at[120]);    MULADD(at[2], at[119]);    MULADD(at[3], at[118]);    MULADD(at[4], at[117]);    MULADD(at[5], at[116]);    MULADD(at[6], at[115]);    MULADD(at[7], at[114]);    MULADD(at[8], at[113]);    MULADD(at[9], at[112]);    MULADD(at[10], at[111]);    MULADD(at[11], at[110]);    MULADD(at[12], at[109]);    MULADD(at[13], at[108]);    MULADD(at[14], at[107]);    MULADD(at[15], at[106]);    MULADD(at[16], at[105]);    MULADD(at[17], at[104]);    MULADD(at[18], at[103]);    MULADD(at[19], at[102]);    MULADD(at[20], at[101]);    MULADD(at[21], at[100]);    MULADD(at[22], at[99]);    MULADD(at[23], at[98]);    MULADD(at[24], at[97]);    MULADD(at[25], at[96]);    MULADD(at[26], at[95]);    MULADD(at[27], at[94]);    MULADD(at[28], at[93]);    MULADD(at[29], at[92]);    MULADD(at[30], at[91]);    MULADD(at[31], at[90]);    MULADD(at[32], at[89]);    MULADD(at[33], at[88]);    MULADD(at[34], at[87]);    MULADD(at[35], at[86]);    MULADD(at[36], at[85]);    MULADD(at[37], at[84]);    MULADD(at[38], at[83]);    MULADD(at[39], at[82]);    MULADD(at[40], at[81]);    MULADD(at[41], at[80]);    MULADD(at[42], at[79]);    MULADD(at[43], at[78]);    MULADD(at[44], at[77]);    MULADD(at[45], at[76]);    MULADD(at[46], at[75]);    MULADD(at[47], at[74]);    MULADD(at[48], at[73]);    MULADD(at[49], at[72]);    MULADD(at[50], at[71]);    MULADD(at[51], at[70]);    MULADD(at[52], at[69]);    MULADD(at[53], at[68]);    MULADD(at[54], at[67]);    MULADD(at[55], at[66]);    MULADD(at[56], at[65]);    MULADD(at[57], at[64]);
                     +   COMBA_STORE(C->dp[57]);
                     +   /* 58 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[122]);    MULADD(at[1], at[121]);    MULADD(at[2], at[120]);    MULADD(at[3], at[119]);    MULADD(at[4], at[118]);    MULADD(at[5], at[117]);    MULADD(at[6], at[116]);    MULADD(at[7], at[115]);    MULADD(at[8], at[114]);    MULADD(at[9], at[113]);    MULADD(at[10], at[112]);    MULADD(at[11], at[111]);    MULADD(at[12], at[110]);    MULADD(at[13], at[109]);    MULADD(at[14], at[108]);    MULADD(at[15], at[107]);    MULADD(at[16], at[106]);    MULADD(at[17], at[105]);    MULADD(at[18], at[104]);    MULADD(at[19], at[103]);    MULADD(at[20], at[102]);    MULADD(at[21], at[101]);    MULADD(at[22], at[100]);    MULADD(at[23], at[99]);    MULADD(at[24], at[98]);    MULADD(at[25], at[97]);    MULADD(at[26], at[96]);    MULADD(at[27], at[95]);    MULADD(at[28], at[94]);    MULADD(at[29], at[93]);    MULADD(at[30], at[92]);    MULADD(at[31], at[91]);    MULADD(at[32], at[90]);    MULADD(at[33], at[89]);    MULADD(at[34], at[88]);    MULADD(at[35], at[87]);    MULADD(at[36], at[86]);    MULADD(at[37], at[85]);    MULADD(at[38], at[84]);    MULADD(at[39], at[83]);    MULADD(at[40], at[82]);    MULADD(at[41], at[81]);    MULADD(at[42], at[80]);    MULADD(at[43], at[79]);    MULADD(at[44], at[78]);    MULADD(at[45], at[77]);    MULADD(at[46], at[76]);    MULADD(at[47], at[75]);    MULADD(at[48], at[74]);    MULADD(at[49], at[73]);    MULADD(at[50], at[72]);    MULADD(at[51], at[71]);    MULADD(at[52], at[70]);    MULADD(at[53], at[69]);    MULADD(at[54], at[68]);    MULADD(at[55], at[67]);    MULADD(at[56], at[66]);    MULADD(at[57], at[65]);    MULADD(at[58], at[64]);
                     +   COMBA_STORE(C->dp[58]);
                     +   /* 59 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[123]);    MULADD(at[1], at[122]);    MULADD(at[2], at[121]);    MULADD(at[3], at[120]);    MULADD(at[4], at[119]);    MULADD(at[5], at[118]);    MULADD(at[6], at[117]);    MULADD(at[7], at[116]);    MULADD(at[8], at[115]);    MULADD(at[9], at[114]);    MULADD(at[10], at[113]);    MULADD(at[11], at[112]);    MULADD(at[12], at[111]);    MULADD(at[13], at[110]);    MULADD(at[14], at[109]);    MULADD(at[15], at[108]);    MULADD(at[16], at[107]);    MULADD(at[17], at[106]);    MULADD(at[18], at[105]);    MULADD(at[19], at[104]);    MULADD(at[20], at[103]);    MULADD(at[21], at[102]);    MULADD(at[22], at[101]);    MULADD(at[23], at[100]);    MULADD(at[24], at[99]);    MULADD(at[25], at[98]);    MULADD(at[26], at[97]);    MULADD(at[27], at[96]);    MULADD(at[28], at[95]);    MULADD(at[29], at[94]);    MULADD(at[30], at[93]);    MULADD(at[31], at[92]);    MULADD(at[32], at[91]);    MULADD(at[33], at[90]);    MULADD(at[34], at[89]);    MULADD(at[35], at[88]);    MULADD(at[36], at[87]);    MULADD(at[37], at[86]);    MULADD(at[38], at[85]);    MULADD(at[39], at[84]);    MULADD(at[40], at[83]);    MULADD(at[41], at[82]);    MULADD(at[42], at[81]);    MULADD(at[43], at[80]);    MULADD(at[44], at[79]);    MULADD(at[45], at[78]);    MULADD(at[46], at[77]);    MULADD(at[47], at[76]);    MULADD(at[48], at[75]);    MULADD(at[49], at[74]);    MULADD(at[50], at[73]);    MULADD(at[51], at[72]);    MULADD(at[52], at[71]);    MULADD(at[53], at[70]);    MULADD(at[54], at[69]);    MULADD(at[55], at[68]);    MULADD(at[56], at[67]);    MULADD(at[57], at[66]);    MULADD(at[58], at[65]);    MULADD(at[59], at[64]);
                     +   COMBA_STORE(C->dp[59]);
                     +   /* 60 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[124]);    MULADD(at[1], at[123]);    MULADD(at[2], at[122]);    MULADD(at[3], at[121]);    MULADD(at[4], at[120]);    MULADD(at[5], at[119]);    MULADD(at[6], at[118]);    MULADD(at[7], at[117]);    MULADD(at[8], at[116]);    MULADD(at[9], at[115]);    MULADD(at[10], at[114]);    MULADD(at[11], at[113]);    MULADD(at[12], at[112]);    MULADD(at[13], at[111]);    MULADD(at[14], at[110]);    MULADD(at[15], at[109]);    MULADD(at[16], at[108]);    MULADD(at[17], at[107]);    MULADD(at[18], at[106]);    MULADD(at[19], at[105]);    MULADD(at[20], at[104]);    MULADD(at[21], at[103]);    MULADD(at[22], at[102]);    MULADD(at[23], at[101]);    MULADD(at[24], at[100]);    MULADD(at[25], at[99]);    MULADD(at[26], at[98]);    MULADD(at[27], at[97]);    MULADD(at[28], at[96]);    MULADD(at[29], at[95]);    MULADD(at[30], at[94]);    MULADD(at[31], at[93]);    MULADD(at[32], at[92]);    MULADD(at[33], at[91]);    MULADD(at[34], at[90]);    MULADD(at[35], at[89]);    MULADD(at[36], at[88]);    MULADD(at[37], at[87]);    MULADD(at[38], at[86]);    MULADD(at[39], at[85]);    MULADD(at[40], at[84]);    MULADD(at[41], at[83]);    MULADD(at[42], at[82]);    MULADD(at[43], at[81]);    MULADD(at[44], at[80]);    MULADD(at[45], at[79]);    MULADD(at[46], at[78]);    MULADD(at[47], at[77]);    MULADD(at[48], at[76]);    MULADD(at[49], at[75]);    MULADD(at[50], at[74]);    MULADD(at[51], at[73]);    MULADD(at[52], at[72]);    MULADD(at[53], at[71]);    MULADD(at[54], at[70]);    MULADD(at[55], at[69]);    MULADD(at[56], at[68]);    MULADD(at[57], at[67]);    MULADD(at[58], at[66]);    MULADD(at[59], at[65]);    MULADD(at[60], at[64]);
                     +   COMBA_STORE(C->dp[60]);
                     +   /* 61 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[125]);    MULADD(at[1], at[124]);    MULADD(at[2], at[123]);    MULADD(at[3], at[122]);    MULADD(at[4], at[121]);    MULADD(at[5], at[120]);    MULADD(at[6], at[119]);    MULADD(at[7], at[118]);    MULADD(at[8], at[117]);    MULADD(at[9], at[116]);    MULADD(at[10], at[115]);    MULADD(at[11], at[114]);    MULADD(at[12], at[113]);    MULADD(at[13], at[112]);    MULADD(at[14], at[111]);    MULADD(at[15], at[110]);    MULADD(at[16], at[109]);    MULADD(at[17], at[108]);    MULADD(at[18], at[107]);    MULADD(at[19], at[106]);    MULADD(at[20], at[105]);    MULADD(at[21], at[104]);    MULADD(at[22], at[103]);    MULADD(at[23], at[102]);    MULADD(at[24], at[101]);    MULADD(at[25], at[100]);    MULADD(at[26], at[99]);    MULADD(at[27], at[98]);    MULADD(at[28], at[97]);    MULADD(at[29], at[96]);    MULADD(at[30], at[95]);    MULADD(at[31], at[94]);    MULADD(at[32], at[93]);    MULADD(at[33], at[92]);    MULADD(at[34], at[91]);    MULADD(at[35], at[90]);    MULADD(at[36], at[89]);    MULADD(at[37], at[88]);    MULADD(at[38], at[87]);    MULADD(at[39], at[86]);    MULADD(at[40], at[85]);    MULADD(at[41], at[84]);    MULADD(at[42], at[83]);    MULADD(at[43], at[82]);    MULADD(at[44], at[81]);    MULADD(at[45], at[80]);    MULADD(at[46], at[79]);    MULADD(at[47], at[78]);    MULADD(at[48], at[77]);    MULADD(at[49], at[76]);    MULADD(at[50], at[75]);    MULADD(at[51], at[74]);    MULADD(at[52], at[73]);    MULADD(at[53], at[72]);    MULADD(at[54], at[71]);    MULADD(at[55], at[70]);    MULADD(at[56], at[69]);    MULADD(at[57], at[68]);    MULADD(at[58], at[67]);    MULADD(at[59], at[66]);    MULADD(at[60], at[65]);    MULADD(at[61], at[64]);
                     +   COMBA_STORE(C->dp[61]);
                     +   /* 62 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[126]);    MULADD(at[1], at[125]);    MULADD(at[2], at[124]);    MULADD(at[3], at[123]);    MULADD(at[4], at[122]);    MULADD(at[5], at[121]);    MULADD(at[6], at[120]);    MULADD(at[7], at[119]);    MULADD(at[8], at[118]);    MULADD(at[9], at[117]);    MULADD(at[10], at[116]);    MULADD(at[11], at[115]);    MULADD(at[12], at[114]);    MULADD(at[13], at[113]);    MULADD(at[14], at[112]);    MULADD(at[15], at[111]);    MULADD(at[16], at[110]);    MULADD(at[17], at[109]);    MULADD(at[18], at[108]);    MULADD(at[19], at[107]);    MULADD(at[20], at[106]);    MULADD(at[21], at[105]);    MULADD(at[22], at[104]);    MULADD(at[23], at[103]);    MULADD(at[24], at[102]);    MULADD(at[25], at[101]);    MULADD(at[26], at[100]);    MULADD(at[27], at[99]);    MULADD(at[28], at[98]);    MULADD(at[29], at[97]);    MULADD(at[30], at[96]);    MULADD(at[31], at[95]);    MULADD(at[32], at[94]);    MULADD(at[33], at[93]);    MULADD(at[34], at[92]);    MULADD(at[35], at[91]);    MULADD(at[36], at[90]);    MULADD(at[37], at[89]);    MULADD(at[38], at[88]);    MULADD(at[39], at[87]);    MULADD(at[40], at[86]);    MULADD(at[41], at[85]);    MULADD(at[42], at[84]);    MULADD(at[43], at[83]);    MULADD(at[44], at[82]);    MULADD(at[45], at[81]);    MULADD(at[46], at[80]);    MULADD(at[47], at[79]);    MULADD(at[48], at[78]);    MULADD(at[49], at[77]);    MULADD(at[50], at[76]);    MULADD(at[51], at[75]);    MULADD(at[52], at[74]);    MULADD(at[53], at[73]);    MULADD(at[54], at[72]);    MULADD(at[55], at[71]);    MULADD(at[56], at[70]);    MULADD(at[57], at[69]);    MULADD(at[58], at[68]);    MULADD(at[59], at[67]);    MULADD(at[60], at[66]);    MULADD(at[61], at[65]);    MULADD(at[62], at[64]);
                     +   COMBA_STORE(C->dp[62]);
                     +   /* 63 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[127]);    MULADD(at[1], at[126]);    MULADD(at[2], at[125]);    MULADD(at[3], at[124]);    MULADD(at[4], at[123]);    MULADD(at[5], at[122]);    MULADD(at[6], at[121]);    MULADD(at[7], at[120]);    MULADD(at[8], at[119]);    MULADD(at[9], at[118]);    MULADD(at[10], at[117]);    MULADD(at[11], at[116]);    MULADD(at[12], at[115]);    MULADD(at[13], at[114]);    MULADD(at[14], at[113]);    MULADD(at[15], at[112]);    MULADD(at[16], at[111]);    MULADD(at[17], at[110]);    MULADD(at[18], at[109]);    MULADD(at[19], at[108]);    MULADD(at[20], at[107]);    MULADD(at[21], at[106]);    MULADD(at[22], at[105]);    MULADD(at[23], at[104]);    MULADD(at[24], at[103]);    MULADD(at[25], at[102]);    MULADD(at[26], at[101]);    MULADD(at[27], at[100]);    MULADD(at[28], at[99]);    MULADD(at[29], at[98]);    MULADD(at[30], at[97]);    MULADD(at[31], at[96]);    MULADD(at[32], at[95]);    MULADD(at[33], at[94]);    MULADD(at[34], at[93]);    MULADD(at[35], at[92]);    MULADD(at[36], at[91]);    MULADD(at[37], at[90]);    MULADD(at[38], at[89]);    MULADD(at[39], at[88]);    MULADD(at[40], at[87]);    MULADD(at[41], at[86]);    MULADD(at[42], at[85]);    MULADD(at[43], at[84]);    MULADD(at[44], at[83]);    MULADD(at[45], at[82]);    MULADD(at[46], at[81]);    MULADD(at[47], at[80]);    MULADD(at[48], at[79]);    MULADD(at[49], at[78]);    MULADD(at[50], at[77]);    MULADD(at[51], at[76]);    MULADD(at[52], at[75]);    MULADD(at[53], at[74]);    MULADD(at[54], at[73]);    MULADD(at[55], at[72]);    MULADD(at[56], at[71]);    MULADD(at[57], at[70]);    MULADD(at[58], at[69]);    MULADD(at[59], at[68]);    MULADD(at[60], at[67]);    MULADD(at[61], at[66]);    MULADD(at[62], at[65]);    MULADD(at[63], at[64]);
                     +   COMBA_STORE(C->dp[63]);
                     +   /* 64 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[1], at[127]);    MULADD(at[2], at[126]);    MULADD(at[3], at[125]);    MULADD(at[4], at[124]);    MULADD(at[5], at[123]);    MULADD(at[6], at[122]);    MULADD(at[7], at[121]);    MULADD(at[8], at[120]);    MULADD(at[9], at[119]);    MULADD(at[10], at[118]);    MULADD(at[11], at[117]);    MULADD(at[12], at[116]);    MULADD(at[13], at[115]);    MULADD(at[14], at[114]);    MULADD(at[15], at[113]);    MULADD(at[16], at[112]);    MULADD(at[17], at[111]);    MULADD(at[18], at[110]);    MULADD(at[19], at[109]);    MULADD(at[20], at[108]);    MULADD(at[21], at[107]);    MULADD(at[22], at[106]);    MULADD(at[23], at[105]);    MULADD(at[24], at[104]);    MULADD(at[25], at[103]);    MULADD(at[26], at[102]);    MULADD(at[27], at[101]);    MULADD(at[28], at[100]);    MULADD(at[29], at[99]);    MULADD(at[30], at[98]);    MULADD(at[31], at[97]);    MULADD(at[32], at[96]);    MULADD(at[33], at[95]);    MULADD(at[34], at[94]);    MULADD(at[35], at[93]);    MULADD(at[36], at[92]);    MULADD(at[37], at[91]);    MULADD(at[38], at[90]);    MULADD(at[39], at[89]);    MULADD(at[40], at[88]);    MULADD(at[41], at[87]);    MULADD(at[42], at[86]);    MULADD(at[43], at[85]);    MULADD(at[44], at[84]);    MULADD(at[45], at[83]);    MULADD(at[46], at[82]);    MULADD(at[47], at[81]);    MULADD(at[48], at[80]);    MULADD(at[49], at[79]);    MULADD(at[50], at[78]);    MULADD(at[51], at[77]);    MULADD(at[52], at[76]);    MULADD(at[53], at[75]);    MULADD(at[54], at[74]);    MULADD(at[55], at[73]);    MULADD(at[56], at[72]);    MULADD(at[57], at[71]);    MULADD(at[58], at[70]);    MULADD(at[59], at[69]);    MULADD(at[60], at[68]);    MULADD(at[61], at[67]);    MULADD(at[62], at[66]);    MULADD(at[63], at[65]);
                     +   COMBA_STORE(C->dp[64]);
                     +   /* 65 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[2], at[127]);    MULADD(at[3], at[126]);    MULADD(at[4], at[125]);    MULADD(at[5], at[124]);    MULADD(at[6], at[123]);    MULADD(at[7], at[122]);    MULADD(at[8], at[121]);    MULADD(at[9], at[120]);    MULADD(at[10], at[119]);    MULADD(at[11], at[118]);    MULADD(at[12], at[117]);    MULADD(at[13], at[116]);    MULADD(at[14], at[115]);    MULADD(at[15], at[114]);    MULADD(at[16], at[113]);    MULADD(at[17], at[112]);    MULADD(at[18], at[111]);    MULADD(at[19], at[110]);    MULADD(at[20], at[109]);    MULADD(at[21], at[108]);    MULADD(at[22], at[107]);    MULADD(at[23], at[106]);    MULADD(at[24], at[105]);    MULADD(at[25], at[104]);    MULADD(at[26], at[103]);    MULADD(at[27], at[102]);    MULADD(at[28], at[101]);    MULADD(at[29], at[100]);    MULADD(at[30], at[99]);    MULADD(at[31], at[98]);    MULADD(at[32], at[97]);    MULADD(at[33], at[96]);    MULADD(at[34], at[95]);    MULADD(at[35], at[94]);    MULADD(at[36], at[93]);    MULADD(at[37], at[92]);    MULADD(at[38], at[91]);    MULADD(at[39], at[90]);    MULADD(at[40], at[89]);    MULADD(at[41], at[88]);    MULADD(at[42], at[87]);    MULADD(at[43], at[86]);    MULADD(at[44], at[85]);    MULADD(at[45], at[84]);    MULADD(at[46], at[83]);    MULADD(at[47], at[82]);    MULADD(at[48], at[81]);    MULADD(at[49], at[80]);    MULADD(at[50], at[79]);    MULADD(at[51], at[78]);    MULADD(at[52], at[77]);    MULADD(at[53], at[76]);    MULADD(at[54], at[75]);    MULADD(at[55], at[74]);    MULADD(at[56], at[73]);    MULADD(at[57], at[72]);    MULADD(at[58], at[71]);    MULADD(at[59], at[70]);    MULADD(at[60], at[69]);    MULADD(at[61], at[68]);    MULADD(at[62], at[67]);    MULADD(at[63], at[66]);
                     +   COMBA_STORE(C->dp[65]);
                     +   /* 66 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[3], at[127]);    MULADD(at[4], at[126]);    MULADD(at[5], at[125]);    MULADD(at[6], at[124]);    MULADD(at[7], at[123]);    MULADD(at[8], at[122]);    MULADD(at[9], at[121]);    MULADD(at[10], at[120]);    MULADD(at[11], at[119]);    MULADD(at[12], at[118]);    MULADD(at[13], at[117]);    MULADD(at[14], at[116]);    MULADD(at[15], at[115]);    MULADD(at[16], at[114]);    MULADD(at[17], at[113]);    MULADD(at[18], at[112]);    MULADD(at[19], at[111]);    MULADD(at[20], at[110]);    MULADD(at[21], at[109]);    MULADD(at[22], at[108]);    MULADD(at[23], at[107]);    MULADD(at[24], at[106]);    MULADD(at[25], at[105]);    MULADD(at[26], at[104]);    MULADD(at[27], at[103]);    MULADD(at[28], at[102]);    MULADD(at[29], at[101]);    MULADD(at[30], at[100]);    MULADD(at[31], at[99]);    MULADD(at[32], at[98]);    MULADD(at[33], at[97]);    MULADD(at[34], at[96]);    MULADD(at[35], at[95]);    MULADD(at[36], at[94]);    MULADD(at[37], at[93]);    MULADD(at[38], at[92]);    MULADD(at[39], at[91]);    MULADD(at[40], at[90]);    MULADD(at[41], at[89]);    MULADD(at[42], at[88]);    MULADD(at[43], at[87]);    MULADD(at[44], at[86]);    MULADD(at[45], at[85]);    MULADD(at[46], at[84]);    MULADD(at[47], at[83]);    MULADD(at[48], at[82]);    MULADD(at[49], at[81]);    MULADD(at[50], at[80]);    MULADD(at[51], at[79]);    MULADD(at[52], at[78]);    MULADD(at[53], at[77]);    MULADD(at[54], at[76]);    MULADD(at[55], at[75]);    MULADD(at[56], at[74]);    MULADD(at[57], at[73]);    MULADD(at[58], at[72]);    MULADD(at[59], at[71]);    MULADD(at[60], at[70]);    MULADD(at[61], at[69]);    MULADD(at[62], at[68]);    MULADD(at[63], at[67]);
                     +   COMBA_STORE(C->dp[66]);
                     +   /* 67 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[4], at[127]);    MULADD(at[5], at[126]);    MULADD(at[6], at[125]);    MULADD(at[7], at[124]);    MULADD(at[8], at[123]);    MULADD(at[9], at[122]);    MULADD(at[10], at[121]);    MULADD(at[11], at[120]);    MULADD(at[12], at[119]);    MULADD(at[13], at[118]);    MULADD(at[14], at[117]);    MULADD(at[15], at[116]);    MULADD(at[16], at[115]);    MULADD(at[17], at[114]);    MULADD(at[18], at[113]);    MULADD(at[19], at[112]);    MULADD(at[20], at[111]);    MULADD(at[21], at[110]);    MULADD(at[22], at[109]);    MULADD(at[23], at[108]);    MULADD(at[24], at[107]);    MULADD(at[25], at[106]);    MULADD(at[26], at[105]);    MULADD(at[27], at[104]);    MULADD(at[28], at[103]);    MULADD(at[29], at[102]);    MULADD(at[30], at[101]);    MULADD(at[31], at[100]);    MULADD(at[32], at[99]);    MULADD(at[33], at[98]);    MULADD(at[34], at[97]);    MULADD(at[35], at[96]);    MULADD(at[36], at[95]);    MULADD(at[37], at[94]);    MULADD(at[38], at[93]);    MULADD(at[39], at[92]);    MULADD(at[40], at[91]);    MULADD(at[41], at[90]);    MULADD(at[42], at[89]);    MULADD(at[43], at[88]);    MULADD(at[44], at[87]);    MULADD(at[45], at[86]);    MULADD(at[46], at[85]);    MULADD(at[47], at[84]);    MULADD(at[48], at[83]);    MULADD(at[49], at[82]);    MULADD(at[50], at[81]);    MULADD(at[51], at[80]);    MULADD(at[52], at[79]);    MULADD(at[53], at[78]);    MULADD(at[54], at[77]);    MULADD(at[55], at[76]);    MULADD(at[56], at[75]);    MULADD(at[57], at[74]);    MULADD(at[58], at[73]);    MULADD(at[59], at[72]);    MULADD(at[60], at[71]);    MULADD(at[61], at[70]);    MULADD(at[62], at[69]);    MULADD(at[63], at[68]);
                     +   COMBA_STORE(C->dp[67]);
                     +   /* 68 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[5], at[127]);    MULADD(at[6], at[126]);    MULADD(at[7], at[125]);    MULADD(at[8], at[124]);    MULADD(at[9], at[123]);    MULADD(at[10], at[122]);    MULADD(at[11], at[121]);    MULADD(at[12], at[120]);    MULADD(at[13], at[119]);    MULADD(at[14], at[118]);    MULADD(at[15], at[117]);    MULADD(at[16], at[116]);    MULADD(at[17], at[115]);    MULADD(at[18], at[114]);    MULADD(at[19], at[113]);    MULADD(at[20], at[112]);    MULADD(at[21], at[111]);    MULADD(at[22], at[110]);    MULADD(at[23], at[109]);    MULADD(at[24], at[108]);    MULADD(at[25], at[107]);    MULADD(at[26], at[106]);    MULADD(at[27], at[105]);    MULADD(at[28], at[104]);    MULADD(at[29], at[103]);    MULADD(at[30], at[102]);    MULADD(at[31], at[101]);    MULADD(at[32], at[100]);    MULADD(at[33], at[99]);    MULADD(at[34], at[98]);    MULADD(at[35], at[97]);    MULADD(at[36], at[96]);    MULADD(at[37], at[95]);    MULADD(at[38], at[94]);    MULADD(at[39], at[93]);    MULADD(at[40], at[92]);    MULADD(at[41], at[91]);    MULADD(at[42], at[90]);    MULADD(at[43], at[89]);    MULADD(at[44], at[88]);    MULADD(at[45], at[87]);    MULADD(at[46], at[86]);    MULADD(at[47], at[85]);    MULADD(at[48], at[84]);    MULADD(at[49], at[83]);    MULADD(at[50], at[82]);    MULADD(at[51], at[81]);    MULADD(at[52], at[80]);    MULADD(at[53], at[79]);    MULADD(at[54], at[78]);    MULADD(at[55], at[77]);    MULADD(at[56], at[76]);    MULADD(at[57], at[75]);    MULADD(at[58], at[74]);    MULADD(at[59], at[73]);    MULADD(at[60], at[72]);    MULADD(at[61], at[71]);    MULADD(at[62], at[70]);    MULADD(at[63], at[69]);
                     +   COMBA_STORE(C->dp[68]);
                     +   /* 69 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[6], at[127]);    MULADD(at[7], at[126]);    MULADD(at[8], at[125]);    MULADD(at[9], at[124]);    MULADD(at[10], at[123]);    MULADD(at[11], at[122]);    MULADD(at[12], at[121]);    MULADD(at[13], at[120]);    MULADD(at[14], at[119]);    MULADD(at[15], at[118]);    MULADD(at[16], at[117]);    MULADD(at[17], at[116]);    MULADD(at[18], at[115]);    MULADD(at[19], at[114]);    MULADD(at[20], at[113]);    MULADD(at[21], at[112]);    MULADD(at[22], at[111]);    MULADD(at[23], at[110]);    MULADD(at[24], at[109]);    MULADD(at[25], at[108]);    MULADD(at[26], at[107]);    MULADD(at[27], at[106]);    MULADD(at[28], at[105]);    MULADD(at[29], at[104]);    MULADD(at[30], at[103]);    MULADD(at[31], at[102]);    MULADD(at[32], at[101]);    MULADD(at[33], at[100]);    MULADD(at[34], at[99]);    MULADD(at[35], at[98]);    MULADD(at[36], at[97]);    MULADD(at[37], at[96]);    MULADD(at[38], at[95]);    MULADD(at[39], at[94]);    MULADD(at[40], at[93]);    MULADD(at[41], at[92]);    MULADD(at[42], at[91]);    MULADD(at[43], at[90]);    MULADD(at[44], at[89]);    MULADD(at[45], at[88]);    MULADD(at[46], at[87]);    MULADD(at[47], at[86]);    MULADD(at[48], at[85]);    MULADD(at[49], at[84]);    MULADD(at[50], at[83]);    MULADD(at[51], at[82]);    MULADD(at[52], at[81]);    MULADD(at[53], at[80]);    MULADD(at[54], at[79]);    MULADD(at[55], at[78]);    MULADD(at[56], at[77]);    MULADD(at[57], at[76]);    MULADD(at[58], at[75]);    MULADD(at[59], at[74]);    MULADD(at[60], at[73]);    MULADD(at[61], at[72]);    MULADD(at[62], at[71]);    MULADD(at[63], at[70]);
                     +   COMBA_STORE(C->dp[69]);
                     +   /* 70 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[7], at[127]);    MULADD(at[8], at[126]);    MULADD(at[9], at[125]);    MULADD(at[10], at[124]);    MULADD(at[11], at[123]);    MULADD(at[12], at[122]);    MULADD(at[13], at[121]);    MULADD(at[14], at[120]);    MULADD(at[15], at[119]);    MULADD(at[16], at[118]);    MULADD(at[17], at[117]);    MULADD(at[18], at[116]);    MULADD(at[19], at[115]);    MULADD(at[20], at[114]);    MULADD(at[21], at[113]);    MULADD(at[22], at[112]);    MULADD(at[23], at[111]);    MULADD(at[24], at[110]);    MULADD(at[25], at[109]);    MULADD(at[26], at[108]);    MULADD(at[27], at[107]);    MULADD(at[28], at[106]);    MULADD(at[29], at[105]);    MULADD(at[30], at[104]);    MULADD(at[31], at[103]);    MULADD(at[32], at[102]);    MULADD(at[33], at[101]);    MULADD(at[34], at[100]);    MULADD(at[35], at[99]);    MULADD(at[36], at[98]);    MULADD(at[37], at[97]);    MULADD(at[38], at[96]);    MULADD(at[39], at[95]);    MULADD(at[40], at[94]);    MULADD(at[41], at[93]);    MULADD(at[42], at[92]);    MULADD(at[43], at[91]);    MULADD(at[44], at[90]);    MULADD(at[45], at[89]);    MULADD(at[46], at[88]);    MULADD(at[47], at[87]);    MULADD(at[48], at[86]);    MULADD(at[49], at[85]);    MULADD(at[50], at[84]);    MULADD(at[51], at[83]);    MULADD(at[52], at[82]);    MULADD(at[53], at[81]);    MULADD(at[54], at[80]);    MULADD(at[55], at[79]);    MULADD(at[56], at[78]);    MULADD(at[57], at[77]);    MULADD(at[58], at[76]);    MULADD(at[59], at[75]);    MULADD(at[60], at[74]);    MULADD(at[61], at[73]);    MULADD(at[62], at[72]);    MULADD(at[63], at[71]);
                     +   COMBA_STORE(C->dp[70]);
                     +   /* 71 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[8], at[127]);    MULADD(at[9], at[126]);    MULADD(at[10], at[125]);    MULADD(at[11], at[124]);    MULADD(at[12], at[123]);    MULADD(at[13], at[122]);    MULADD(at[14], at[121]);    MULADD(at[15], at[120]);    MULADD(at[16], at[119]);    MULADD(at[17], at[118]);    MULADD(at[18], at[117]);    MULADD(at[19], at[116]);    MULADD(at[20], at[115]);    MULADD(at[21], at[114]);    MULADD(at[22], at[113]);    MULADD(at[23], at[112]);    MULADD(at[24], at[111]);    MULADD(at[25], at[110]);    MULADD(at[26], at[109]);    MULADD(at[27], at[108]);    MULADD(at[28], at[107]);    MULADD(at[29], at[106]);    MULADD(at[30], at[105]);    MULADD(at[31], at[104]);    MULADD(at[32], at[103]);    MULADD(at[33], at[102]);    MULADD(at[34], at[101]);    MULADD(at[35], at[100]);    MULADD(at[36], at[99]);    MULADD(at[37], at[98]);    MULADD(at[38], at[97]);    MULADD(at[39], at[96]);    MULADD(at[40], at[95]);    MULADD(at[41], at[94]);    MULADD(at[42], at[93]);    MULADD(at[43], at[92]);    MULADD(at[44], at[91]);    MULADD(at[45], at[90]);    MULADD(at[46], at[89]);    MULADD(at[47], at[88]);    MULADD(at[48], at[87]);    MULADD(at[49], at[86]);    MULADD(at[50], at[85]);    MULADD(at[51], at[84]);    MULADD(at[52], at[83]);    MULADD(at[53], at[82]);    MULADD(at[54], at[81]);    MULADD(at[55], at[80]);    MULADD(at[56], at[79]);    MULADD(at[57], at[78]);    MULADD(at[58], at[77]);    MULADD(at[59], at[76]);    MULADD(at[60], at[75]);    MULADD(at[61], at[74]);    MULADD(at[62], at[73]);    MULADD(at[63], at[72]);
                     +   COMBA_STORE(C->dp[71]);
                     +   /* 72 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[9], at[127]);    MULADD(at[10], at[126]);    MULADD(at[11], at[125]);    MULADD(at[12], at[124]);    MULADD(at[13], at[123]);    MULADD(at[14], at[122]);    MULADD(at[15], at[121]);    MULADD(at[16], at[120]);    MULADD(at[17], at[119]);    MULADD(at[18], at[118]);    MULADD(at[19], at[117]);    MULADD(at[20], at[116]);    MULADD(at[21], at[115]);    MULADD(at[22], at[114]);    MULADD(at[23], at[113]);    MULADD(at[24], at[112]);    MULADD(at[25], at[111]);    MULADD(at[26], at[110]);    MULADD(at[27], at[109]);    MULADD(at[28], at[108]);    MULADD(at[29], at[107]);    MULADD(at[30], at[106]);    MULADD(at[31], at[105]);    MULADD(at[32], at[104]);    MULADD(at[33], at[103]);    MULADD(at[34], at[102]);    MULADD(at[35], at[101]);    MULADD(at[36], at[100]);    MULADD(at[37], at[99]);    MULADD(at[38], at[98]);    MULADD(at[39], at[97]);    MULADD(at[40], at[96]);    MULADD(at[41], at[95]);    MULADD(at[42], at[94]);    MULADD(at[43], at[93]);    MULADD(at[44], at[92]);    MULADD(at[45], at[91]);    MULADD(at[46], at[90]);    MULADD(at[47], at[89]);    MULADD(at[48], at[88]);    MULADD(at[49], at[87]);    MULADD(at[50], at[86]);    MULADD(at[51], at[85]);    MULADD(at[52], at[84]);    MULADD(at[53], at[83]);    MULADD(at[54], at[82]);    MULADD(at[55], at[81]);    MULADD(at[56], at[80]);    MULADD(at[57], at[79]);    MULADD(at[58], at[78]);    MULADD(at[59], at[77]);    MULADD(at[60], at[76]);    MULADD(at[61], at[75]);    MULADD(at[62], at[74]);    MULADD(at[63], at[73]);
                     +   COMBA_STORE(C->dp[72]);
                     +   /* 73 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[10], at[127]);    MULADD(at[11], at[126]);    MULADD(at[12], at[125]);    MULADD(at[13], at[124]);    MULADD(at[14], at[123]);    MULADD(at[15], at[122]);    MULADD(at[16], at[121]);    MULADD(at[17], at[120]);    MULADD(at[18], at[119]);    MULADD(at[19], at[118]);    MULADD(at[20], at[117]);    MULADD(at[21], at[116]);    MULADD(at[22], at[115]);    MULADD(at[23], at[114]);    MULADD(at[24], at[113]);    MULADD(at[25], at[112]);    MULADD(at[26], at[111]);    MULADD(at[27], at[110]);    MULADD(at[28], at[109]);    MULADD(at[29], at[108]);    MULADD(at[30], at[107]);    MULADD(at[31], at[106]);    MULADD(at[32], at[105]);    MULADD(at[33], at[104]);    MULADD(at[34], at[103]);    MULADD(at[35], at[102]);    MULADD(at[36], at[101]);    MULADD(at[37], at[100]);    MULADD(at[38], at[99]);    MULADD(at[39], at[98]);    MULADD(at[40], at[97]);    MULADD(at[41], at[96]);    MULADD(at[42], at[95]);    MULADD(at[43], at[94]);    MULADD(at[44], at[93]);    MULADD(at[45], at[92]);    MULADD(at[46], at[91]);    MULADD(at[47], at[90]);    MULADD(at[48], at[89]);    MULADD(at[49], at[88]);    MULADD(at[50], at[87]);    MULADD(at[51], at[86]);    MULADD(at[52], at[85]);    MULADD(at[53], at[84]);    MULADD(at[54], at[83]);    MULADD(at[55], at[82]);    MULADD(at[56], at[81]);    MULADD(at[57], at[80]);    MULADD(at[58], at[79]);    MULADD(at[59], at[78]);    MULADD(at[60], at[77]);    MULADD(at[61], at[76]);    MULADD(at[62], at[75]);    MULADD(at[63], at[74]);
                     +   COMBA_STORE(C->dp[73]);
                     +   /* 74 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[11], at[127]);    MULADD(at[12], at[126]);    MULADD(at[13], at[125]);    MULADD(at[14], at[124]);    MULADD(at[15], at[123]);    MULADD(at[16], at[122]);    MULADD(at[17], at[121]);    MULADD(at[18], at[120]);    MULADD(at[19], at[119]);    MULADD(at[20], at[118]);    MULADD(at[21], at[117]);    MULADD(at[22], at[116]);    MULADD(at[23], at[115]);    MULADD(at[24], at[114]);    MULADD(at[25], at[113]);    MULADD(at[26], at[112]);    MULADD(at[27], at[111]);    MULADD(at[28], at[110]);    MULADD(at[29], at[109]);    MULADD(at[30], at[108]);    MULADD(at[31], at[107]);    MULADD(at[32], at[106]);    MULADD(at[33], at[105]);    MULADD(at[34], at[104]);    MULADD(at[35], at[103]);    MULADD(at[36], at[102]);    MULADD(at[37], at[101]);    MULADD(at[38], at[100]);    MULADD(at[39], at[99]);    MULADD(at[40], at[98]);    MULADD(at[41], at[97]);    MULADD(at[42], at[96]);    MULADD(at[43], at[95]);    MULADD(at[44], at[94]);    MULADD(at[45], at[93]);    MULADD(at[46], at[92]);    MULADD(at[47], at[91]);    MULADD(at[48], at[90]);    MULADD(at[49], at[89]);    MULADD(at[50], at[88]);    MULADD(at[51], at[87]);    MULADD(at[52], at[86]);    MULADD(at[53], at[85]);    MULADD(at[54], at[84]);    MULADD(at[55], at[83]);    MULADD(at[56], at[82]);    MULADD(at[57], at[81]);    MULADD(at[58], at[80]);    MULADD(at[59], at[79]);    MULADD(at[60], at[78]);    MULADD(at[61], at[77]);    MULADD(at[62], at[76]);    MULADD(at[63], at[75]);
                     +   COMBA_STORE(C->dp[74]);
                     +   /* 75 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[12], at[127]);    MULADD(at[13], at[126]);    MULADD(at[14], at[125]);    MULADD(at[15], at[124]);    MULADD(at[16], at[123]);    MULADD(at[17], at[122]);    MULADD(at[18], at[121]);    MULADD(at[19], at[120]);    MULADD(at[20], at[119]);    MULADD(at[21], at[118]);    MULADD(at[22], at[117]);    MULADD(at[23], at[116]);    MULADD(at[24], at[115]);    MULADD(at[25], at[114]);    MULADD(at[26], at[113]);    MULADD(at[27], at[112]);    MULADD(at[28], at[111]);    MULADD(at[29], at[110]);    MULADD(at[30], at[109]);    MULADD(at[31], at[108]);    MULADD(at[32], at[107]);    MULADD(at[33], at[106]);    MULADD(at[34], at[105]);    MULADD(at[35], at[104]);    MULADD(at[36], at[103]);    MULADD(at[37], at[102]);    MULADD(at[38], at[101]);    MULADD(at[39], at[100]);    MULADD(at[40], at[99]);    MULADD(at[41], at[98]);    MULADD(at[42], at[97]);    MULADD(at[43], at[96]);    MULADD(at[44], at[95]);    MULADD(at[45], at[94]);    MULADD(at[46], at[93]);    MULADD(at[47], at[92]);    MULADD(at[48], at[91]);    MULADD(at[49], at[90]);    MULADD(at[50], at[89]);    MULADD(at[51], at[88]);    MULADD(at[52], at[87]);    MULADD(at[53], at[86]);    MULADD(at[54], at[85]);    MULADD(at[55], at[84]);    MULADD(at[56], at[83]);    MULADD(at[57], at[82]);    MULADD(at[58], at[81]);    MULADD(at[59], at[80]);    MULADD(at[60], at[79]);    MULADD(at[61], at[78]);    MULADD(at[62], at[77]);    MULADD(at[63], at[76]);
                     +   COMBA_STORE(C->dp[75]);
                     +   /* 76 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[13], at[127]);    MULADD(at[14], at[126]);    MULADD(at[15], at[125]);    MULADD(at[16], at[124]);    MULADD(at[17], at[123]);    MULADD(at[18], at[122]);    MULADD(at[19], at[121]);    MULADD(at[20], at[120]);    MULADD(at[21], at[119]);    MULADD(at[22], at[118]);    MULADD(at[23], at[117]);    MULADD(at[24], at[116]);    MULADD(at[25], at[115]);    MULADD(at[26], at[114]);    MULADD(at[27], at[113]);    MULADD(at[28], at[112]);    MULADD(at[29], at[111]);    MULADD(at[30], at[110]);    MULADD(at[31], at[109]);    MULADD(at[32], at[108]);    MULADD(at[33], at[107]);    MULADD(at[34], at[106]);    MULADD(at[35], at[105]);    MULADD(at[36], at[104]);    MULADD(at[37], at[103]);    MULADD(at[38], at[102]);    MULADD(at[39], at[101]);    MULADD(at[40], at[100]);    MULADD(at[41], at[99]);    MULADD(at[42], at[98]);    MULADD(at[43], at[97]);    MULADD(at[44], at[96]);    MULADD(at[45], at[95]);    MULADD(at[46], at[94]);    MULADD(at[47], at[93]);    MULADD(at[48], at[92]);    MULADD(at[49], at[91]);    MULADD(at[50], at[90]);    MULADD(at[51], at[89]);    MULADD(at[52], at[88]);    MULADD(at[53], at[87]);    MULADD(at[54], at[86]);    MULADD(at[55], at[85]);    MULADD(at[56], at[84]);    MULADD(at[57], at[83]);    MULADD(at[58], at[82]);    MULADD(at[59], at[81]);    MULADD(at[60], at[80]);    MULADD(at[61], at[79]);    MULADD(at[62], at[78]);    MULADD(at[63], at[77]);
                     +   COMBA_STORE(C->dp[76]);
                     +   /* 77 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[14], at[127]);    MULADD(at[15], at[126]);    MULADD(at[16], at[125]);    MULADD(at[17], at[124]);    MULADD(at[18], at[123]);    MULADD(at[19], at[122]);    MULADD(at[20], at[121]);    MULADD(at[21], at[120]);    MULADD(at[22], at[119]);    MULADD(at[23], at[118]);    MULADD(at[24], at[117]);    MULADD(at[25], at[116]);    MULADD(at[26], at[115]);    MULADD(at[27], at[114]);    MULADD(at[28], at[113]);    MULADD(at[29], at[112]);    MULADD(at[30], at[111]);    MULADD(at[31], at[110]);    MULADD(at[32], at[109]);    MULADD(at[33], at[108]);    MULADD(at[34], at[107]);    MULADD(at[35], at[106]);    MULADD(at[36], at[105]);    MULADD(at[37], at[104]);    MULADD(at[38], at[103]);    MULADD(at[39], at[102]);    MULADD(at[40], at[101]);    MULADD(at[41], at[100]);    MULADD(at[42], at[99]);    MULADD(at[43], at[98]);    MULADD(at[44], at[97]);    MULADD(at[45], at[96]);    MULADD(at[46], at[95]);    MULADD(at[47], at[94]);    MULADD(at[48], at[93]);    MULADD(at[49], at[92]);    MULADD(at[50], at[91]);    MULADD(at[51], at[90]);    MULADD(at[52], at[89]);    MULADD(at[53], at[88]);    MULADD(at[54], at[87]);    MULADD(at[55], at[86]);    MULADD(at[56], at[85]);    MULADD(at[57], at[84]);    MULADD(at[58], at[83]);    MULADD(at[59], at[82]);    MULADD(at[60], at[81]);    MULADD(at[61], at[80]);    MULADD(at[62], at[79]);    MULADD(at[63], at[78]);
                     +   COMBA_STORE(C->dp[77]);
                     +   /* 78 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[15], at[127]);    MULADD(at[16], at[126]);    MULADD(at[17], at[125]);    MULADD(at[18], at[124]);    MULADD(at[19], at[123]);    MULADD(at[20], at[122]);    MULADD(at[21], at[121]);    MULADD(at[22], at[120]);    MULADD(at[23], at[119]);    MULADD(at[24], at[118]);    MULADD(at[25], at[117]);    MULADD(at[26], at[116]);    MULADD(at[27], at[115]);    MULADD(at[28], at[114]);    MULADD(at[29], at[113]);    MULADD(at[30], at[112]);    MULADD(at[31], at[111]);    MULADD(at[32], at[110]);    MULADD(at[33], at[109]);    MULADD(at[34], at[108]);    MULADD(at[35], at[107]);    MULADD(at[36], at[106]);    MULADD(at[37], at[105]);    MULADD(at[38], at[104]);    MULADD(at[39], at[103]);    MULADD(at[40], at[102]);    MULADD(at[41], at[101]);    MULADD(at[42], at[100]);    MULADD(at[43], at[99]);    MULADD(at[44], at[98]);    MULADD(at[45], at[97]);    MULADD(at[46], at[96]);    MULADD(at[47], at[95]);    MULADD(at[48], at[94]);    MULADD(at[49], at[93]);    MULADD(at[50], at[92]);    MULADD(at[51], at[91]);    MULADD(at[52], at[90]);    MULADD(at[53], at[89]);    MULADD(at[54], at[88]);    MULADD(at[55], at[87]);    MULADD(at[56], at[86]);    MULADD(at[57], at[85]);    MULADD(at[58], at[84]);    MULADD(at[59], at[83]);    MULADD(at[60], at[82]);    MULADD(at[61], at[81]);    MULADD(at[62], at[80]);    MULADD(at[63], at[79]);
                     +   COMBA_STORE(C->dp[78]);
                     +   /* 79 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[16], at[127]);    MULADD(at[17], at[126]);    MULADD(at[18], at[125]);    MULADD(at[19], at[124]);    MULADD(at[20], at[123]);    MULADD(at[21], at[122]);    MULADD(at[22], at[121]);    MULADD(at[23], at[120]);    MULADD(at[24], at[119]);    MULADD(at[25], at[118]);    MULADD(at[26], at[117]);    MULADD(at[27], at[116]);    MULADD(at[28], at[115]);    MULADD(at[29], at[114]);    MULADD(at[30], at[113]);    MULADD(at[31], at[112]);    MULADD(at[32], at[111]);    MULADD(at[33], at[110]);    MULADD(at[34], at[109]);    MULADD(at[35], at[108]);    MULADD(at[36], at[107]);    MULADD(at[37], at[106]);    MULADD(at[38], at[105]);    MULADD(at[39], at[104]);    MULADD(at[40], at[103]);    MULADD(at[41], at[102]);    MULADD(at[42], at[101]);    MULADD(at[43], at[100]);    MULADD(at[44], at[99]);    MULADD(at[45], at[98]);    MULADD(at[46], at[97]);    MULADD(at[47], at[96]);    MULADD(at[48], at[95]);    MULADD(at[49], at[94]);    MULADD(at[50], at[93]);    MULADD(at[51], at[92]);    MULADD(at[52], at[91]);    MULADD(at[53], at[90]);    MULADD(at[54], at[89]);    MULADD(at[55], at[88]);    MULADD(at[56], at[87]);    MULADD(at[57], at[86]);    MULADD(at[58], at[85]);    MULADD(at[59], at[84]);    MULADD(at[60], at[83]);    MULADD(at[61], at[82]);    MULADD(at[62], at[81]);    MULADD(at[63], at[80]);
                     +   COMBA_STORE(C->dp[79]);
                     +   /* 80 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[17], at[127]);    MULADD(at[18], at[126]);    MULADD(at[19], at[125]);    MULADD(at[20], at[124]);    MULADD(at[21], at[123]);    MULADD(at[22], at[122]);    MULADD(at[23], at[121]);    MULADD(at[24], at[120]);    MULADD(at[25], at[119]);    MULADD(at[26], at[118]);    MULADD(at[27], at[117]);    MULADD(at[28], at[116]);    MULADD(at[29], at[115]);    MULADD(at[30], at[114]);    MULADD(at[31], at[113]);    MULADD(at[32], at[112]);    MULADD(at[33], at[111]);    MULADD(at[34], at[110]);    MULADD(at[35], at[109]);    MULADD(at[36], at[108]);    MULADD(at[37], at[107]);    MULADD(at[38], at[106]);    MULADD(at[39], at[105]);    MULADD(at[40], at[104]);    MULADD(at[41], at[103]);    MULADD(at[42], at[102]);    MULADD(at[43], at[101]);    MULADD(at[44], at[100]);    MULADD(at[45], at[99]);    MULADD(at[46], at[98]);    MULADD(at[47], at[97]);    MULADD(at[48], at[96]);    MULADD(at[49], at[95]);    MULADD(at[50], at[94]);    MULADD(at[51], at[93]);    MULADD(at[52], at[92]);    MULADD(at[53], at[91]);    MULADD(at[54], at[90]);    MULADD(at[55], at[89]);    MULADD(at[56], at[88]);    MULADD(at[57], at[87]);    MULADD(at[58], at[86]);    MULADD(at[59], at[85]);    MULADD(at[60], at[84]);    MULADD(at[61], at[83]);    MULADD(at[62], at[82]);    MULADD(at[63], at[81]);
                     +   COMBA_STORE(C->dp[80]);
                     +   /* 81 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[18], at[127]);    MULADD(at[19], at[126]);    MULADD(at[20], at[125]);    MULADD(at[21], at[124]);    MULADD(at[22], at[123]);    MULADD(at[23], at[122]);    MULADD(at[24], at[121]);    MULADD(at[25], at[120]);    MULADD(at[26], at[119]);    MULADD(at[27], at[118]);    MULADD(at[28], at[117]);    MULADD(at[29], at[116]);    MULADD(at[30], at[115]);    MULADD(at[31], at[114]);    MULADD(at[32], at[113]);    MULADD(at[33], at[112]);    MULADD(at[34], at[111]);    MULADD(at[35], at[110]);    MULADD(at[36], at[109]);    MULADD(at[37], at[108]);    MULADD(at[38], at[107]);    MULADD(at[39], at[106]);    MULADD(at[40], at[105]);    MULADD(at[41], at[104]);    MULADD(at[42], at[103]);    MULADD(at[43], at[102]);    MULADD(at[44], at[101]);    MULADD(at[45], at[100]);    MULADD(at[46], at[99]);    MULADD(at[47], at[98]);    MULADD(at[48], at[97]);    MULADD(at[49], at[96]);    MULADD(at[50], at[95]);    MULADD(at[51], at[94]);    MULADD(at[52], at[93]);    MULADD(at[53], at[92]);    MULADD(at[54], at[91]);    MULADD(at[55], at[90]);    MULADD(at[56], at[89]);    MULADD(at[57], at[88]);    MULADD(at[58], at[87]);    MULADD(at[59], at[86]);    MULADD(at[60], at[85]);    MULADD(at[61], at[84]);    MULADD(at[62], at[83]);    MULADD(at[63], at[82]);
                     +   COMBA_STORE(C->dp[81]);
                     +   /* 82 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[19], at[127]);    MULADD(at[20], at[126]);    MULADD(at[21], at[125]);    MULADD(at[22], at[124]);    MULADD(at[23], at[123]);    MULADD(at[24], at[122]);    MULADD(at[25], at[121]);    MULADD(at[26], at[120]);    MULADD(at[27], at[119]);    MULADD(at[28], at[118]);    MULADD(at[29], at[117]);    MULADD(at[30], at[116]);    MULADD(at[31], at[115]);    MULADD(at[32], at[114]);    MULADD(at[33], at[113]);    MULADD(at[34], at[112]);    MULADD(at[35], at[111]);    MULADD(at[36], at[110]);    MULADD(at[37], at[109]);    MULADD(at[38], at[108]);    MULADD(at[39], at[107]);    MULADD(at[40], at[106]);    MULADD(at[41], at[105]);    MULADD(at[42], at[104]);    MULADD(at[43], at[103]);    MULADD(at[44], at[102]);    MULADD(at[45], at[101]);    MULADD(at[46], at[100]);    MULADD(at[47], at[99]);    MULADD(at[48], at[98]);    MULADD(at[49], at[97]);    MULADD(at[50], at[96]);    MULADD(at[51], at[95]);    MULADD(at[52], at[94]);    MULADD(at[53], at[93]);    MULADD(at[54], at[92]);    MULADD(at[55], at[91]);    MULADD(at[56], at[90]);    MULADD(at[57], at[89]);    MULADD(at[58], at[88]);    MULADD(at[59], at[87]);    MULADD(at[60], at[86]);    MULADD(at[61], at[85]);    MULADD(at[62], at[84]);    MULADD(at[63], at[83]);
                     +   COMBA_STORE(C->dp[82]);
                     +   /* 83 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[20], at[127]);    MULADD(at[21], at[126]);    MULADD(at[22], at[125]);    MULADD(at[23], at[124]);    MULADD(at[24], at[123]);    MULADD(at[25], at[122]);    MULADD(at[26], at[121]);    MULADD(at[27], at[120]);    MULADD(at[28], at[119]);    MULADD(at[29], at[118]);    MULADD(at[30], at[117]);    MULADD(at[31], at[116]);    MULADD(at[32], at[115]);    MULADD(at[33], at[114]);    MULADD(at[34], at[113]);    MULADD(at[35], at[112]);    MULADD(at[36], at[111]);    MULADD(at[37], at[110]);    MULADD(at[38], at[109]);    MULADD(at[39], at[108]);    MULADD(at[40], at[107]);    MULADD(at[41], at[106]);    MULADD(at[42], at[105]);    MULADD(at[43], at[104]);    MULADD(at[44], at[103]);    MULADD(at[45], at[102]);    MULADD(at[46], at[101]);    MULADD(at[47], at[100]);    MULADD(at[48], at[99]);    MULADD(at[49], at[98]);    MULADD(at[50], at[97]);    MULADD(at[51], at[96]);    MULADD(at[52], at[95]);    MULADD(at[53], at[94]);    MULADD(at[54], at[93]);    MULADD(at[55], at[92]);    MULADD(at[56], at[91]);    MULADD(at[57], at[90]);    MULADD(at[58], at[89]);    MULADD(at[59], at[88]);    MULADD(at[60], at[87]);    MULADD(at[61], at[86]);    MULADD(at[62], at[85]);    MULADD(at[63], at[84]);
                     +   COMBA_STORE(C->dp[83]);
                     +   /* 84 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[21], at[127]);    MULADD(at[22], at[126]);    MULADD(at[23], at[125]);    MULADD(at[24], at[124]);    MULADD(at[25], at[123]);    MULADD(at[26], at[122]);    MULADD(at[27], at[121]);    MULADD(at[28], at[120]);    MULADD(at[29], at[119]);    MULADD(at[30], at[118]);    MULADD(at[31], at[117]);    MULADD(at[32], at[116]);    MULADD(at[33], at[115]);    MULADD(at[34], at[114]);    MULADD(at[35], at[113]);    MULADD(at[36], at[112]);    MULADD(at[37], at[111]);    MULADD(at[38], at[110]);    MULADD(at[39], at[109]);    MULADD(at[40], at[108]);    MULADD(at[41], at[107]);    MULADD(at[42], at[106]);    MULADD(at[43], at[105]);    MULADD(at[44], at[104]);    MULADD(at[45], at[103]);    MULADD(at[46], at[102]);    MULADD(at[47], at[101]);    MULADD(at[48], at[100]);    MULADD(at[49], at[99]);    MULADD(at[50], at[98]);    MULADD(at[51], at[97]);    MULADD(at[52], at[96]);    MULADD(at[53], at[95]);    MULADD(at[54], at[94]);    MULADD(at[55], at[93]);    MULADD(at[56], at[92]);    MULADD(at[57], at[91]);    MULADD(at[58], at[90]);    MULADD(at[59], at[89]);    MULADD(at[60], at[88]);    MULADD(at[61], at[87]);    MULADD(at[62], at[86]);    MULADD(at[63], at[85]);
                     +   COMBA_STORE(C->dp[84]);
                     +   /* 85 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[22], at[127]);    MULADD(at[23], at[126]);    MULADD(at[24], at[125]);    MULADD(at[25], at[124]);    MULADD(at[26], at[123]);    MULADD(at[27], at[122]);    MULADD(at[28], at[121]);    MULADD(at[29], at[120]);    MULADD(at[30], at[119]);    MULADD(at[31], at[118]);    MULADD(at[32], at[117]);    MULADD(at[33], at[116]);    MULADD(at[34], at[115]);    MULADD(at[35], at[114]);    MULADD(at[36], at[113]);    MULADD(at[37], at[112]);    MULADD(at[38], at[111]);    MULADD(at[39], at[110]);    MULADD(at[40], at[109]);    MULADD(at[41], at[108]);    MULADD(at[42], at[107]);    MULADD(at[43], at[106]);    MULADD(at[44], at[105]);    MULADD(at[45], at[104]);    MULADD(at[46], at[103]);    MULADD(at[47], at[102]);    MULADD(at[48], at[101]);    MULADD(at[49], at[100]);    MULADD(at[50], at[99]);    MULADD(at[51], at[98]);    MULADD(at[52], at[97]);    MULADD(at[53], at[96]);    MULADD(at[54], at[95]);    MULADD(at[55], at[94]);    MULADD(at[56], at[93]);    MULADD(at[57], at[92]);    MULADD(at[58], at[91]);    MULADD(at[59], at[90]);    MULADD(at[60], at[89]);    MULADD(at[61], at[88]);    MULADD(at[62], at[87]);    MULADD(at[63], at[86]);
                     +   COMBA_STORE(C->dp[85]);
                     +   /* 86 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[23], at[127]);    MULADD(at[24], at[126]);    MULADD(at[25], at[125]);    MULADD(at[26], at[124]);    MULADD(at[27], at[123]);    MULADD(at[28], at[122]);    MULADD(at[29], at[121]);    MULADD(at[30], at[120]);    MULADD(at[31], at[119]);    MULADD(at[32], at[118]);    MULADD(at[33], at[117]);    MULADD(at[34], at[116]);    MULADD(at[35], at[115]);    MULADD(at[36], at[114]);    MULADD(at[37], at[113]);    MULADD(at[38], at[112]);    MULADD(at[39], at[111]);    MULADD(at[40], at[110]);    MULADD(at[41], at[109]);    MULADD(at[42], at[108]);    MULADD(at[43], at[107]);    MULADD(at[44], at[106]);    MULADD(at[45], at[105]);    MULADD(at[46], at[104]);    MULADD(at[47], at[103]);    MULADD(at[48], at[102]);    MULADD(at[49], at[101]);    MULADD(at[50], at[100]);    MULADD(at[51], at[99]);    MULADD(at[52], at[98]);    MULADD(at[53], at[97]);    MULADD(at[54], at[96]);    MULADD(at[55], at[95]);    MULADD(at[56], at[94]);    MULADD(at[57], at[93]);    MULADD(at[58], at[92]);    MULADD(at[59], at[91]);    MULADD(at[60], at[90]);    MULADD(at[61], at[89]);    MULADD(at[62], at[88]);    MULADD(at[63], at[87]);
                     +   COMBA_STORE(C->dp[86]);
                     +   /* 87 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[24], at[127]);    MULADD(at[25], at[126]);    MULADD(at[26], at[125]);    MULADD(at[27], at[124]);    MULADD(at[28], at[123]);    MULADD(at[29], at[122]);    MULADD(at[30], at[121]);    MULADD(at[31], at[120]);    MULADD(at[32], at[119]);    MULADD(at[33], at[118]);    MULADD(at[34], at[117]);    MULADD(at[35], at[116]);    MULADD(at[36], at[115]);    MULADD(at[37], at[114]);    MULADD(at[38], at[113]);    MULADD(at[39], at[112]);    MULADD(at[40], at[111]);    MULADD(at[41], at[110]);    MULADD(at[42], at[109]);    MULADD(at[43], at[108]);    MULADD(at[44], at[107]);    MULADD(at[45], at[106]);    MULADD(at[46], at[105]);    MULADD(at[47], at[104]);    MULADD(at[48], at[103]);    MULADD(at[49], at[102]);    MULADD(at[50], at[101]);    MULADD(at[51], at[100]);    MULADD(at[52], at[99]);    MULADD(at[53], at[98]);    MULADD(at[54], at[97]);    MULADD(at[55], at[96]);    MULADD(at[56], at[95]);    MULADD(at[57], at[94]);    MULADD(at[58], at[93]);    MULADD(at[59], at[92]);    MULADD(at[60], at[91]);    MULADD(at[61], at[90]);    MULADD(at[62], at[89]);    MULADD(at[63], at[88]);
                     +   COMBA_STORE(C->dp[87]);
                     +   /* 88 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[25], at[127]);    MULADD(at[26], at[126]);    MULADD(at[27], at[125]);    MULADD(at[28], at[124]);    MULADD(at[29], at[123]);    MULADD(at[30], at[122]);    MULADD(at[31], at[121]);    MULADD(at[32], at[120]);    MULADD(at[33], at[119]);    MULADD(at[34], at[118]);    MULADD(at[35], at[117]);    MULADD(at[36], at[116]);    MULADD(at[37], at[115]);    MULADD(at[38], at[114]);    MULADD(at[39], at[113]);    MULADD(at[40], at[112]);    MULADD(at[41], at[111]);    MULADD(at[42], at[110]);    MULADD(at[43], at[109]);    MULADD(at[44], at[108]);    MULADD(at[45], at[107]);    MULADD(at[46], at[106]);    MULADD(at[47], at[105]);    MULADD(at[48], at[104]);    MULADD(at[49], at[103]);    MULADD(at[50], at[102]);    MULADD(at[51], at[101]);    MULADD(at[52], at[100]);    MULADD(at[53], at[99]);    MULADD(at[54], at[98]);    MULADD(at[55], at[97]);    MULADD(at[56], at[96]);    MULADD(at[57], at[95]);    MULADD(at[58], at[94]);    MULADD(at[59], at[93]);    MULADD(at[60], at[92]);    MULADD(at[61], at[91]);    MULADD(at[62], at[90]);    MULADD(at[63], at[89]);
                     +   COMBA_STORE(C->dp[88]);
                     +   /* 89 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[26], at[127]);    MULADD(at[27], at[126]);    MULADD(at[28], at[125]);    MULADD(at[29], at[124]);    MULADD(at[30], at[123]);    MULADD(at[31], at[122]);    MULADD(at[32], at[121]);    MULADD(at[33], at[120]);    MULADD(at[34], at[119]);    MULADD(at[35], at[118]);    MULADD(at[36], at[117]);    MULADD(at[37], at[116]);    MULADD(at[38], at[115]);    MULADD(at[39], at[114]);    MULADD(at[40], at[113]);    MULADD(at[41], at[112]);    MULADD(at[42], at[111]);    MULADD(at[43], at[110]);    MULADD(at[44], at[109]);    MULADD(at[45], at[108]);    MULADD(at[46], at[107]);    MULADD(at[47], at[106]);    MULADD(at[48], at[105]);    MULADD(at[49], at[104]);    MULADD(at[50], at[103]);    MULADD(at[51], at[102]);    MULADD(at[52], at[101]);    MULADD(at[53], at[100]);    MULADD(at[54], at[99]);    MULADD(at[55], at[98]);    MULADD(at[56], at[97]);    MULADD(at[57], at[96]);    MULADD(at[58], at[95]);    MULADD(at[59], at[94]);    MULADD(at[60], at[93]);    MULADD(at[61], at[92]);    MULADD(at[62], at[91]);    MULADD(at[63], at[90]);
                     +   COMBA_STORE(C->dp[89]);
                     +   /* 90 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[27], at[127]);    MULADD(at[28], at[126]);    MULADD(at[29], at[125]);    MULADD(at[30], at[124]);    MULADD(at[31], at[123]);    MULADD(at[32], at[122]);    MULADD(at[33], at[121]);    MULADD(at[34], at[120]);    MULADD(at[35], at[119]);    MULADD(at[36], at[118]);    MULADD(at[37], at[117]);    MULADD(at[38], at[116]);    MULADD(at[39], at[115]);    MULADD(at[40], at[114]);    MULADD(at[41], at[113]);    MULADD(at[42], at[112]);    MULADD(at[43], at[111]);    MULADD(at[44], at[110]);    MULADD(at[45], at[109]);    MULADD(at[46], at[108]);    MULADD(at[47], at[107]);    MULADD(at[48], at[106]);    MULADD(at[49], at[105]);    MULADD(at[50], at[104]);    MULADD(at[51], at[103]);    MULADD(at[52], at[102]);    MULADD(at[53], at[101]);    MULADD(at[54], at[100]);    MULADD(at[55], at[99]);    MULADD(at[56], at[98]);    MULADD(at[57], at[97]);    MULADD(at[58], at[96]);    MULADD(at[59], at[95]);    MULADD(at[60], at[94]);    MULADD(at[61], at[93]);    MULADD(at[62], at[92]);    MULADD(at[63], at[91]);
                     +   COMBA_STORE(C->dp[90]);
                     +   /* 91 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[28], at[127]);    MULADD(at[29], at[126]);    MULADD(at[30], at[125]);    MULADD(at[31], at[124]);    MULADD(at[32], at[123]);    MULADD(at[33], at[122]);    MULADD(at[34], at[121]);    MULADD(at[35], at[120]);    MULADD(at[36], at[119]);    MULADD(at[37], at[118]);    MULADD(at[38], at[117]);    MULADD(at[39], at[116]);    MULADD(at[40], at[115]);    MULADD(at[41], at[114]);    MULADD(at[42], at[113]);    MULADD(at[43], at[112]);    MULADD(at[44], at[111]);    MULADD(at[45], at[110]);    MULADD(at[46], at[109]);    MULADD(at[47], at[108]);    MULADD(at[48], at[107]);    MULADD(at[49], at[106]);    MULADD(at[50], at[105]);    MULADD(at[51], at[104]);    MULADD(at[52], at[103]);    MULADD(at[53], at[102]);    MULADD(at[54], at[101]);    MULADD(at[55], at[100]);    MULADD(at[56], at[99]);    MULADD(at[57], at[98]);    MULADD(at[58], at[97]);    MULADD(at[59], at[96]);    MULADD(at[60], at[95]);    MULADD(at[61], at[94]);    MULADD(at[62], at[93]);    MULADD(at[63], at[92]);
                     +   COMBA_STORE(C->dp[91]);
                     +   /* 92 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[29], at[127]);    MULADD(at[30], at[126]);    MULADD(at[31], at[125]);    MULADD(at[32], at[124]);    MULADD(at[33], at[123]);    MULADD(at[34], at[122]);    MULADD(at[35], at[121]);    MULADD(at[36], at[120]);    MULADD(at[37], at[119]);    MULADD(at[38], at[118]);    MULADD(at[39], at[117]);    MULADD(at[40], at[116]);    MULADD(at[41], at[115]);    MULADD(at[42], at[114]);    MULADD(at[43], at[113]);    MULADD(at[44], at[112]);    MULADD(at[45], at[111]);    MULADD(at[46], at[110]);    MULADD(at[47], at[109]);    MULADD(at[48], at[108]);    MULADD(at[49], at[107]);    MULADD(at[50], at[106]);    MULADD(at[51], at[105]);    MULADD(at[52], at[104]);    MULADD(at[53], at[103]);    MULADD(at[54], at[102]);    MULADD(at[55], at[101]);    MULADD(at[56], at[100]);    MULADD(at[57], at[99]);    MULADD(at[58], at[98]);    MULADD(at[59], at[97]);    MULADD(at[60], at[96]);    MULADD(at[61], at[95]);    MULADD(at[62], at[94]);    MULADD(at[63], at[93]);
                     +   COMBA_STORE(C->dp[92]);
                     +   /* 93 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[30], at[127]);    MULADD(at[31], at[126]);    MULADD(at[32], at[125]);    MULADD(at[33], at[124]);    MULADD(at[34], at[123]);    MULADD(at[35], at[122]);    MULADD(at[36], at[121]);    MULADD(at[37], at[120]);    MULADD(at[38], at[119]);    MULADD(at[39], at[118]);    MULADD(at[40], at[117]);    MULADD(at[41], at[116]);    MULADD(at[42], at[115]);    MULADD(at[43], at[114]);    MULADD(at[44], at[113]);    MULADD(at[45], at[112]);    MULADD(at[46], at[111]);    MULADD(at[47], at[110]);    MULADD(at[48], at[109]);    MULADD(at[49], at[108]);    MULADD(at[50], at[107]);    MULADD(at[51], at[106]);    MULADD(at[52], at[105]);    MULADD(at[53], at[104]);    MULADD(at[54], at[103]);    MULADD(at[55], at[102]);    MULADD(at[56], at[101]);    MULADD(at[57], at[100]);    MULADD(at[58], at[99]);    MULADD(at[59], at[98]);    MULADD(at[60], at[97]);    MULADD(at[61], at[96]);    MULADD(at[62], at[95]);    MULADD(at[63], at[94]);
                     +   COMBA_STORE(C->dp[93]);
                     +   /* 94 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[31], at[127]);    MULADD(at[32], at[126]);    MULADD(at[33], at[125]);    MULADD(at[34], at[124]);    MULADD(at[35], at[123]);    MULADD(at[36], at[122]);    MULADD(at[37], at[121]);    MULADD(at[38], at[120]);    MULADD(at[39], at[119]);    MULADD(at[40], at[118]);    MULADD(at[41], at[117]);    MULADD(at[42], at[116]);    MULADD(at[43], at[115]);    MULADD(at[44], at[114]);    MULADD(at[45], at[113]);    MULADD(at[46], at[112]);    MULADD(at[47], at[111]);    MULADD(at[48], at[110]);    MULADD(at[49], at[109]);    MULADD(at[50], at[108]);    MULADD(at[51], at[107]);    MULADD(at[52], at[106]);    MULADD(at[53], at[105]);    MULADD(at[54], at[104]);    MULADD(at[55], at[103]);    MULADD(at[56], at[102]);    MULADD(at[57], at[101]);    MULADD(at[58], at[100]);    MULADD(at[59], at[99]);    MULADD(at[60], at[98]);    MULADD(at[61], at[97]);    MULADD(at[62], at[96]);    MULADD(at[63], at[95]);
                     +   COMBA_STORE(C->dp[94]);
                     +   /* 95 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[32], at[127]);    MULADD(at[33], at[126]);    MULADD(at[34], at[125]);    MULADD(at[35], at[124]);    MULADD(at[36], at[123]);    MULADD(at[37], at[122]);    MULADD(at[38], at[121]);    MULADD(at[39], at[120]);    MULADD(at[40], at[119]);    MULADD(at[41], at[118]);    MULADD(at[42], at[117]);    MULADD(at[43], at[116]);    MULADD(at[44], at[115]);    MULADD(at[45], at[114]);    MULADD(at[46], at[113]);    MULADD(at[47], at[112]);    MULADD(at[48], at[111]);    MULADD(at[49], at[110]);    MULADD(at[50], at[109]);    MULADD(at[51], at[108]);    MULADD(at[52], at[107]);    MULADD(at[53], at[106]);    MULADD(at[54], at[105]);    MULADD(at[55], at[104]);    MULADD(at[56], at[103]);    MULADD(at[57], at[102]);    MULADD(at[58], at[101]);    MULADD(at[59], at[100]);    MULADD(at[60], at[99]);    MULADD(at[61], at[98]);    MULADD(at[62], at[97]);    MULADD(at[63], at[96]);
                     +   COMBA_STORE(C->dp[95]);
                     +   /* 96 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[33], at[127]);    MULADD(at[34], at[126]);    MULADD(at[35], at[125]);    MULADD(at[36], at[124]);    MULADD(at[37], at[123]);    MULADD(at[38], at[122]);    MULADD(at[39], at[121]);    MULADD(at[40], at[120]);    MULADD(at[41], at[119]);    MULADD(at[42], at[118]);    MULADD(at[43], at[117]);    MULADD(at[44], at[116]);    MULADD(at[45], at[115]);    MULADD(at[46], at[114]);    MULADD(at[47], at[113]);    MULADD(at[48], at[112]);    MULADD(at[49], at[111]);    MULADD(at[50], at[110]);    MULADD(at[51], at[109]);    MULADD(at[52], at[108]);    MULADD(at[53], at[107]);    MULADD(at[54], at[106]);    MULADD(at[55], at[105]);    MULADD(at[56], at[104]);    MULADD(at[57], at[103]);    MULADD(at[58], at[102]);    MULADD(at[59], at[101]);    MULADD(at[60], at[100]);    MULADD(at[61], at[99]);    MULADD(at[62], at[98]);    MULADD(at[63], at[97]);
                     +   COMBA_STORE(C->dp[96]);
                     +   /* 97 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[34], at[127]);    MULADD(at[35], at[126]);    MULADD(at[36], at[125]);    MULADD(at[37], at[124]);    MULADD(at[38], at[123]);    MULADD(at[39], at[122]);    MULADD(at[40], at[121]);    MULADD(at[41], at[120]);    MULADD(at[42], at[119]);    MULADD(at[43], at[118]);    MULADD(at[44], at[117]);    MULADD(at[45], at[116]);    MULADD(at[46], at[115]);    MULADD(at[47], at[114]);    MULADD(at[48], at[113]);    MULADD(at[49], at[112]);    MULADD(at[50], at[111]);    MULADD(at[51], at[110]);    MULADD(at[52], at[109]);    MULADD(at[53], at[108]);    MULADD(at[54], at[107]);    MULADD(at[55], at[106]);    MULADD(at[56], at[105]);    MULADD(at[57], at[104]);    MULADD(at[58], at[103]);    MULADD(at[59], at[102]);    MULADD(at[60], at[101]);    MULADD(at[61], at[100]);    MULADD(at[62], at[99]);    MULADD(at[63], at[98]);
                     +   COMBA_STORE(C->dp[97]);
                     +   /* 98 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[35], at[127]);    MULADD(at[36], at[126]);    MULADD(at[37], at[125]);    MULADD(at[38], at[124]);    MULADD(at[39], at[123]);    MULADD(at[40], at[122]);    MULADD(at[41], at[121]);    MULADD(at[42], at[120]);    MULADD(at[43], at[119]);    MULADD(at[44], at[118]);    MULADD(at[45], at[117]);    MULADD(at[46], at[116]);    MULADD(at[47], at[115]);    MULADD(at[48], at[114]);    MULADD(at[49], at[113]);    MULADD(at[50], at[112]);    MULADD(at[51], at[111]);    MULADD(at[52], at[110]);    MULADD(at[53], at[109]);    MULADD(at[54], at[108]);    MULADD(at[55], at[107]);    MULADD(at[56], at[106]);    MULADD(at[57], at[105]);    MULADD(at[58], at[104]);    MULADD(at[59], at[103]);    MULADD(at[60], at[102]);    MULADD(at[61], at[101]);    MULADD(at[62], at[100]);    MULADD(at[63], at[99]);
                     +   COMBA_STORE(C->dp[98]);
                     +   /* 99 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[36], at[127]);    MULADD(at[37], at[126]);    MULADD(at[38], at[125]);    MULADD(at[39], at[124]);    MULADD(at[40], at[123]);    MULADD(at[41], at[122]);    MULADD(at[42], at[121]);    MULADD(at[43], at[120]);    MULADD(at[44], at[119]);    MULADD(at[45], at[118]);    MULADD(at[46], at[117]);    MULADD(at[47], at[116]);    MULADD(at[48], at[115]);    MULADD(at[49], at[114]);    MULADD(at[50], at[113]);    MULADD(at[51], at[112]);    MULADD(at[52], at[111]);    MULADD(at[53], at[110]);    MULADD(at[54], at[109]);    MULADD(at[55], at[108]);    MULADD(at[56], at[107]);    MULADD(at[57], at[106]);    MULADD(at[58], at[105]);    MULADD(at[59], at[104]);    MULADD(at[60], at[103]);    MULADD(at[61], at[102]);    MULADD(at[62], at[101]);    MULADD(at[63], at[100]);
                     +   COMBA_STORE(C->dp[99]);
                     +   /* 100 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[37], at[127]);    MULADD(at[38], at[126]);    MULADD(at[39], at[125]);    MULADD(at[40], at[124]);    MULADD(at[41], at[123]);    MULADD(at[42], at[122]);    MULADD(at[43], at[121]);    MULADD(at[44], at[120]);    MULADD(at[45], at[119]);    MULADD(at[46], at[118]);    MULADD(at[47], at[117]);    MULADD(at[48], at[116]);    MULADD(at[49], at[115]);    MULADD(at[50], at[114]);    MULADD(at[51], at[113]);    MULADD(at[52], at[112]);    MULADD(at[53], at[111]);    MULADD(at[54], at[110]);    MULADD(at[55], at[109]);    MULADD(at[56], at[108]);    MULADD(at[57], at[107]);    MULADD(at[58], at[106]);    MULADD(at[59], at[105]);    MULADD(at[60], at[104]);    MULADD(at[61], at[103]);    MULADD(at[62], at[102]);    MULADD(at[63], at[101]);
                     +   COMBA_STORE(C->dp[100]);
                     +   /* 101 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[38], at[127]);    MULADD(at[39], at[126]);    MULADD(at[40], at[125]);    MULADD(at[41], at[124]);    MULADD(at[42], at[123]);    MULADD(at[43], at[122]);    MULADD(at[44], at[121]);    MULADD(at[45], at[120]);    MULADD(at[46], at[119]);    MULADD(at[47], at[118]);    MULADD(at[48], at[117]);    MULADD(at[49], at[116]);    MULADD(at[50], at[115]);    MULADD(at[51], at[114]);    MULADD(at[52], at[113]);    MULADD(at[53], at[112]);    MULADD(at[54], at[111]);    MULADD(at[55], at[110]);    MULADD(at[56], at[109]);    MULADD(at[57], at[108]);    MULADD(at[58], at[107]);    MULADD(at[59], at[106]);    MULADD(at[60], at[105]);    MULADD(at[61], at[104]);    MULADD(at[62], at[103]);    MULADD(at[63], at[102]);
                     +   COMBA_STORE(C->dp[101]);
                     +   /* 102 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[39], at[127]);    MULADD(at[40], at[126]);    MULADD(at[41], at[125]);    MULADD(at[42], at[124]);    MULADD(at[43], at[123]);    MULADD(at[44], at[122]);    MULADD(at[45], at[121]);    MULADD(at[46], at[120]);    MULADD(at[47], at[119]);    MULADD(at[48], at[118]);    MULADD(at[49], at[117]);    MULADD(at[50], at[116]);    MULADD(at[51], at[115]);    MULADD(at[52], at[114]);    MULADD(at[53], at[113]);    MULADD(at[54], at[112]);    MULADD(at[55], at[111]);    MULADD(at[56], at[110]);    MULADD(at[57], at[109]);    MULADD(at[58], at[108]);    MULADD(at[59], at[107]);    MULADD(at[60], at[106]);    MULADD(at[61], at[105]);    MULADD(at[62], at[104]);    MULADD(at[63], at[103]);
                     +   COMBA_STORE(C->dp[102]);
                     +   /* 103 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[40], at[127]);    MULADD(at[41], at[126]);    MULADD(at[42], at[125]);    MULADD(at[43], at[124]);    MULADD(at[44], at[123]);    MULADD(at[45], at[122]);    MULADD(at[46], at[121]);    MULADD(at[47], at[120]);    MULADD(at[48], at[119]);    MULADD(at[49], at[118]);    MULADD(at[50], at[117]);    MULADD(at[51], at[116]);    MULADD(at[52], at[115]);    MULADD(at[53], at[114]);    MULADD(at[54], at[113]);    MULADD(at[55], at[112]);    MULADD(at[56], at[111]);    MULADD(at[57], at[110]);    MULADD(at[58], at[109]);    MULADD(at[59], at[108]);    MULADD(at[60], at[107]);    MULADD(at[61], at[106]);    MULADD(at[62], at[105]);    MULADD(at[63], at[104]);
                     +   COMBA_STORE(C->dp[103]);
                     +   /* 104 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[41], at[127]);    MULADD(at[42], at[126]);    MULADD(at[43], at[125]);    MULADD(at[44], at[124]);    MULADD(at[45], at[123]);    MULADD(at[46], at[122]);    MULADD(at[47], at[121]);    MULADD(at[48], at[120]);    MULADD(at[49], at[119]);    MULADD(at[50], at[118]);    MULADD(at[51], at[117]);    MULADD(at[52], at[116]);    MULADD(at[53], at[115]);    MULADD(at[54], at[114]);    MULADD(at[55], at[113]);    MULADD(at[56], at[112]);    MULADD(at[57], at[111]);    MULADD(at[58], at[110]);    MULADD(at[59], at[109]);    MULADD(at[60], at[108]);    MULADD(at[61], at[107]);    MULADD(at[62], at[106]);    MULADD(at[63], at[105]);
                     +   COMBA_STORE(C->dp[104]);
                     +   /* 105 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[42], at[127]);    MULADD(at[43], at[126]);    MULADD(at[44], at[125]);    MULADD(at[45], at[124]);    MULADD(at[46], at[123]);    MULADD(at[47], at[122]);    MULADD(at[48], at[121]);    MULADD(at[49], at[120]);    MULADD(at[50], at[119]);    MULADD(at[51], at[118]);    MULADD(at[52], at[117]);    MULADD(at[53], at[116]);    MULADD(at[54], at[115]);    MULADD(at[55], at[114]);    MULADD(at[56], at[113]);    MULADD(at[57], at[112]);    MULADD(at[58], at[111]);    MULADD(at[59], at[110]);    MULADD(at[60], at[109]);    MULADD(at[61], at[108]);    MULADD(at[62], at[107]);    MULADD(at[63], at[106]);
                     +   COMBA_STORE(C->dp[105]);
                     +   /* 106 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[43], at[127]);    MULADD(at[44], at[126]);    MULADD(at[45], at[125]);    MULADD(at[46], at[124]);    MULADD(at[47], at[123]);    MULADD(at[48], at[122]);    MULADD(at[49], at[121]);    MULADD(at[50], at[120]);    MULADD(at[51], at[119]);    MULADD(at[52], at[118]);    MULADD(at[53], at[117]);    MULADD(at[54], at[116]);    MULADD(at[55], at[115]);    MULADD(at[56], at[114]);    MULADD(at[57], at[113]);    MULADD(at[58], at[112]);    MULADD(at[59], at[111]);    MULADD(at[60], at[110]);    MULADD(at[61], at[109]);    MULADD(at[62], at[108]);    MULADD(at[63], at[107]);
                     +   COMBA_STORE(C->dp[106]);
                     +   /* 107 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[44], at[127]);    MULADD(at[45], at[126]);    MULADD(at[46], at[125]);    MULADD(at[47], at[124]);    MULADD(at[48], at[123]);    MULADD(at[49], at[122]);    MULADD(at[50], at[121]);    MULADD(at[51], at[120]);    MULADD(at[52], at[119]);    MULADD(at[53], at[118]);    MULADD(at[54], at[117]);    MULADD(at[55], at[116]);    MULADD(at[56], at[115]);    MULADD(at[57], at[114]);    MULADD(at[58], at[113]);    MULADD(at[59], at[112]);    MULADD(at[60], at[111]);    MULADD(at[61], at[110]);    MULADD(at[62], at[109]);    MULADD(at[63], at[108]);
                     +   COMBA_STORE(C->dp[107]);
                     +   /* 108 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[45], at[127]);    MULADD(at[46], at[126]);    MULADD(at[47], at[125]);    MULADD(at[48], at[124]);    MULADD(at[49], at[123]);    MULADD(at[50], at[122]);    MULADD(at[51], at[121]);    MULADD(at[52], at[120]);    MULADD(at[53], at[119]);    MULADD(at[54], at[118]);    MULADD(at[55], at[117]);    MULADD(at[56], at[116]);    MULADD(at[57], at[115]);    MULADD(at[58], at[114]);    MULADD(at[59], at[113]);    MULADD(at[60], at[112]);    MULADD(at[61], at[111]);    MULADD(at[62], at[110]);    MULADD(at[63], at[109]);
                     +   COMBA_STORE(C->dp[108]);
                     +   /* 109 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[46], at[127]);    MULADD(at[47], at[126]);    MULADD(at[48], at[125]);    MULADD(at[49], at[124]);    MULADD(at[50], at[123]);    MULADD(at[51], at[122]);    MULADD(at[52], at[121]);    MULADD(at[53], at[120]);    MULADD(at[54], at[119]);    MULADD(at[55], at[118]);    MULADD(at[56], at[117]);    MULADD(at[57], at[116]);    MULADD(at[58], at[115]);    MULADD(at[59], at[114]);    MULADD(at[60], at[113]);    MULADD(at[61], at[112]);    MULADD(at[62], at[111]);    MULADD(at[63], at[110]);
                     +   COMBA_STORE(C->dp[109]);
                     +   /* 110 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[47], at[127]);    MULADD(at[48], at[126]);    MULADD(at[49], at[125]);    MULADD(at[50], at[124]);    MULADD(at[51], at[123]);    MULADD(at[52], at[122]);    MULADD(at[53], at[121]);    MULADD(at[54], at[120]);    MULADD(at[55], at[119]);    MULADD(at[56], at[118]);    MULADD(at[57], at[117]);    MULADD(at[58], at[116]);    MULADD(at[59], at[115]);    MULADD(at[60], at[114]);    MULADD(at[61], at[113]);    MULADD(at[62], at[112]);    MULADD(at[63], at[111]);
                     +   COMBA_STORE(C->dp[110]);
                     +   /* 111 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[48], at[127]);    MULADD(at[49], at[126]);    MULADD(at[50], at[125]);    MULADD(at[51], at[124]);    MULADD(at[52], at[123]);    MULADD(at[53], at[122]);    MULADD(at[54], at[121]);    MULADD(at[55], at[120]);    MULADD(at[56], at[119]);    MULADD(at[57], at[118]);    MULADD(at[58], at[117]);    MULADD(at[59], at[116]);    MULADD(at[60], at[115]);    MULADD(at[61], at[114]);    MULADD(at[62], at[113]);    MULADD(at[63], at[112]);
                     +   COMBA_STORE(C->dp[111]);
                     +   /* 112 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[49], at[127]);    MULADD(at[50], at[126]);    MULADD(at[51], at[125]);    MULADD(at[52], at[124]);    MULADD(at[53], at[123]);    MULADD(at[54], at[122]);    MULADD(at[55], at[121]);    MULADD(at[56], at[120]);    MULADD(at[57], at[119]);    MULADD(at[58], at[118]);    MULADD(at[59], at[117]);    MULADD(at[60], at[116]);    MULADD(at[61], at[115]);    MULADD(at[62], at[114]);    MULADD(at[63], at[113]);
                     +   COMBA_STORE(C->dp[112]);
                     +   /* 113 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[50], at[127]);    MULADD(at[51], at[126]);    MULADD(at[52], at[125]);    MULADD(at[53], at[124]);    MULADD(at[54], at[123]);    MULADD(at[55], at[122]);    MULADD(at[56], at[121]);    MULADD(at[57], at[120]);    MULADD(at[58], at[119]);    MULADD(at[59], at[118]);    MULADD(at[60], at[117]);    MULADD(at[61], at[116]);    MULADD(at[62], at[115]);    MULADD(at[63], at[114]);
                     +   COMBA_STORE(C->dp[113]);
                     +   /* 114 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[51], at[127]);    MULADD(at[52], at[126]);    MULADD(at[53], at[125]);    MULADD(at[54], at[124]);    MULADD(at[55], at[123]);    MULADD(at[56], at[122]);    MULADD(at[57], at[121]);    MULADD(at[58], at[120]);    MULADD(at[59], at[119]);    MULADD(at[60], at[118]);    MULADD(at[61], at[117]);    MULADD(at[62], at[116]);    MULADD(at[63], at[115]);
                     +   COMBA_STORE(C->dp[114]);
                     +   /* 115 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[52], at[127]);    MULADD(at[53], at[126]);    MULADD(at[54], at[125]);    MULADD(at[55], at[124]);    MULADD(at[56], at[123]);    MULADD(at[57], at[122]);    MULADD(at[58], at[121]);    MULADD(at[59], at[120]);    MULADD(at[60], at[119]);    MULADD(at[61], at[118]);    MULADD(at[62], at[117]);    MULADD(at[63], at[116]);
                     +   COMBA_STORE(C->dp[115]);
                     +   /* 116 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[53], at[127]);    MULADD(at[54], at[126]);    MULADD(at[55], at[125]);    MULADD(at[56], at[124]);    MULADD(at[57], at[123]);    MULADD(at[58], at[122]);    MULADD(at[59], at[121]);    MULADD(at[60], at[120]);    MULADD(at[61], at[119]);    MULADD(at[62], at[118]);    MULADD(at[63], at[117]);
                     +   COMBA_STORE(C->dp[116]);
                     +   /* 117 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[54], at[127]);    MULADD(at[55], at[126]);    MULADD(at[56], at[125]);    MULADD(at[57], at[124]);    MULADD(at[58], at[123]);    MULADD(at[59], at[122]);    MULADD(at[60], at[121]);    MULADD(at[61], at[120]);    MULADD(at[62], at[119]);    MULADD(at[63], at[118]);
                     +   COMBA_STORE(C->dp[117]);
                     +   /* 118 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[55], at[127]);    MULADD(at[56], at[126]);    MULADD(at[57], at[125]);    MULADD(at[58], at[124]);    MULADD(at[59], at[123]);    MULADD(at[60], at[122]);    MULADD(at[61], at[121]);    MULADD(at[62], at[120]);    MULADD(at[63], at[119]);
                     +   COMBA_STORE(C->dp[118]);
                     +   /* 119 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[56], at[127]);    MULADD(at[57], at[126]);    MULADD(at[58], at[125]);    MULADD(at[59], at[124]);    MULADD(at[60], at[123]);    MULADD(at[61], at[122]);    MULADD(at[62], at[121]);    MULADD(at[63], at[120]);
                     +   COMBA_STORE(C->dp[119]);
                     +   /* 120 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[57], at[127]);    MULADD(at[58], at[126]);    MULADD(at[59], at[125]);    MULADD(at[60], at[124]);    MULADD(at[61], at[123]);    MULADD(at[62], at[122]);    MULADD(at[63], at[121]);
                     +   COMBA_STORE(C->dp[120]);
                     +   /* 121 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[58], at[127]);    MULADD(at[59], at[126]);    MULADD(at[60], at[125]);    MULADD(at[61], at[124]);    MULADD(at[62], at[123]);    MULADD(at[63], at[122]);
                     +   COMBA_STORE(C->dp[121]);
                     +   /* 122 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[59], at[127]);    MULADD(at[60], at[126]);    MULADD(at[61], at[125]);    MULADD(at[62], at[124]);    MULADD(at[63], at[123]);
                     +   COMBA_STORE(C->dp[122]);
                     +   /* 123 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[60], at[127]);    MULADD(at[61], at[126]);    MULADD(at[62], at[125]);    MULADD(at[63], at[124]);
                     +   COMBA_STORE(C->dp[123]);
                     +   /* 124 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[61], at[127]);    MULADD(at[62], at[126]);    MULADD(at[63], at[125]);
                     +   COMBA_STORE(C->dp[124]);
                     +   /* 125 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[62], at[127]);    MULADD(at[63], at[126]);
                     +   COMBA_STORE(C->dp[125]);
                     +   /* 126 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[63], at[127]);
                     +   COMBA_STORE(C->dp[126]);
                     +   COMBA_STORE2(C->dp[127]);
                     +   C->used = 128;
                     +   C->sign = A->sign ^ B->sign;
                     +   fp_clamp(C);
                     +   COMBA_FINI;
                     +}
                     +#endif
                     -  /* default to not */
                     -  *result = MP_NO;
                     +/* End: fp_mul_comba_64.c */
                     -  for (ix = 0; ix < PRIME_SIZE; ix++) {
                     -    /* what is a mod LBL_prime_tab[ix] */
                     -    if ((err = mp_mod_d (a, ltm_prime_tab[ix], &res)) != MP_OKAY) {
                     -      return err;
                     -    }
                     +/* Start: fp_mul_comba_7.c */
                     +#define TFM_DEFINES
                     +#include "fp_mul_comba.c"
                     -    /* is the residue zero? */
                     -    if (res == 0) {
                     -      *result = MP_YES;
                     -      return MP_OKAY;
                     -    }
                     -  }
                     +#ifdef TFM_MUL7
                     +void fp_mul_comba7(fp_int *A, fp_int *B, fp_int *C)
                     +{
                     +   fp_digit c0, c1, c2, at[14];
+                    +
                     +   memcpy(at, A->dp, 7 * sizeof(fp_digit));
                     +   memcpy(at+7, B->dp, 7 * sizeof(fp_digit));
                     +   COMBA_START;
+                    +
                     +   COMBA_CLEAR;
                     +   /* 0 */
                     +   MULADD(at[0], at[7]);
                     +   COMBA_STORE(C->dp[0]);
                     +   /* 1 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[8]);    MULADD(at[1], at[7]);
                     +   COMBA_STORE(C->dp[1]);
                     +   /* 2 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[9]);    MULADD(at[1], at[8]);    MULADD(at[2], at[7]);
                     +   COMBA_STORE(C->dp[2]);
                     +   /* 3 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[10]);    MULADD(at[1], at[9]);    MULADD(at[2], at[8]);    MULADD(at[3], at[7]);
                     +   COMBA_STORE(C->dp[3]);
                     +   /* 4 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[11]);    MULADD(at[1], at[10]);    MULADD(at[2], at[9]);    MULADD(at[3], at[8]);    MULADD(at[4], at[7]);
                     +   COMBA_STORE(C->dp[4]);
                     +   /* 5 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[12]);    MULADD(at[1], at[11]);    MULADD(at[2], at[10]);    MULADD(at[3], at[9]);    MULADD(at[4], at[8]);    MULADD(at[5], at[7]);
                     +   COMBA_STORE(C->dp[5]);
                     +   /* 6 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[13]);    MULADD(at[1], at[12]);    MULADD(at[2], at[11]);    MULADD(at[3], at[10]);    MULADD(at[4], at[9]);    MULADD(at[5], at[8]);    MULADD(at[6], at[7]);
                     +   COMBA_STORE(C->dp[6]);
                     +   /* 7 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[1], at[13]);    MULADD(at[2], at[12]);    MULADD(at[3], at[11]);    MULADD(at[4], at[10]);    MULADD(at[5], at[9]);    MULADD(at[6], at[8]);
                     +   COMBA_STORE(C->dp[7]);
                     +   /* 8 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[2], at[13]);    MULADD(at[3], at[12]);    MULADD(at[4], at[11]);    MULADD(at[5], at[10]);    MULADD(at[6], at[9]);
                     +   COMBA_STORE(C->dp[8]);
                     +   /* 9 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[3], at[13]);    MULADD(at[4], at[12]);    MULADD(at[5], at[11]);    MULADD(at[6], at[10]);
                     +   COMBA_STORE(C->dp[9]);
                     +   /* 10 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[4], at[13]);    MULADD(at[5], at[12]);    MULADD(at[6], at[11]);
                     +   COMBA_STORE(C->dp[10]);
                     +   /* 11 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[5], at[13]);    MULADD(at[6], at[12]);
                     +   COMBA_STORE(C->dp[11]);
                     +   /* 12 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[6], at[13]);
                     +   COMBA_STORE(C->dp[12]);
                     +   COMBA_STORE2(C->dp[13]);
                     +   C->used = 14;
                     +   C->sign = A->sign ^ B->sign;
                     +   fp_clamp(C);
                     +   COMBA_FINI;
                     +}
                     +#endif
+                    +
                     +/* End: fp_mul_comba_7.c */
+                    +
                     +/* Start: fp_mul_comba_8.c */
                     +#define TFM_DEFINES
                     +#include "fp_mul_comba.c"
                     -  return MP_OKAY;
                     +#ifdef TFM_MUL8
                     +void fp_mul_comba8(fp_int *A, fp_int *B, fp_int *C)
                     +{
                     +   fp_digit c0, c1, c2, at[16];
+                    +
                     +   memcpy(at, A->dp, 8 * sizeof(fp_digit));
                     +   memcpy(at+8, B->dp, 8 * sizeof(fp_digit));
                     +   COMBA_START;
+                    +
                     +   COMBA_CLEAR;
                     +   /* 0 */
                     +   MULADD(at[0], at[8]);
                     +   COMBA_STORE(C->dp[0]);
                     +   /* 1 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[9]);    MULADD(at[1], at[8]);
                     +   COMBA_STORE(C->dp[1]);
                     +   /* 2 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[10]);    MULADD(at[1], at[9]);    MULADD(at[2], at[8]);
                     +   COMBA_STORE(C->dp[2]);
                     +   /* 3 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[11]);    MULADD(at[1], at[10]);    MULADD(at[2], at[9]);    MULADD(at[3], at[8]);
                     +   COMBA_STORE(C->dp[3]);
                     +   /* 4 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[12]);    MULADD(at[1], at[11]);    MULADD(at[2], at[10]);    MULADD(at[3], at[9]);    MULADD(at[4], at[8]);
                     +   COMBA_STORE(C->dp[4]);
                     +   /* 5 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[13]);    MULADD(at[1], at[12]);    MULADD(at[2], at[11]);    MULADD(at[3], at[10]);    MULADD(at[4], at[9]);    MULADD(at[5], at[8]);
                     +   COMBA_STORE(C->dp[5]);
                     +   /* 6 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[14]);    MULADD(at[1], at[13]);    MULADD(at[2], at[12]);    MULADD(at[3], at[11]);    MULADD(at[4], at[10]);    MULADD(at[5], at[9]);    MULADD(at[6], at[8]);
                     +   COMBA_STORE(C->dp[6]);
                     +   /* 7 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[15]);    MULADD(at[1], at[14]);    MULADD(at[2], at[13]);    MULADD(at[3], at[12]);    MULADD(at[4], at[11]);    MULADD(at[5], at[10]);    MULADD(at[6], at[9]);    MULADD(at[7], at[8]);
                     +   COMBA_STORE(C->dp[7]);
                     +   /* 8 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[1], at[15]);    MULADD(at[2], at[14]);    MULADD(at[3], at[13]);    MULADD(at[4], at[12]);    MULADD(at[5], at[11]);    MULADD(at[6], at[10]);    MULADD(at[7], at[9]);
                     +   COMBA_STORE(C->dp[8]);
                     +   /* 9 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[2], at[15]);    MULADD(at[3], at[14]);    MULADD(at[4], at[13]);    MULADD(at[5], at[12]);    MULADD(at[6], at[11]);    MULADD(at[7], at[10]);
                     +   COMBA_STORE(C->dp[9]);
                     +   /* 10 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[3], at[15]);    MULADD(at[4], at[14]);    MULADD(at[5], at[13]);    MULADD(at[6], at[12]);    MULADD(at[7], at[11]);
                     +   COMBA_STORE(C->dp[10]);
                     +   /* 11 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[4], at[15]);    MULADD(at[5], at[14]);    MULADD(at[6], at[13]);    MULADD(at[7], at[12]);
                     +   COMBA_STORE(C->dp[11]);
                     +   /* 12 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[5], at[15]);    MULADD(at[6], at[14]);    MULADD(at[7], at[13]);
                     +   COMBA_STORE(C->dp[12]);
                     +   /* 13 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[6], at[15]);    MULADD(at[7], at[14]);
                     +   COMBA_STORE(C->dp[13]);
                     +   /* 14 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[7], at[15]);
                     +   COMBA_STORE(C->dp[14]);
                     +   COMBA_STORE2(C->dp[15]);
                     +   C->used = 16;
                     +   C->sign = A->sign ^ B->sign;
                     +   fp_clamp(C);
                     +   COMBA_FINI;
+                     }
                      #endif
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_prime_is_divisible.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
                     +/* End: fp_mul_comba_8.c */
                     -/* End: bn_mp_prime_is_divisible.c */
                     +/* Start: fp_mul_comba_9.c */
                     +#define TFM_DEFINES
                     +#include "fp_mul_comba.c"
                     -/* Start: bn_mp_prime_is_prime.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_PRIME_IS_PRIME_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     - *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     - */
                     +#ifdef TFM_MUL9
                     +void fp_mul_comba9(fp_int *A, fp_int *B, fp_int *C)
                     +{
                     +   fp_digit c0, c1, c2, at[18];
+                    +
                     +   memcpy(at, A->dp, 9 * sizeof(fp_digit));
                     +   memcpy(at+9, B->dp, 9 * sizeof(fp_digit));
                     +   COMBA_START;
+                    +
                     +   COMBA_CLEAR;
                     +   /* 0 */
                     +   MULADD(at[0], at[9]);
                     +   COMBA_STORE(C->dp[0]);
                     +   /* 1 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[10]);    MULADD(at[1], at[9]);
                     +   COMBA_STORE(C->dp[1]);
                     +   /* 2 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[11]);    MULADD(at[1], at[10]);    MULADD(at[2], at[9]);
                     +   COMBA_STORE(C->dp[2]);
                     +   /* 3 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[12]);    MULADD(at[1], at[11]);    MULADD(at[2], at[10]);    MULADD(at[3], at[9]);
                     +   COMBA_STORE(C->dp[3]);
                     +   /* 4 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[13]);    MULADD(at[1], at[12]);    MULADD(at[2], at[11]);    MULADD(at[3], at[10]);    MULADD(at[4], at[9]);
                     +   COMBA_STORE(C->dp[4]);
                     +   /* 5 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[14]);    MULADD(at[1], at[13]);    MULADD(at[2], at[12]);    MULADD(at[3], at[11]);    MULADD(at[4], at[10]);    MULADD(at[5], at[9]);
                     +   COMBA_STORE(C->dp[5]);
                     +   /* 6 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[15]);    MULADD(at[1], at[14]);    MULADD(at[2], at[13]);    MULADD(at[3], at[12]);    MULADD(at[4], at[11]);    MULADD(at[5], at[10]);    MULADD(at[6], at[9]);
                     +   COMBA_STORE(C->dp[6]);
                     +   /* 7 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[16]);    MULADD(at[1], at[15]);    MULADD(at[2], at[14]);    MULADD(at[3], at[13]);    MULADD(at[4], at[12]);    MULADD(at[5], at[11]);    MULADD(at[6], at[10]);    MULADD(at[7], at[9]);
                     +   COMBA_STORE(C->dp[7]);
                     +   /* 8 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[0], at[17]);    MULADD(at[1], at[16]);    MULADD(at[2], at[15]);    MULADD(at[3], at[14]);    MULADD(at[4], at[13]);    MULADD(at[5], at[12]);    MULADD(at[6], at[11]);    MULADD(at[7], at[10]);    MULADD(at[8], at[9]);
                     +   COMBA_STORE(C->dp[8]);
                     +   /* 9 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[1], at[17]);    MULADD(at[2], at[16]);    MULADD(at[3], at[15]);    MULADD(at[4], at[14]);    MULADD(at[5], at[13]);    MULADD(at[6], at[12]);    MULADD(at[7], at[11]);    MULADD(at[8], at[10]);
                     +   COMBA_STORE(C->dp[9]);
                     +   /* 10 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[2], at[17]);    MULADD(at[3], at[16]);    MULADD(at[4], at[15]);    MULADD(at[5], at[14]);    MULADD(at[6], at[13]);    MULADD(at[7], at[12]);    MULADD(at[8], at[11]);
                     +   COMBA_STORE(C->dp[10]);
                     +   /* 11 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[3], at[17]);    MULADD(at[4], at[16]);    MULADD(at[5], at[15]);    MULADD(at[6], at[14]);    MULADD(at[7], at[13]);    MULADD(at[8], at[12]);
                     +   COMBA_STORE(C->dp[11]);
                     +   /* 12 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[4], at[17]);    MULADD(at[5], at[16]);    MULADD(at[6], at[15]);    MULADD(at[7], at[14]);    MULADD(at[8], at[13]);
                     +   COMBA_STORE(C->dp[12]);
                     +   /* 13 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[5], at[17]);    MULADD(at[6], at[16]);    MULADD(at[7], at[15]);    MULADD(at[8], at[14]);
                     +   COMBA_STORE(C->dp[13]);
                     +   /* 14 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[6], at[17]);    MULADD(at[7], at[16]);    MULADD(at[8], at[15]);
                     +   COMBA_STORE(C->dp[14]);
                     +   /* 15 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[7], at[17]);    MULADD(at[8], at[16]);
                     +   COMBA_STORE(C->dp[15]);
                     +   /* 16 */
                     +   COMBA_FORWARD;
                     +   MULADD(at[8], at[17]);
                     +   COMBA_STORE(C->dp[16]);
                     +   COMBA_STORE2(C->dp[17]);
                     +   C->used = 18;
                     +   C->sign = A->sign ^ B->sign;
                     +   fp_clamp(C);
                     +   COMBA_FINI;
                     +}
                     +#endif
                     -/* performs a variable number of rounds of Miller-Rabin
                     - *
                     - * Probability of error after t rounds is no more than
                     +/* End: fp_mul_comba_9.c */
                     - *
                     - * Sets result to 1 if probably prime, 0 otherwise
                     - */
                     -int mp_prime_is_prime (mp_int * a, int t, int *result)
                     +/* Start: fp_mul_comba_small_set.c */
                     +#define TFM_DEFINES
                     +#include "fp_mul_comba.c"
+                    +
                     +#if defined(TFM_SMALL_SET)
                     +void fp_mul_comba_small(fp_int *A, fp_int *B, fp_int *C)
+                     {
                     -  mp_int  b;
                     -  int     ix, err, res;
                     +   fp_digit c0, c1, c2, at[32];
                     +   switch (MAX(A->used, B->used)) {
+                    +
                     +   case 1:
                     +      memcpy(at, A->dp, 1 * sizeof(fp_digit));
                     +      memcpy(at+1, B->dp, 1 * sizeof(fp_digit));
                     +      COMBA_START;
+                    +
                     +      COMBA_CLEAR;
                     +      /* 0 */
                     +      MULADD(at[0], at[1]);
                     +      COMBA_STORE(C->dp[0]);
                     +      COMBA_STORE2(C->dp[1]);
                     +      C->used = 2;
                     +      C->sign = A->sign ^ B->sign;
                     +      fp_clamp(C);
                     +      COMBA_FINI;
                     +      break;
                     -  /* default to no */
                     -  *result = MP_NO;
                     +   case 2:
                     +      memcpy(at, A->dp, 2 * sizeof(fp_digit));
                     +      memcpy(at+2, B->dp, 2 * sizeof(fp_digit));
                     +      COMBA_START;
+                    +
                     +      COMBA_CLEAR;
                     +      /* 0 */
                     +      MULADD(at[0], at[2]);
                     +      COMBA_STORE(C->dp[0]);
                     +      /* 1 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[3]);       MULADD(at[1], at[2]);
                     +      COMBA_STORE(C->dp[1]);
                     +      /* 2 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[1], at[3]);
                     +      COMBA_STORE(C->dp[2]);
                     +      COMBA_STORE2(C->dp[3]);
                     +      C->used = 4;
                     +      C->sign = A->sign ^ B->sign;
                     +      fp_clamp(C);
                     +      COMBA_FINI;
                     +      break;
                     -  /* valid value of t? */
                     -  if (t <= 0 || t > PRIME_SIZE) {
                     -    return MP_VAL;
                     -  }
                     +   case 3:
                     +      memcpy(at, A->dp, 3 * sizeof(fp_digit));
                     +      memcpy(at+3, B->dp, 3 * sizeof(fp_digit));
                     +      COMBA_START;
+                    +
                     +      COMBA_CLEAR;
                     +      /* 0 */
                     +      MULADD(at[0], at[3]);
                     +      COMBA_STORE(C->dp[0]);
                     +      /* 1 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[4]);       MULADD(at[1], at[3]);
                     +      COMBA_STORE(C->dp[1]);
                     +      /* 2 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[5]);       MULADD(at[1], at[4]);       MULADD(at[2], at[3]);
                     +      COMBA_STORE(C->dp[2]);
                     +      /* 3 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[1], at[5]);       MULADD(at[2], at[4]);
                     +      COMBA_STORE(C->dp[3]);
                     +      /* 4 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[2], at[5]);
                     +      COMBA_STORE(C->dp[4]);
                     +      COMBA_STORE2(C->dp[5]);
                     +      C->used = 6;
                     +      C->sign = A->sign ^ B->sign;
                     +      fp_clamp(C);
                     +      COMBA_FINI;
                     +      break;
                     -  /* is the input equal to one of the primes in the table? */
                     -  for (ix = 0; ix < PRIME_SIZE; ix++) {
                     -      if (mp_cmp_d(a, ltm_prime_tab[ix]) == MP_EQ) {
                     -         *result = 1;
                     -         return MP_OKAY;
                     -      }
                     -  }
                     +   case 4:
                     +      memcpy(at, A->dp, 4 * sizeof(fp_digit));
                     +      memcpy(at+4, B->dp, 4 * sizeof(fp_digit));
                     +      COMBA_START;
+                    +
                     +      COMBA_CLEAR;
                     +      /* 0 */
                     +      MULADD(at[0], at[4]);
                     +      COMBA_STORE(C->dp[0]);
                     +      /* 1 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[5]);       MULADD(at[1], at[4]);
                     +      COMBA_STORE(C->dp[1]);
                     +      /* 2 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[6]);       MULADD(at[1], at[5]);       MULADD(at[2], at[4]);
                     +      COMBA_STORE(C->dp[2]);
                     +      /* 3 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[7]);       MULADD(at[1], at[6]);       MULADD(at[2], at[5]);       MULADD(at[3], at[4]);
                     +      COMBA_STORE(C->dp[3]);
                     +      /* 4 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[1], at[7]);       MULADD(at[2], at[6]);       MULADD(at[3], at[5]);
                     +      COMBA_STORE(C->dp[4]);
                     +      /* 5 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[2], at[7]);       MULADD(at[3], at[6]);
                     +      COMBA_STORE(C->dp[5]);
                     +      /* 6 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[3], at[7]);
                     +      COMBA_STORE(C->dp[6]);
                     +      COMBA_STORE2(C->dp[7]);
                     +      C->used = 8;
                     +      C->sign = A->sign ^ B->sign;
                     +      fp_clamp(C);
                     +      COMBA_FINI;
                     +      break;
                     -  /* first perform trial division */
                     -  if ((err = mp_prime_is_divisible (a, &res)) != MP_OKAY) {
                     -    return err;
                     -  }
                     +   case 5:
                     +      memcpy(at, A->dp, 5 * sizeof(fp_digit));
                     +      memcpy(at+5, B->dp, 5 * sizeof(fp_digit));
                     +      COMBA_START;
+                    +
                     +      COMBA_CLEAR;
                     +      /* 0 */
                     +      MULADD(at[0], at[5]);
                     +      COMBA_STORE(C->dp[0]);
                     +      /* 1 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[6]);       MULADD(at[1], at[5]);
                     +      COMBA_STORE(C->dp[1]);
                     +      /* 2 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[7]);       MULADD(at[1], at[6]);       MULADD(at[2], at[5]);
                     +      COMBA_STORE(C->dp[2]);
                     +      /* 3 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[8]);       MULADD(at[1], at[7]);       MULADD(at[2], at[6]);       MULADD(at[3], at[5]);
                     +      COMBA_STORE(C->dp[3]);
                     +      /* 4 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[9]);       MULADD(at[1], at[8]);       MULADD(at[2], at[7]);       MULADD(at[3], at[6]);       MULADD(at[4], at[5]);
                     +      COMBA_STORE(C->dp[4]);
                     +      /* 5 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[1], at[9]);       MULADD(at[2], at[8]);       MULADD(at[3], at[7]);       MULADD(at[4], at[6]);
                     +      COMBA_STORE(C->dp[5]);
                     +      /* 6 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[2], at[9]);       MULADD(at[3], at[8]);       MULADD(at[4], at[7]);
                     +      COMBA_STORE(C->dp[6]);
                     +      /* 7 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[3], at[9]);       MULADD(at[4], at[8]);
                     +      COMBA_STORE(C->dp[7]);
                     +      /* 8 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[4], at[9]);
                     +      COMBA_STORE(C->dp[8]);
                     +      COMBA_STORE2(C->dp[9]);
                     +      C->used = 10;
                     +      C->sign = A->sign ^ B->sign;
                     +      fp_clamp(C);
                     +      COMBA_FINI;
                     +      break;
                     -  /* return if it was trivially divisible */
                     -  if (res == MP_YES) {
                     -    return MP_OKAY;
                     -  }
                     +   case 6:
                     +      memcpy(at, A->dp, 6 * sizeof(fp_digit));
                     +      memcpy(at+6, B->dp, 6 * sizeof(fp_digit));
                     +      COMBA_START;
+                    +
                     +      COMBA_CLEAR;
                     +      /* 0 */
                     +      MULADD(at[0], at[6]);
                     +      COMBA_STORE(C->dp[0]);
                     +      /* 1 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[7]);       MULADD(at[1], at[6]);
                     +      COMBA_STORE(C->dp[1]);
                     +      /* 2 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[8]);       MULADD(at[1], at[7]);       MULADD(at[2], at[6]);
                     +      COMBA_STORE(C->dp[2]);
                     +      /* 3 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[9]);       MULADD(at[1], at[8]);       MULADD(at[2], at[7]);       MULADD(at[3], at[6]);
                     +      COMBA_STORE(C->dp[3]);
                     +      /* 4 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[10]);       MULADD(at[1], at[9]);       MULADD(at[2], at[8]);       MULADD(at[3], at[7]);       MULADD(at[4], at[6]);
                     +      COMBA_STORE(C->dp[4]);
                     +      /* 5 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[11]);       MULADD(at[1], at[10]);       MULADD(at[2], at[9]);       MULADD(at[3], at[8]);       MULADD(at[4], at[7]);       MULADD(at[5], at[6]);
                     +      COMBA_STORE(C->dp[5]);
                     +      /* 6 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[1], at[11]);       MULADD(at[2], at[10]);       MULADD(at[3], at[9]);       MULADD(at[4], at[8]);       MULADD(at[5], at[7]);
                     +      COMBA_STORE(C->dp[6]);
                     +      /* 7 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[2], at[11]);       MULADD(at[3], at[10]);       MULADD(at[4], at[9]);       MULADD(at[5], at[8]);
                     +      COMBA_STORE(C->dp[7]);
                     +      /* 8 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[3], at[11]);       MULADD(at[4], at[10]);       MULADD(at[5], at[9]);
                     +      COMBA_STORE(C->dp[8]);
                     +      /* 9 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[4], at[11]);       MULADD(at[5], at[10]);
                     +      COMBA_STORE(C->dp[9]);
                     +      /* 10 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[5], at[11]);
                     +      COMBA_STORE(C->dp[10]);
                     +      COMBA_STORE2(C->dp[11]);
                     +      C->used = 12;
                     +      C->sign = A->sign ^ B->sign;
                     +      fp_clamp(C);
                     +      COMBA_FINI;
                     +      break;
                     -  /* now perform the miller-rabin rounds */
                     -  if ((err = mp_init (&b)) != MP_OKAY) {
                     -    return err;
                     -  }
                     +   case 7:
                     +      memcpy(at, A->dp, 7 * sizeof(fp_digit));
                     +      memcpy(at+7, B->dp, 7 * sizeof(fp_digit));
                     +      COMBA_START;
+                    +
                     +      COMBA_CLEAR;
                     +      /* 0 */
                     +      MULADD(at[0], at[7]);
                     +      COMBA_STORE(C->dp[0]);
                     +      /* 1 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[8]);       MULADD(at[1], at[7]);
                     +      COMBA_STORE(C->dp[1]);
                     +      /* 2 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[9]);       MULADD(at[1], at[8]);       MULADD(at[2], at[7]);
                     +      COMBA_STORE(C->dp[2]);
                     +      /* 3 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[10]);       MULADD(at[1], at[9]);       MULADD(at[2], at[8]);       MULADD(at[3], at[7]);
                     +      COMBA_STORE(C->dp[3]);
                     +      /* 4 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[11]);       MULADD(at[1], at[10]);       MULADD(at[2], at[9]);       MULADD(at[3], at[8]);       MULADD(at[4], at[7]);
                     +      COMBA_STORE(C->dp[4]);
                     +      /* 5 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[12]);       MULADD(at[1], at[11]);       MULADD(at[2], at[10]);       MULADD(at[3], at[9]);       MULADD(at[4], at[8]);       MULADD(at[5], at[7]);
                     +      COMBA_STORE(C->dp[5]);
                     +      /* 6 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[13]);       MULADD(at[1], at[12]);       MULADD(at[2], at[11]);       MULADD(at[3], at[10]);       MULADD(at[4], at[9]);       MULADD(at[5], at[8]);       MULADD(at[6], at[7]);
                     +      COMBA_STORE(C->dp[6]);
                     +      /* 7 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[1], at[13]);       MULADD(at[2], at[12]);       MULADD(at[3], at[11]);       MULADD(at[4], at[10]);       MULADD(at[5], at[9]);       MULADD(at[6], at[8]);
                     +      COMBA_STORE(C->dp[7]);
                     +      /* 8 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[2], at[13]);       MULADD(at[3], at[12]);       MULADD(at[4], at[11]);       MULADD(at[5], at[10]);       MULADD(at[6], at[9]);
                     +      COMBA_STORE(C->dp[8]);
                     +      /* 9 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[3], at[13]);       MULADD(at[4], at[12]);       MULADD(at[5], at[11]);       MULADD(at[6], at[10]);
                     +      COMBA_STORE(C->dp[9]);
                     +      /* 10 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[4], at[13]);       MULADD(at[5], at[12]);       MULADD(at[6], at[11]);
                     +      COMBA_STORE(C->dp[10]);
                     +      /* 11 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[5], at[13]);       MULADD(at[6], at[12]);
                     +      COMBA_STORE(C->dp[11]);
                     +      /* 12 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[6], at[13]);
                     +      COMBA_STORE(C->dp[12]);
                     +      COMBA_STORE2(C->dp[13]);
                     +      C->used = 14;
                     +      C->sign = A->sign ^ B->sign;
                     +      fp_clamp(C);
                     +      COMBA_FINI;
                     +      break;
                     -  for (ix = 0; ix < t; ix++) {
                     -    /* set the prime */
                     -    mp_set (&b, ltm_prime_tab[ix]);
                     +   case 8:
                     +      memcpy(at, A->dp, 8 * sizeof(fp_digit));
                     +      memcpy(at+8, B->dp, 8 * sizeof(fp_digit));
                     +      COMBA_START;
+                    +
                     +      COMBA_CLEAR;
                     +      /* 0 */
                     +      MULADD(at[0], at[8]);
                     +      COMBA_STORE(C->dp[0]);
                     +      /* 1 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[9]);       MULADD(at[1], at[8]);
                     +      COMBA_STORE(C->dp[1]);
                     +      /* 2 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[10]);       MULADD(at[1], at[9]);       MULADD(at[2], at[8]);
                     +      COMBA_STORE(C->dp[2]);
                     +      /* 3 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[11]);       MULADD(at[1], at[10]);       MULADD(at[2], at[9]);       MULADD(at[3], at[8]);
                     +      COMBA_STORE(C->dp[3]);
                     +      /* 4 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[12]);       MULADD(at[1], at[11]);       MULADD(at[2], at[10]);       MULADD(at[3], at[9]);       MULADD(at[4], at[8]);
                     +      COMBA_STORE(C->dp[4]);
                     +      /* 5 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[13]);       MULADD(at[1], at[12]);       MULADD(at[2], at[11]);       MULADD(at[3], at[10]);       MULADD(at[4], at[9]);       MULADD(at[5], at[8]);
                     +      COMBA_STORE(C->dp[5]);
                     +      /* 6 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[14]);       MULADD(at[1], at[13]);       MULADD(at[2], at[12]);       MULADD(at[3], at[11]);       MULADD(at[4], at[10]);       MULADD(at[5], at[9]);       MULADD(at[6], at[8]);
                     +      COMBA_STORE(C->dp[6]);
                     +      /* 7 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[15]);       MULADD(at[1], at[14]);       MULADD(at[2], at[13]);       MULADD(at[3], at[12]);       MULADD(at[4], at[11]);       MULADD(at[5], at[10]);       MULADD(at[6], at[9]);       MULADD(at[7], at[8]);
                     +      COMBA_STORE(C->dp[7]);
                     +      /* 8 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[1], at[15]);       MULADD(at[2], at[14]);       MULADD(at[3], at[13]);       MULADD(at[4], at[12]);       MULADD(at[5], at[11]);       MULADD(at[6], at[10]);       MULADD(at[7], at[9]);
                     +      COMBA_STORE(C->dp[8]);
                     +      /* 9 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[2], at[15]);       MULADD(at[3], at[14]);       MULADD(at[4], at[13]);       MULADD(at[5], at[12]);       MULADD(at[6], at[11]);       MULADD(at[7], at[10]);
                     +      COMBA_STORE(C->dp[9]);
                     +      /* 10 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[3], at[15]);       MULADD(at[4], at[14]);       MULADD(at[5], at[13]);       MULADD(at[6], at[12]);       MULADD(at[7], at[11]);
                     +      COMBA_STORE(C->dp[10]);
                     +      /* 11 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[4], at[15]);       MULADD(at[5], at[14]);       MULADD(at[6], at[13]);       MULADD(at[7], at[12]);
                     +      COMBA_STORE(C->dp[11]);
                     +      /* 12 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[5], at[15]);       MULADD(at[6], at[14]);       MULADD(at[7], at[13]);
                     +      COMBA_STORE(C->dp[12]);
                     +      /* 13 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[6], at[15]);       MULADD(at[7], at[14]);
                     +      COMBA_STORE(C->dp[13]);
                     +      /* 14 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[7], at[15]);
                     +      COMBA_STORE(C->dp[14]);
                     +      COMBA_STORE2(C->dp[15]);
                     +      C->used = 16;
                     +      C->sign = A->sign ^ B->sign;
                     +      fp_clamp(C);
                     +      COMBA_FINI;
                     +      break;
                     -    if ((err = mp_prime_miller_rabin (a, &b, &res)) != MP_OKAY) {
                     -      goto LBL_B;
                     -    }
                     +   case 9:
                     +      memcpy(at, A->dp, 9 * sizeof(fp_digit));
                     +      memcpy(at+9, B->dp, 9 * sizeof(fp_digit));
                     +      COMBA_START;
+                    +
                     +      COMBA_CLEAR;
                     +      /* 0 */
                     +      MULADD(at[0], at[9]);
                     +      COMBA_STORE(C->dp[0]);
                     +      /* 1 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[10]);       MULADD(at[1], at[9]);
                     +      COMBA_STORE(C->dp[1]);
                     +      /* 2 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[11]);       MULADD(at[1], at[10]);       MULADD(at[2], at[9]);
                     +      COMBA_STORE(C->dp[2]);
                     +      /* 3 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[12]);       MULADD(at[1], at[11]);       MULADD(at[2], at[10]);       MULADD(at[3], at[9]);
                     +      COMBA_STORE(C->dp[3]);
                     +      /* 4 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[13]);       MULADD(at[1], at[12]);       MULADD(at[2], at[11]);       MULADD(at[3], at[10]);       MULADD(at[4], at[9]);
                     +      COMBA_STORE(C->dp[4]);
                     +      /* 5 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[14]);       MULADD(at[1], at[13]);       MULADD(at[2], at[12]);       MULADD(at[3], at[11]);       MULADD(at[4], at[10]);       MULADD(at[5], at[9]);
                     +      COMBA_STORE(C->dp[5]);
                     +      /* 6 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[15]);       MULADD(at[1], at[14]);       MULADD(at[2], at[13]);       MULADD(at[3], at[12]);       MULADD(at[4], at[11]);       MULADD(at[5], at[10]);       MULADD(at[6], at[9]);
                     +      COMBA_STORE(C->dp[6]);
                     +      /* 7 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[16]);       MULADD(at[1], at[15]);       MULADD(at[2], at[14]);       MULADD(at[3], at[13]);       MULADD(at[4], at[12]);       MULADD(at[5], at[11]);       MULADD(at[6], at[10]);       MULADD(at[7], at[9]);
                     +      COMBA_STORE(C->dp[7]);
                     +      /* 8 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[17]);       MULADD(at[1], at[16]);       MULADD(at[2], at[15]);       MULADD(at[3], at[14]);       MULADD(at[4], at[13]);       MULADD(at[5], at[12]);       MULADD(at[6], at[11]);       MULADD(at[7], at[10]);       MULADD(at[8], at[9]);
                     +      COMBA_STORE(C->dp[8]);
                     +      /* 9 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[1], at[17]);       MULADD(at[2], at[16]);       MULADD(at[3], at[15]);       MULADD(at[4], at[14]);       MULADD(at[5], at[13]);       MULADD(at[6], at[12]);       MULADD(at[7], at[11]);       MULADD(at[8], at[10]);
                     +      COMBA_STORE(C->dp[9]);
                     +      /* 10 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[2], at[17]);       MULADD(at[3], at[16]);       MULADD(at[4], at[15]);       MULADD(at[5], at[14]);       MULADD(at[6], at[13]);       MULADD(at[7], at[12]);       MULADD(at[8], at[11]);
                     +      COMBA_STORE(C->dp[10]);
                     +      /* 11 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[3], at[17]);       MULADD(at[4], at[16]);       MULADD(at[5], at[15]);       MULADD(at[6], at[14]);       MULADD(at[7], at[13]);       MULADD(at[8], at[12]);
                     +      COMBA_STORE(C->dp[11]);
                     +      /* 12 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[4], at[17]);       MULADD(at[5], at[16]);       MULADD(at[6], at[15]);       MULADD(at[7], at[14]);       MULADD(at[8], at[13]);
                     +      COMBA_STORE(C->dp[12]);
                     +      /* 13 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[5], at[17]);       MULADD(at[6], at[16]);       MULADD(at[7], at[15]);       MULADD(at[8], at[14]);
                     +      COMBA_STORE(C->dp[13]);
                     +      /* 14 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[6], at[17]);       MULADD(at[7], at[16]);       MULADD(at[8], at[15]);
                     +      COMBA_STORE(C->dp[14]);
                     +      /* 15 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[7], at[17]);       MULADD(at[8], at[16]);
                     +      COMBA_STORE(C->dp[15]);
                     +      /* 16 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[8], at[17]);
                     +      COMBA_STORE(C->dp[16]);
                     +      COMBA_STORE2(C->dp[17]);
                     +      C->used = 18;
                     +      C->sign = A->sign ^ B->sign;
                     +      fp_clamp(C);
                     +      COMBA_FINI;
                     +      break;
                     -    if (res == MP_NO) {
                     -      goto LBL_B;
                     -    }
                     -  }
                     +   case 10:
                     +      memcpy(at, A->dp, 10 * sizeof(fp_digit));
                     +      memcpy(at+10, B->dp, 10 * sizeof(fp_digit));
                     +      COMBA_START;
+                    +
                     +      COMBA_CLEAR;
                     +      /* 0 */
                     +      MULADD(at[0], at[10]);
                     +      COMBA_STORE(C->dp[0]);
                     +      /* 1 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[11]);       MULADD(at[1], at[10]);
                     +      COMBA_STORE(C->dp[1]);
                     +      /* 2 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[12]);       MULADD(at[1], at[11]);       MULADD(at[2], at[10]);
                     +      COMBA_STORE(C->dp[2]);
                     +      /* 3 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[13]);       MULADD(at[1], at[12]);       MULADD(at[2], at[11]);       MULADD(at[3], at[10]);
                     +      COMBA_STORE(C->dp[3]);
                     +      /* 4 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[14]);       MULADD(at[1], at[13]);       MULADD(at[2], at[12]);       MULADD(at[3], at[11]);       MULADD(at[4], at[10]);
                     +      COMBA_STORE(C->dp[4]);
                     +      /* 5 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[15]);       MULADD(at[1], at[14]);       MULADD(at[2], at[13]);       MULADD(at[3], at[12]);       MULADD(at[4], at[11]);       MULADD(at[5], at[10]);
                     +      COMBA_STORE(C->dp[5]);
                     +      /* 6 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[16]);       MULADD(at[1], at[15]);       MULADD(at[2], at[14]);       MULADD(at[3], at[13]);       MULADD(at[4], at[12]);       MULADD(at[5], at[11]);       MULADD(at[6], at[10]);
                     +      COMBA_STORE(C->dp[6]);
                     +      /* 7 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[17]);       MULADD(at[1], at[16]);       MULADD(at[2], at[15]);       MULADD(at[3], at[14]);       MULADD(at[4], at[13]);       MULADD(at[5], at[12]);       MULADD(at[6], at[11]);       MULADD(at[7], at[10]);
                     +      COMBA_STORE(C->dp[7]);
                     +      /* 8 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[18]);       MULADD(at[1], at[17]);       MULADD(at[2], at[16]);       MULADD(at[3], at[15]);       MULADD(at[4], at[14]);       MULADD(at[5], at[13]);       MULADD(at[6], at[12]);       MULADD(at[7], at[11]);       MULADD(at[8], at[10]);
                     +      COMBA_STORE(C->dp[8]);
                     +      /* 9 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[19]);       MULADD(at[1], at[18]);       MULADD(at[2], at[17]);       MULADD(at[3], at[16]);       MULADD(at[4], at[15]);       MULADD(at[5], at[14]);       MULADD(at[6], at[13]);       MULADD(at[7], at[12]);       MULADD(at[8], at[11]);       MULADD(at[9], at[10]);
                     +      COMBA_STORE(C->dp[9]);
                     +      /* 10 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[1], at[19]);       MULADD(at[2], at[18]);       MULADD(at[3], at[17]);       MULADD(at[4], at[16]);       MULADD(at[5], at[15]);       MULADD(at[6], at[14]);       MULADD(at[7], at[13]);       MULADD(at[8], at[12]);       MULADD(at[9], at[11]);
                     +      COMBA_STORE(C->dp[10]);
                     +      /* 11 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[2], at[19]);       MULADD(at[3], at[18]);       MULADD(at[4], at[17]);       MULADD(at[5], at[16]);       MULADD(at[6], at[15]);       MULADD(at[7], at[14]);       MULADD(at[8], at[13]);       MULADD(at[9], at[12]);
                     +      COMBA_STORE(C->dp[11]);
                     +      /* 12 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[3], at[19]);       MULADD(at[4], at[18]);       MULADD(at[5], at[17]);       MULADD(at[6], at[16]);       MULADD(at[7], at[15]);       MULADD(at[8], at[14]);       MULADD(at[9], at[13]);
                     +      COMBA_STORE(C->dp[12]);
                     +      /* 13 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[4], at[19]);       MULADD(at[5], at[18]);       MULADD(at[6], at[17]);       MULADD(at[7], at[16]);       MULADD(at[8], at[15]);       MULADD(at[9], at[14]);
                     +      COMBA_STORE(C->dp[13]);
                     +      /* 14 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[5], at[19]);       MULADD(at[6], at[18]);       MULADD(at[7], at[17]);       MULADD(at[8], at[16]);       MULADD(at[9], at[15]);
                     +      COMBA_STORE(C->dp[14]);
                     +      /* 15 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[6], at[19]);       MULADD(at[7], at[18]);       MULADD(at[8], at[17]);       MULADD(at[9], at[16]);
                     +      COMBA_STORE(C->dp[15]);
                     +      /* 16 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[7], at[19]);       MULADD(at[8], at[18]);       MULADD(at[9], at[17]);
                     +      COMBA_STORE(C->dp[16]);
                     +      /* 17 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[8], at[19]);       MULADD(at[9], at[18]);
                     +      COMBA_STORE(C->dp[17]);
                     +      /* 18 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[9], at[19]);
                     +      COMBA_STORE(C->dp[18]);
                     +      COMBA_STORE2(C->dp[19]);
                     +      C->used = 20;
                     +      C->sign = A->sign ^ B->sign;
                     +      fp_clamp(C);
                     +      COMBA_FINI;
                     +      break;
+                    +
                     +   case 11:
                     +      memcpy(at, A->dp, 11 * sizeof(fp_digit));
                     +      memcpy(at+11, B->dp, 11 * sizeof(fp_digit));
                     +      COMBA_START;
+                    +
                     +      COMBA_CLEAR;
                     +      /* 0 */
                     +      MULADD(at[0], at[11]);
                     +      COMBA_STORE(C->dp[0]);
                     +      /* 1 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[12]);       MULADD(at[1], at[11]);
                     +      COMBA_STORE(C->dp[1]);
                     +      /* 2 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[13]);       MULADD(at[1], at[12]);       MULADD(at[2], at[11]);
                     +      COMBA_STORE(C->dp[2]);
                     +      /* 3 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[14]);       MULADD(at[1], at[13]);       MULADD(at[2], at[12]);       MULADD(at[3], at[11]);
                     +      COMBA_STORE(C->dp[3]);
                     +      /* 4 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[15]);       MULADD(at[1], at[14]);       MULADD(at[2], at[13]);       MULADD(at[3], at[12]);       MULADD(at[4], at[11]);
                     +      COMBA_STORE(C->dp[4]);
                     +      /* 5 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[16]);       MULADD(at[1], at[15]);       MULADD(at[2], at[14]);       MULADD(at[3], at[13]);       MULADD(at[4], at[12]);       MULADD(at[5], at[11]);
                     +      COMBA_STORE(C->dp[5]);
                     +      /* 6 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[17]);       MULADD(at[1], at[16]);       MULADD(at[2], at[15]);       MULADD(at[3], at[14]);       MULADD(at[4], at[13]);       MULADD(at[5], at[12]);       MULADD(at[6], at[11]);
                     +      COMBA_STORE(C->dp[6]);
                     +      /* 7 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[18]);       MULADD(at[1], at[17]);       MULADD(at[2], at[16]);       MULADD(at[3], at[15]);       MULADD(at[4], at[14]);       MULADD(at[5], at[13]);       MULADD(at[6], at[12]);       MULADD(at[7], at[11]);
                     +      COMBA_STORE(C->dp[7]);
                     +      /* 8 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[19]);       MULADD(at[1], at[18]);       MULADD(at[2], at[17]);       MULADD(at[3], at[16]);       MULADD(at[4], at[15]);       MULADD(at[5], at[14]);       MULADD(at[6], at[13]);       MULADD(at[7], at[12]);       MULADD(at[8], at[11]);
                     +      COMBA_STORE(C->dp[8]);
                     +      /* 9 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[20]);       MULADD(at[1], at[19]);       MULADD(at[2], at[18]);       MULADD(at[3], at[17]);       MULADD(at[4], at[16]);       MULADD(at[5], at[15]);       MULADD(at[6], at[14]);       MULADD(at[7], at[13]);       MULADD(at[8], at[12]);       MULADD(at[9], at[11]);
                     +      COMBA_STORE(C->dp[9]);
                     +      /* 10 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[21]);       MULADD(at[1], at[20]);       MULADD(at[2], at[19]);       MULADD(at[3], at[18]);       MULADD(at[4], at[17]);       MULADD(at[5], at[16]);       MULADD(at[6], at[15]);       MULADD(at[7], at[14]);       MULADD(at[8], at[13]);       MULADD(at[9], at[12]);       MULADD(at[10], at[11]);
                     +      COMBA_STORE(C->dp[10]);
                     +      /* 11 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[1], at[21]);       MULADD(at[2], at[20]);       MULADD(at[3], at[19]);       MULADD(at[4], at[18]);       MULADD(at[5], at[17]);       MULADD(at[6], at[16]);       MULADD(at[7], at[15]);       MULADD(at[8], at[14]);       MULADD(at[9], at[13]);       MULADD(at[10], at[12]);
                     +      COMBA_STORE(C->dp[11]);
                     +      /* 12 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[2], at[21]);       MULADD(at[3], at[20]);       MULADD(at[4], at[19]);       MULADD(at[5], at[18]);       MULADD(at[6], at[17]);       MULADD(at[7], at[16]);       MULADD(at[8], at[15]);       MULADD(at[9], at[14]);       MULADD(at[10], at[13]);
                     +      COMBA_STORE(C->dp[12]);
                     +      /* 13 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[3], at[21]);       MULADD(at[4], at[20]);       MULADD(at[5], at[19]);       MULADD(at[6], at[18]);       MULADD(at[7], at[17]);       MULADD(at[8], at[16]);       MULADD(at[9], at[15]);       MULADD(at[10], at[14]);
                     +      COMBA_STORE(C->dp[13]);
                     +      /* 14 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[4], at[21]);       MULADD(at[5], at[20]);       MULADD(at[6], at[19]);       MULADD(at[7], at[18]);       MULADD(at[8], at[17]);       MULADD(at[9], at[16]);       MULADD(at[10], at[15]);
                     +      COMBA_STORE(C->dp[14]);
                     +      /* 15 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[5], at[21]);       MULADD(at[6], at[20]);       MULADD(at[7], at[19]);       MULADD(at[8], at[18]);       MULADD(at[9], at[17]);       MULADD(at[10], at[16]);
                     +      COMBA_STORE(C->dp[15]);
                     +      /* 16 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[6], at[21]);       MULADD(at[7], at[20]);       MULADD(at[8], at[19]);       MULADD(at[9], at[18]);       MULADD(at[10], at[17]);
                     +      COMBA_STORE(C->dp[16]);
                     +      /* 17 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[7], at[21]);       MULADD(at[8], at[20]);       MULADD(at[9], at[19]);       MULADD(at[10], at[18]);
                     +      COMBA_STORE(C->dp[17]);
                     +      /* 18 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[8], at[21]);       MULADD(at[9], at[20]);       MULADD(at[10], at[19]);
                     +      COMBA_STORE(C->dp[18]);
                     +      /* 19 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[9], at[21]);       MULADD(at[10], at[20]);
                     +      COMBA_STORE(C->dp[19]);
                     +      /* 20 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[10], at[21]);
                     +      COMBA_STORE(C->dp[20]);
                     +      COMBA_STORE2(C->dp[21]);
                     +      C->used = 22;
                     +      C->sign = A->sign ^ B->sign;
                     +      fp_clamp(C);
                     +      COMBA_FINI;
                     +      break;
                     -  /* passed the test */
                     -  *result = MP_YES;
                     -LBL_B:mp_clear (&b);
                     -  return err;
                     +   case 12:
                     +      memcpy(at, A->dp, 12 * sizeof(fp_digit));
                     +      memcpy(at+12, B->dp, 12 * sizeof(fp_digit));
                     +      COMBA_START;
+                    +
                     +      COMBA_CLEAR;
                     +      /* 0 */
                     +      MULADD(at[0], at[12]);
                     +      COMBA_STORE(C->dp[0]);
                     +      /* 1 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[13]);       MULADD(at[1], at[12]);
                     +      COMBA_STORE(C->dp[1]);
                     +      /* 2 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[14]);       MULADD(at[1], at[13]);       MULADD(at[2], at[12]);
                     +      COMBA_STORE(C->dp[2]);
                     +      /* 3 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[15]);       MULADD(at[1], at[14]);       MULADD(at[2], at[13]);       MULADD(at[3], at[12]);
                     +      COMBA_STORE(C->dp[3]);
                     +      /* 4 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[16]);       MULADD(at[1], at[15]);       MULADD(at[2], at[14]);       MULADD(at[3], at[13]);       MULADD(at[4], at[12]);
                     +      COMBA_STORE(C->dp[4]);
                     +      /* 5 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[17]);       MULADD(at[1], at[16]);       MULADD(at[2], at[15]);       MULADD(at[3], at[14]);       MULADD(at[4], at[13]);       MULADD(at[5], at[12]);
                     +      COMBA_STORE(C->dp[5]);
                     +      /* 6 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[18]);       MULADD(at[1], at[17]);       MULADD(at[2], at[16]);       MULADD(at[3], at[15]);       MULADD(at[4], at[14]);       MULADD(at[5], at[13]);       MULADD(at[6], at[12]);
                     +      COMBA_STORE(C->dp[6]);
                     +      /* 7 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[19]);       MULADD(at[1], at[18]);       MULADD(at[2], at[17]);       MULADD(at[3], at[16]);       MULADD(at[4], at[15]);       MULADD(at[5], at[14]);       MULADD(at[6], at[13]);       MULADD(at[7], at[12]);
                     +      COMBA_STORE(C->dp[7]);
                     +      /* 8 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[20]);       MULADD(at[1], at[19]);       MULADD(at[2], at[18]);       MULADD(at[3], at[17]);       MULADD(at[4], at[16]);       MULADD(at[5], at[15]);       MULADD(at[6], at[14]);       MULADD(at[7], at[13]);       MULADD(at[8], at[12]);
                     +      COMBA_STORE(C->dp[8]);
                     +      /* 9 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[21]);       MULADD(at[1], at[20]);       MULADD(at[2], at[19]);       MULADD(at[3], at[18]);       MULADD(at[4], at[17]);       MULADD(at[5], at[16]);       MULADD(at[6], at[15]);       MULADD(at[7], at[14]);       MULADD(at[8], at[13]);       MULADD(at[9], at[12]);
                     +      COMBA_STORE(C->dp[9]);
                     +      /* 10 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[22]);       MULADD(at[1], at[21]);       MULADD(at[2], at[20]);       MULADD(at[3], at[19]);       MULADD(at[4], at[18]);       MULADD(at[5], at[17]);       MULADD(at[6], at[16]);       MULADD(at[7], at[15]);       MULADD(at[8], at[14]);       MULADD(at[9], at[13]);       MULADD(at[10], at[12]);
                     +      COMBA_STORE(C->dp[10]);
                     +      /* 11 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[23]);       MULADD(at[1], at[22]);       MULADD(at[2], at[21]);       MULADD(at[3], at[20]);       MULADD(at[4], at[19]);       MULADD(at[5], at[18]);       MULADD(at[6], at[17]);       MULADD(at[7], at[16]);       MULADD(at[8], at[15]);       MULADD(at[9], at[14]);       MULADD(at[10], at[13]);       MULADD(at[11], at[12]);
                     +      COMBA_STORE(C->dp[11]);
                     +      /* 12 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[1], at[23]);       MULADD(at[2], at[22]);       MULADD(at[3], at[21]);       MULADD(at[4], at[20]);       MULADD(at[5], at[19]);       MULADD(at[6], at[18]);       MULADD(at[7], at[17]);       MULADD(at[8], at[16]);       MULADD(at[9], at[15]);       MULADD(at[10], at[14]);       MULADD(at[11], at[13]);
                     +      COMBA_STORE(C->dp[12]);
                     +      /* 13 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[2], at[23]);       MULADD(at[3], at[22]);       MULADD(at[4], at[21]);       MULADD(at[5], at[20]);       MULADD(at[6], at[19]);       MULADD(at[7], at[18]);       MULADD(at[8], at[17]);       MULADD(at[9], at[16]);       MULADD(at[10], at[15]);       MULADD(at[11], at[14]);
                     +      COMBA_STORE(C->dp[13]);
                     +      /* 14 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[3], at[23]);       MULADD(at[4], at[22]);       MULADD(at[5], at[21]);       MULADD(at[6], at[20]);       MULADD(at[7], at[19]);       MULADD(at[8], at[18]);       MULADD(at[9], at[17]);       MULADD(at[10], at[16]);       MULADD(at[11], at[15]);
                     +      COMBA_STORE(C->dp[14]);
                     +      /* 15 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[4], at[23]);       MULADD(at[5], at[22]);       MULADD(at[6], at[21]);       MULADD(at[7], at[20]);       MULADD(at[8], at[19]);       MULADD(at[9], at[18]);       MULADD(at[10], at[17]);       MULADD(at[11], at[16]);
                     +      COMBA_STORE(C->dp[15]);
                     +      /* 16 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[5], at[23]);       MULADD(at[6], at[22]);       MULADD(at[7], at[21]);       MULADD(at[8], at[20]);       MULADD(at[9], at[19]);       MULADD(at[10], at[18]);       MULADD(at[11], at[17]);
                     +      COMBA_STORE(C->dp[16]);
                     +      /* 17 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[6], at[23]);       MULADD(at[7], at[22]);       MULADD(at[8], at[21]);       MULADD(at[9], at[20]);       MULADD(at[10], at[19]);       MULADD(at[11], at[18]);
                     +      COMBA_STORE(C->dp[17]);
                     +      /* 18 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[7], at[23]);       MULADD(at[8], at[22]);       MULADD(at[9], at[21]);       MULADD(at[10], at[20]);       MULADD(at[11], at[19]);
                     +      COMBA_STORE(C->dp[18]);
                     +      /* 19 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[8], at[23]);       MULADD(at[9], at[22]);       MULADD(at[10], at[21]);       MULADD(at[11], at[20]);
                     +      COMBA_STORE(C->dp[19]);
                     +      /* 20 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[9], at[23]);       MULADD(at[10], at[22]);       MULADD(at[11], at[21]);
                     +      COMBA_STORE(C->dp[20]);
                     +      /* 21 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[10], at[23]);       MULADD(at[11], at[22]);
                     +      COMBA_STORE(C->dp[21]);
                     +      /* 22 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[11], at[23]);
                     +      COMBA_STORE(C->dp[22]);
                     +      COMBA_STORE2(C->dp[23]);
                     +      C->used = 24;
                     +      C->sign = A->sign ^ B->sign;
                     +      fp_clamp(C);
                     +      COMBA_FINI;
                     +      break;
+                    +
                     +   case 13:
                     +      memcpy(at, A->dp, 13 * sizeof(fp_digit));
                     +      memcpy(at+13, B->dp, 13 * sizeof(fp_digit));
                     +      COMBA_START;
+                    +
                     +      COMBA_CLEAR;
                     +      /* 0 */
                     +      MULADD(at[0], at[13]);
                     +      COMBA_STORE(C->dp[0]);
                     +      /* 1 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[14]);       MULADD(at[1], at[13]);
                     +      COMBA_STORE(C->dp[1]);
                     +      /* 2 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[15]);       MULADD(at[1], at[14]);       MULADD(at[2], at[13]);
                     +      COMBA_STORE(C->dp[2]);
                     +      /* 3 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[16]);       MULADD(at[1], at[15]);       MULADD(at[2], at[14]);       MULADD(at[3], at[13]);
                     +      COMBA_STORE(C->dp[3]);
                     +      /* 4 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[17]);       MULADD(at[1], at[16]);       MULADD(at[2], at[15]);       MULADD(at[3], at[14]);       MULADD(at[4], at[13]);
                     +      COMBA_STORE(C->dp[4]);
                     +      /* 5 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[18]);       MULADD(at[1], at[17]);       MULADD(at[2], at[16]);       MULADD(at[3], at[15]);       MULADD(at[4], at[14]);       MULADD(at[5], at[13]);
                     +      COMBA_STORE(C->dp[5]);
                     +      /* 6 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[19]);       MULADD(at[1], at[18]);       MULADD(at[2], at[17]);       MULADD(at[3], at[16]);       MULADD(at[4], at[15]);       MULADD(at[5], at[14]);       MULADD(at[6], at[13]);
                     +      COMBA_STORE(C->dp[6]);
                     +      /* 7 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[20]);       MULADD(at[1], at[19]);       MULADD(at[2], at[18]);       MULADD(at[3], at[17]);       MULADD(at[4], at[16]);       MULADD(at[5], at[15]);       MULADD(at[6], at[14]);       MULADD(at[7], at[13]);
                     +      COMBA_STORE(C->dp[7]);
                     +      /* 8 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[21]);       MULADD(at[1], at[20]);       MULADD(at[2], at[19]);       MULADD(at[3], at[18]);       MULADD(at[4], at[17]);       MULADD(at[5], at[16]);       MULADD(at[6], at[15]);       MULADD(at[7], at[14]);       MULADD(at[8], at[13]);
                     +      COMBA_STORE(C->dp[8]);
                     +      /* 9 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[22]);       MULADD(at[1], at[21]);       MULADD(at[2], at[20]);       MULADD(at[3], at[19]);       MULADD(at[4], at[18]);       MULADD(at[5], at[17]);       MULADD(at[6], at[16]);       MULADD(at[7], at[15]);       MULADD(at[8], at[14]);       MULADD(at[9], at[13]);
                     +      COMBA_STORE(C->dp[9]);
                     +      /* 10 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[23]);       MULADD(at[1], at[22]);       MULADD(at[2], at[21]);       MULADD(at[3], at[20]);       MULADD(at[4], at[19]);       MULADD(at[5], at[18]);       MULADD(at[6], at[17]);       MULADD(at[7], at[16]);       MULADD(at[8], at[15]);       MULADD(at[9], at[14]);       MULADD(at[10], at[13]);
                     +      COMBA_STORE(C->dp[10]);
                     +      /* 11 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[24]);       MULADD(at[1], at[23]);       MULADD(at[2], at[22]);       MULADD(at[3], at[21]);       MULADD(at[4], at[20]);       MULADD(at[5], at[19]);       MULADD(at[6], at[18]);       MULADD(at[7], at[17]);       MULADD(at[8], at[16]);       MULADD(at[9], at[15]);       MULADD(at[10], at[14]);       MULADD(at[11], at[13]);
                     +      COMBA_STORE(C->dp[11]);
                     +      /* 12 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[25]);       MULADD(at[1], at[24]);       MULADD(at[2], at[23]);       MULADD(at[3], at[22]);       MULADD(at[4], at[21]);       MULADD(at[5], at[20]);       MULADD(at[6], at[19]);       MULADD(at[7], at[18]);       MULADD(at[8], at[17]);       MULADD(at[9], at[16]);       MULADD(at[10], at[15]);       MULADD(at[11], at[14]);       MULADD(at[12], at[13]);
                     +      COMBA_STORE(C->dp[12]);
                     +      /* 13 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[1], at[25]);       MULADD(at[2], at[24]);       MULADD(at[3], at[23]);       MULADD(at[4], at[22]);       MULADD(at[5], at[21]);       MULADD(at[6], at[20]);       MULADD(at[7], at[19]);       MULADD(at[8], at[18]);       MULADD(at[9], at[17]);       MULADD(at[10], at[16]);       MULADD(at[11], at[15]);       MULADD(at[12], at[14]);
                     +      COMBA_STORE(C->dp[13]);
                     +      /* 14 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[2], at[25]);       MULADD(at[3], at[24]);       MULADD(at[4], at[23]);       MULADD(at[5], at[22]);       MULADD(at[6], at[21]);       MULADD(at[7], at[20]);       MULADD(at[8], at[19]);       MULADD(at[9], at[18]);       MULADD(at[10], at[17]);       MULADD(at[11], at[16]);       MULADD(at[12], at[15]);
                     +      COMBA_STORE(C->dp[14]);
                     +      /* 15 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[3], at[25]);       MULADD(at[4], at[24]);       MULADD(at[5], at[23]);       MULADD(at[6], at[22]);       MULADD(at[7], at[21]);       MULADD(at[8], at[20]);       MULADD(at[9], at[19]);       MULADD(at[10], at[18]);       MULADD(at[11], at[17]);       MULADD(at[12], at[16]);
                     +      COMBA_STORE(C->dp[15]);
                     +      /* 16 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[4], at[25]);       MULADD(at[5], at[24]);       MULADD(at[6], at[23]);       MULADD(at[7], at[22]);       MULADD(at[8], at[21]);       MULADD(at[9], at[20]);       MULADD(at[10], at[19]);       MULADD(at[11], at[18]);       MULADD(at[12], at[17]);
                     +      COMBA_STORE(C->dp[16]);
                     +      /* 17 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[5], at[25]);       MULADD(at[6], at[24]);       MULADD(at[7], at[23]);       MULADD(at[8], at[22]);       MULADD(at[9], at[21]);       MULADD(at[10], at[20]);       MULADD(at[11], at[19]);       MULADD(at[12], at[18]);
                     +      COMBA_STORE(C->dp[17]);
                     +      /* 18 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[6], at[25]);       MULADD(at[7], at[24]);       MULADD(at[8], at[23]);       MULADD(at[9], at[22]);       MULADD(at[10], at[21]);       MULADD(at[11], at[20]);       MULADD(at[12], at[19]);
                     +      COMBA_STORE(C->dp[18]);
                     +      /* 19 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[7], at[25]);       MULADD(at[8], at[24]);       MULADD(at[9], at[23]);       MULADD(at[10], at[22]);       MULADD(at[11], at[21]);       MULADD(at[12], at[20]);
                     +      COMBA_STORE(C->dp[19]);
                     +      /* 20 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[8], at[25]);       MULADD(at[9], at[24]);       MULADD(at[10], at[23]);       MULADD(at[11], at[22]);       MULADD(at[12], at[21]);
                     +      COMBA_STORE(C->dp[20]);
                     +      /* 21 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[9], at[25]);       MULADD(at[10], at[24]);       MULADD(at[11], at[23]);       MULADD(at[12], at[22]);
                     +      COMBA_STORE(C->dp[21]);
                     +      /* 22 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[10], at[25]);       MULADD(at[11], at[24]);       MULADD(at[12], at[23]);
                     +      COMBA_STORE(C->dp[22]);
                     +      /* 23 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[11], at[25]);       MULADD(at[12], at[24]);
                     +      COMBA_STORE(C->dp[23]);
                     +      /* 24 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[12], at[25]);
                     +      COMBA_STORE(C->dp[24]);
                     +      COMBA_STORE2(C->dp[25]);
                     +      C->used = 26;
                     +      C->sign = A->sign ^ B->sign;
                     +      fp_clamp(C);
                     +      COMBA_FINI;
                     +      break;
+                    +
                     +   case 14:
                     +      memcpy(at, A->dp, 14 * sizeof(fp_digit));
                     +      memcpy(at+14, B->dp, 14 * sizeof(fp_digit));
                     +      COMBA_START;
+                    +
                     +      COMBA_CLEAR;
                     +      /* 0 */
                     +      MULADD(at[0], at[14]);
                     +      COMBA_STORE(C->dp[0]);
                     +      /* 1 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[15]);       MULADD(at[1], at[14]);
                     +      COMBA_STORE(C->dp[1]);
                     +      /* 2 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[16]);       MULADD(at[1], at[15]);       MULADD(at[2], at[14]);
                     +      COMBA_STORE(C->dp[2]);
                     +      /* 3 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[17]);       MULADD(at[1], at[16]);       MULADD(at[2], at[15]);       MULADD(at[3], at[14]);
                     +      COMBA_STORE(C->dp[3]);
                     +      /* 4 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[18]);       MULADD(at[1], at[17]);       MULADD(at[2], at[16]);       MULADD(at[3], at[15]);       MULADD(at[4], at[14]);
                     +      COMBA_STORE(C->dp[4]);
                     +      /* 5 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[19]);       MULADD(at[1], at[18]);       MULADD(at[2], at[17]);       MULADD(at[3], at[16]);       MULADD(at[4], at[15]);       MULADD(at[5], at[14]);
                     +      COMBA_STORE(C->dp[5]);
                     +      /* 6 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[20]);       MULADD(at[1], at[19]);       MULADD(at[2], at[18]);       MULADD(at[3], at[17]);       MULADD(at[4], at[16]);       MULADD(at[5], at[15]);       MULADD(at[6], at[14]);
                     +      COMBA_STORE(C->dp[6]);
                     +      /* 7 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[21]);       MULADD(at[1], at[20]);       MULADD(at[2], at[19]);       MULADD(at[3], at[18]);       MULADD(at[4], at[17]);       MULADD(at[5], at[16]);       MULADD(at[6], at[15]);       MULADD(at[7], at[14]);
                     +      COMBA_STORE(C->dp[7]);
                     +      /* 8 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[22]);       MULADD(at[1], at[21]);       MULADD(at[2], at[20]);       MULADD(at[3], at[19]);       MULADD(at[4], at[18]);       MULADD(at[5], at[17]);       MULADD(at[6], at[16]);       MULADD(at[7], at[15]);       MULADD(at[8], at[14]);
                     +      COMBA_STORE(C->dp[8]);
                     +      /* 9 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[23]);       MULADD(at[1], at[22]);       MULADD(at[2], at[21]);       MULADD(at[3], at[20]);       MULADD(at[4], at[19]);       MULADD(at[5], at[18]);       MULADD(at[6], at[17]);       MULADD(at[7], at[16]);       MULADD(at[8], at[15]);       MULADD(at[9], at[14]);
                     +      COMBA_STORE(C->dp[9]);
                     +      /* 10 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[24]);       MULADD(at[1], at[23]);       MULADD(at[2], at[22]);       MULADD(at[3], at[21]);       MULADD(at[4], at[20]);       MULADD(at[5], at[19]);       MULADD(at[6], at[18]);       MULADD(at[7], at[17]);       MULADD(at[8], at[16]);       MULADD(at[9], at[15]);       MULADD(at[10], at[14]);
                     +      COMBA_STORE(C->dp[10]);
                     +      /* 11 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[25]);       MULADD(at[1], at[24]);       MULADD(at[2], at[23]);       MULADD(at[3], at[22]);       MULADD(at[4], at[21]);       MULADD(at[5], at[20]);       MULADD(at[6], at[19]);       MULADD(at[7], at[18]);       MULADD(at[8], at[17]);       MULADD(at[9], at[16]);       MULADD(at[10], at[15]);       MULADD(at[11], at[14]);
                     +      COMBA_STORE(C->dp[11]);
                     +      /* 12 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[26]);       MULADD(at[1], at[25]);       MULADD(at[2], at[24]);       MULADD(at[3], at[23]);       MULADD(at[4], at[22]);       MULADD(at[5], at[21]);       MULADD(at[6], at[20]);       MULADD(at[7], at[19]);       MULADD(at[8], at[18]);       MULADD(at[9], at[17]);       MULADD(at[10], at[16]);       MULADD(at[11], at[15]);       MULADD(at[12], at[14]);
                     +      COMBA_STORE(C->dp[12]);
                     +      /* 13 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[27]);       MULADD(at[1], at[26]);       MULADD(at[2], at[25]);       MULADD(at[3], at[24]);       MULADD(at[4], at[23]);       MULADD(at[5], at[22]);       MULADD(at[6], at[21]);       MULADD(at[7], at[20]);       MULADD(at[8], at[19]);       MULADD(at[9], at[18]);       MULADD(at[10], at[17]);       MULADD(at[11], at[16]);       MULADD(at[12], at[15]);       MULADD(at[13], at[14]);
                     +      COMBA_STORE(C->dp[13]);
                     +      /* 14 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[1], at[27]);       MULADD(at[2], at[26]);       MULADD(at[3], at[25]);       MULADD(at[4], at[24]);       MULADD(at[5], at[23]);       MULADD(at[6], at[22]);       MULADD(at[7], at[21]);       MULADD(at[8], at[20]);       MULADD(at[9], at[19]);       MULADD(at[10], at[18]);       MULADD(at[11], at[17]);       MULADD(at[12], at[16]);       MULADD(at[13], at[15]);
                     +      COMBA_STORE(C->dp[14]);
                     +      /* 15 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[2], at[27]);       MULADD(at[3], at[26]);       MULADD(at[4], at[25]);       MULADD(at[5], at[24]);       MULADD(at[6], at[23]);       MULADD(at[7], at[22]);       MULADD(at[8], at[21]);       MULADD(at[9], at[20]);       MULADD(at[10], at[19]);       MULADD(at[11], at[18]);       MULADD(at[12], at[17]);       MULADD(at[13], at[16]);
                     +      COMBA_STORE(C->dp[15]);
                     +      /* 16 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[3], at[27]);       MULADD(at[4], at[26]);       MULADD(at[5], at[25]);       MULADD(at[6], at[24]);       MULADD(at[7], at[23]);       MULADD(at[8], at[22]);       MULADD(at[9], at[21]);       MULADD(at[10], at[20]);       MULADD(at[11], at[19]);       MULADD(at[12], at[18]);       MULADD(at[13], at[17]);
                     +      COMBA_STORE(C->dp[16]);
                     +      /* 17 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[4], at[27]);       MULADD(at[5], at[26]);       MULADD(at[6], at[25]);       MULADD(at[7], at[24]);       MULADD(at[8], at[23]);       MULADD(at[9], at[22]);       MULADD(at[10], at[21]);       MULADD(at[11], at[20]);       MULADD(at[12], at[19]);       MULADD(at[13], at[18]);
                     +      COMBA_STORE(C->dp[17]);
                     +      /* 18 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[5], at[27]);       MULADD(at[6], at[26]);       MULADD(at[7], at[25]);       MULADD(at[8], at[24]);       MULADD(at[9], at[23]);       MULADD(at[10], at[22]);       MULADD(at[11], at[21]);       MULADD(at[12], at[20]);       MULADD(at[13], at[19]);
                     +      COMBA_STORE(C->dp[18]);
                     +      /* 19 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[6], at[27]);       MULADD(at[7], at[26]);       MULADD(at[8], at[25]);       MULADD(at[9], at[24]);       MULADD(at[10], at[23]);       MULADD(at[11], at[22]);       MULADD(at[12], at[21]);       MULADD(at[13], at[20]);
                     +      COMBA_STORE(C->dp[19]);
                     +      /* 20 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[7], at[27]);       MULADD(at[8], at[26]);       MULADD(at[9], at[25]);       MULADD(at[10], at[24]);       MULADD(at[11], at[23]);       MULADD(at[12], at[22]);       MULADD(at[13], at[21]);
                     +      COMBA_STORE(C->dp[20]);
                     +      /* 21 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[8], at[27]);       MULADD(at[9], at[26]);       MULADD(at[10], at[25]);       MULADD(at[11], at[24]);       MULADD(at[12], at[23]);       MULADD(at[13], at[22]);
                     +      COMBA_STORE(C->dp[21]);
                     +      /* 22 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[9], at[27]);       MULADD(at[10], at[26]);       MULADD(at[11], at[25]);       MULADD(at[12], at[24]);       MULADD(at[13], at[23]);
                     +      COMBA_STORE(C->dp[22]);
                     +      /* 23 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[10], at[27]);       MULADD(at[11], at[26]);       MULADD(at[12], at[25]);       MULADD(at[13], at[24]);
                     +      COMBA_STORE(C->dp[23]);
                     +      /* 24 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[11], at[27]);       MULADD(at[12], at[26]);       MULADD(at[13], at[25]);
                     +      COMBA_STORE(C->dp[24]);
                     +      /* 25 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[12], at[27]);       MULADD(at[13], at[26]);
                     +      COMBA_STORE(C->dp[25]);
                     +      /* 26 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[13], at[27]);
                     +      COMBA_STORE(C->dp[26]);
                     +      COMBA_STORE2(C->dp[27]);
                     +      C->used = 28;
                     +      C->sign = A->sign ^ B->sign;
                     +      fp_clamp(C);
                     +      COMBA_FINI;
                     +      break;
+                    +
                     +   case 15:
                     +      memcpy(at, A->dp, 15 * sizeof(fp_digit));
                     +      memcpy(at+15, B->dp, 15 * sizeof(fp_digit));
                     +      COMBA_START;
+                    +
                     +      COMBA_CLEAR;
                     +      /* 0 */
                     +      MULADD(at[0], at[15]);
                     +      COMBA_STORE(C->dp[0]);
                     +      /* 1 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[16]);       MULADD(at[1], at[15]);
                     +      COMBA_STORE(C->dp[1]);
                     +      /* 2 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[17]);       MULADD(at[1], at[16]);       MULADD(at[2], at[15]);
                     +      COMBA_STORE(C->dp[2]);
                     +      /* 3 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[18]);       MULADD(at[1], at[17]);       MULADD(at[2], at[16]);       MULADD(at[3], at[15]);
                     +      COMBA_STORE(C->dp[3]);
                     +      /* 4 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[19]);       MULADD(at[1], at[18]);       MULADD(at[2], at[17]);       MULADD(at[3], at[16]);       MULADD(at[4], at[15]);
                     +      COMBA_STORE(C->dp[4]);
                     +      /* 5 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[20]);       MULADD(at[1], at[19]);       MULADD(at[2], at[18]);       MULADD(at[3], at[17]);       MULADD(at[4], at[16]);       MULADD(at[5], at[15]);
                     +      COMBA_STORE(C->dp[5]);
                     +      /* 6 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[21]);       MULADD(at[1], at[20]);       MULADD(at[2], at[19]);       MULADD(at[3], at[18]);       MULADD(at[4], at[17]);       MULADD(at[5], at[16]);       MULADD(at[6], at[15]);
                     +      COMBA_STORE(C->dp[6]);
                     +      /* 7 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[22]);       MULADD(at[1], at[21]);       MULADD(at[2], at[20]);       MULADD(at[3], at[19]);       MULADD(at[4], at[18]);       MULADD(at[5], at[17]);       MULADD(at[6], at[16]);       MULADD(at[7], at[15]);
                     +      COMBA_STORE(C->dp[7]);
                     +      /* 8 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[23]);       MULADD(at[1], at[22]);       MULADD(at[2], at[21]);       MULADD(at[3], at[20]);       MULADD(at[4], at[19]);       MULADD(at[5], at[18]);       MULADD(at[6], at[17]);       MULADD(at[7], at[16]);       MULADD(at[8], at[15]);
                     +      COMBA_STORE(C->dp[8]);
                     +      /* 9 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[24]);       MULADD(at[1], at[23]);       MULADD(at[2], at[22]);       MULADD(at[3], at[21]);       MULADD(at[4], at[20]);       MULADD(at[5], at[19]);       MULADD(at[6], at[18]);       MULADD(at[7], at[17]);       MULADD(at[8], at[16]);       MULADD(at[9], at[15]);
                     +      COMBA_STORE(C->dp[9]);
                     +      /* 10 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[25]);       MULADD(at[1], at[24]);       MULADD(at[2], at[23]);       MULADD(at[3], at[22]);       MULADD(at[4], at[21]);       MULADD(at[5], at[20]);       MULADD(at[6], at[19]);       MULADD(at[7], at[18]);       MULADD(at[8], at[17]);       MULADD(at[9], at[16]);       MULADD(at[10], at[15]);
                     +      COMBA_STORE(C->dp[10]);
                     +      /* 11 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[26]);       MULADD(at[1], at[25]);       MULADD(at[2], at[24]);       MULADD(at[3], at[23]);       MULADD(at[4], at[22]);       MULADD(at[5], at[21]);       MULADD(at[6], at[20]);       MULADD(at[7], at[19]);       MULADD(at[8], at[18]);       MULADD(at[9], at[17]);       MULADD(at[10], at[16]);       MULADD(at[11], at[15]);
                     +      COMBA_STORE(C->dp[11]);
                     +      /* 12 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[27]);       MULADD(at[1], at[26]);       MULADD(at[2], at[25]);       MULADD(at[3], at[24]);       MULADD(at[4], at[23]);       MULADD(at[5], at[22]);       MULADD(at[6], at[21]);       MULADD(at[7], at[20]);       MULADD(at[8], at[19]);       MULADD(at[9], at[18]);       MULADD(at[10], at[17]);       MULADD(at[11], at[16]);       MULADD(at[12], at[15]);
                     +      COMBA_STORE(C->dp[12]);
                     +      /* 13 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[28]);       MULADD(at[1], at[27]);       MULADD(at[2], at[26]);       MULADD(at[3], at[25]);       MULADD(at[4], at[24]);       MULADD(at[5], at[23]);       MULADD(at[6], at[22]);       MULADD(at[7], at[21]);       MULADD(at[8], at[20]);       MULADD(at[9], at[19]);       MULADD(at[10], at[18]);       MULADD(at[11], at[17]);       MULADD(at[12], at[16]);       MULADD(at[13], at[15]);
                     +      COMBA_STORE(C->dp[13]);
                     +      /* 14 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[29]);       MULADD(at[1], at[28]);       MULADD(at[2], at[27]);       MULADD(at[3], at[26]);       MULADD(at[4], at[25]);       MULADD(at[5], at[24]);       MULADD(at[6], at[23]);       MULADD(at[7], at[22]);       MULADD(at[8], at[21]);       MULADD(at[9], at[20]);       MULADD(at[10], at[19]);       MULADD(at[11], at[18]);       MULADD(at[12], at[17]);       MULADD(at[13], at[16]);       MULADD(at[14], at[15]);
                     +      COMBA_STORE(C->dp[14]);
                     +      /* 15 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[1], at[29]);       MULADD(at[2], at[28]);       MULADD(at[3], at[27]);       MULADD(at[4], at[26]);       MULADD(at[5], at[25]);       MULADD(at[6], at[24]);       MULADD(at[7], at[23]);       MULADD(at[8], at[22]);       MULADD(at[9], at[21]);       MULADD(at[10], at[20]);       MULADD(at[11], at[19]);       MULADD(at[12], at[18]);       MULADD(at[13], at[17]);       MULADD(at[14], at[16]);
                     +      COMBA_STORE(C->dp[15]);
                     +      /* 16 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[2], at[29]);       MULADD(at[3], at[28]);       MULADD(at[4], at[27]);       MULADD(at[5], at[26]);       MULADD(at[6], at[25]);       MULADD(at[7], at[24]);       MULADD(at[8], at[23]);       MULADD(at[9], at[22]);       MULADD(at[10], at[21]);       MULADD(at[11], at[20]);       MULADD(at[12], at[19]);       MULADD(at[13], at[18]);       MULADD(at[14], at[17]);
                     +      COMBA_STORE(C->dp[16]);
                     +      /* 17 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[3], at[29]);       MULADD(at[4], at[28]);       MULADD(at[5], at[27]);       MULADD(at[6], at[26]);       MULADD(at[7], at[25]);       MULADD(at[8], at[24]);       MULADD(at[9], at[23]);       MULADD(at[10], at[22]);       MULADD(at[11], at[21]);       MULADD(at[12], at[20]);       MULADD(at[13], at[19]);       MULADD(at[14], at[18]);
                     +      COMBA_STORE(C->dp[17]);
                     +      /* 18 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[4], at[29]);       MULADD(at[5], at[28]);       MULADD(at[6], at[27]);       MULADD(at[7], at[26]);       MULADD(at[8], at[25]);       MULADD(at[9], at[24]);       MULADD(at[10], at[23]);       MULADD(at[11], at[22]);       MULADD(at[12], at[21]);       MULADD(at[13], at[20]);       MULADD(at[14], at[19]);
                     +      COMBA_STORE(C->dp[18]);
                     +      /* 19 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[5], at[29]);       MULADD(at[6], at[28]);       MULADD(at[7], at[27]);       MULADD(at[8], at[26]);       MULADD(at[9], at[25]);       MULADD(at[10], at[24]);       MULADD(at[11], at[23]);       MULADD(at[12], at[22]);       MULADD(at[13], at[21]);       MULADD(at[14], at[20]);
                     +      COMBA_STORE(C->dp[19]);
                     +      /* 20 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[6], at[29]);       MULADD(at[7], at[28]);       MULADD(at[8], at[27]);       MULADD(at[9], at[26]);       MULADD(at[10], at[25]);       MULADD(at[11], at[24]);       MULADD(at[12], at[23]);       MULADD(at[13], at[22]);       MULADD(at[14], at[21]);
                     +      COMBA_STORE(C->dp[20]);
                     +      /* 21 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[7], at[29]);       MULADD(at[8], at[28]);       MULADD(at[9], at[27]);       MULADD(at[10], at[26]);       MULADD(at[11], at[25]);       MULADD(at[12], at[24]);       MULADD(at[13], at[23]);       MULADD(at[14], at[22]);
                     +      COMBA_STORE(C->dp[21]);
                     +      /* 22 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[8], at[29]);       MULADD(at[9], at[28]);       MULADD(at[10], at[27]);       MULADD(at[11], at[26]);       MULADD(at[12], at[25]);       MULADD(at[13], at[24]);       MULADD(at[14], at[23]);
                     +      COMBA_STORE(C->dp[22]);
                     +      /* 23 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[9], at[29]);       MULADD(at[10], at[28]);       MULADD(at[11], at[27]);       MULADD(at[12], at[26]);       MULADD(at[13], at[25]);       MULADD(at[14], at[24]);
                     +      COMBA_STORE(C->dp[23]);
                     +      /* 24 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[10], at[29]);       MULADD(at[11], at[28]);       MULADD(at[12], at[27]);       MULADD(at[13], at[26]);       MULADD(at[14], at[25]);
                     +      COMBA_STORE(C->dp[24]);
                     +      /* 25 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[11], at[29]);       MULADD(at[12], at[28]);       MULADD(at[13], at[27]);       MULADD(at[14], at[26]);
                     +      COMBA_STORE(C->dp[25]);
                     +      /* 26 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[12], at[29]);       MULADD(at[13], at[28]);       MULADD(at[14], at[27]);
                     +      COMBA_STORE(C->dp[26]);
                     +      /* 27 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[13], at[29]);       MULADD(at[14], at[28]);
                     +      COMBA_STORE(C->dp[27]);
                     +      /* 28 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[14], at[29]);
                     +      COMBA_STORE(C->dp[28]);
                     +      COMBA_STORE2(C->dp[29]);
                     +      C->used = 30;
                     +      C->sign = A->sign ^ B->sign;
                     +      fp_clamp(C);
                     +      COMBA_FINI;
                     +      break;
+                    +
                     +   case 16:
                     +      memcpy(at, A->dp, 16 * sizeof(fp_digit));
                     +      memcpy(at+16, B->dp, 16 * sizeof(fp_digit));
                     +      COMBA_START;
+                    +
                     +      COMBA_CLEAR;
                     +      /* 0 */
                     +      MULADD(at[0], at[16]);
                     +      COMBA_STORE(C->dp[0]);
                     +      /* 1 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[17]);       MULADD(at[1], at[16]);
                     +      COMBA_STORE(C->dp[1]);
                     +      /* 2 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[18]);       MULADD(at[1], at[17]);       MULADD(at[2], at[16]);
                     +      COMBA_STORE(C->dp[2]);
                     +      /* 3 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[19]);       MULADD(at[1], at[18]);       MULADD(at[2], at[17]);       MULADD(at[3], at[16]);
                     +      COMBA_STORE(C->dp[3]);
                     +      /* 4 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[20]);       MULADD(at[1], at[19]);       MULADD(at[2], at[18]);       MULADD(at[3], at[17]);       MULADD(at[4], at[16]);
                     +      COMBA_STORE(C->dp[4]);
                     +      /* 5 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[21]);       MULADD(at[1], at[20]);       MULADD(at[2], at[19]);       MULADD(at[3], at[18]);       MULADD(at[4], at[17]);       MULADD(at[5], at[16]);
                     +      COMBA_STORE(C->dp[5]);
                     +      /* 6 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[22]);       MULADD(at[1], at[21]);       MULADD(at[2], at[20]);       MULADD(at[3], at[19]);       MULADD(at[4], at[18]);       MULADD(at[5], at[17]);       MULADD(at[6], at[16]);
                     +      COMBA_STORE(C->dp[6]);
                     +      /* 7 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[23]);       MULADD(at[1], at[22]);       MULADD(at[2], at[21]);       MULADD(at[3], at[20]);       MULADD(at[4], at[19]);       MULADD(at[5], at[18]);       MULADD(at[6], at[17]);       MULADD(at[7], at[16]);
                     +      COMBA_STORE(C->dp[7]);
                     +      /* 8 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[24]);       MULADD(at[1], at[23]);       MULADD(at[2], at[22]);       MULADD(at[3], at[21]);       MULADD(at[4], at[20]);       MULADD(at[5], at[19]);       MULADD(at[6], at[18]);       MULADD(at[7], at[17]);       MULADD(at[8], at[16]);
                     +      COMBA_STORE(C->dp[8]);
                     +      /* 9 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[25]);       MULADD(at[1], at[24]);       MULADD(at[2], at[23]);       MULADD(at[3], at[22]);       MULADD(at[4], at[21]);       MULADD(at[5], at[20]);       MULADD(at[6], at[19]);       MULADD(at[7], at[18]);       MULADD(at[8], at[17]);       MULADD(at[9], at[16]);
                     +      COMBA_STORE(C->dp[9]);
                     +      /* 10 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[26]);       MULADD(at[1], at[25]);       MULADD(at[2], at[24]);       MULADD(at[3], at[23]);       MULADD(at[4], at[22]);       MULADD(at[5], at[21]);       MULADD(at[6], at[20]);       MULADD(at[7], at[19]);       MULADD(at[8], at[18]);       MULADD(at[9], at[17]);       MULADD(at[10], at[16]);
                     +      COMBA_STORE(C->dp[10]);
                     +      /* 11 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[27]);       MULADD(at[1], at[26]);       MULADD(at[2], at[25]);       MULADD(at[3], at[24]);       MULADD(at[4], at[23]);       MULADD(at[5], at[22]);       MULADD(at[6], at[21]);       MULADD(at[7], at[20]);       MULADD(at[8], at[19]);       MULADD(at[9], at[18]);       MULADD(at[10], at[17]);       MULADD(at[11], at[16]);
                     +      COMBA_STORE(C->dp[11]);
                     +      /* 12 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[28]);       MULADD(at[1], at[27]);       MULADD(at[2], at[26]);       MULADD(at[3], at[25]);       MULADD(at[4], at[24]);       MULADD(at[5], at[23]);       MULADD(at[6], at[22]);       MULADD(at[7], at[21]);       MULADD(at[8], at[20]);       MULADD(at[9], at[19]);       MULADD(at[10], at[18]);       MULADD(at[11], at[17]);       MULADD(at[12], at[16]);
                     +      COMBA_STORE(C->dp[12]);
                     +      /* 13 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[29]);       MULADD(at[1], at[28]);       MULADD(at[2], at[27]);       MULADD(at[3], at[26]);       MULADD(at[4], at[25]);       MULADD(at[5], at[24]);       MULADD(at[6], at[23]);       MULADD(at[7], at[22]);       MULADD(at[8], at[21]);       MULADD(at[9], at[20]);       MULADD(at[10], at[19]);       MULADD(at[11], at[18]);       MULADD(at[12], at[17]);       MULADD(at[13], at[16]);
                     +      COMBA_STORE(C->dp[13]);
                     +      /* 14 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[30]);       MULADD(at[1], at[29]);       MULADD(at[2], at[28]);       MULADD(at[3], at[27]);       MULADD(at[4], at[26]);       MULADD(at[5], at[25]);       MULADD(at[6], at[24]);       MULADD(at[7], at[23]);       MULADD(at[8], at[22]);       MULADD(at[9], at[21]);       MULADD(at[10], at[20]);       MULADD(at[11], at[19]);       MULADD(at[12], at[18]);       MULADD(at[13], at[17]);       MULADD(at[14], at[16]);
                     +      COMBA_STORE(C->dp[14]);
                     +      /* 15 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[0], at[31]);       MULADD(at[1], at[30]);       MULADD(at[2], at[29]);       MULADD(at[3], at[28]);       MULADD(at[4], at[27]);       MULADD(at[5], at[26]);       MULADD(at[6], at[25]);       MULADD(at[7], at[24]);       MULADD(at[8], at[23]);       MULADD(at[9], at[22]);       MULADD(at[10], at[21]);       MULADD(at[11], at[20]);       MULADD(at[12], at[19]);       MULADD(at[13], at[18]);       MULADD(at[14], at[17]);       MULADD(at[15], at[16]);
                     +      COMBA_STORE(C->dp[15]);
                     +      /* 16 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[1], at[31]);       MULADD(at[2], at[30]);       MULADD(at[3], at[29]);       MULADD(at[4], at[28]);       MULADD(at[5], at[27]);       MULADD(at[6], at[26]);       MULADD(at[7], at[25]);       MULADD(at[8], at[24]);       MULADD(at[9], at[23]);       MULADD(at[10], at[22]);       MULADD(at[11], at[21]);       MULADD(at[12], at[20]);       MULADD(at[13], at[19]);       MULADD(at[14], at[18]);       MULADD(at[15], at[17]);
                     +      COMBA_STORE(C->dp[16]);
                     +      /* 17 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[2], at[31]);       MULADD(at[3], at[30]);       MULADD(at[4], at[29]);       MULADD(at[5], at[28]);       MULADD(at[6], at[27]);       MULADD(at[7], at[26]);       MULADD(at[8], at[25]);       MULADD(at[9], at[24]);       MULADD(at[10], at[23]);       MULADD(at[11], at[22]);       MULADD(at[12], at[21]);       MULADD(at[13], at[20]);       MULADD(at[14], at[19]);       MULADD(at[15], at[18]);
                     +      COMBA_STORE(C->dp[17]);
                     +      /* 18 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[3], at[31]);       MULADD(at[4], at[30]);       MULADD(at[5], at[29]);       MULADD(at[6], at[28]);       MULADD(at[7], at[27]);       MULADD(at[8], at[26]);       MULADD(at[9], at[25]);       MULADD(at[10], at[24]);       MULADD(at[11], at[23]);       MULADD(at[12], at[22]);       MULADD(at[13], at[21]);       MULADD(at[14], at[20]);       MULADD(at[15], at[19]);
                     +      COMBA_STORE(C->dp[18]);
                     +      /* 19 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[4], at[31]);       MULADD(at[5], at[30]);       MULADD(at[6], at[29]);       MULADD(at[7], at[28]);       MULADD(at[8], at[27]);       MULADD(at[9], at[26]);       MULADD(at[10], at[25]);       MULADD(at[11], at[24]);       MULADD(at[12], at[23]);       MULADD(at[13], at[22]);       MULADD(at[14], at[21]);       MULADD(at[15], at[20]);
                     +      COMBA_STORE(C->dp[19]);
                     +      /* 20 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[5], at[31]);       MULADD(at[6], at[30]);       MULADD(at[7], at[29]);       MULADD(at[8], at[28]);       MULADD(at[9], at[27]);       MULADD(at[10], at[26]);       MULADD(at[11], at[25]);       MULADD(at[12], at[24]);       MULADD(at[13], at[23]);       MULADD(at[14], at[22]);       MULADD(at[15], at[21]);
                     +      COMBA_STORE(C->dp[20]);
                     +      /* 21 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[6], at[31]);       MULADD(at[7], at[30]);       MULADD(at[8], at[29]);       MULADD(at[9], at[28]);       MULADD(at[10], at[27]);       MULADD(at[11], at[26]);       MULADD(at[12], at[25]);       MULADD(at[13], at[24]);       MULADD(at[14], at[23]);       MULADD(at[15], at[22]);
                     +      COMBA_STORE(C->dp[21]);
                     +      /* 22 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[7], at[31]);       MULADD(at[8], at[30]);       MULADD(at[9], at[29]);       MULADD(at[10], at[28]);       MULADD(at[11], at[27]);       MULADD(at[12], at[26]);       MULADD(at[13], at[25]);       MULADD(at[14], at[24]);       MULADD(at[15], at[23]);
                     +      COMBA_STORE(C->dp[22]);
                     +      /* 23 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[8], at[31]);       MULADD(at[9], at[30]);       MULADD(at[10], at[29]);       MULADD(at[11], at[28]);       MULADD(at[12], at[27]);       MULADD(at[13], at[26]);       MULADD(at[14], at[25]);       MULADD(at[15], at[24]);
                     +      COMBA_STORE(C->dp[23]);
                     +      /* 24 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[9], at[31]);       MULADD(at[10], at[30]);       MULADD(at[11], at[29]);       MULADD(at[12], at[28]);       MULADD(at[13], at[27]);       MULADD(at[14], at[26]);       MULADD(at[15], at[25]);
                     +      COMBA_STORE(C->dp[24]);
                     +      /* 25 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[10], at[31]);       MULADD(at[11], at[30]);       MULADD(at[12], at[29]);       MULADD(at[13], at[28]);       MULADD(at[14], at[27]);       MULADD(at[15], at[26]);
                     +      COMBA_STORE(C->dp[25]);
                     +      /* 26 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[11], at[31]);       MULADD(at[12], at[30]);       MULADD(at[13], at[29]);       MULADD(at[14], at[28]);       MULADD(at[15], at[27]);
                     +      COMBA_STORE(C->dp[26]);
                     +      /* 27 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[12], at[31]);       MULADD(at[13], at[30]);       MULADD(at[14], at[29]);       MULADD(at[15], at[28]);
                     +      COMBA_STORE(C->dp[27]);
                     +      /* 28 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[13], at[31]);       MULADD(at[14], at[30]);       MULADD(at[15], at[29]);
                     +      COMBA_STORE(C->dp[28]);
                     +      /* 29 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[14], at[31]);       MULADD(at[15], at[30]);
                     +      COMBA_STORE(C->dp[29]);
                     +      /* 30 */
                     +      COMBA_FORWARD;
                     +      MULADD(at[15], at[31]);
                     +      COMBA_STORE(C->dp[30]);
                     +      COMBA_STORE2(C->dp[31]);
                     +      C->used = 32;
                     +      C->sign = A->sign ^ B->sign;
                     +      fp_clamp(C);
                     +      COMBA_FINI;
                     +      break;
                     +   }
+                     }
                     -#endif
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_prime_is_prime.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
                     +#endif
                     -/* End: bn_mp_prime_is_prime.c */
                     +/* End: fp_mul_comba_small_set.c */
                     -/* Start: bn_mp_prime_miller_rabin.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_PRIME_MILLER_RABIN_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     +/* Start: fp_mul_d.c */
                     +/* TomsFastMath, a fast ISO C bignum library.
                     + *
                     + * This project is meant to fill in where LibTomMath
                     + * falls short.  That is speed ;-)
+                      *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     + * This project is public domain and free for all purposes.
                     + *
                     + * Tom St Denis, tomstdenis@gmail.com
                     + */
                     +#include "bignum_fast.h"
+                    +
                     +/* c = a * b */
                     +void fp_mul_d(fp_int *a, fp_digit b, fp_int *c)
                     +{
                     +   fp_word  w;
                     +   int      x, oldused;
+                    +
                     +   oldused = c->used;
                     +   c->used = a->used;
                     +   c->sign = a->sign;
                     +   w       = 0;
                     +   for (x = 0; x < a->used; x++) {
                     +       w         = ((fp_word)a->dp[x]) * ((fp_word)b) + w;
                     +       c->dp[x]  = (fp_digit)w;
                     +       w         = w >> DIGIT_BIT;
                     +   }
                     +   if (w != 0 && (a->used != FP_SIZE)) {
                     +      c->dp[c->used++] = w;
                     +      ++x;
                     +   }
                     +   for (; x < oldused; x++) {
                     +      c->dp[x] = 0;
                     +   }
                     +   fp_clamp(c);
                     +}
+                    +
+                    +
                     +/* $Source: /cvs/libtom/tomsfastmath/src/mul/fp_mul_d.c,v $ */
                     +/* $Revision: 1.1 $ */
                     +/* $Date: 2006/12/31 21:25:53 $ */
+                    +
                     +/* End: fp_mul_d.c */
+                    +
                     +/* Start: fp_mulmod.c */
                     +/* TomsFastMath, a fast ISO C bignum library.
                     + *
                     + * This project is meant to fill in where LibTomMath
                     + * falls short.  That is speed ;-)
+                      *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     + * This project is public domain and free for all purposes.
                     + *
                     + * Tom St Denis, tomstdenis@gmail.com
                     + */
                     +#include "bignum_fast.h"
                     +/* d = a * b (mod c) */
                     +int fp_mulmod(fp_int *a, fp_int *b, fp_int *c, fp_int *d)
                     +{
                     +  fp_int tmp;
                     +  fp_zero(&tmp);
                     +  fp_mul(a, b, &tmp);
                     +  return fp_mod(&tmp, c, d);
                     +}
+                    +
                     +/* $Source: /cvs/libtom/tomsfastmath/src/mul/fp_mulmod.c,v $ */
                     +/* $Revision: 1.1 $ */
                     +/* $Date: 2006/12/31 21:25:53 $ */
+                    +
                     +/* End: fp_mulmod.c */
+                    +
                     +/* Start: fp_prime_miller_rabin.c */
                     +/* TomsFastMath, a fast ISO C bignum library.
                     + *
                     + * This project is meant to fill in where LibTomMath
                     + * falls short.  That is speed ;-)
+                      *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     + * This project is public domain and free for all purposes.
                     + *
                     + * Tom St Denis, tomstdenis@gmail.com
                       */
                     +#include "bignum_fast.h"
                      /* Miller-Rabin test of "a" to the base of "b" as described in
                       * HAC pp. 139 Algorithm 4.24
@@ -5756,396 +6808,127 @@ LBL_B:mp_clear (&b);
                       * Randomly the chance of error is no more than 1/4 and often
                       * very much lower.
                       */
                     -int mp_prime_miller_rabin (mp_int * a, mp_int * b, int *result)
                     +void fp_prime_miller_rabin (fp_int * a, fp_int * b, int *result)
+                     {
                     -  mp_int  n1, y, r;
                     -  int     s, j, err;
                     +  fp_int  n1, y, r;
                     +  int     s, j;
                        /* default */
                     -  *result = MP_NO;
                     +  *result = FP_NO;
                        /* ensure b > 1 */
                     -  if (mp_cmp_d(b, 1) != MP_GT) {
                     -     return MP_VAL;
                     +  if (fp_cmp_d(b, 1) != FP_GT) {
                     +     return;
+                       }
                        /* get n1 = a - 1 */
                     -  if ((err = mp_init_copy (&n1, a)) != MP_OKAY) {
                     -    return err;
                     -  }
                     -  if ((err = mp_sub_d (&n1, 1, &n1)) != MP_OKAY) {
                     -    goto LBL_N1;
                     -  }
                     +  fp_init_copy(&n1, a);
                     +  fp_sub_d(&n1, 1, &n1);
                        /* set 2**s * r = n1 */
                     -  if ((err = mp_init_copy (&r, &n1)) != MP_OKAY) {
                     -    goto LBL_N1;
                     -  }
                     +  fp_init_copy(&r, &n1);
                        /* count the number of least significant bits
                         * which are zero
                         */
                     -  s = mp_cnt_lsb(&r);
                     +  s = fp_cnt_lsb(&r);
                        /* now divide n - 1 by 2**s */
                     -  if ((err = mp_div_2d (&r, s, &r, NULL)) != MP_OKAY) {
                     -    goto LBL_R;
                     -  }
                     +  fp_div_2d (&r, s, &r, NULL);
                        /* compute y = b**r mod a */
                     -  if ((err = mp_init (&y)) != MP_OKAY) {
                     -    goto LBL_R;
                     -  }
                     -  if ((err = mp_exptmod (b, &r, a, &y)) != MP_OKAY) {
                     -    goto LBL_Y;
                     -  }
                     +  fp_init(&y);
                     +  fp_exptmod(b, &r, a, &y);
                        /* if y != 1 and y != n1 do */
                     -  if (mp_cmp_d (&y, 1) != MP_EQ && mp_cmp (&y, &n1) != MP_EQ) {
                     +  if (fp_cmp_d (&y, 1) != FP_EQ && fp_cmp (&y, &n1) != FP_EQ) {
                          j = 1;
                          /* while j <= s-1 and y != n1 */
                     -    while ((j <= (s - 1)) && mp_cmp (&y, &n1) != MP_EQ) {
                     -      if ((err = mp_sqrmod (&y, a, &y)) != MP_OKAY) {
                     -         goto LBL_Y;
                     -      }
                     +    while ((j <= (s - 1)) && fp_cmp (&y, &n1) != FP_EQ) {
                     +      fp_sqrmod (&y, a, &y);
                            /* if y == 1 then composite */
                     -      if (mp_cmp_d (&y, 1) == MP_EQ) {
                     -         goto LBL_Y;
                     +      if (fp_cmp_d (&y, 1) == FP_EQ) {
                     +         return;
+                           }
+                    -
                            ++j;
+                         }
                          /* if y != n1 then composite */
                     -    if (mp_cmp (&y, &n1) != MP_EQ) {
                     -      goto LBL_Y;
                     +    if (fp_cmp (&y, &n1) != FP_EQ) {
                     +       return;
+                         }
+                       }
                        /* probably prime now */
                     -  *result = MP_YES;
                     -LBL_Y:mp_clear (&y);
                     -LBL_R:mp_clear (&r);
                     -LBL_N1:mp_clear (&n1);
                     -  return err;
                     -}
                     -#endif
+                    -
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_prime_miller_rabin.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
+                    -
                     -/* End: bn_mp_prime_miller_rabin.c */
+                    -
                     -/* Start: bn_mp_prime_next_prime.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_PRIME_NEXT_PRIME_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     - *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     - */
+                    -
                     -/* finds the next prime after the number "a" using "t" trials
                     - * of Miller-Rabin.
                     - *
                     - * bbs_style = 1 means the prime must be congruent to 3 mod 4
                     - */
                     -int mp_prime_next_prime(mp_int *a, int t, int bbs_style)
                     -{
                     -   int      err, res, x, y;
                     -   mp_digit res_tab[PRIME_SIZE], step, kstep;
                     -   mp_int   b;
+                    -
                     -   /* ensure t is valid */
                     -   if (t <= 0 || t > PRIME_SIZE) {
                     -      return MP_VAL;
                     -   }
+                    -
                     -   /* force positive */
                     -   a->sign = MP_ZPOS;
+                    -
                     -   /* simple algo if a is less than the largest prime in the table */
                     -   if (mp_cmp_d(a, ltm_prime_tab[PRIME_SIZE-1]) == MP_LT) {
                     -      /* find which prime it is bigger than */
                     -      for (x = PRIME_SIZE - 2; x >= 0; x--) {
                     -          if (mp_cmp_d(a, ltm_prime_tab[x]) != MP_LT) {
                     -             if (bbs_style == 1) {
                     -                /* ok we found a prime smaller or
                     -                 * equal [so the next is larger]
                     -                 *
                     -                 * however, the prime must be
                     -                 * congruent to 3 mod 4
                     -                 */
                     -                if ((ltm_prime_tab[x + 1] & 3) != 3) {
                     -                   /* scan upwards for a prime congruent to 3 mod 4 */
                     -                   for (y = x + 1; y < PRIME_SIZE; y++) {
                     -                       if ((ltm_prime_tab[y] & 3) == 3) {
                     -                          mp_set(a, ltm_prime_tab[y]);
                     -                          return MP_OKAY;
                     -                       }
                     -                   }
                     -                }
                     -             } else {
                     -                mp_set(a, ltm_prime_tab[x + 1]);
                     -                return MP_OKAY;
                     -             }
                     -          }
                     -      }
                     -      /* at this point a maybe 1 */
                     -      if (mp_cmp_d(a, 1) == MP_EQ) {
                     -         mp_set(a, 2);
                     -         return MP_OKAY;
                     -      }
                     -      /* fall through to the sieve */
                     -   }
+                    -
                     -   /* generate a prime congruent to 3 mod 4 or 1/3 mod 4? */
                     -   if (bbs_style == 1) {
                     -      kstep   = 4;
                     -   } else {
                     -      kstep   = 2;
                     -   }
+                    -
                     -   /* at this point we will use a combination of a sieve and Miller-Rabin */
+                    -
                     -   if (bbs_style == 1) {
                     -      /* if a mod 4 != 3 subtract the correct value to make it so */
                     -      if ((a->dp[0] & 3) != 3) {
                     -         if ((err = mp_sub_d(a, (a->dp[0] & 3) + 1, a)) != MP_OKAY) { return err; };
                     -      }
                     -   } else {
                     -      if (mp_iseven(a) == 1) {
                     -         /* force odd */
                     -         if ((err = mp_sub_d(a, 1, a)) != MP_OKAY) {
                     -            return err;
                     -         }
                     -      }
                     -   }
+                    -
                     -   /* generate the restable */
                     -   for (x = 1; x < PRIME_SIZE; x++) {
                     -      if ((err = mp_mod_d(a, ltm_prime_tab[x], res_tab + x)) != MP_OKAY) {
                     -         return err;
                     -      }
                     -   }
+                    -
                     -   /* init temp used for Miller-Rabin Testing */
                     -   if ((err = mp_init(&b)) != MP_OKAY) {
                     -      return err;
                     -   }
+                    -
                     -   for (;;) {
                     -      /* skip to the next non-trivially divisible candidate */
                     -      step = 0;
                     -      do {
                     -         /* y == 1 if any residue was zero [e.g. cannot be prime] */
                     -         y     =  0;
+                    -
                     -         /* increase step to next candidate */
                     -         step += kstep;
+                    -
                     -         /* compute the new residue without using division */
                     -         for (x = 1; x < PRIME_SIZE; x++) {
                     -             /* add the step to each residue */
                     -             res_tab[x] += kstep;
+                    -
                     -             /* subtract the modulus [instead of using division] */
                     -             if (res_tab[x] >= ltm_prime_tab[x]) {
                     -                res_tab[x]  -= ltm_prime_tab[x];
                     -             }
+                    -
                     -             /* set flag if zero */
                     -             if (res_tab[x] == 0) {
                     -                y = 1;
                     -             }
                     -         }
                     -      } while (y == 1 && step < ((((mp_digit)1)<<DIGIT_BIT) - kstep));
+                    -
                     -      /* add the step */
                     -      if ((err = mp_add_d(a, step, a)) != MP_OKAY) {
                     -         goto LBL_ERR;
                     -      }
+                    -
                     -      /* if didn't pass sieve and step == MAX then skip test */
                     -      if (y == 1 && step >= ((((mp_digit)1)<<DIGIT_BIT) - kstep)) {
                     -         continue;
                     -      }
+                    -
                     -      /* is this prime? */
                     -      for (x = 0; x < t; x++) {
                     -          mp_set(&b, ltm_prime_tab[t]);
                     -          if ((err = mp_prime_miller_rabin(a, &b, &res)) != MP_OKAY) {
                     -             goto LBL_ERR;
                     -          }
                     -          if (res == MP_NO) {
                     -             break;
                     -          }
                     -      }
+                    -
                     -      if (res == MP_YES) {
                     -         break;
                     -      }
                     -   }
+                    -
                     -   err = MP_OKAY;
                     -LBL_ERR:
                     -   mp_clear(&b);
                     -   return err;
                     +  *result = FP_YES;
+                     }
                     -#endif
+                    -
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_prime_next_prime.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
                     +/* $Source: /cvs/libtom/tomsfastmath/src/numtheory/fp_prime_miller_rabin.c,v $ */
                     +/* $Revision: 1.1 $ */
                     +/* $Date: 2007/01/24 21:25:19 $ */
                     -/* End: bn_mp_prime_next_prime.c */
+                    -
                     -/* Start: bn_mp_prime_rabin_miller_trials.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_PRIME_RABIN_MILLER_TRIALS_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     - *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     - */
+                    -
+                    -
                     -static const struct {
                     -   int k, t;
                     -} sizes[] = {
                     -{   128,    28 },
                     -{   256,    16 },
                     -{   384,    10 },
                     -{   512,     7 },
                     -{   640,     6 },
                     -{   768,     5 },
                     -{   896,     4 },
                     -{  1024,     4 }
                     -};
                     +/* End: fp_prime_miller_rabin.c */
                     -/* returns # of RM trials required for a given bit size */
                     -int mp_prime_rabin_miller_trials(int size)
                     -{
                     -   int x;
+                    -
                     -   for (x = 0; x < (int)(sizeof(sizes)/(sizeof(sizes[0]))); x++) {
                     -       if (sizes[x].k == size) {
                     -          return sizes[x].t;
                     -       } else if (sizes[x].k > size) {
                     -          return (x == 0) ? sizes[0].t : sizes[x - 1].t;
                     -       }
                     -   }
                     -   return sizes[x-1].t + 1;
                     -}
+                    -
+                    -
                     -#endif
+                    -
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_prime_rabin_miller_trials.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
+                    -
                     -/* End: bn_mp_prime_rabin_miller_trials.c */
+                    -
                     -/* Start: bn_mp_prime_random_ex.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_PRIME_RANDOM_EX_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     - *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     - */
+                    -
                     -/* makes a truly random prime of a given size (bits),
                     - *
                     - * Flags are as follows:
                     +/* Start: fp_prime_random_ex.c */
                     +/* TomsFastMath, a fast ISO C bignum library.
+                      *
                     - *   LTM_PRIME_BBS      - make prime congruent to 3 mod 4
                     - *   LTM_PRIME_SAFE     - make sure (p-1)/2 is prime as well (implies LTM_PRIME_BBS)
                     - *   LTM_PRIME_2MSB_OFF - make the 2nd highest bit zero
                     - *   LTM_PRIME_2MSB_ON  - make the 2nd highest bit one
                     - *
                     - * You have to supply a callback which fills in a buffer with random bytes.  "dat" is a parameter you can
                     - * have passed to the callback (e.g. a state or something).  This function doesn't use "dat" itself
                     - * so it can be NULL
                     + * This project is meant to fill in where LibTomMath
                     + * falls short.  That is speed ;-)
+                      *
                     + * This project is public domain and free for all purposes.
                     + *
                     + * Tom St Denis, tomstdenis@gmail.com
                       */
                     +#include "bignum_fast.h"
                      /* This is possibly the mother of all prime generation functions, muahahahahaha! */
                     -int mp_prime_random_ex(mp_int *a, int t, int size, int flags, ltm_prime_callback cb, void *dat)
                     +int fp_prime_random_ex(fp_int *a, int t, int size, int flags, tfm_prime_callback cb, void *dat)
+                     {
                         unsigned char *tmp, maskAND, maskOR_msb, maskOR_lsb;
                         int res, err, bsize, maskOR_msb_offset;
                         /* sanity check the input */
                         if (size <= 1 || t <= 0) {
                     -      return MP_VAL;
                     +      return FP_VAL;
+                        }
                     -   /* LTM_PRIME_SAFE implies LTM_PRIME_BBS */
                     -   if (flags & LTM_PRIME_SAFE) {
                     -      flags |= LTM_PRIME_BBS;
                     +   /* TFM_PRIME_SAFE implies TFM_PRIME_BBS */
                     +   if (flags & TFM_PRIME_SAFE) {
                     +      flags |= TFM_PRIME_BBS;
+                        }
                         /* calc the byte size */
                     -   bsize = (size>>3) + ((size&7)?1:0);
                     +   bsize = (size>>3)+(size&7?1:0);
                         /* we need a buffer of bsize bytes */
                     -   tmp = OPT_CAST(unsigned char) cli_malloc(bsize);
                     +   tmp = malloc(bsize);
                         if (tmp == NULL) {
                     -      return MP_MEM;
                     +      return FP_MEM;
+                        }
                         /* calc the maskAND value for the MSbyte*/
                     -   maskAND = ((size&7) == 0) ? 0xFF : (0xFF >> (8 - (size & 7)));
                     +   maskAND = 0xFF >> (8 - (size & 7));
                         /* calc the maskOR_msb */
                         maskOR_msb        = 0;
                     -   maskOR_msb_offset = ((size & 7) == 1) ? 1 : 0;
                     -   if (flags & LTM_PRIME_2MSB_ON) {
                     -      maskOR_msb       |= 0x80 >> ((9 - size) & 7);
                     -   }
                     +   maskOR_msb_offset = (size - 2) >> 3;
                     +   if (flags & TFM_PRIME_2MSB_ON) {
                     +      maskOR_msb     |= 1 << ((size - 2) & 7);
                     +   } else if (flags & TFM_PRIME_2MSB_OFF) {
                     +      maskAND        &= ~(1 << ((size - 2) & 7));
                     +   }
                         /* get the maskOR_lsb */
                         maskOR_lsb         = 1;
                     -   if (flags & LTM_PRIME_BBS) {
                     +   if (flags & TFM_PRIME_BBS) {
                            maskOR_lsb     |= 3;
+                        }
                         do {
                            /* read the bytes */
                            if (cb(tmp, bsize, dat) != bsize) {
                     -         err = MP_VAL;
                     +         err = FP_VAL;
                               goto error;
+                           }
@@ -6158,259 +6941,132 @@ int mp_prime_random_ex(mp_int *a, int t, int size, int flags, ltm_prime_callback
                            tmp[bsize-1]             |= maskOR_lsb;
                            /* read it in */
                     -      if ((err = mp_read_unsigned_bin(a, tmp, bsize)) != MP_OKAY)     { goto error; }
                     +      fp_read_unsigned_bin(a, tmp, bsize);
                            /* is it prime? */
                     -      if ((err = mp_prime_is_prime(a, t, &res)) != MP_OKAY)           { goto error; }
                     -      if (res == MP_NO) {
                     -         continue;
                     -      }
                     +      res = fp_isprime(a);
                     +      if (res == FP_NO) continue;
                     -      if (flags & LTM_PRIME_SAFE) {
                     +      if (flags & TFM_PRIME_SAFE) {
                               /* see if (a-1)/2 is prime */
                     -         if ((err = mp_sub_d(a, 1, a)) != MP_OKAY)                    { goto error; }
                     -         if ((err = mp_div_2(a, a)) != MP_OKAY)                       { goto error; }
                     +         fp_sub_d(a, 1, a);
                     +         fp_div_2(a, a);
                               /* is it prime? */
                     -         if ((err = mp_prime_is_prime(a, t, &res)) != MP_OKAY)        { goto error; }
                     +         res = fp_isprime(a);
+                           }
                     -   } while (res == MP_NO);
                     +   } while (res == FP_NO);
                     -   if (flags & LTM_PRIME_SAFE) {
                     +   if (flags & TFM_PRIME_SAFE) {
                            /* restore a to the original value */
                     -      if ((err = mp_mul_2(a, a)) != MP_OKAY)                          { goto error; }
                     -      if ((err = mp_add_d(a, 1, a)) != MP_OKAY)                       { goto error; }
                     +      fp_mul_2(a, a);
                     +      fp_add_d(a, 1, a);
+                        }
                     -   err = MP_OKAY;
                     +   err = FP_OKAY;
                      error:
                         free(tmp);
                         return err;
+                     }
                     +/* $Source: /cvs/libtom/tomsfastmath/src/numtheory/fp_prime_random_ex.c,v $ */
                     +/* $Revision: 1.1 $ */
                     +/* $Date: 2007/01/24 21:25:19 $ */
                     -#endif
+                    -
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_prime_random_ex.c,v $ */
                     -/* $Revision: 1.4 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
+                    -
                     -/* End: bn_mp_prime_random_ex.c */
                     +/* End: fp_prime_random_ex.c */
                     -/* Start: bn_mp_radix_size.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_RADIX_SIZE_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     +/* Start: fp_radix_size.c */
                     +/* TomsFastMath, a fast ISO C bignum library.
                     + *
                     + * This project is meant to fill in where LibTomMath
                     + * falls short.  That is speed ;-)
+                      *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     + * This project is public domain and free for all purposes.
                     + *
                     + * Tom St Denis, tomstdenis@gmail.com
                       */
                     +#include "bignum_fast.h"
                     -/* returns size of ASCII reprensentation */
                     -int mp_radix_size (mp_int * a, int radix, int *size)
                     +int fp_radix_size(fp_int *a, int radix, int *size)
+                     {
                     -  int     res, digs;
                     -  mp_int  t;
                     -  mp_digit d;
+                    -
                     +  int     digs;
                     +  fp_int  t;
                     +  fp_digit d;
+                    +
                        *size = 0;
                     -  /* special case for binary */
                     -  if (radix == 2) {
                     -    *size = mp_count_bits (a) + (a->sign == MP_NEG ? 1 : 0) + 1;
                     -    return MP_OKAY;
                     -  }
+                    -
                     -  /* make sure the radix is in range */
                     +  /* check range of the radix */
                        if (radix < 2 || radix > 64) {
                     -    return MP_VAL;
                     +    return FP_VAL;
+                       }
                     -  if (mp_iszero(a) == MP_YES) {
                     -    *size = 2;
                     -    return MP_OKAY;
                     -  }
+                    -
                     -  /* digs is the digit count */
                     -  digs = 0;
+                    -
                     -  /* if it's negative add one for the sign */
                     -  if (a->sign == MP_NEG) {
                     -    ++digs;
                     -  }
+                    -
                     -  /* init a copy of the input */
                     -  if ((res = mp_init_copy (&t, a)) != MP_OKAY) {
                     -    return res;
                     -  }
+                    -
                     -  /* force temp to positive */
                     -  t.sign = MP_ZPOS;
+                    -
                     -  /* fetch out all of the digits */
                     -  while (mp_iszero (&t) == MP_NO) {
                     -    if ((res = mp_div_d (&t, (mp_digit) radix, &t, &d)) != MP_OKAY) {
                     -      mp_clear (&t);
                     -      return res;
                     -    }
                     -    ++digs;
                     +  /* quick out if its zero */
                     +  if (fp_iszero(a) == 1) {
                     +     *size = 2;
                     +     return FP_OKAY;
+                       }
                     -  mp_clear (&t);
+                    -
                     -  /* return digs + 1, the 1 is for the NULL byte that would be required. */
                     -  *size = digs + 1;
                     -  return MP_OKAY;
                     -}
+                    -
                     -#endif
+                    -
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_radix_size.c,v $ */
                     -/* $Revision: 1.4 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
+                    -
                     -/* End: bn_mp_radix_size.c */
+                    -
                     -/* Start: bn_mp_radix_smap.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_RADIX_SMAP_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     - *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     - */
+                    -
                     -/* chars used in radix conversions */
                     -const char *mp_s_rmap = "0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz+/";
                     -#endif
+                    -
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_radix_smap.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
+                    -
                     -/* End: bn_mp_radix_smap.c */
+                    -
                     -/* Start: bn_mp_rand.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_RAND_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     - *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     - */
                     -/* makes a pseudo-random int of a given size */
                     -int
                     -mp_rand (mp_int * a, int digits)
                     -{
                     -  int     res;
                     -  mp_digit d;
                     +  fp_init_copy(&t, a);
                     -  mp_zero (a);
                     -  if (digits <= 0) {
                     -    return MP_OKAY;
                     +  /* if it is negative output a - */
                     +  if (t.sign == FP_NEG) {
                     +    (*size)++;
                     +    t.sign = FP_ZPOS;
+                       }
                     -  /* first place a random non-zero digit */
                     -  do {
                     -    d = ((mp_digit) abs (rand ())) & MP_MASK;
                     -  } while (d == 0);
+                    -
                     -  if ((res = mp_add_d (a, d, a)) != MP_OKAY) {
                     -    return res;
                     +  digs = 0;
                     +  while (fp_iszero (&t) == FP_NO) {
                     +    fp_div_d (&t, (fp_digit) radix, &t, &d);
                     +    (*size)++;
+                       }
                     -  while (--digits > 0) {
                     -    if ((res = mp_lshd (a, 1)) != MP_OKAY) {
                     -      return res;
                     -    }
+                    -
                     -    if ((res = mp_add_d (a, ((mp_digit) abs (rand ())), a)) != MP_OKAY) {
                     -      return res;
                     -    }
                     -  }
                     +  /* append a NULL so the string is properly terminated */
                     +  (*size)++;
                     +  return FP_OKAY;
                     -  return MP_OKAY;
+                     }
                     -#endif
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_rand.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
                     +/* $Source: /cvs/libtom/tomsfastmath/src/bin/fp_radix_size.c,v $ */
                     +/* $Revision: 1.1 $ */
                     +/* $Date: 2006/12/31 21:25:53 $ */
                     -/* End: bn_mp_rand.c */
                     +/* End: fp_radix_size.c */
                     -/* Start: bn_mp_read_radix.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_READ_RADIX_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     +/* Start: fp_read_radix.c */
                     +/* TomsFastMath, a fast ISO C bignum library.
                     + *
                     + * This project is meant to fill in where LibTomMath
                     + * falls short.  That is speed ;-)
+                      *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     + * This project is public domain and free for all purposes.
                     + *
                     + * Tom St Denis, tomstdenis@gmail.com
                       */
                     +#include "bignum_fast.h"
                     -/* read a string [ASCII] in a given radix */
                     -int mp_read_radix (mp_int * a, const char *str, int radix)
                     +int fp_read_radix(fp_int *a, const char *str, int radix)
+                     {
                     -  int     y, res, neg;
                     +  int     y, neg;
                        char    ch;
                     -  /* zero the digit bignum */
                     -  mp_zero(a);
+                    -
                        /* make sure the radix is ok */
                        if (radix < 2 || radix > 64) {
                     -    return MP_VAL;
                     +    return FP_VAL;
+                       }
                     -  /* if the leading digit is a
                     -   * minus set the sign to negative.
                     +  /* if the leading digit is a
                     +   * minus set the sign to negative.
                         */
                        if (*str == '-') {
                          ++str;
                     -    neg = MP_NEG;
                     +    neg = FP_NEG;
                        } else {
                     -    neg = MP_ZPOS;
                     +    neg = FP_ZPOS;
+                       }
                        /* set the integer to the default of zero */
                     -  mp_zero (a);
+                    -
                     +  fp_zero (a);
+                    +
                        /* process each digit of the string */
                        while (*str) {
                          /* if the radix < 36 the conversion is case insensitive
@@ -6419,3102 +7075,6292 @@ int mp_read_radix (mp_int * a, const char *str, int radix)
                           */
                          ch = (char) ((radix < 36) ? toupper (*str) : *str);
                          for (y = 0; y < 64; y++) {
                     -      if (ch == mp_s_rmap[y]) {
                     +      if (ch == fp_s_rmap[y]) {
                               break;
+                           }
+                         }
                     -    /* if the char was found in the map
                     +    /* if the char was found in the map
                           * and is less than the given radix add it
                     -     * to the number, otherwise exit the loop.
                     +     * to the number, otherwise exit the loop.
                           */
                          if (y < radix) {
                     -      if ((res = mp_mul_d (a, (mp_digit) radix, a)) != MP_OKAY) {
                     -         return res;
                     -      }
                     -      if ((res = mp_add_d (a, (mp_digit) y, a)) != MP_OKAY) {
                     -         return res;
                     -      }
                     +      fp_mul_d (a, (fp_digit) radix, a);
                     +      fp_add_d (a, (fp_digit) y, a);
                          } else {
                            break;
+                         }
                          ++str;
+                       }
+                    -
+                    +
                        /* set the sign only if a != 0 */
                     -  if (mp_iszero(a) != 1) {
                     +  if (fp_iszero(a) != FP_YES) {
                           a->sign = neg;
+                       }
                     -  return MP_OKAY;
                     +  return FP_OKAY;
+                     }
                     -#endif
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_read_radix.c,v $ */
                     -/* $Revision: 1.4 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
                     +/* $Source: /cvs/libtom/tomsfastmath/src/bin/fp_read_radix.c,v $ */
                     +/* $Revision: 1.1 $ */
                     +/* $Date: 2006/12/31 21:25:53 $ */
                     -/* End: bn_mp_read_radix.c */
                     +/* End: fp_read_radix.c */
                     -/* Start: bn_mp_read_signed_bin.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_READ_SIGNED_BIN_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     +/* Start: fp_read_signed_bin.c */
                     +/* TomsFastMath, a fast ISO C bignum library.
                     + *
                     + * This project is meant to fill in where LibTomMath
                     + * falls short.  That is speed ;-)
+                      *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     + * This project is public domain and free for all purposes.
                     + *
                     + * Tom St Denis, tomstdenis@gmail.com
                       */
                     +#include "bignum_fast.h"
                     -/* read signed bin, big endian, first byte is 0==positive or 1==negative */
                     -int mp_read_signed_bin (mp_int * a, const unsigned char *b, int c)
                     +void fp_read_signed_bin(fp_int *a, unsigned char *b, int c)
+                     {
                     -  int     res;
+                    -
                        /* read magnitude */
                     -  if ((res = mp_read_unsigned_bin (a, b + 1, c - 1)) != MP_OKAY) {
                     -    return res;
                     -  }
                     +  fp_read_unsigned_bin (a, b + 1, c - 1);
                        /* first byte is 0 for positive, non-zero for negative */
                        if (b[0] == 0) {
                     -     a->sign = MP_ZPOS;
                     +     a->sign = FP_ZPOS;
                        } else {
                     -     a->sign = MP_NEG;
                     +     a->sign = FP_NEG;
+                       }
+                    -
                     -  return MP_OKAY;
+                     }
                     -#endif
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_read_signed_bin.c,v $ */
                     -/* $Revision: 1.4 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
                     +/* $Source: /cvs/libtom/tomsfastmath/src/bin/fp_read_signed_bin.c,v $ */
                     +/* $Revision: 1.1 $ */
                     +/* $Date: 2006/12/31 21:25:53 $ */
                     -/* End: bn_mp_read_signed_bin.c */
                     +/* End: fp_read_signed_bin.c */
                     -/* Start: bn_mp_read_unsigned_bin.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_READ_UNSIGNED_BIN_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     +/* Start: fp_read_unsigned_bin.c */
                     +/* TomsFastMath, a fast ISO C bignum library.
                     + *
                     + * This project is meant to fill in where LibTomMath
                     + * falls short.  That is speed ;-)
+                      *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     + * This project is public domain and free for all purposes.
                     + *
                     + * Tom St Denis, tomstdenis@gmail.com
                       */
                     +#include "bignum_fast.h"
                     -/* reads a unsigned char array, assumes the msb is stored first [big endian] */
                     -int mp_read_unsigned_bin (mp_int * a, const unsigned char *b, int c)
                     +void fp_read_unsigned_bin(fp_int *a, const unsigned char *b, int c)
+                     {
                     -  int     res;
+                    -
                     -  /* make sure there are at least two digits */
                     -  if (a->alloc < 2) {
                     -     if ((res = mp_grow(a, 2)) != MP_OKAY) {
                     -        return res;
                     -     }
                     -  }
+                    -
                        /* zero the int */
                     -  mp_zero (a);
                     +  fp_zero (a);
                     -  /* read the bytes in */
                     -  while (c-- > 0) {
                     -    if ((res = mp_mul_2d (a, 8, a)) != MP_OKAY) {
                     -      return res;
                     -    }
                     +  /* If we know the endianness of this architecture, and we're using
                     +     32-bit fp_digits, we can optimize this */
                     +#if (defined(ENDIAN_LITTLE) || defined(ENDIAN_BIG)) && !defined(FP_64BIT)
                     +  /* But not for both simultaneously */
                     +#if defined(ENDIAN_LITTLE) && defined(ENDIAN_BIG)
                     +#error Both ENDIAN_LITTLE and ENDIAN_BIG defined.
                     +#endif
                     +  {
                     +     unsigned char *pd = (unsigned char *)a->dp;
                     -#ifndef MP_8BIT
                     -      a->dp[0] |= *b++;
                     -      a->used += 1;
                     +     if ((unsigned)c > (FP_SIZE * sizeof(fp_digit))) {
                     +        int excess = c - (FP_SIZE * sizeof(fp_digit));
                     +        c -= excess;
                     +        b += excess;
                     +     }
                     +     a->used = (c + sizeof(fp_digit) - 1)/sizeof(fp_digit);
                     +     /* read the bytes in */
                     +#ifdef ENDIAN_BIG
                     +     {
                     +       /* Use Duff's device to unroll the loop. */
                     +       int idx = (c - 1) & ~3;
                     +       switch (c % 4) {
                     +       case 0:	do { pd[idx+0] = *b++;
                     +       case 3:	     pd[idx+1] = *b++;
                     +       case 2:	     pd[idx+2] = *b++;
                     +       case 1:	     pd[idx+3] = *b++;
                     +                     idx -= 4;
                     +	 	        } while ((c -= 4) > 0);
                     +       }
                     +     }
                      #else
                     -      a->dp[0] = (*b & MP_MASK);
                     -      a->dp[1] |= ((*b++ >> 7U) & 1);
                     -      a->used += 2;
                     +     for (c -= 1; c >= 0; c -= 1) {
                     +       pd[c] = *b++;
                     +     }
                      #endif
+                       }
                     -  mp_clamp (a);
                     -  return MP_OKAY;
                     -}
                     +#else
                     +  /* read the bytes in */
                     +  for (; c > 0; c--) {
                     +     fp_mul_2d (a, 8, a);
                     +     a->dp[0] |= *b++;
                     +     a->used += 1;
                     +  }
                      #endif
                     +  fp_clamp (a);
                     +}
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_read_unsigned_bin.c,v $ */
                     -/* $Revision: 1.4 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
                     +/* $Source: /cvs/libtom/tomsfastmath/src/bin/fp_read_unsigned_bin.c,v $ */
                     +/* $Revision: 1.2 $ */
                     +/* $Date: 2007/02/17 02:58:19 $ */
                     -/* End: bn_mp_read_unsigned_bin.c */
                     +/* End: fp_read_unsigned_bin.c */
                     -/* Start: bn_mp_reduce.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_REDUCE_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     +/* Start: fp_reverse.c */
                     +/* TomsFastMath, a fast ISO C bignum library.
                     + *
                     + * This project is meant to fill in where LibTomMath
                     + * falls short.  That is speed ;-)
+                      *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     + * This project is public domain and free for all purposes.
                     + *
                     + * Tom St Denis, tomstdenis@gmail.com
                       */
                     +#include "bignum_fast.h"
                     -/* reduces x mod m, assumes 0 < x < m**2, mu is
                     - * precomputed via mp_reduce_setup.
                     - * From HAC pp.604 Algorithm 14.42
                     - */
                     -int mp_reduce (mp_int * x, mp_int * m, mp_int * mu)
                     +/* reverse an array, used for radix code */
                     +void fp_reverse (unsigned char *s, int len)
+                     {
                     -  mp_int  q;
                     -  int     res, um = m->used;
+                    -
                     -  /* q = x */
                     -  if ((res = mp_init_copy (&q, x)) != MP_OKAY) {
                     -    return res;
                     -  }
+                    -
                     -  /* q1 = x / b**(k-1)  */
                     -  mp_rshd (&q, um - 1);
+                    -
                     -  /* according to HAC this optimization is ok */
                     -  if (((unsigned long) um) > (((mp_digit)1) << (DIGIT_BIT - 1))) {
                     -    if ((res = mp_mul (&q, mu, &q)) != MP_OKAY) {
                     -      goto CLEANUP;
                     -    }
                     -  } else {
                     -#ifdef BN_S_MP_MUL_HIGH_DIGS_C
                     -    if ((res = s_mp_mul_high_digs (&q, mu, &q, um)) != MP_OKAY) {
                     -      goto CLEANUP;
                     -    }
                     -#elif defined(BN_FAST_S_MP_MUL_HIGH_DIGS_C)
                     -    if ((res = fast_s_mp_mul_high_digs (&q, mu, &q, um)) != MP_OKAY) {
                     -      goto CLEANUP;
                     -    }
                     -#else
                     -    {
                     -      res = MP_VAL;
                     -      goto CLEANUP;
                     -    }
                     -#endif
                     -  }
+                    -
                     -  /* q3 = q2 / b**(k+1) */
                     -  mp_rshd (&q, um + 1);
+                    -
                     -  /* x = x mod b**(k+1), quick (no division) */
                     -  if ((res = mp_mod_2d (x, DIGIT_BIT * (um + 1), x)) != MP_OKAY) {
                     -    goto CLEANUP;
                     -  }
+                    -
                     -  /* q = q * m mod b**(k+1), quick (no division) */
                     -  if ((res = s_mp_mul_digs (&q, m, &q, um + 1)) != MP_OKAY) {
                     -    goto CLEANUP;
                     -  }
+                    -
                     -  /* x = x - q */
                     -  if ((res = mp_sub (x, &q, x)) != MP_OKAY) {
                     -    goto CLEANUP;
                     -  }
+                    -
                     -  /* If x < 0, add b**(k+1) to it */
                     -  if (mp_cmp_d (x, 0) == MP_LT) {
                     -    mp_set (&q, 1);
                     -    if ((res = mp_lshd (&q, um + 1)) != MP_OKAY)
                     -      goto CLEANUP;
                     -    if ((res = mp_add (x, &q, x)) != MP_OKAY)
                     -      goto CLEANUP;
                     -  }
                     +  int     ix, iy;
                     +  unsigned char t;
                     -  /* Back off if it's too big */
                     -  while (mp_cmp (x, m) != MP_LT) {
                     -    if ((res = s_mp_sub (x, m, x)) != MP_OKAY) {
                     -      goto CLEANUP;
                     -    }
                     +  ix = 0;
                     +  iy = len - 1;
                     +  while (ix < iy) {
                     +    t     = s[ix];
                     +    s[ix] = s[iy];
                     +    s[iy] = t;
                     +    ++ix;
                     +    --iy;
+                       }
+                    -
                     -CLEANUP:
                     -  mp_clear (&q);
+                    -
                     -  return res;
+                     }
                     -#endif
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_reduce.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
                     +/* $Source: /cvs/libtom/tomsfastmath/src/bin/fp_reverse.c,v $ */
                     +/* $Revision: 1.2 $ */
                     +/* $Date: 2007/02/27 02:38:44 $ */
                     -/* End: bn_mp_reduce.c */
                     +/* End: fp_reverse.c */
                     -/* Start: bn_mp_reduce_2k.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_REDUCE_2K_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     +/* Start: fp_rshd.c */
                     +/* TomsFastMath, a fast ISO C bignum library.
                     + *
                     + * This project is meant to fill in where LibTomMath
                     + * falls short.  That is speed ;-)
+                      *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     + * This project is public domain and free for all purposes.
                     + *
                     + * Tom St Denis, tomstdenis@gmail.com
                       */
                     +#include "bignum_fast.h"
                     -/* reduces a modulo n where n is of the form 2**p - d */
                     -int mp_reduce_2k(mp_int *a, mp_int *n, mp_digit d)
                     +void fp_rshd(fp_int *a, int x)
+                     {
                     -   mp_int q;
                     -   int    p, res;
+                    -
                     -   if ((res = mp_init(&q)) != MP_OKAY) {
                     -      return res;
                     -   }
+                    -
                     -   p = mp_count_bits(n);
                     -top:
                     -   /* q = a/2**p, a = a mod 2**p */
                     -   if ((res = mp_div_2d(a, p, &q, a)) != MP_OKAY) {
                     -      goto ERR;
                     -   }
+                    -
                     -   if (d != 1) {
                     -      /* q = q * d */
                     -      if ((res = mp_mul_d(&q, d, &q)) != MP_OKAY) {
                     -         goto ERR;
                     -      }
                     -   }
+                    -
                     -   /* a = a + q */
                     -   if ((res = s_mp_add(a, &q, a)) != MP_OKAY) {
                     -      goto ERR;
                     -   }
+                    -
                     -   if (mp_cmp_mag(a, n) != MP_LT) {
                     -      s_mp_sub(a, n, a);
                     -      goto top;
                     -   }
+                    -
                     -ERR:
                     -   mp_clear(&q);
                     -   return res;
                     -}
                     +  int y;
                     -#endif
+                    -
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_reduce_2k.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
+                    -
                     -/* End: bn_mp_reduce_2k.c */
+                    -
                     -/* Start: bn_mp_reduce_2k_l.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_REDUCE_2K_L_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     - *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     - */
                     +  /* too many digits just zero and return */
                     +  if (x >= a->used) {
                     +     fp_zero(a);
                     +     return;
                     +  }
                     -/* reduces a modulo n where n is of the form 2**p - d
                     -   This differs from reduce_2k since "d" can be larger
                     -   than a single digit.
                     -*/
                     -int mp_reduce_2k_l(mp_int *a, mp_int *n, mp_int *d)
                     -{
                     -   mp_int q;
                     -   int    p, res;
+                    -
                     -   if ((res = mp_init(&q)) != MP_OKAY) {
                     -      return res;
                     -   }
+                    -
                     -   p = mp_count_bits(n);
                     -top:
                     -   /* q = a/2**p, a = a mod 2**p */
                     -   if ((res = mp_div_2d(a, p, &q, a)) != MP_OKAY) {
                     -      goto ERR;
                     -   }
+                    -
                     -   /* q = q * d */
                     -   if ((res = mp_mul(&q, d, &q)) != MP_OKAY) {
                     -      goto ERR;
                     -   }
+                    -
                     -   /* a = a + q */
                     -   if ((res = s_mp_add(a, &q, a)) != MP_OKAY) {
                     -      goto ERR;
                     +   /* shift */
                     +   for (y = 0; y < a->used - x; y++) {
                     +      a->dp[y] = a->dp[y+x];
+                        }
+                    -
                     -   if (mp_cmp_mag(a, n) != MP_LT) {
                     -      s_mp_sub(a, n, a);
                     -      goto top;
+                    +
                     +   /* zero rest */
                     +   for (; y < a->used; y++) {
                     +      a->dp[y] = 0;
+                        }
                     -ERR:
                     -   mp_clear(&q);
                     -   return res;
                     +   /* decrement count */
                     +   a->used -= x;
                     +   fp_clamp(a);
+                     }
                     -#endif
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_reduce_2k_l.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
                     +/* $Source: /cvs/libtom/tomsfastmath/src/bit/fp_rshd.c,v $ */
                     +/* $Revision: 1.1 $ */
                     +/* $Date: 2006/12/31 21:25:53 $ */
                     -/* End: bn_mp_reduce_2k_l.c */
                     +/* End: fp_rshd.c */
                     -/* Start: bn_mp_reduce_2k_setup.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_REDUCE_2K_SETUP_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     +/* Start: fp_s_rmap.c */
                     +/* TomsFastMath, a fast ISO C bignum library.
                     + *
                     + * This project is meant to fill in where LibTomMath
                     + * falls short.  That is speed ;-)
+                      *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     + * This project is public domain and free for all purposes.
                     + *
                     + * Tom St Denis, tomstdenis@gmail.com
                       */
                     +#include "bignum_fast.h"
                     -/* determines the setup value */
                     -int mp_reduce_2k_setup(mp_int *a, mp_digit *d)
                     -{
                     -   int res, p;
                     -   mp_int tmp;
+                    -
                     -   if ((res = mp_init(&tmp)) != MP_OKAY) {
                     -      return res;
                     -   }
+                    -
                     -   p = mp_count_bits(a);
                     -   if ((res = mp_2expt(&tmp, p)) != MP_OKAY) {
                     -      mp_clear(&tmp);
                     -      return res;
                     -   }
+                    -
                     -   if ((res = s_mp_sub(&tmp, a, &tmp)) != MP_OKAY) {
                     -      mp_clear(&tmp);
                     -      return res;
                     -   }
+                    -
                     -   *d = tmp.dp[0];
                     -   mp_clear(&tmp);
                     -   return MP_OKAY;
                     -}
                     -#endif
                     +/* chars used in radix conversions */
                     +const char *fp_s_rmap = "0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz+/";
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_reduce_2k_setup.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
                     +/* $Source: /cvs/libtom/tomsfastmath/src/bin/fp_s_rmap.c,v $ */
                     +/* $Revision: 1.1 $ */
                     +/* $Date: 2006/12/31 21:25:53 $ */
                     -/* End: bn_mp_reduce_2k_setup.c */
                     +/* End: fp_s_rmap.c */
                     -/* Start: bn_mp_reduce_2k_setup_l.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_REDUCE_2K_SETUP_L_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     +/* Start: fp_set.c */
                     +/* TomsFastMath, a fast ISO C bignum library.
                     + *
                     + * This project is meant to fill in where LibTomMath
                     + * falls short.  That is speed ;-)
+                      *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     + * This project is public domain and free for all purposes.
                     + *
                     + * Tom St Denis, tomstdenis@gmail.com
                       */
                     +#include "bignum_fast.h"
                     -/* determines the setup value */
                     -int mp_reduce_2k_setup_l(mp_int *a, mp_int *d)
                     +void fp_set(fp_int *a, fp_digit b)
+                     {
                     -   int    res;
                     -   mp_int tmp;
+                    -
                     -   if ((res = mp_init(&tmp)) != MP_OKAY) {
                     -      return res;
                     -   }
+                    -
                     -   if ((res = mp_2expt(&tmp, mp_count_bits(a))) != MP_OKAY) {
                     -      goto ERR;
                     -   }
+                    -
                     -   if ((res = s_mp_sub(&tmp, a, d)) != MP_OKAY) {
                     -      goto ERR;
                     -   }
+                    -
                     -ERR:
                     -   mp_clear(&tmp);
                     -   return res;
                     +   fp_zero(a);
                     +   a->dp[0] = b;
                     +   a->used  = a->dp[0] ? 1 : 0;
+                     }
                     -#endif
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_reduce_2k_setup_l.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
                     +/* $Source: /cvs/libtom/tomsfastmath/src/misc/fp_set.c,v $ */
                     +/* $Revision: 1.1 $ */
                     +/* $Date: 2006/12/31 21:25:53 $ */
                     -/* End: bn_mp_reduce_2k_setup_l.c */
                     +/* End: fp_set.c */
                     -/* Start: bn_mp_reduce_is_2k.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_REDUCE_IS_2K_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     +/* Start: fp_signed_bin_size.c */
                     +/* TomsFastMath, a fast ISO C bignum library.
                     + *
                     + * This project is meant to fill in where LibTomMath
                     + * falls short.  That is speed ;-)
+                      *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     + * This project is public domain and free for all purposes.
                     + *
                     + * Tom St Denis, tomstdenis@gmail.com
                       */
                     +#include "bignum_fast.h"
                     -/* determines if mp_reduce_2k can be used */
                     -int mp_reduce_is_2k(mp_int *a)
                     +int fp_signed_bin_size(fp_int *a)
+                     {
                     -   int ix, iy, iw;
                     -   mp_digit iz;
+                    -
                     -   if (a->used == 0) {
                     -      return MP_NO;
                     -   } else if (a->used == 1) {
                     -      return MP_YES;
                     -   } else if (a->used > 1) {
                     -      iy = mp_count_bits(a);
                     -      iz = 1;
                     -      iw = 1;
+                    -
                     -      /* Test every bit from the second digit up, must be 1 */
                     -      for (ix = DIGIT_BIT; ix < iy; ix++) {
                     -          if ((a->dp[iw] & iz) == 0) {
                     -             return MP_NO;
                     -          }
                     -          iz <<= 1;
                     -          if (iz > (mp_digit)MP_MASK) {
                     -             ++iw;
                     -             iz = 1;
                     -          }
                     -      }
                     -   }
                     -   return MP_YES;
                     +  return 1 + fp_unsigned_bin_size (a);
+                     }
                     -#endif
+                    -
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_reduce_is_2k.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
                     +/* $Source: /cvs/libtom/tomsfastmath/src/bin/fp_signed_bin_size.c,v $ */
                     +/* $Revision: 1.1 $ */
                     +/* $Date: 2006/12/31 21:25:53 $ */
                     -/* End: bn_mp_reduce_is_2k.c */
                     +/* End: fp_signed_bin_size.c */
                     -/* Start: bn_mp_reduce_is_2k_l.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_REDUCE_IS_2K_L_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     +/* Start: fp_sqr.c */
                     +/* TomsFastMath, a fast ISO C bignum library.
                     + *
                     + * This project is meant to fill in where LibTomMath
                     + * falls short.  That is speed ;-)
+                      *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     + * This project is public domain and free for all purposes.
                     + *
                     + * Tom St Denis, tomstdenis@gmail.com
                       */
                     +#include "bignum_fast.h"
                     -/* determines if reduce_2k_l can be used */
                     -int mp_reduce_is_2k_l(mp_int *a)
                     +/* b = a*a  */
                     +void fp_sqr(fp_int *A, fp_int *B)
+                     {
                     -   int ix, iy;
+                    -
                     -   if (a->used == 0) {
                     -      return MP_NO;
                     -   } else if (a->used == 1) {
                     -      return MP_YES;
                     -   } else if (a->used > 1) {
                     -      /* if more than half of the digits are -1 we're sold */
                     -      for (iy = ix = 0; ix < a->used; ix++) {
                     -          if (a->dp[ix] == MP_MASK) {
                     -              ++iy;
                     -          }
                     -      }
                     -      return (iy >= (a->used/2)) ? MP_YES : MP_NO;
+                    -
                     -   }
                     -   return MP_NO;
                     -}
+                    -
                     -#endif
+                    -
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_reduce_is_2k_l.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
+                    -
                     -/* End: bn_mp_reduce_is_2k_l.c */
                     +    int     y;
                     -/* Start: bn_mp_reduce_setup.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_REDUCE_SETUP_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     - *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     - */
                     +    /* call generic if we're out of range */
                     +    if (A->used + A->used > FP_SIZE) {
                     +       fp_sqr_comba(A, B);
                     +       return ;
                     +    }
                     -/* pre-calculate the value required for Barrett reduction
                     - * For a given modulus "b" it calulates the value required in "a"
                     - */
                     -int mp_reduce_setup (mp_int * a, mp_int * b)
                     -{
                     -  int     res;
+                    -
                     -  if ((res = mp_2expt (a, b->used * 2 * DIGIT_BIT)) != MP_OKAY) {
                     -    return res;
                     -  }
                     -  return mp_div (a, b, a, NULL);
                     -}
                     +    y = A->used;
                     +#if defined(TFM_SQR3)
                     +        if (y <= 3) {
                     +           fp_sqr_comba3(A,B);
                     +           return;
                     +        }
                     +#endif
                     +#if defined(TFM_SQR4)
                     +        if (y == 4) {
                     +           fp_sqr_comba4(A,B);
                     +           return;
                     +        }
                     +#endif
                     +#if defined(TFM_SQR6)
                     +        if (y <= 6) {
                     +           fp_sqr_comba6(A,B);
                     +           return;
                     +        }
                     +#endif
                     +#if defined(TFM_SQR7)
                     +        if (y == 7) {
                     +           fp_sqr_comba7(A,B);
                     +           return;
                     +        }
                     +#endif
                     +#if defined(TFM_SQR8)
                     +        if (y == 8) {
                     +           fp_sqr_comba8(A,B);
                     +           return;
                     +        }
                     +#endif
                     +#if defined(TFM_SQR9)
                     +        if (y == 9) {
                     +           fp_sqr_comba9(A,B);
                     +           return;
                     +        }
                     +#endif
                     +#if defined(TFM_SQR12)
                     +        if (y <= 12) {
                     +           fp_sqr_comba12(A,B);
                     +           return;
                     +        }
                     +#endif
                     +#if defined(TFM_SQR17)
                     +        if (y <= 17) {
                     +           fp_sqr_comba17(A,B);
                     +           return;
                     +        }
                     +#endif
                     +#if defined(TFM_SMALL_SET)
                     +        if (y <= 16) {
                     +           fp_sqr_comba_small(A,B);
                     +           return;
                     +        }
                     +#endif
                     +#if defined(TFM_SQR20)
                     +        if (y <= 20) {
                     +           fp_sqr_comba20(A,B);
                     +           return;
                     +        }
                     +#endif
                     +#if defined(TFM_SQR24)
                     +        if (y <= 24) {
                     +           fp_sqr_comba24(A,B);
                     +           return;
                     +        }
                     +#endif
                     +#if defined(TFM_SQR28)
                     +        if (y <= 28) {
                     +           fp_sqr_comba28(A,B);
                     +           return;
                     +        }
                     +#endif
                     +#if defined(TFM_SQR32)
                     +        if (y <= 32) {
                     +           fp_sqr_comba32(A,B);
                     +           return;
                     +        }
                     +#endif
                     +#if defined(TFM_SQR48)
                     +        if (y <= 48) {
                     +           fp_sqr_comba48(A,B);
                     +           return;
                     +        }
                      #endif
                     +#if defined(TFM_SQR64)
                     +        if (y <= 64) {
                     +           fp_sqr_comba64(A,B);
                     +           return;
                     +        }
                     +#endif
                     +       fp_sqr_comba(A, B);
                     +}
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_reduce_setup.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
                     -/* End: bn_mp_reduce_setup.c */
                     +/* $Source: /cvs/libtom/tomsfastmath/src/sqr/fp_sqr.c,v $ */
                     +/* $Revision: 1.1 $ */
                     +/* $Date: 2006/12/31 21:25:53 $ */
                     -/* Start: bn_mp_rshd.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_RSHD_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     +/* End: fp_sqr.c */
+                    +
                     +/* Start: fp_sqr_comba.c */
                     +/*
                     + *
                     + * This project is meant to fill in where LibTomMath
                     + * falls short.  That is speed ;-)
+                      *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     - */
                     + * This project is public domain and free for all purposes.
                     + *
                     + * Tom St Denis, tomstdenis@gmail.com
                     + */
                     +#include "bignum_fast.h"
+                    +
                     +#if defined(TFM_PRESCOTT) && defined(TFM_SSE2)
                     +   #undef TFM_SSE2
                     +   #define TFM_X86
                     +#endif
+                    +
                     +#if defined(TFM_X86)
+                    +
                     +/* x86-32 optimized */
+                    +
                     +#define COMBA_START
+                    +
                     +#define CLEAR_CARRY \
                     +   c0 = c1 = c2 = 0;
+                    +
                     +#define COMBA_STORE(x) \
                     +   x = c0;
+                    +
                     +#define COMBA_STORE2(x) \
                     +   x = c1;
+                    +
                     +#define CARRY_FORWARD \
                     +   do { c0 = c1; c1 = c2; c2 = 0; } while (0);
+                    +
                     +#define COMBA_FINI
+                    +
                     +#define SQRADD(i, j)                                      \
                     +asm(                                            \
                     +     "movl  %6,%%eax     \n\t"                            \
                     +     "mull  %%eax        \n\t"                            \
                     +     "addl  %%eax,%0     \n\t"                            \
                     +     "adcl  %%edx,%1     \n\t"                            \
                     +     "adcl  $0,%2        \n\t"                            \
                     +     :"=r"(c0), "=r"(c1), "=r"(c2): "0"(c0), "1"(c1), "2"(c2), "m"(i) :"%eax","%edx","%cc");
+                    +
                     +#define SQRADD2(i, j)                                     \
                     +asm(                                            \
                     +     "movl  %6,%%eax     \n\t"                            \
                     +     "mull  %7           \n\t"                            \
                     +     "addl  %%eax,%0     \n\t"                            \
                     +     "adcl  %%edx,%1     \n\t"                            \
                     +     "adcl  $0,%2        \n\t"                            \
                     +     "addl  %%eax,%0     \n\t"                            \
                     +     "adcl  %%edx,%1     \n\t"                            \
                     +     "adcl  $0,%2        \n\t"                            \
                     +     :"=r"(c0), "=r"(c1), "=r"(c2): "0"(c0), "1"(c1), "2"(c2), "m"(i), "m"(j)  :"%eax","%edx","%cc");
+                    +
                     +#define SQRADDSC(i, j)                                    \
                     +asm(                                                     \
                     +     "movl  %6,%%eax     \n\t"                            \
                     +     "mull  %7           \n\t"                            \
                     +     "movl  %%eax,%0     \n\t"                            \
                     +     "movl  %%edx,%1     \n\t"                            \
                     +     "xorl  %2,%2        \n\t"                            \
                     +     :"=r"(sc0), "=r"(sc1), "=r"(sc2): "0"(sc0), "1"(sc1), "2"(sc2), "g"(i), "g"(j) :"%eax","%edx","%cc");
+                    +
                     +#define SQRADDAC(i, j)                                    \
                     +asm(                                                     \
                     +     "movl  %6,%%eax     \n\t"                            \
                     +     "mull  %7           \n\t"                            \
                     +     "addl  %%eax,%0     \n\t"                            \
                     +     "adcl  %%edx,%1     \n\t"                            \
                     +     "adcl  $0,%2        \n\t"                            \
                     +     :"=r"(sc0), "=r"(sc1), "=r"(sc2): "0"(sc0), "1"(sc1), "2"(sc2), "g"(i), "g"(j) :"%eax","%edx","%cc");
+                    +
                     +#define SQRADDDB                                          \
                     +asm(                                                     \
                     +     "addl %6,%0         \n\t"                            \
                     +     "adcl %7,%1         \n\t"                            \
                     +     "adcl %8,%2         \n\t"                            \
                     +     "addl %6,%0         \n\t"                            \
                     +     "adcl %7,%1         \n\t"                            \
                     +     "adcl %8,%2         \n\t"                            \
                     +     :"=r"(c0), "=r"(c1), "=r"(c2) : "0"(c0), "1"(c1), "2"(c2), "r"(sc0), "r"(sc1), "r"(sc2) : "%cc");
+                    +
                     +#elif defined(TFM_X86_64)
                     +/* x86-64 optimized */
+                    +
                     +#define COMBA_START
+                    +
                     +#define CLEAR_CARRY \
                     +   c0 = c1 = c2 = 0;
+                    +
                     +#define COMBA_STORE(x) \
                     +   x = c0;
+                    +
                     +#define COMBA_STORE2(x) \
                     +   x = c1;
+                    +
                     +#define CARRY_FORWARD \
                     +   do { c0 = c1; c1 = c2; c2 = 0; } while (0);
+                    +
                     +#define COMBA_FINI
+                    +
                     +#define SQRADD(i, j)                                      \
                     +asm(                                                     \
                     +     "movq  %6,%%rax     \n\t"                            \
                     +     "mulq  %%rax        \n\t"                            \
                     +     "addq  %%rax,%0     \n\t"                            \
                     +     "adcq  %%rdx,%1     \n\t"                            \
                     +     "adcq  $0,%2        \n\t"                            \
                     +     :"=r"(c0), "=r"(c1), "=r"(c2): "0"(c0), "1"(c1), "2"(c2), "g"(i) :"%rax","%rdx","%cc");
+                    +
                     +#define SQRADD2(i, j)                                     \
                     +asm(                                                     \
                     +     "movq  %6,%%rax     \n\t"                            \
                     +     "mulq  %7           \n\t"                            \
                     +     "addq  %%rax,%0     \n\t"                            \
                     +     "adcq  %%rdx,%1     \n\t"                            \
                     +     "adcq  $0,%2        \n\t"                            \
                     +     "addq  %%rax,%0     \n\t"                            \
                     +     "adcq  %%rdx,%1     \n\t"                            \
                     +     "adcq  $0,%2        \n\t"                            \
                     +     :"=r"(c0), "=r"(c1), "=r"(c2): "0"(c0), "1"(c1), "2"(c2), "g"(i), "g"(j)  :"%rax","%rdx","%cc");
+                    +
                     +#define SQRADDSC(i, j)                                    \
                     +asm(                                                     \
                     +     "movq  %6,%%rax     \n\t"                            \
                     +     "mulq  %7           \n\t"                            \
                     +     "movq  %%rax,%0     \n\t"                            \
                     +     "movq  %%rdx,%1     \n\t"                            \
                     +     "xorq  %2,%2        \n\t"                            \
                     +     :"=r"(sc0), "=r"(sc1), "=r"(sc2): "0"(sc0), "1"(sc1), "2"(sc2), "g"(i), "g"(j) :"%rax","%rdx","%cc");
+                    +
                     +#define SQRADDAC(i, j)                                                         \
                     +asm(                                                     \
                     +     "movq  %6,%%rax     \n\t"                            \
                     +     "mulq  %7           \n\t"                            \
                     +     "addq  %%rax,%0     \n\t"                            \
                     +     "adcq  %%rdx,%1     \n\t"                            \
                     +     "adcq  $0,%2        \n\t"                            \
                     +     :"=r"(sc0), "=r"(sc1), "=r"(sc2): "0"(sc0), "1"(sc1), "2"(sc2), "g"(i), "g"(j) :"%rax","%rdx","%cc");
+                    +
                     +#define SQRADDDB                                          \
                     +asm(                                                     \
                     +     "addq %6,%0         \n\t"                            \
                     +     "adcq %7,%1         \n\t"                            \
                     +     "adcq %8,%2         \n\t"                            \
                     +     "addq %6,%0         \n\t"                            \
                     +     "adcq %7,%1         \n\t"                            \
                     +     "adcq %8,%2         \n\t"                            \
                     +     :"=r"(c0), "=r"(c1), "=r"(c2) : "0"(c0), "1"(c1), "2"(c2), "r"(sc0), "r"(sc1), "r"(sc2) : "%cc");
+                    +
                     +#elif defined(TFM_SSE2)
+                    +
                     +/* SSE2 Optimized */
                     +#define COMBA_START
+                    +
                     +#define CLEAR_CARRY \
                     +   c0 = c1 = c2 = 0;
+                    +
                     +#define COMBA_STORE(x) \
                     +   x = c0;
+                    +
                     +#define COMBA_STORE2(x) \
                     +   x = c1;
+                    +
                     +#define CARRY_FORWARD \
                     +   do { c0 = c1; c1 = c2; c2 = 0; } while (0);
+                    +
                     +#define COMBA_FINI \
                     +   asm("emms");
+                    +
                     +#define SQRADD(i, j)                                      \
                     +asm(                                            \
                     +     "movd  %6,%%mm0     \n\t"                            \
                     +     "pmuludq %%mm0,%%mm0\n\t"                            \
                     +     "movd  %%mm0,%%eax  \n\t"                            \
                     +     "psrlq $32,%%mm0    \n\t"                            \
                     +     "addl  %%eax,%0     \n\t"                            \
                     +     "movd  %%mm0,%%eax  \n\t"                            \
                     +     "adcl  %%eax,%1     \n\t"                            \
                     +     "adcl  $0,%2        \n\t"                            \
                     +     :"=r"(c0), "=r"(c1), "=r"(c2): "0"(c0), "1"(c1), "2"(c2), "m"(i) :"%eax","%cc");
+                    +
                     +#define SQRADD2(i, j)                                     \
                     +asm(                                            \
                     +     "movd  %6,%%mm0     \n\t"                            \
                     +     "movd  %7,%%mm1     \n\t"                            \
                     +     "pmuludq %%mm1,%%mm0\n\t"                            \
                     +     "movd  %%mm0,%%eax  \n\t"                            \
                     +     "psrlq $32,%%mm0    \n\t"                            \
                     +     "movd  %%mm0,%%edx  \n\t"                            \
                     +     "addl  %%eax,%0     \n\t"                            \
                     +     "adcl  %%edx,%1     \n\t"                            \
                     +     "adcl  $0,%2        \n\t"                            \
                     +     "addl  %%eax,%0     \n\t"                            \
                     +     "adcl  %%edx,%1     \n\t"                            \
                     +     "adcl  $0,%2        \n\t"                            \
                     +     :"=r"(c0), "=r"(c1), "=r"(c2): "0"(c0), "1"(c1), "2"(c2), "m"(i), "m"(j)  :"%eax","%edx","%cc");
+                    +
                     +#define SQRADDSC(i, j)                                                         \
                     +asm(                                            \
                     +     "movd  %6,%%mm0     \n\t"                            \
                     +     "movd  %7,%%mm1     \n\t"                            \
                     +     "pmuludq %%mm1,%%mm0\n\t"                            \
                     +     "movd  %%mm0,%0     \n\t"                            \
                     +     "psrlq $32,%%mm0    \n\t"                            \
                     +     "movd  %%mm0,%1     \n\t"                            \
                     +     "xorl  %2,%2        \n\t"                            \
                     +     :"=r"(sc0), "=r"(sc1), "=r"(sc2): "0"(sc0), "1"(sc1), "2"(sc2), "m"(i), "m"(j));
+                    +
                     +#define SQRADDAC(i, j)                                                         \
                     +asm(                                            \
                     +     "movd  %6,%%mm0     \n\t"                            \
                     +     "movd  %7,%%mm1     \n\t"                            \
                     +     "pmuludq %%mm1,%%mm0\n\t"                            \
                     +     "movd  %%mm0,%%eax  \n\t"                            \
                     +     "psrlq $32,%%mm0    \n\t"                            \
                     +     "movd  %%mm0,%%edx  \n\t"                            \
                     +     "addl  %%eax,%0     \n\t"                            \
                     +     "adcl  %%edx,%1     \n\t"                            \
                     +     "adcl  $0,%2        \n\t"                            \
                     +     :"=r"(sc0), "=r"(sc1), "=r"(sc2): "0"(sc0), "1"(sc1), "2"(sc2), "m"(i), "m"(j)  :"%eax","%edx","%cc");
+                    +
                     +#define SQRADDDB                                          \
                     +asm(                                                     \
                     +     "addl %6,%0         \n\t"                            \
                     +     "adcl %7,%1         \n\t"                            \
                     +     "adcl %8,%2         \n\t"                            \
                     +     "addl %6,%0         \n\t"                            \
                     +     "adcl %7,%1         \n\t"                            \
                     +     "adcl %8,%2         \n\t"                            \
                     +     :"=r"(c0), "=r"(c1), "=r"(c2) : "0"(c0), "1"(c1), "2"(c2), "r"(sc0), "r"(sc1), "r"(sc2) : "%cc");
+                    +
                     +#elif defined(TFM_ARM)
+                    +
                     +/* ARM code */
+                    +
                     +#define COMBA_START
+                    +
                     +#define CLEAR_CARRY \
                     +   c0 = c1 = c2 = 0;
+                    +
                     +#define COMBA_STORE(x) \
                     +   x = c0;
+                    +
                     +#define COMBA_STORE2(x) \
                     +   x = c1;
+                    +
                     +#define CARRY_FORWARD \
                     +   do { c0 = c1; c1 = c2; c2 = 0; } while (0);
+                    +
                     +#define COMBA_FINI
+                    +
                     +/* multiplies point i and j, updates carry "c1" and digit c2 */
                     +#define SQRADD(i, j)                                             \
                     +asm(                                                             \
                     +"  UMULL  r0,r1,%6,%6              \n\t"                         \
                     +"  ADDS   %0,%0,r0                 \n\t"                         \
                     +"  ADCS   %1,%1,r1                 \n\t"                         \
                     +"  ADC    %2,%2,#0                 \n\t"                         \
                     +:"=r"(c0), "=r"(c1), "=r"(c2) : "0"(c0), "1"(c1), "2"(c2), "r"(i) : "r0", "r1", "%cc");
+                    +
                     +/* for squaring some of the terms are doubled... */
                     +#define SQRADD2(i, j)                                            \
                     +asm(                                                             \
                     +"  UMULL  r0,r1,%6,%7              \n\t"                         \
                     +"  ADDS   %0,%0,r0                 \n\t"                         \
                     +"  ADCS   %1,%1,r1                 \n\t"                         \
                     +"  ADC    %2,%2,#0                 \n\t"                         \
                     +"  ADDS   %0,%0,r0                 \n\t"                         \
                     +"  ADCS   %1,%1,r1                 \n\t"                         \
                     +"  ADC    %2,%2,#0                 \n\t"                         \
                     +:"=r"(c0), "=r"(c1), "=r"(c2) : "0"(c0), "1"(c1), "2"(c2), "r"(i), "r"(j) : "r0", "r1", "%cc");
+                    +
                     +#define SQRADDSC(i, j)                                           \
                     +asm(                                                             \
                     +"  UMULL  %0,%1,%6,%7              \n\t"                         \
                     +"  SUB    %2,%2,%2                 \n\t"                         \
                     +:"=r"(sc0), "=r"(sc1), "=r"(sc2) : "0"(sc0), "1"(sc1), "2"(sc2), "r"(i), "r"(j) : "%cc");
+                    +
                     +#define SQRADDAC(i, j)                                           \
                     +asm(                                                             \
                     +"  UMULL  r0,r1,%6,%7              \n\t"                         \
                     +"  ADDS   %0,%0,r0                 \n\t"                         \
                     +"  ADCS   %1,%1,r1                 \n\t"                         \
                     +"  ADC    %2,%2,#0                 \n\t"                         \
                     +:"=r"(sc0), "=r"(sc1), "=r"(sc2) : "0"(sc0), "1"(sc1), "2"(sc2), "r"(i), "r"(j) : "r0", "r1", "%cc");
+                    +
                     +#define SQRADDDB                                                 \
                     +asm(                                                             \
                     +"  ADDS  %0,%0,%3                     \n\t"                      \
                     +"  ADCS  %1,%1,%4                     \n\t"                      \
                     +"  ADC   %2,%2,%5                     \n\t"                      \
                     +"  ADDS  %0,%0,%3                     \n\t"                      \
                     +"  ADCS  %1,%1,%4                     \n\t"                      \
                     +"  ADC   %2,%2,%5                     \n\t"                      \
                     +:"=r"(c0), "=r"(c1), "=r"(c2) : "r"(sc0), "r"(sc1), "r"(sc2), "0"(c0), "1"(c1), "2"(c2) : "%cc");
+                    +
                     +#elif defined(TFM_PPC32)
+                    +
                     +/* PPC32 */
+                    +
                     +#define COMBA_START
+                    +
                     +#define CLEAR_CARRY \
                     +   c0 = c1 = c2 = 0;
+                    +
                     +#define COMBA_STORE(x) \
                     +   x = c0;
+                    +
                     +#define COMBA_STORE2(x) \
                     +   x = c1;
+                    +
                     +#define CARRY_FORWARD \
                     +   do { c0 = c1; c1 = c2; c2 = 0; } while (0);
+                    +
                     +#define COMBA_FINI
+                    +
                     +/* multiplies point i and j, updates carry "c1" and digit c2 */
                     +#define SQRADD(i, j)             \
                     +asm(                             \
                     +   " mullw  16,%6,%6       \n\t" \
                     +   " addc   %0,%0,16       \n\t" \
                     +   " mulhwu 16,%6,%6       \n\t" \
                     +   " adde   %1,%1,16       \n\t" \
                     +   " addze  %2,%2          \n\t" \
                     +:"=r"(c0), "=r"(c1), "=r"(c2):"0"(c0), "1"(c1), "2"(c2), "r"(i):"16","%cc");
+                    +
                     +/* for squaring some of the terms are doubled... */
                     +#define SQRADD2(i, j)            \
                     +asm(                             \
                     +   " mullw  16,%6,%7       \n\t" \
                     +   " mulhwu 17,%6,%7       \n\t" \
                     +   " addc   %0,%0,16       \n\t" \
                     +   " adde   %1,%1,17       \n\t" \
                     +   " addze  %2,%2          \n\t" \
                     +   " addc   %0,%0,16       \n\t" \
                     +   " adde   %1,%1,17       \n\t" \
                     +   " addze  %2,%2          \n\t" \
                     +:"=r"(c0), "=r"(c1), "=r"(c2):"0"(c0), "1"(c1), "2"(c2), "r"(i), "r"(j):"16", "17","%cc");
+                    +
                     +#define SQRADDSC(i, j)            \
                     +asm(                              \
                     +   " mullw  %0,%6,%7        \n\t" \
                     +   " mulhwu %1,%6,%7        \n\t" \
                     +   " xor    %2,%2,%2        \n\t" \
                     +:"=r"(sc0), "=r"(sc1), "=r"(sc2):"0"(sc0), "1"(sc1), "2"(sc2), "r"(i),"r"(j) : "%cc");
+                    +
                     +#define SQRADDAC(i, j)           \
                     +asm(                             \
                     +   " mullw  16,%6,%7       \n\t" \
                     +   " addc   %0,%0,16       \n\t" \
                     +   " mulhwu 16,%6,%7       \n\t" \
                     +   " adde   %1,%1,16       \n\t" \
                     +   " addze  %2,%2          \n\t" \
                     +:"=r"(sc0), "=r"(sc1), "=r"(sc2):"0"(sc0), "1"(sc1), "2"(sc2), "r"(i), "r"(j):"16", "%cc");
+                    +
                     +#define SQRADDDB                  \
                     +asm(                              \
                     +   " addc   %0,%0,%3        \n\t" \
                     +   " adde   %1,%1,%4        \n\t" \
                     +   " adde   %2,%2,%5        \n\t" \
                     +   " addc   %0,%0,%3        \n\t" \
                     +   " adde   %1,%1,%4        \n\t" \
                     +   " adde   %2,%2,%5        \n\t" \
                     +:"=r"(c0), "=r"(c1), "=r"(c2) : "r"(sc0), "r"(sc1), "r"(sc2), "0"(c0), "1"(c1), "2"(c2) : "%cc");
+                    +
                     +#elif defined(TFM_PPC64)
                     +/* PPC64 */
+                    +
                     +#define COMBA_START
+                    +
                     +#define CLEAR_CARRY \
                     +   c0 = c1 = c2 = 0;
+                    +
                     +#define COMBA_STORE(x) \
                     +   x = c0;
+                    +
                     +#define COMBA_STORE2(x) \
                     +   x = c1;
+                    +
                     +#define CARRY_FORWARD \
                     +   do { c0 = c1; c1 = c2; c2 = 0; } while (0);
+                    +
                     +#define COMBA_FINI
+                    +
                     +/* multiplies point i and j, updates carry "c1" and digit c2 */
                     +#define SQRADD(i, j)             \
                     +asm(                             \
                     +   " mulld  r16,%6,%6       \n\t" \
                     +   " addc   %0,%0,r16       \n\t" \
                     +   " mulhdu r16,%6,%6       \n\t" \
                     +   " adde   %1,%1,r16       \n\t" \
                     +   " addze  %2,%2          \n\t" \
                     +:"=r"(c0), "=r"(c1), "=r"(c2):"0"(c0), "1"(c1), "2"(c2), "r"(i):"r16","%cc");
+                    +
                     +/* for squaring some of the terms are doubled... */
                     +#define SQRADD2(i, j)            \
                     +asm(                             \
                     +   " mulld  r16,%6,%7       \n\t" \
                     +   " mulhdu r17,%6,%7       \n\t" \
                     +   " addc   %0,%0,r16       \n\t" \
                     +   " adde   %1,%1,r17       \n\t" \
                     +   " addze  %2,%2          \n\t" \
                     +   " addc   %0,%0,r16       \n\t" \
                     +   " adde   %1,%1,r17       \n\t" \
                     +   " addze  %2,%2          \n\t" \
                     +:"=r"(c0), "=r"(c1), "=r"(c2):"0"(c0), "1"(c1), "2"(c2), "r"(i), "r"(j):"r16", "r17","%cc");
+                    +
                     +#define SQRADDSC(i, j)            \
                     +asm(                              \
                     +   " mulld  %0,%6,%7        \n\t" \
                     +   " mulhdu %1,%6,%7        \n\t" \
                     +   " xor    %2,%2,%2        \n\t" \
                     +:"=r"(sc0), "=r"(sc1), "=r"(sc2):"0"(sc0), "1"(sc1), "2"(sc2), "r"(i),"r"(j) : "%cc");
+                    +
                     +#define SQRADDAC(i, j)           \
                     +asm(                             \
                     +   " mulld  r16,%6,%7       \n\t" \
                     +   " addc   %0,%0,r16       \n\t" \
                     +   " mulhdu r16,%6,%7       \n\t" \
                     +   " adde   %1,%1,r16       \n\t" \
                     +   " addze  %2,%2          \n\t" \
                     +:"=r"(sc0), "=r"(sc1), "=r"(sc2):"0"(sc0), "1"(sc1), "2"(sc2), "r"(i), "r"(j):"r16", "%cc");
+                    +
                     +#define SQRADDDB                  \
                     +asm(                              \
                     +   " addc   %0,%0,%3        \n\t" \
                     +   " adde   %1,%1,%4        \n\t" \
                     +   " adde   %2,%2,%5        \n\t" \
                     +   " addc   %0,%0,%3        \n\t" \
                     +   " adde   %1,%1,%4        \n\t" \
                     +   " adde   %2,%2,%5        \n\t" \
                     +:"=r"(c0), "=r"(c1), "=r"(c2) : "r"(sc0), "r"(sc1), "r"(sc2), "0"(c0), "1"(c1), "2"(c2) : "%cc");
+                    +
+                    +
                     +#elif defined(TFM_AVR32)
+                    +
                     +/* AVR32 */
+                    +
                     +#define COMBA_START
+                    +
                     +#define CLEAR_CARRY \
                     +   c0 = c1 = c2 = 0;
+                    +
                     +#define COMBA_STORE(x) \
                     +   x = c0;
+                    +
                     +#define COMBA_STORE2(x) \
                     +   x = c1;
+                    +
                     +#define CARRY_FORWARD \
                     +   do { c0 = c1; c1 = c2; c2 = 0; } while (0);
+                    +
                     +#define COMBA_FINI
+                    +
                     +/* multiplies point i and j, updates carry "c1" and digit c2 */
                     +#define SQRADD(i, j)             \
                     +asm(                             \
                     +   " mulu.d r2,%6,%6       \n\t" \
                     +   " add    %0,%0,r2       \n\t" \
                     +   " adc    %1,%1,r3       \n\t" \
                     +   " acr    %2             \n\t" \
                     +:"=r"(c0), "=r"(c1), "=r"(c2):"0"(c0), "1"(c1), "2"(c2), "r"(i):"r2","r3");
+                    +
                     +/* for squaring some of the terms are doubled... */
                     +#define SQRADD2(i, j)            \
                     +asm(                             \
                     +   " mulu.d r2,%6,%7       \n\t" \
                     +   " add    %0,%0,r2       \n\t" \
                     +   " adc    %1,%1,r3       \n\t" \
                     +   " acr    %2,            \n\t" \
                     +   " add    %0,%0,r2       \n\t" \
                     +   " adc    %1,%1,r3       \n\t" \
                     +   " acr    %2,            \n\t" \
                     +:"=r"(c0), "=r"(c1), "=r"(c2):"0"(c0), "1"(c1), "2"(c2), "r"(i), "r"(j):"r2", "r3");
+                    +
                     +#define SQRADDSC(i, j)            \
                     +asm(                              \
                     +   " mulu.d r2,%6,%7        \n\t" \
                     +   " mov    %0,r2           \n\t" \
                     +   " mov    %1,r3           \n\t" \
                     +   " eor    %2,%2           \n\t" \
                     +:"=r"(sc0), "=r"(sc1), "=r"(sc2):"0"(sc0), "1"(sc1), "2"(sc2), "r"(i),"r"(j) : "r2", "r3");
+                    +
                     +#define SQRADDAC(i, j)           \
                     +asm(                             \
                     +   " mulu.d r2,%6,%7       \n\t" \
                     +   " add    %0,%0,r2       \n\t" \
                     +   " adc    %1,%1,r3       \n\t" \
                     +   " acr    %2             \n\t" \
                     +:"=r"(sc0), "=r"(sc1), "=r"(sc2):"0"(sc0), "1"(sc1), "2"(sc2), "r"(i), "r"(j):"r2", "r3");
+                    +
                     +#define SQRADDDB                  \
                     +asm(                              \
                     +   " add    %0,%0,%3        \n\t" \
                     +   " adc    %1,%1,%4        \n\t" \
                     +   " adc    %2,%2,%5        \n\t" \
                     +   " add    %0,%0,%3        \n\t" \
                     +   " adc    %1,%1,%4        \n\t" \
                     +   " adc    %2,%2,%5        \n\t" \
                     +:"=r"(c0), "=r"(c1), "=r"(c2) : "r"(sc0), "r"(sc1), "r"(sc2), "0"(c0), "1"(c1), "2"(c2) : "%cc");
+                    +
                     +#elif defined(TFM_MIPS)
+                    +
                     +/* MIPS */
+                    +
                     +#define COMBA_START
+                    +
                     +#define CLEAR_CARRY \
                     +   c0 = c1 = c2 = 0;
+                    +
                     +#define COMBA_STORE(x) \
                     +   x = c0;
+                    +
                     +#define COMBA_STORE2(x) \
                     +   x = c1;
+                    +
                     +#define CARRY_FORWARD \
                     +   do { c0 = c1; c1 = c2; c2 = 0; } while (0);
+                    +
                     +#define COMBA_FINI
+                    +
                     +/* multiplies point i and j, updates carry "c1" and digit c2 */
                     +#define SQRADD(i, j)              \
                     +asm(                              \
                     +   " multu  %6,%6          \n\t"  \
                     +   " mflo   $12            \n\t"  \
                     +   " mfhi   $13            \n\t"  \
                     +   " addu    %0,%0,$12     \n\t"  \
                     +   " sltu   $12,%0,$12     \n\t"  \
                     +   " addu    %1,%1,$13     \n\t"  \
                     +   " sltu   $13,%1,$13     \n\t"  \
                     +   " addu    %1,%1,$12     \n\t"  \
                     +   " sltu   $12,%1,$12     \n\t"  \
                     +   " addu    %2,%2,$13     \n\t"  \
                     +   " addu    %2,%2,$12     \n\t"  \
                     +:"=r"(c0), "=r"(c1), "=r"(c2):"0"(c0), "1"(c1), "2"(c2), "r"(i):"$12","$13");
+                    +
                     +/* for squaring some of the terms are doubled... */
                     +#define SQRADD2(i, j)            \
                     +asm(                             \
                     +   " multu  %6,%7          \n\t" \
                     +   " mflo   $12            \n\t" \
                     +   " mfhi   $13            \n\t" \
                     +                                 \
                     +   " addu    %0,%0,$12     \n\t" \
                     +   " sltu   $14,%0,$12     \n\t" \
                     +   " addu    %1,%1,$13     \n\t" \
                     +   " sltu   $15,%1,$13     \n\t" \
                     +   " addu    %1,%1,$14     \n\t" \
                     +   " sltu   $14,%1,$14     \n\t" \
                     +   " addu    %2,%2,$15     \n\t" \
                     +   " addu    %2,%2,$14     \n\t" \
                     +                                 \
                     +   " addu    %0,%0,$12     \n\t" \
                     +   " sltu   $14,%0,$12     \n\t" \
                     +   " addu    %1,%1,$13     \n\t" \
                     +   " sltu   $15,%1,$13     \n\t" \
                     +   " addu    %1,%1,$14     \n\t" \
                     +   " sltu   $14,%1,$14     \n\t" \
                     +   " addu    %2,%2,$15     \n\t" \
                     +   " addu    %2,%2,$14     \n\t" \
                     +:"=r"(c0), "=r"(c1), "=r"(c2):"0"(c0), "1"(c1), "2"(c2), "r"(i), "r"(j):"$12", "$13", "$14", "$15");
+                    +
                     +#define SQRADDSC(i, j)            \
                     +asm(                              \
                     +   " multu  %6,%7          \n\t"  \
                     +   " mflo   %0             \n\t"  \
                     +   " mfhi   %1             \n\t"  \
                     +   " xor    %2,%2,%2       \n\t"  \
                     +:"=r"(sc0), "=r"(sc1), "=r"(sc2):"0"(sc0), "1"(sc1), "2"(sc2), "r"(i),"r"(j) : "%cc");
+                    +
                     +#define SQRADDAC(i, j)           \
                     +asm(                             \
                     +   " multu  %6,%7          \n\t" \
                     +   " mflo   $12            \n\t" \
                     +   " mfhi   $13            \n\t" \
                     +   " addu    %0,%0,$12     \n\t" \
                     +   " sltu   $12,%0,$12     \n\t" \
                     +   " addu    %1,%1,$13     \n\t" \
                     +   " sltu   $13,%1,$13     \n\t" \
                     +   " addu    %1,%1,$12     \n\t" \
                     +   " sltu   $12,%1,$12     \n\t" \
                     +   " addu    %2,%2,$13     \n\t" \
                     +   " addu    %2,%2,$12     \n\t" \
                     +:"=r"(sc0), "=r"(sc1), "=r"(sc2):"0"(sc0), "1"(sc1), "2"(sc2), "r"(i), "r"(j):"$12", "$13", "$14");
+                    +
                     +#define SQRADDDB                  \
                     +asm(                              \
                     +   " addu    %0,%0,%3       \n\t" \
                     +   " sltu   $10,%0,%3       \n\t" \
                     +   " addu    %1,%1,$10      \n\t" \
                     +   " sltu   $10,%1,$10      \n\t" \
                     +   " addu    %1,%1,%4       \n\t" \
                     +   " sltu   $11,%1,%4       \n\t" \
                     +   " addu    %2,%2,$10      \n\t" \
                     +   " addu    %2,%2,$11      \n\t" \
                     +   " addu    %2,%2,%5       \n\t" \
                     +                                  \
                     +   " addu    %0,%0,%3       \n\t" \
                     +   " sltu   $10,%0,%3       \n\t" \
                     +   " addu    %1,%1,$10      \n\t" \
                     +   " sltu   $10,%1,$10      \n\t" \
                     +   " addu    %1,%1,%4       \n\t" \
                     +   " sltu   $11,%1,%4       \n\t" \
                     +   " addu    %2,%2,$10      \n\t" \
                     +   " addu    %2,%2,$11      \n\t" \
                     +   " addu    %2,%2,%5       \n\t" \
                     +:"=r"(c0), "=r"(c1), "=r"(c2) : "r"(sc0), "r"(sc1), "r"(sc2), "0"(c0), "1"(c1), "2"(c2) : "$10", "$11");
                     -/* shift right a certain amount of digits */
                     -void mp_rshd (mp_int * a, int b)
                     -{
                     -  int     x;
                     +#else
                     -  /* if b <= 0 then ignore it */
                     -  if (b <= 0) {
                     -    return;
                     -  }
                     +#define TFM_ISO
                     -  /* if b > used then simply zero it and return */
                     -  if (a->used <= b) {
                     -    mp_zero (a);
                     -    return;
                     -  }
                     +/* ISO C portable code */
                     -  {
                     -    register mp_digit *bottom, *top;
                     +#define COMBA_START
                     -    /* shift the digits down */
                     +#define CLEAR_CARRY \
                     +   c0 = c1 = c2 = 0;
                     -    /* bottom */
                     -    bottom = a->dp;
                     +#define COMBA_STORE(x) \
                     +   x = c0;
                     -    /* top [offset into digits] */
                     -    top = a->dp + b;
                     +#define COMBA_STORE2(x) \
                     +   x = c1;
                     -    /* this is implemented as a sliding window where
                     -     * the window is b-digits long and digits from
                     -     * the top of the window are copied to the bottom
                     -     *
                     -     * e.g.
                     +#define CARRY_FORWARD \
                     +   do { c0 = c1; c1 = c2; c2 = 0; } while (0);
                     -     b-2 | b-1 | b0 | b1 | b2 | ... | bb |   ---->
                     -                 /\                   |      ---->
                     -                  \-------------------/      ---->
                     -     */
                     -    for (x = 0; x < (a->used - b); x++) {
                     -      *bottom++ = *top++;
                     -    }
                     +#define COMBA_FINI
                     -    /* zero the top digits */
                     -    for (; x < a->used; x++) {
                     -      *bottom++ = 0;
                     -    }
                     -  }
                     +/* multiplies point i and j, updates carry "c1" and digit c2 */
                     +#define SQRADD(i, j)                                 \
                     +   do { fp_word t;                                   \
                     +   t = c0 + ((fp_word)i) * ((fp_word)j);  c0 = t;    \
                     +   t = c1 + (t >> DIGIT_BIT);             c1 = t; c2 += t >> DIGIT_BIT; \
                     +   } while (0);
                     -  /* remove excess digits */
                     -  a->used -= b;
                     -}
                     -#endif
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_rshd.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
                     +/* for squaring some of the terms are doubled... */
                     +#define SQRADD2(i, j)                                                 \
                     +   do { fp_word t;                                                    \
                     +   t  = ((fp_word)i) * ((fp_word)j);                                  \
                     +   tt = (fp_word)c0 + t;                 c0 = tt;                              \
                     +   tt = (fp_word)c1 + (tt >> DIGIT_BIT); c1 = tt; c2 += tt >> DIGIT_BIT;       \
                     +   tt = (fp_word)c0 + t;                 c0 = tt;                              \
                     +   tt = (fp_word)c1 + (tt >> DIGIT_BIT); c1 = tt; c2 += tt >> DIGIT_BIT;       \
                     +   } while (0);
+                    +
                     +#define SQRADDSC(i, j)                                                         \
                     +   do { fp_word t;                                                             \
                     +      t =  ((fp_word)i) * ((fp_word)j);                                        \
                     +      sc0 = (fp_digit)t; sc1 = (t >> DIGIT_BIT); sc2 = 0;                      \
                     +   } while (0);
+                    +
                     +#define SQRADDAC(i, j)                                                         \
                     +   do { fp_word t;                                                             \
                     +   t = sc0 + ((fp_word)i) * ((fp_word)j);  sc0 = t;                            \
                     +   t = sc1 + (t >> DIGIT_BIT);             sc1 = t; sc2 += t >> DIGIT_BIT;     \
                     +   } while (0);
+                    +
                     +#define SQRADDDB                                                               \
                     +   do { fp_word t;                                                             \
                     +   t = ((fp_word)sc0) + ((fp_word)sc0) + c0; c0 = t;                                                 \
                     +   t = ((fp_word)sc1) + ((fp_word)sc1) + c1 + (t >> DIGIT_BIT); c1 = t;                              \
                     +   c2 = c2 + ((fp_word)sc2) + ((fp_word)sc2) + (t >> DIGIT_BIT);                                     \
                     +   } while (0);
+                    +
                     +#endif
+                    +
                     +/* $Source: /cvs/libtom/tomsfastmath/src/sqr/fp_sqr_comba.c,v $ */
                     +/* $Revision: 1.4 $ */
                     +/* $Date: 2007/03/14 23:47:42 $ */
                     -/* End: bn_mp_rshd.c */
                     +/* End: fp_sqr_comba.c */
                     -/* Start: bn_mp_set.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_SET_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     - *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     - */
                     +/* Start: fp_sqr_comba_12.c */
                     +#define TFM_DEFINES
                     +#include "fp_sqr_comba.c"
                     -/* set to a digit */
                     -void mp_set (mp_int * a, mp_digit b)
                     +#ifdef TFM_SQR12
                     +void fp_sqr_comba12(fp_int *A, fp_int *B)
+                     {
                     -  mp_zero (a);
                     -  a->dp[0] = b & MP_MASK;
                     -  a->used  = (a->dp[0] != 0) ? 1 : 0;
                     +   fp_digit *a, b[24], c0, c1, c2, sc0, sc1, sc2;
                     +#ifdef TFM_ISO
                     +   fp_word tt;
                     +#endif
+                    +
                     +   a = A->dp;
                     +   COMBA_START;
+                    +
                     +   /* clear carries */
                     +   CLEAR_CARRY;
+                    +
                     +   /* output 0 */
                     +   SQRADD(a[0],a[0]);
                     +   COMBA_STORE(b[0]);
+                    +
                     +   /* output 1 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[0], a[1]);
                     +   COMBA_STORE(b[1]);
+                    +
                     +   /* output 2 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[0], a[2]); SQRADD(a[1], a[1]);
                     +   COMBA_STORE(b[2]);
+                    +
                     +   /* output 3 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[0], a[3]); SQRADD2(a[1], a[2]);
                     +   COMBA_STORE(b[3]);
+                    +
                     +   /* output 4 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[0], a[4]); SQRADD2(a[1], a[3]); SQRADD(a[2], a[2]);
                     +   COMBA_STORE(b[4]);
+                    +
                     +   /* output 5 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[5]); SQRADDAC(a[1], a[4]); SQRADDAC(a[2], a[3]); SQRADDDB;
                     +   COMBA_STORE(b[5]);
+                    +
                     +   /* output 6 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[6]); SQRADDAC(a[1], a[5]); SQRADDAC(a[2], a[4]); SQRADDDB; SQRADD(a[3], a[3]);
                     +   COMBA_STORE(b[6]);
+                    +
                     +   /* output 7 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[7]); SQRADDAC(a[1], a[6]); SQRADDAC(a[2], a[5]); SQRADDAC(a[3], a[4]); SQRADDDB;
                     +   COMBA_STORE(b[7]);
+                    +
                     +   /* output 8 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[8]); SQRADDAC(a[1], a[7]); SQRADDAC(a[2], a[6]); SQRADDAC(a[3], a[5]); SQRADDDB; SQRADD(a[4], a[4]);
                     +   COMBA_STORE(b[8]);
+                    +
                     +   /* output 9 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[9]); SQRADDAC(a[1], a[8]); SQRADDAC(a[2], a[7]); SQRADDAC(a[3], a[6]); SQRADDAC(a[4], a[5]); SQRADDDB;
                     +   COMBA_STORE(b[9]);
+                    +
                     +   /* output 10 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[10]); SQRADDAC(a[1], a[9]); SQRADDAC(a[2], a[8]); SQRADDAC(a[3], a[7]); SQRADDAC(a[4], a[6]); SQRADDDB; SQRADD(a[5], a[5]);
                     +   COMBA_STORE(b[10]);
+                    +
                     +   /* output 11 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[11]); SQRADDAC(a[1], a[10]); SQRADDAC(a[2], a[9]); SQRADDAC(a[3], a[8]); SQRADDAC(a[4], a[7]); SQRADDAC(a[5], a[6]); SQRADDDB;
                     +   COMBA_STORE(b[11]);
+                    +
                     +   /* output 12 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[1], a[11]); SQRADDAC(a[2], a[10]); SQRADDAC(a[3], a[9]); SQRADDAC(a[4], a[8]); SQRADDAC(a[5], a[7]); SQRADDDB; SQRADD(a[6], a[6]);
                     +   COMBA_STORE(b[12]);
+                    +
                     +   /* output 13 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[2], a[11]); SQRADDAC(a[3], a[10]); SQRADDAC(a[4], a[9]); SQRADDAC(a[5], a[8]); SQRADDAC(a[6], a[7]); SQRADDDB;
                     +   COMBA_STORE(b[13]);
+                    +
                     +   /* output 14 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[3], a[11]); SQRADDAC(a[4], a[10]); SQRADDAC(a[5], a[9]); SQRADDAC(a[6], a[8]); SQRADDDB; SQRADD(a[7], a[7]);
                     +   COMBA_STORE(b[14]);
+                    +
                     +   /* output 15 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[4], a[11]); SQRADDAC(a[5], a[10]); SQRADDAC(a[6], a[9]); SQRADDAC(a[7], a[8]); SQRADDDB;
                     +   COMBA_STORE(b[15]);
+                    +
                     +   /* output 16 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[5], a[11]); SQRADDAC(a[6], a[10]); SQRADDAC(a[7], a[9]); SQRADDDB; SQRADD(a[8], a[8]);
                     +   COMBA_STORE(b[16]);
+                    +
                     +   /* output 17 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[6], a[11]); SQRADDAC(a[7], a[10]); SQRADDAC(a[8], a[9]); SQRADDDB;
                     +   COMBA_STORE(b[17]);
+                    +
                     +   /* output 18 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[7], a[11]); SQRADD2(a[8], a[10]); SQRADD(a[9], a[9]);
                     +   COMBA_STORE(b[18]);
+                    +
                     +   /* output 19 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[8], a[11]); SQRADD2(a[9], a[10]);
                     +   COMBA_STORE(b[19]);
+                    +
                     +   /* output 20 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[9], a[11]); SQRADD(a[10], a[10]);
                     +   COMBA_STORE(b[20]);
+                    +
                     +   /* output 21 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[10], a[11]);
                     +   COMBA_STORE(b[21]);
+                    +
                     +   /* output 22 */
                     +   CARRY_FORWARD;
                     +   SQRADD(a[11], a[11]);
                     +   COMBA_STORE(b[22]);
                     +   COMBA_STORE2(b[23]);
                     +   COMBA_FINI;
+                    +
                     +   B->used = 24;
                     +   B->sign = FP_ZPOS;
                     +   memcpy(B->dp, b, 24 * sizeof(fp_digit));
                     +   fp_clamp(B);
+                     }
                      #endif
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_set.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
                     -/* End: bn_mp_set.c */
+                    -
                     -/* Start: bn_mp_set_int.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_SET_INT_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     - *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     - */
+                    -
                     -/* set a 32-bit const */
                     -int mp_set_int (mp_int * a, unsigned long b)
                     -{
                     -  int     x, res;
+                    -
                     -  mp_zero (a);
+                    -
                     -  /* set four bits at a time */
                     -  for (x = 0; x < 8; x++) {
                     -    /* shift the number up four bits */
                     -    if ((res = mp_mul_2d (a, 4, a)) != MP_OKAY) {
                     -      return res;
                     -    }
                     +/* $Source: /cvs/libtom/tomsfastmath/src/sqr/fp_sqr_comba_12.c,v $ */
                     +/* $Revision: 1.2 $ */
                     +/* $Date: 2007/02/17 03:39:01 $ */
                     -    /* OR in the top four bits of the source */
                     -    a->dp[0] |= (b >> 28) & 15;
                     +/* End: fp_sqr_comba_12.c */
                     -    /* shift the source up to the next four bits */
                     -    b <<= 4;
                     +/* Start: fp_sqr_comba_17.c */
                     +#define TFM_DEFINES
                     +#include "fp_sqr_comba.c"
                     -    /* ensure that digits are not clamped off */
                     -    a->used += 1;
                     -  }
                     -  mp_clamp (a);
                     -  return MP_OKAY;
                     +#ifdef TFM_SQR17
                     +void fp_sqr_comba17(fp_int *A, fp_int *B)
                     +{
                     +   fp_digit *a, b[34], c0, c1, c2, sc0, sc1, sc2;
                     +#ifdef TFM_ISO
                     +   fp_word tt;
                     +#endif
+                    +
                     +   a = A->dp;
                     +   COMBA_START;
+                    +
                     +   /* clear carries */
                     +   CLEAR_CARRY;
+                    +
                     +   /* output 0 */
                     +   SQRADD(a[0],a[0]);
                     +   COMBA_STORE(b[0]);
+                    +
                     +   /* output 1 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[0], a[1]);
                     +   COMBA_STORE(b[1]);
+                    +
                     +   /* output 2 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[0], a[2]); SQRADD(a[1], a[1]);
                     +   COMBA_STORE(b[2]);
+                    +
                     +   /* output 3 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[0], a[3]); SQRADD2(a[1], a[2]);
                     +   COMBA_STORE(b[3]);
+                    +
                     +   /* output 4 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[0], a[4]); SQRADD2(a[1], a[3]); SQRADD(a[2], a[2]);
                     +   COMBA_STORE(b[4]);
+                    +
                     +   /* output 5 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[5]); SQRADDAC(a[1], a[4]); SQRADDAC(a[2], a[3]); SQRADDDB;
                     +   COMBA_STORE(b[5]);
+                    +
                     +   /* output 6 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[6]); SQRADDAC(a[1], a[5]); SQRADDAC(a[2], a[4]); SQRADDDB; SQRADD(a[3], a[3]);
                     +   COMBA_STORE(b[6]);
+                    +
                     +   /* output 7 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[7]); SQRADDAC(a[1], a[6]); SQRADDAC(a[2], a[5]); SQRADDAC(a[3], a[4]); SQRADDDB;
                     +   COMBA_STORE(b[7]);
+                    +
                     +   /* output 8 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[8]); SQRADDAC(a[1], a[7]); SQRADDAC(a[2], a[6]); SQRADDAC(a[3], a[5]); SQRADDDB; SQRADD(a[4], a[4]);
                     +   COMBA_STORE(b[8]);
+                    +
                     +   /* output 9 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[9]); SQRADDAC(a[1], a[8]); SQRADDAC(a[2], a[7]); SQRADDAC(a[3], a[6]); SQRADDAC(a[4], a[5]); SQRADDDB;
                     +   COMBA_STORE(b[9]);
+                    +
                     +   /* output 10 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[10]); SQRADDAC(a[1], a[9]); SQRADDAC(a[2], a[8]); SQRADDAC(a[3], a[7]); SQRADDAC(a[4], a[6]); SQRADDDB; SQRADD(a[5], a[5]);
                     +   COMBA_STORE(b[10]);
+                    +
                     +   /* output 11 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[11]); SQRADDAC(a[1], a[10]); SQRADDAC(a[2], a[9]); SQRADDAC(a[3], a[8]); SQRADDAC(a[4], a[7]); SQRADDAC(a[5], a[6]); SQRADDDB;
                     +   COMBA_STORE(b[11]);
+                    +
                     +   /* output 12 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[12]); SQRADDAC(a[1], a[11]); SQRADDAC(a[2], a[10]); SQRADDAC(a[3], a[9]); SQRADDAC(a[4], a[8]); SQRADDAC(a[5], a[7]); SQRADDDB; SQRADD(a[6], a[6]);
                     +   COMBA_STORE(b[12]);
+                    +
                     +   /* output 13 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[13]); SQRADDAC(a[1], a[12]); SQRADDAC(a[2], a[11]); SQRADDAC(a[3], a[10]); SQRADDAC(a[4], a[9]); SQRADDAC(a[5], a[8]); SQRADDAC(a[6], a[7]); SQRADDDB;
                     +   COMBA_STORE(b[13]);
+                    +
                     +   /* output 14 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[14]); SQRADDAC(a[1], a[13]); SQRADDAC(a[2], a[12]); SQRADDAC(a[3], a[11]); SQRADDAC(a[4], a[10]); SQRADDAC(a[5], a[9]); SQRADDAC(a[6], a[8]); SQRADDDB; SQRADD(a[7], a[7]);
                     +   COMBA_STORE(b[14]);
+                    +
                     +   /* output 15 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[15]); SQRADDAC(a[1], a[14]); SQRADDAC(a[2], a[13]); SQRADDAC(a[3], a[12]); SQRADDAC(a[4], a[11]); SQRADDAC(a[5], a[10]); SQRADDAC(a[6], a[9]); SQRADDAC(a[7], a[8]); SQRADDDB;
                     +   COMBA_STORE(b[15]);
+                    +
                     +   /* output 16 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[16]); SQRADDAC(a[1], a[15]); SQRADDAC(a[2], a[14]); SQRADDAC(a[3], a[13]); SQRADDAC(a[4], a[12]); SQRADDAC(a[5], a[11]); SQRADDAC(a[6], a[10]); SQRADDAC(a[7], a[9]); SQRADDDB; SQRADD(a[8], a[8]);
                     +   COMBA_STORE(b[16]);
+                    +
                     +   /* output 17 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[1], a[16]); SQRADDAC(a[2], a[15]); SQRADDAC(a[3], a[14]); SQRADDAC(a[4], a[13]); SQRADDAC(a[5], a[12]); SQRADDAC(a[6], a[11]); SQRADDAC(a[7], a[10]); SQRADDAC(a[8], a[9]); SQRADDDB;
                     +   COMBA_STORE(b[17]);
+                    +
                     +   /* output 18 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[2], a[16]); SQRADDAC(a[3], a[15]); SQRADDAC(a[4], a[14]); SQRADDAC(a[5], a[13]); SQRADDAC(a[6], a[12]); SQRADDAC(a[7], a[11]); SQRADDAC(a[8], a[10]); SQRADDDB; SQRADD(a[9], a[9]);
                     +   COMBA_STORE(b[18]);
+                    +
                     +   /* output 19 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[3], a[16]); SQRADDAC(a[4], a[15]); SQRADDAC(a[5], a[14]); SQRADDAC(a[6], a[13]); SQRADDAC(a[7], a[12]); SQRADDAC(a[8], a[11]); SQRADDAC(a[9], a[10]); SQRADDDB;
                     +   COMBA_STORE(b[19]);
+                    +
                     +   /* output 20 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[4], a[16]); SQRADDAC(a[5], a[15]); SQRADDAC(a[6], a[14]); SQRADDAC(a[7], a[13]); SQRADDAC(a[8], a[12]); SQRADDAC(a[9], a[11]); SQRADDDB; SQRADD(a[10], a[10]);
                     +   COMBA_STORE(b[20]);
+                    +
                     +   /* output 21 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[5], a[16]); SQRADDAC(a[6], a[15]); SQRADDAC(a[7], a[14]); SQRADDAC(a[8], a[13]); SQRADDAC(a[9], a[12]); SQRADDAC(a[10], a[11]); SQRADDDB;
                     +   COMBA_STORE(b[21]);
+                    +
                     +   /* output 22 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[6], a[16]); SQRADDAC(a[7], a[15]); SQRADDAC(a[8], a[14]); SQRADDAC(a[9], a[13]); SQRADDAC(a[10], a[12]); SQRADDDB; SQRADD(a[11], a[11]);
                     +   COMBA_STORE(b[22]);
+                    +
                     +   /* output 23 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[7], a[16]); SQRADDAC(a[8], a[15]); SQRADDAC(a[9], a[14]); SQRADDAC(a[10], a[13]); SQRADDAC(a[11], a[12]); SQRADDDB;
                     +   COMBA_STORE(b[23]);
+                    +
                     +   /* output 24 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[8], a[16]); SQRADDAC(a[9], a[15]); SQRADDAC(a[10], a[14]); SQRADDAC(a[11], a[13]); SQRADDDB; SQRADD(a[12], a[12]);
                     +   COMBA_STORE(b[24]);
+                    +
                     +   /* output 25 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[9], a[16]); SQRADDAC(a[10], a[15]); SQRADDAC(a[11], a[14]); SQRADDAC(a[12], a[13]); SQRADDDB;
                     +   COMBA_STORE(b[25]);
+                    +
                     +   /* output 26 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[10], a[16]); SQRADDAC(a[11], a[15]); SQRADDAC(a[12], a[14]); SQRADDDB; SQRADD(a[13], a[13]);
                     +   COMBA_STORE(b[26]);
+                    +
                     +   /* output 27 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[11], a[16]); SQRADDAC(a[12], a[15]); SQRADDAC(a[13], a[14]); SQRADDDB;
                     +   COMBA_STORE(b[27]);
+                    +
                     +   /* output 28 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[12], a[16]); SQRADD2(a[13], a[15]); SQRADD(a[14], a[14]);
                     +   COMBA_STORE(b[28]);
+                    +
                     +   /* output 29 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[13], a[16]); SQRADD2(a[14], a[15]);
                     +   COMBA_STORE(b[29]);
+                    +
                     +   /* output 30 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[14], a[16]); SQRADD(a[15], a[15]);
                     +   COMBA_STORE(b[30]);
+                    +
                     +   /* output 31 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[15], a[16]);
                     +   COMBA_STORE(b[31]);
+                    +
                     +   /* output 32 */
                     +   CARRY_FORWARD;
                     +   SQRADD(a[16], a[16]);
                     +   COMBA_STORE(b[32]);
                     +   COMBA_STORE2(b[33]);
                     +   COMBA_FINI;
+                    +
                     +   B->used = 34;
                     +   B->sign = FP_ZPOS;
                     +   memcpy(B->dp, b, 34 * sizeof(fp_digit));
                     +   fp_clamp(B);
+                     }
                      #endif
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_set_int.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
                     -/* End: bn_mp_set_int.c */
                     +/* $Source: /cvs/libtom/tomsfastmath/src/sqr/fp_sqr_comba_17.c,v $ */
                     +/* $Revision: 1.2 $ */
                     +/* $Date: 2007/02/17 03:39:01 $ */
                     -/* Start: bn_mp_shrink.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_SHRINK_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     - *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     - */
                     +/* End: fp_sqr_comba_17.c */
+                    +
                     +/* Start: fp_sqr_comba_20.c */
                     +#define TFM_DEFINES
                     +#include "fp_sqr_comba.c"
                     -/* shrink a bignum */
                     -int mp_shrink (mp_int * a)
                     +#ifdef TFM_SQR20
                     +void fp_sqr_comba20(fp_int *A, fp_int *B)
+                     {
                     -  mp_digit *tmp;
                     -  if (a->alloc != a->used && a->used > 0) {
                     -    if ((tmp = OPT_CAST(mp_digit) cli_realloc (a->dp, sizeof (mp_digit) * a->used)) == NULL) {
                     -      return MP_MEM;
                     -    }
                     -    a->dp    = tmp;
                     -    a->alloc = a->used;
                     -  }
                     -  return MP_OKAY;
                     +   fp_digit *a, b[40], c0, c1, c2, sc0, sc1, sc2;
                     +#ifdef TFM_ISO
                     +   fp_word tt;
                     +#endif
+                    +
                     +   a = A->dp;
                     +   COMBA_START;
+                    +
                     +   /* clear carries */
                     +   CLEAR_CARRY;
+                    +
                     +   /* output 0 */
                     +   SQRADD(a[0],a[0]);
                     +   COMBA_STORE(b[0]);
+                    +
                     +   /* output 1 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[0], a[1]);
                     +   COMBA_STORE(b[1]);
+                    +
                     +   /* output 2 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[0], a[2]); SQRADD(a[1], a[1]);
                     +   COMBA_STORE(b[2]);
+                    +
                     +   /* output 3 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[0], a[3]); SQRADD2(a[1], a[2]);
                     +   COMBA_STORE(b[3]);
+                    +
                     +   /* output 4 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[0], a[4]); SQRADD2(a[1], a[3]); SQRADD(a[2], a[2]);
                     +   COMBA_STORE(b[4]);
+                    +
                     +   /* output 5 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[5]); SQRADDAC(a[1], a[4]); SQRADDAC(a[2], a[3]); SQRADDDB;
                     +   COMBA_STORE(b[5]);
+                    +
                     +   /* output 6 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[6]); SQRADDAC(a[1], a[5]); SQRADDAC(a[2], a[4]); SQRADDDB; SQRADD(a[3], a[3]);
                     +   COMBA_STORE(b[6]);
+                    +
                     +   /* output 7 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[7]); SQRADDAC(a[1], a[6]); SQRADDAC(a[2], a[5]); SQRADDAC(a[3], a[4]); SQRADDDB;
                     +   COMBA_STORE(b[7]);
+                    +
                     +   /* output 8 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[8]); SQRADDAC(a[1], a[7]); SQRADDAC(a[2], a[6]); SQRADDAC(a[3], a[5]); SQRADDDB; SQRADD(a[4], a[4]);
                     +   COMBA_STORE(b[8]);
+                    +
                     +   /* output 9 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[9]); SQRADDAC(a[1], a[8]); SQRADDAC(a[2], a[7]); SQRADDAC(a[3], a[6]); SQRADDAC(a[4], a[5]); SQRADDDB;
                     +   COMBA_STORE(b[9]);
+                    +
                     +   /* output 10 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[10]); SQRADDAC(a[1], a[9]); SQRADDAC(a[2], a[8]); SQRADDAC(a[3], a[7]); SQRADDAC(a[4], a[6]); SQRADDDB; SQRADD(a[5], a[5]);
                     +   COMBA_STORE(b[10]);
+                    +
                     +   /* output 11 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[11]); SQRADDAC(a[1], a[10]); SQRADDAC(a[2], a[9]); SQRADDAC(a[3], a[8]); SQRADDAC(a[4], a[7]); SQRADDAC(a[5], a[6]); SQRADDDB;
                     +   COMBA_STORE(b[11]);
+                    +
                     +   /* output 12 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[12]); SQRADDAC(a[1], a[11]); SQRADDAC(a[2], a[10]); SQRADDAC(a[3], a[9]); SQRADDAC(a[4], a[8]); SQRADDAC(a[5], a[7]); SQRADDDB; SQRADD(a[6], a[6]);
                     +   COMBA_STORE(b[12]);
+                    +
                     +   /* output 13 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[13]); SQRADDAC(a[1], a[12]); SQRADDAC(a[2], a[11]); SQRADDAC(a[3], a[10]); SQRADDAC(a[4], a[9]); SQRADDAC(a[5], a[8]); SQRADDAC(a[6], a[7]); SQRADDDB;
                     +   COMBA_STORE(b[13]);
+                    +
                     +   /* output 14 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[14]); SQRADDAC(a[1], a[13]); SQRADDAC(a[2], a[12]); SQRADDAC(a[3], a[11]); SQRADDAC(a[4], a[10]); SQRADDAC(a[5], a[9]); SQRADDAC(a[6], a[8]); SQRADDDB; SQRADD(a[7], a[7]);
                     +   COMBA_STORE(b[14]);
+                    +
                     +   /* output 15 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[15]); SQRADDAC(a[1], a[14]); SQRADDAC(a[2], a[13]); SQRADDAC(a[3], a[12]); SQRADDAC(a[4], a[11]); SQRADDAC(a[5], a[10]); SQRADDAC(a[6], a[9]); SQRADDAC(a[7], a[8]); SQRADDDB;
                     +   COMBA_STORE(b[15]);
+                    +
                     +   /* output 16 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[16]); SQRADDAC(a[1], a[15]); SQRADDAC(a[2], a[14]); SQRADDAC(a[3], a[13]); SQRADDAC(a[4], a[12]); SQRADDAC(a[5], a[11]); SQRADDAC(a[6], a[10]); SQRADDAC(a[7], a[9]); SQRADDDB; SQRADD(a[8], a[8]);
                     +   COMBA_STORE(b[16]);
+                    +
                     +   /* output 17 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[17]); SQRADDAC(a[1], a[16]); SQRADDAC(a[2], a[15]); SQRADDAC(a[3], a[14]); SQRADDAC(a[4], a[13]); SQRADDAC(a[5], a[12]); SQRADDAC(a[6], a[11]); SQRADDAC(a[7], a[10]); SQRADDAC(a[8], a[9]); SQRADDDB;
                     +   COMBA_STORE(b[17]);
+                    +
                     +   /* output 18 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[18]); SQRADDAC(a[1], a[17]); SQRADDAC(a[2], a[16]); SQRADDAC(a[3], a[15]); SQRADDAC(a[4], a[14]); SQRADDAC(a[5], a[13]); SQRADDAC(a[6], a[12]); SQRADDAC(a[7], a[11]); SQRADDAC(a[8], a[10]); SQRADDDB; SQRADD(a[9], a[9]);
                     +   COMBA_STORE(b[18]);
+                    +
                     +   /* output 19 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[19]); SQRADDAC(a[1], a[18]); SQRADDAC(a[2], a[17]); SQRADDAC(a[3], a[16]); SQRADDAC(a[4], a[15]); SQRADDAC(a[5], a[14]); SQRADDAC(a[6], a[13]); SQRADDAC(a[7], a[12]); SQRADDAC(a[8], a[11]); SQRADDAC(a[9], a[10]); SQRADDDB;
                     +   COMBA_STORE(b[19]);
+                    +
                     +   /* output 20 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[1], a[19]); SQRADDAC(a[2], a[18]); SQRADDAC(a[3], a[17]); SQRADDAC(a[4], a[16]); SQRADDAC(a[5], a[15]); SQRADDAC(a[6], a[14]); SQRADDAC(a[7], a[13]); SQRADDAC(a[8], a[12]); SQRADDAC(a[9], a[11]); SQRADDDB; SQRADD(a[10], a[10]);
                     +   COMBA_STORE(b[20]);
+                    +
                     +   /* output 21 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[2], a[19]); SQRADDAC(a[3], a[18]); SQRADDAC(a[4], a[17]); SQRADDAC(a[5], a[16]); SQRADDAC(a[6], a[15]); SQRADDAC(a[7], a[14]); SQRADDAC(a[8], a[13]); SQRADDAC(a[9], a[12]); SQRADDAC(a[10], a[11]); SQRADDDB;
                     +   COMBA_STORE(b[21]);
+                    +
                     +   /* output 22 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[3], a[19]); SQRADDAC(a[4], a[18]); SQRADDAC(a[5], a[17]); SQRADDAC(a[6], a[16]); SQRADDAC(a[7], a[15]); SQRADDAC(a[8], a[14]); SQRADDAC(a[9], a[13]); SQRADDAC(a[10], a[12]); SQRADDDB; SQRADD(a[11], a[11]);
                     +   COMBA_STORE(b[22]);
+                    +
                     +   /* output 23 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[4], a[19]); SQRADDAC(a[5], a[18]); SQRADDAC(a[6], a[17]); SQRADDAC(a[7], a[16]); SQRADDAC(a[8], a[15]); SQRADDAC(a[9], a[14]); SQRADDAC(a[10], a[13]); SQRADDAC(a[11], a[12]); SQRADDDB;
                     +   COMBA_STORE(b[23]);
+                    +
                     +   /* output 24 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[5], a[19]); SQRADDAC(a[6], a[18]); SQRADDAC(a[7], a[17]); SQRADDAC(a[8], a[16]); SQRADDAC(a[9], a[15]); SQRADDAC(a[10], a[14]); SQRADDAC(a[11], a[13]); SQRADDDB; SQRADD(a[12], a[12]);
                     +   COMBA_STORE(b[24]);
+                    +
                     +   /* output 25 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[6], a[19]); SQRADDAC(a[7], a[18]); SQRADDAC(a[8], a[17]); SQRADDAC(a[9], a[16]); SQRADDAC(a[10], a[15]); SQRADDAC(a[11], a[14]); SQRADDAC(a[12], a[13]); SQRADDDB;
                     +   COMBA_STORE(b[25]);
+                    +
                     +   /* output 26 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[7], a[19]); SQRADDAC(a[8], a[18]); SQRADDAC(a[9], a[17]); SQRADDAC(a[10], a[16]); SQRADDAC(a[11], a[15]); SQRADDAC(a[12], a[14]); SQRADDDB; SQRADD(a[13], a[13]);
                     +   COMBA_STORE(b[26]);
+                    +
                     +   /* output 27 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[8], a[19]); SQRADDAC(a[9], a[18]); SQRADDAC(a[10], a[17]); SQRADDAC(a[11], a[16]); SQRADDAC(a[12], a[15]); SQRADDAC(a[13], a[14]); SQRADDDB;
                     +   COMBA_STORE(b[27]);
+                    +
                     +   /* output 28 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[9], a[19]); SQRADDAC(a[10], a[18]); SQRADDAC(a[11], a[17]); SQRADDAC(a[12], a[16]); SQRADDAC(a[13], a[15]); SQRADDDB; SQRADD(a[14], a[14]);
                     +   COMBA_STORE(b[28]);
+                    +
                     +   /* output 29 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[10], a[19]); SQRADDAC(a[11], a[18]); SQRADDAC(a[12], a[17]); SQRADDAC(a[13], a[16]); SQRADDAC(a[14], a[15]); SQRADDDB;
                     +   COMBA_STORE(b[29]);
+                    +
                     +   /* output 30 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[11], a[19]); SQRADDAC(a[12], a[18]); SQRADDAC(a[13], a[17]); SQRADDAC(a[14], a[16]); SQRADDDB; SQRADD(a[15], a[15]);
                     +   COMBA_STORE(b[30]);
+                    +
                     +   /* output 31 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[12], a[19]); SQRADDAC(a[13], a[18]); SQRADDAC(a[14], a[17]); SQRADDAC(a[15], a[16]); SQRADDDB;
                     +   COMBA_STORE(b[31]);
+                    +
                     +   /* output 32 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[13], a[19]); SQRADDAC(a[14], a[18]); SQRADDAC(a[15], a[17]); SQRADDDB; SQRADD(a[16], a[16]);
                     +   COMBA_STORE(b[32]);
+                    +
                     +   /* output 33 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[14], a[19]); SQRADDAC(a[15], a[18]); SQRADDAC(a[16], a[17]); SQRADDDB;
                     +   COMBA_STORE(b[33]);
+                    +
                     +   /* output 34 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[15], a[19]); SQRADD2(a[16], a[18]); SQRADD(a[17], a[17]);
                     +   COMBA_STORE(b[34]);
+                    +
                     +   /* output 35 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[16], a[19]); SQRADD2(a[17], a[18]);
                     +   COMBA_STORE(b[35]);
+                    +
                     +   /* output 36 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[17], a[19]); SQRADD(a[18], a[18]);
                     +   COMBA_STORE(b[36]);
+                    +
                     +   /* output 37 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[18], a[19]);
                     +   COMBA_STORE(b[37]);
+                    +
                     +   /* output 38 */
                     +   CARRY_FORWARD;
                     +   SQRADD(a[19], a[19]);
                     +   COMBA_STORE(b[38]);
                     +   COMBA_STORE2(b[39]);
                     +   COMBA_FINI;
+                    +
                     +   B->used = 40;
                     +   B->sign = FP_ZPOS;
                     +   memcpy(B->dp, b, 40 * sizeof(fp_digit));
                     +   fp_clamp(B);
+                     }
                      #endif
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_shrink.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
                     -/* End: bn_mp_shrink.c */
                     +/* $Source: /cvs/libtom/tomsfastmath/src/sqr/fp_sqr_comba_20.c,v $ */
                     +/* $Revision: 1.2 $ */
                     +/* $Date: 2007/02/17 03:39:01 $ */
                     -/* Start: bn_mp_signed_bin_size.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_SIGNED_BIN_SIZE_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     - *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     - */
                     +/* End: fp_sqr_comba_20.c */
                     -/* get the size for an signed equivalent */
                     -int mp_signed_bin_size (mp_int * a)
                     +/* Start: fp_sqr_comba_24.c */
                     +#define TFM_DEFINES
                     +#include "fp_sqr_comba.c"
+                    +
                     +#ifdef TFM_SQR24
                     +void fp_sqr_comba24(fp_int *A, fp_int *B)
+                     {
                     -  return 1 + mp_unsigned_bin_size (a);
                     +   fp_digit *a, b[48], c0, c1, c2, sc0, sc1, sc2;
                     +#ifdef TFM_ISO
                     +   fp_word tt;
                     +#endif
+                    +
                     +   a = A->dp;
                     +   COMBA_START;
+                    +
                     +   /* clear carries */
                     +   CLEAR_CARRY;
+                    +
                     +   /* output 0 */
                     +   SQRADD(a[0],a[0]);
                     +   COMBA_STORE(b[0]);
+                    +
                     +   /* output 1 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[0], a[1]);
                     +   COMBA_STORE(b[1]);
+                    +
                     +   /* output 2 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[0], a[2]); SQRADD(a[1], a[1]);
                     +   COMBA_STORE(b[2]);
+                    +
                     +   /* output 3 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[0], a[3]); SQRADD2(a[1], a[2]);
                     +   COMBA_STORE(b[3]);
+                    +
                     +   /* output 4 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[0], a[4]); SQRADD2(a[1], a[3]); SQRADD(a[2], a[2]);
                     +   COMBA_STORE(b[4]);
+                    +
                     +   /* output 5 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[5]); SQRADDAC(a[1], a[4]); SQRADDAC(a[2], a[3]); SQRADDDB;
                     +   COMBA_STORE(b[5]);
+                    +
                     +   /* output 6 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[6]); SQRADDAC(a[1], a[5]); SQRADDAC(a[2], a[4]); SQRADDDB; SQRADD(a[3], a[3]);
                     +   COMBA_STORE(b[6]);
+                    +
                     +   /* output 7 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[7]); SQRADDAC(a[1], a[6]); SQRADDAC(a[2], a[5]); SQRADDAC(a[3], a[4]); SQRADDDB;
                     +   COMBA_STORE(b[7]);
+                    +
                     +   /* output 8 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[8]); SQRADDAC(a[1], a[7]); SQRADDAC(a[2], a[6]); SQRADDAC(a[3], a[5]); SQRADDDB; SQRADD(a[4], a[4]);
                     +   COMBA_STORE(b[8]);
+                    +
                     +   /* output 9 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[9]); SQRADDAC(a[1], a[8]); SQRADDAC(a[2], a[7]); SQRADDAC(a[3], a[6]); SQRADDAC(a[4], a[5]); SQRADDDB;
                     +   COMBA_STORE(b[9]);
+                    +
                     +   /* output 10 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[10]); SQRADDAC(a[1], a[9]); SQRADDAC(a[2], a[8]); SQRADDAC(a[3], a[7]); SQRADDAC(a[4], a[6]); SQRADDDB; SQRADD(a[5], a[5]);
                     +   COMBA_STORE(b[10]);
+                    +
                     +   /* output 11 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[11]); SQRADDAC(a[1], a[10]); SQRADDAC(a[2], a[9]); SQRADDAC(a[3], a[8]); SQRADDAC(a[4], a[7]); SQRADDAC(a[5], a[6]); SQRADDDB;
                     +   COMBA_STORE(b[11]);
+                    +
                     +   /* output 12 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[12]); SQRADDAC(a[1], a[11]); SQRADDAC(a[2], a[10]); SQRADDAC(a[3], a[9]); SQRADDAC(a[4], a[8]); SQRADDAC(a[5], a[7]); SQRADDDB; SQRADD(a[6], a[6]);
                     +   COMBA_STORE(b[12]);
+                    +
                     +   /* output 13 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[13]); SQRADDAC(a[1], a[12]); SQRADDAC(a[2], a[11]); SQRADDAC(a[3], a[10]); SQRADDAC(a[4], a[9]); SQRADDAC(a[5], a[8]); SQRADDAC(a[6], a[7]); SQRADDDB;
                     +   COMBA_STORE(b[13]);
+                    +
                     +   /* output 14 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[14]); SQRADDAC(a[1], a[13]); SQRADDAC(a[2], a[12]); SQRADDAC(a[3], a[11]); SQRADDAC(a[4], a[10]); SQRADDAC(a[5], a[9]); SQRADDAC(a[6], a[8]); SQRADDDB; SQRADD(a[7], a[7]);
                     +   COMBA_STORE(b[14]);
+                    +
                     +   /* output 15 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[15]); SQRADDAC(a[1], a[14]); SQRADDAC(a[2], a[13]); SQRADDAC(a[3], a[12]); SQRADDAC(a[4], a[11]); SQRADDAC(a[5], a[10]); SQRADDAC(a[6], a[9]); SQRADDAC(a[7], a[8]); SQRADDDB;
                     +   COMBA_STORE(b[15]);
+                    +
                     +   /* output 16 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[16]); SQRADDAC(a[1], a[15]); SQRADDAC(a[2], a[14]); SQRADDAC(a[3], a[13]); SQRADDAC(a[4], a[12]); SQRADDAC(a[5], a[11]); SQRADDAC(a[6], a[10]); SQRADDAC(a[7], a[9]); SQRADDDB; SQRADD(a[8], a[8]);
                     +   COMBA_STORE(b[16]);
+                    +
                     +   /* output 17 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[17]); SQRADDAC(a[1], a[16]); SQRADDAC(a[2], a[15]); SQRADDAC(a[3], a[14]); SQRADDAC(a[4], a[13]); SQRADDAC(a[5], a[12]); SQRADDAC(a[6], a[11]); SQRADDAC(a[7], a[10]); SQRADDAC(a[8], a[9]); SQRADDDB;
                     +   COMBA_STORE(b[17]);
+                    +
                     +   /* output 18 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[18]); SQRADDAC(a[1], a[17]); SQRADDAC(a[2], a[16]); SQRADDAC(a[3], a[15]); SQRADDAC(a[4], a[14]); SQRADDAC(a[5], a[13]); SQRADDAC(a[6], a[12]); SQRADDAC(a[7], a[11]); SQRADDAC(a[8], a[10]); SQRADDDB; SQRADD(a[9], a[9]);
                     +   COMBA_STORE(b[18]);
+                    +
                     +   /* output 19 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[19]); SQRADDAC(a[1], a[18]); SQRADDAC(a[2], a[17]); SQRADDAC(a[3], a[16]); SQRADDAC(a[4], a[15]); SQRADDAC(a[5], a[14]); SQRADDAC(a[6], a[13]); SQRADDAC(a[7], a[12]); SQRADDAC(a[8], a[11]); SQRADDAC(a[9], a[10]); SQRADDDB;
                     +   COMBA_STORE(b[19]);
+                    +
                     +   /* output 20 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[20]); SQRADDAC(a[1], a[19]); SQRADDAC(a[2], a[18]); SQRADDAC(a[3], a[17]); SQRADDAC(a[4], a[16]); SQRADDAC(a[5], a[15]); SQRADDAC(a[6], a[14]); SQRADDAC(a[7], a[13]); SQRADDAC(a[8], a[12]); SQRADDAC(a[9], a[11]); SQRADDDB; SQRADD(a[10], a[10]);
                     +   COMBA_STORE(b[20]);
+                    +
                     +   /* output 21 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[21]); SQRADDAC(a[1], a[20]); SQRADDAC(a[2], a[19]); SQRADDAC(a[3], a[18]); SQRADDAC(a[4], a[17]); SQRADDAC(a[5], a[16]); SQRADDAC(a[6], a[15]); SQRADDAC(a[7], a[14]); SQRADDAC(a[8], a[13]); SQRADDAC(a[9], a[12]); SQRADDAC(a[10], a[11]); SQRADDDB;
                     +   COMBA_STORE(b[21]);
+                    +
                     +   /* output 22 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[22]); SQRADDAC(a[1], a[21]); SQRADDAC(a[2], a[20]); SQRADDAC(a[3], a[19]); SQRADDAC(a[4], a[18]); SQRADDAC(a[5], a[17]); SQRADDAC(a[6], a[16]); SQRADDAC(a[7], a[15]); SQRADDAC(a[8], a[14]); SQRADDAC(a[9], a[13]); SQRADDAC(a[10], a[12]); SQRADDDB; SQRADD(a[11], a[11]);
                     +   COMBA_STORE(b[22]);
+                    +
                     +   /* output 23 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[23]); SQRADDAC(a[1], a[22]); SQRADDAC(a[2], a[21]); SQRADDAC(a[3], a[20]); SQRADDAC(a[4], a[19]); SQRADDAC(a[5], a[18]); SQRADDAC(a[6], a[17]); SQRADDAC(a[7], a[16]); SQRADDAC(a[8], a[15]); SQRADDAC(a[9], a[14]); SQRADDAC(a[10], a[13]); SQRADDAC(a[11], a[12]); SQRADDDB;
                     +   COMBA_STORE(b[23]);
+                    +
                     +   /* output 24 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[1], a[23]); SQRADDAC(a[2], a[22]); SQRADDAC(a[3], a[21]); SQRADDAC(a[4], a[20]); SQRADDAC(a[5], a[19]); SQRADDAC(a[6], a[18]); SQRADDAC(a[7], a[17]); SQRADDAC(a[8], a[16]); SQRADDAC(a[9], a[15]); SQRADDAC(a[10], a[14]); SQRADDAC(a[11], a[13]); SQRADDDB; SQRADD(a[12], a[12]);
                     +   COMBA_STORE(b[24]);
+                    +
                     +   /* output 25 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[2], a[23]); SQRADDAC(a[3], a[22]); SQRADDAC(a[4], a[21]); SQRADDAC(a[5], a[20]); SQRADDAC(a[6], a[19]); SQRADDAC(a[7], a[18]); SQRADDAC(a[8], a[17]); SQRADDAC(a[9], a[16]); SQRADDAC(a[10], a[15]); SQRADDAC(a[11], a[14]); SQRADDAC(a[12], a[13]); SQRADDDB;
                     +   COMBA_STORE(b[25]);
+                    +
                     +   /* output 26 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[3], a[23]); SQRADDAC(a[4], a[22]); SQRADDAC(a[5], a[21]); SQRADDAC(a[6], a[20]); SQRADDAC(a[7], a[19]); SQRADDAC(a[8], a[18]); SQRADDAC(a[9], a[17]); SQRADDAC(a[10], a[16]); SQRADDAC(a[11], a[15]); SQRADDAC(a[12], a[14]); SQRADDDB; SQRADD(a[13], a[13]);
                     +   COMBA_STORE(b[26]);
+                    +
                     +   /* output 27 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[4], a[23]); SQRADDAC(a[5], a[22]); SQRADDAC(a[6], a[21]); SQRADDAC(a[7], a[20]); SQRADDAC(a[8], a[19]); SQRADDAC(a[9], a[18]); SQRADDAC(a[10], a[17]); SQRADDAC(a[11], a[16]); SQRADDAC(a[12], a[15]); SQRADDAC(a[13], a[14]); SQRADDDB;
                     +   COMBA_STORE(b[27]);
+                    +
                     +   /* output 28 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[5], a[23]); SQRADDAC(a[6], a[22]); SQRADDAC(a[7], a[21]); SQRADDAC(a[8], a[20]); SQRADDAC(a[9], a[19]); SQRADDAC(a[10], a[18]); SQRADDAC(a[11], a[17]); SQRADDAC(a[12], a[16]); SQRADDAC(a[13], a[15]); SQRADDDB; SQRADD(a[14], a[14]);
                     +   COMBA_STORE(b[28]);
+                    +
                     +   /* output 29 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[6], a[23]); SQRADDAC(a[7], a[22]); SQRADDAC(a[8], a[21]); SQRADDAC(a[9], a[20]); SQRADDAC(a[10], a[19]); SQRADDAC(a[11], a[18]); SQRADDAC(a[12], a[17]); SQRADDAC(a[13], a[16]); SQRADDAC(a[14], a[15]); SQRADDDB;
                     +   COMBA_STORE(b[29]);
+                    +
                     +   /* output 30 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[7], a[23]); SQRADDAC(a[8], a[22]); SQRADDAC(a[9], a[21]); SQRADDAC(a[10], a[20]); SQRADDAC(a[11], a[19]); SQRADDAC(a[12], a[18]); SQRADDAC(a[13], a[17]); SQRADDAC(a[14], a[16]); SQRADDDB; SQRADD(a[15], a[15]);
                     +   COMBA_STORE(b[30]);
+                    +
                     +   /* output 31 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[8], a[23]); SQRADDAC(a[9], a[22]); SQRADDAC(a[10], a[21]); SQRADDAC(a[11], a[20]); SQRADDAC(a[12], a[19]); SQRADDAC(a[13], a[18]); SQRADDAC(a[14], a[17]); SQRADDAC(a[15], a[16]); SQRADDDB;
                     +   COMBA_STORE(b[31]);
+                    +
                     +   /* output 32 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[9], a[23]); SQRADDAC(a[10], a[22]); SQRADDAC(a[11], a[21]); SQRADDAC(a[12], a[20]); SQRADDAC(a[13], a[19]); SQRADDAC(a[14], a[18]); SQRADDAC(a[15], a[17]); SQRADDDB; SQRADD(a[16], a[16]);
                     +   COMBA_STORE(b[32]);
+                    +
                     +   /* output 33 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[10], a[23]); SQRADDAC(a[11], a[22]); SQRADDAC(a[12], a[21]); SQRADDAC(a[13], a[20]); SQRADDAC(a[14], a[19]); SQRADDAC(a[15], a[18]); SQRADDAC(a[16], a[17]); SQRADDDB;
                     +   COMBA_STORE(b[33]);
+                    +
                     +   /* output 34 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[11], a[23]); SQRADDAC(a[12], a[22]); SQRADDAC(a[13], a[21]); SQRADDAC(a[14], a[20]); SQRADDAC(a[15], a[19]); SQRADDAC(a[16], a[18]); SQRADDDB; SQRADD(a[17], a[17]);
                     +   COMBA_STORE(b[34]);
+                    +
                     +   /* output 35 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[12], a[23]); SQRADDAC(a[13], a[22]); SQRADDAC(a[14], a[21]); SQRADDAC(a[15], a[20]); SQRADDAC(a[16], a[19]); SQRADDAC(a[17], a[18]); SQRADDDB;
                     +   COMBA_STORE(b[35]);
+                    +
                     +   /* output 36 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[13], a[23]); SQRADDAC(a[14], a[22]); SQRADDAC(a[15], a[21]); SQRADDAC(a[16], a[20]); SQRADDAC(a[17], a[19]); SQRADDDB; SQRADD(a[18], a[18]);
                     +   COMBA_STORE(b[36]);
+                    +
                     +   /* output 37 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[14], a[23]); SQRADDAC(a[15], a[22]); SQRADDAC(a[16], a[21]); SQRADDAC(a[17], a[20]); SQRADDAC(a[18], a[19]); SQRADDDB;
                     +   COMBA_STORE(b[37]);
+                    +
                     +   /* output 38 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[15], a[23]); SQRADDAC(a[16], a[22]); SQRADDAC(a[17], a[21]); SQRADDAC(a[18], a[20]); SQRADDDB; SQRADD(a[19], a[19]);
                     +   COMBA_STORE(b[38]);
+                    +
                     +   /* output 39 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[16], a[23]); SQRADDAC(a[17], a[22]); SQRADDAC(a[18], a[21]); SQRADDAC(a[19], a[20]); SQRADDDB;
                     +   COMBA_STORE(b[39]);
+                    +
                     +   /* output 40 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[17], a[23]); SQRADDAC(a[18], a[22]); SQRADDAC(a[19], a[21]); SQRADDDB; SQRADD(a[20], a[20]);
                     +   COMBA_STORE(b[40]);
+                    +
                     +   /* output 41 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[18], a[23]); SQRADDAC(a[19], a[22]); SQRADDAC(a[20], a[21]); SQRADDDB;
                     +   COMBA_STORE(b[41]);
+                    +
                     +   /* output 42 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[19], a[23]); SQRADD2(a[20], a[22]); SQRADD(a[21], a[21]);
                     +   COMBA_STORE(b[42]);
+                    +
                     +   /* output 43 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[20], a[23]); SQRADD2(a[21], a[22]);
                     +   COMBA_STORE(b[43]);
+                    +
                     +   /* output 44 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[21], a[23]); SQRADD(a[22], a[22]);
                     +   COMBA_STORE(b[44]);
+                    +
                     +   /* output 45 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[22], a[23]);
                     +   COMBA_STORE(b[45]);
+                    +
                     +   /* output 46 */
                     +   CARRY_FORWARD;
                     +   SQRADD(a[23], a[23]);
                     +   COMBA_STORE(b[46]);
                     +   COMBA_STORE2(b[47]);
                     +   COMBA_FINI;
+                    +
                     +   B->used = 48;
                     +   B->sign = FP_ZPOS;
                     +   memcpy(B->dp, b, 48 * sizeof(fp_digit));
                     +   fp_clamp(B);
+                     }
                      #endif
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_signed_bin_size.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
                     -/* End: bn_mp_signed_bin_size.c */
                     +/* $Source: /cvs/libtom/tomsfastmath/src/sqr/fp_sqr_comba_24.c,v $ */
                     +/* $Revision: 1.2 $ */
                     +/* $Date: 2007/02/17 03:39:01 $ */
                     -/* Start: bn_mp_sqr.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_SQR_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     - *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     - */
                     +/* End: fp_sqr_comba_24.c */
                     -/* computes b = a*a */
                     -int
                     -mp_sqr (mp_int * a, mp_int * b)
                     -{
                     -  int     res;
                     +/* Start: fp_sqr_comba_28.c */
                     +#define TFM_DEFINES
                     +#include "fp_sqr_comba.c"
                     -#ifdef BN_MP_TOOM_SQR_C
                     -  /* use Toom-Cook? */
                     -  if (a->used >= TOOM_SQR_CUTOFF) {
                     -    res = mp_toom_sqr(a, b);
                     -  /* Karatsuba? */
                     -  } else
                     -#endif
                     -#ifdef BN_MP_KARATSUBA_SQR_C
                     -if (a->used >= KARATSUBA_SQR_CUTOFF) {
                     -    res = mp_karatsuba_sqr (a, b);
                     -  } else
                     -#endif
                     -  {
                     -#ifdef BN_FAST_S_MP_SQR_C
                     -    /* can we use the fast comba multiplier? */
                     -    if ((a->used * 2 + 1) < MP_WARRAY &&
                     -         a->used <
                     -         (1 << (sizeof(mp_word) * CHAR_BIT - 2*DIGIT_BIT - 1))) {
                     -      res = fast_s_mp_sqr (a, b);
                     -    } else
                     -#endif
                     -#ifdef BN_S_MP_SQR_C
                     -      res = s_mp_sqr (a, b);
                     -#else
                     -      res = MP_VAL;
                     -#endif
                     -  }
                     -  b->sign = MP_ZPOS;
                     -  return res;
                     +#ifdef TFM_SQR28
                     +void fp_sqr_comba28(fp_int *A, fp_int *B)
                     +{
                     +   fp_digit *a, b[56], c0, c1, c2, sc0, sc1, sc2;
                     +#ifdef TFM_ISO
                     +   fp_word tt;
                     +#endif
+                    +
                     +   a = A->dp;
                     +   COMBA_START;
+                    +
                     +   /* clear carries */
                     +   CLEAR_CARRY;
+                    +
                     +   /* output 0 */
                     +   SQRADD(a[0],a[0]);
                     +   COMBA_STORE(b[0]);
+                    +
                     +   /* output 1 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[0], a[1]);
                     +   COMBA_STORE(b[1]);
+                    +
                     +   /* output 2 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[0], a[2]); SQRADD(a[1], a[1]);
                     +   COMBA_STORE(b[2]);
+                    +
                     +   /* output 3 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[0], a[3]); SQRADD2(a[1], a[2]);
                     +   COMBA_STORE(b[3]);
+                    +
                     +   /* output 4 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[0], a[4]); SQRADD2(a[1], a[3]); SQRADD(a[2], a[2]);
                     +   COMBA_STORE(b[4]);
+                    +
                     +   /* output 5 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[5]); SQRADDAC(a[1], a[4]); SQRADDAC(a[2], a[3]); SQRADDDB;
                     +   COMBA_STORE(b[5]);
+                    +
                     +   /* output 6 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[6]); SQRADDAC(a[1], a[5]); SQRADDAC(a[2], a[4]); SQRADDDB; SQRADD(a[3], a[3]);
                     +   COMBA_STORE(b[6]);
+                    +
                     +   /* output 7 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[7]); SQRADDAC(a[1], a[6]); SQRADDAC(a[2], a[5]); SQRADDAC(a[3], a[4]); SQRADDDB;
                     +   COMBA_STORE(b[7]);
+                    +
                     +   /* output 8 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[8]); SQRADDAC(a[1], a[7]); SQRADDAC(a[2], a[6]); SQRADDAC(a[3], a[5]); SQRADDDB; SQRADD(a[4], a[4]);
                     +   COMBA_STORE(b[8]);
+                    +
                     +   /* output 9 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[9]); SQRADDAC(a[1], a[8]); SQRADDAC(a[2], a[7]); SQRADDAC(a[3], a[6]); SQRADDAC(a[4], a[5]); SQRADDDB;
                     +   COMBA_STORE(b[9]);
+                    +
                     +   /* output 10 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[10]); SQRADDAC(a[1], a[9]); SQRADDAC(a[2], a[8]); SQRADDAC(a[3], a[7]); SQRADDAC(a[4], a[6]); SQRADDDB; SQRADD(a[5], a[5]);
                     +   COMBA_STORE(b[10]);
+                    +
                     +   /* output 11 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[11]); SQRADDAC(a[1], a[10]); SQRADDAC(a[2], a[9]); SQRADDAC(a[3], a[8]); SQRADDAC(a[4], a[7]); SQRADDAC(a[5], a[6]); SQRADDDB;
                     +   COMBA_STORE(b[11]);
+                    +
                     +   /* output 12 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[12]); SQRADDAC(a[1], a[11]); SQRADDAC(a[2], a[10]); SQRADDAC(a[3], a[9]); SQRADDAC(a[4], a[8]); SQRADDAC(a[5], a[7]); SQRADDDB; SQRADD(a[6], a[6]);
                     +   COMBA_STORE(b[12]);
+                    +
                     +   /* output 13 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[13]); SQRADDAC(a[1], a[12]); SQRADDAC(a[2], a[11]); SQRADDAC(a[3], a[10]); SQRADDAC(a[4], a[9]); SQRADDAC(a[5], a[8]); SQRADDAC(a[6], a[7]); SQRADDDB;
                     +   COMBA_STORE(b[13]);
+                    +
                     +   /* output 14 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[14]); SQRADDAC(a[1], a[13]); SQRADDAC(a[2], a[12]); SQRADDAC(a[3], a[11]); SQRADDAC(a[4], a[10]); SQRADDAC(a[5], a[9]); SQRADDAC(a[6], a[8]); SQRADDDB; SQRADD(a[7], a[7]);
                     +   COMBA_STORE(b[14]);
+                    +
                     +   /* output 15 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[15]); SQRADDAC(a[1], a[14]); SQRADDAC(a[2], a[13]); SQRADDAC(a[3], a[12]); SQRADDAC(a[4], a[11]); SQRADDAC(a[5], a[10]); SQRADDAC(a[6], a[9]); SQRADDAC(a[7], a[8]); SQRADDDB;
                     +   COMBA_STORE(b[15]);
+                    +
                     +   /* output 16 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[16]); SQRADDAC(a[1], a[15]); SQRADDAC(a[2], a[14]); SQRADDAC(a[3], a[13]); SQRADDAC(a[4], a[12]); SQRADDAC(a[5], a[11]); SQRADDAC(a[6], a[10]); SQRADDAC(a[7], a[9]); SQRADDDB; SQRADD(a[8], a[8]);
                     +   COMBA_STORE(b[16]);
+                    +
                     +   /* output 17 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[17]); SQRADDAC(a[1], a[16]); SQRADDAC(a[2], a[15]); SQRADDAC(a[3], a[14]); SQRADDAC(a[4], a[13]); SQRADDAC(a[5], a[12]); SQRADDAC(a[6], a[11]); SQRADDAC(a[7], a[10]); SQRADDAC(a[8], a[9]); SQRADDDB;
                     +   COMBA_STORE(b[17]);
+                    +
                     +   /* output 18 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[18]); SQRADDAC(a[1], a[17]); SQRADDAC(a[2], a[16]); SQRADDAC(a[3], a[15]); SQRADDAC(a[4], a[14]); SQRADDAC(a[5], a[13]); SQRADDAC(a[6], a[12]); SQRADDAC(a[7], a[11]); SQRADDAC(a[8], a[10]); SQRADDDB; SQRADD(a[9], a[9]);
                     +   COMBA_STORE(b[18]);
+                    +
                     +   /* output 19 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[19]); SQRADDAC(a[1], a[18]); SQRADDAC(a[2], a[17]); SQRADDAC(a[3], a[16]); SQRADDAC(a[4], a[15]); SQRADDAC(a[5], a[14]); SQRADDAC(a[6], a[13]); SQRADDAC(a[7], a[12]); SQRADDAC(a[8], a[11]); SQRADDAC(a[9], a[10]); SQRADDDB;
                     +   COMBA_STORE(b[19]);
+                    +
                     +   /* output 20 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[20]); SQRADDAC(a[1], a[19]); SQRADDAC(a[2], a[18]); SQRADDAC(a[3], a[17]); SQRADDAC(a[4], a[16]); SQRADDAC(a[5], a[15]); SQRADDAC(a[6], a[14]); SQRADDAC(a[7], a[13]); SQRADDAC(a[8], a[12]); SQRADDAC(a[9], a[11]); SQRADDDB; SQRADD(a[10], a[10]);
                     +   COMBA_STORE(b[20]);
+                    +
                     +   /* output 21 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[21]); SQRADDAC(a[1], a[20]); SQRADDAC(a[2], a[19]); SQRADDAC(a[3], a[18]); SQRADDAC(a[4], a[17]); SQRADDAC(a[5], a[16]); SQRADDAC(a[6], a[15]); SQRADDAC(a[7], a[14]); SQRADDAC(a[8], a[13]); SQRADDAC(a[9], a[12]); SQRADDAC(a[10], a[11]); SQRADDDB;
                     +   COMBA_STORE(b[21]);
+                    +
                     +   /* output 22 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[22]); SQRADDAC(a[1], a[21]); SQRADDAC(a[2], a[20]); SQRADDAC(a[3], a[19]); SQRADDAC(a[4], a[18]); SQRADDAC(a[5], a[17]); SQRADDAC(a[6], a[16]); SQRADDAC(a[7], a[15]); SQRADDAC(a[8], a[14]); SQRADDAC(a[9], a[13]); SQRADDAC(a[10], a[12]); SQRADDDB; SQRADD(a[11], a[11]);
                     +   COMBA_STORE(b[22]);
+                    +
                     +   /* output 23 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[23]); SQRADDAC(a[1], a[22]); SQRADDAC(a[2], a[21]); SQRADDAC(a[3], a[20]); SQRADDAC(a[4], a[19]); SQRADDAC(a[5], a[18]); SQRADDAC(a[6], a[17]); SQRADDAC(a[7], a[16]); SQRADDAC(a[8], a[15]); SQRADDAC(a[9], a[14]); SQRADDAC(a[10], a[13]); SQRADDAC(a[11], a[12]); SQRADDDB;
                     +   COMBA_STORE(b[23]);
+                    +
                     +   /* output 24 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[24]); SQRADDAC(a[1], a[23]); SQRADDAC(a[2], a[22]); SQRADDAC(a[3], a[21]); SQRADDAC(a[4], a[20]); SQRADDAC(a[5], a[19]); SQRADDAC(a[6], a[18]); SQRADDAC(a[7], a[17]); SQRADDAC(a[8], a[16]); SQRADDAC(a[9], a[15]); SQRADDAC(a[10], a[14]); SQRADDAC(a[11], a[13]); SQRADDDB; SQRADD(a[12], a[12]);
                     +   COMBA_STORE(b[24]);
+                    +
                     +   /* output 25 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[25]); SQRADDAC(a[1], a[24]); SQRADDAC(a[2], a[23]); SQRADDAC(a[3], a[22]); SQRADDAC(a[4], a[21]); SQRADDAC(a[5], a[20]); SQRADDAC(a[6], a[19]); SQRADDAC(a[7], a[18]); SQRADDAC(a[8], a[17]); SQRADDAC(a[9], a[16]); SQRADDAC(a[10], a[15]); SQRADDAC(a[11], a[14]); SQRADDAC(a[12], a[13]); SQRADDDB;
                     +   COMBA_STORE(b[25]);
+                    +
                     +   /* output 26 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[26]); SQRADDAC(a[1], a[25]); SQRADDAC(a[2], a[24]); SQRADDAC(a[3], a[23]); SQRADDAC(a[4], a[22]); SQRADDAC(a[5], a[21]); SQRADDAC(a[6], a[20]); SQRADDAC(a[7], a[19]); SQRADDAC(a[8], a[18]); SQRADDAC(a[9], a[17]); SQRADDAC(a[10], a[16]); SQRADDAC(a[11], a[15]); SQRADDAC(a[12], a[14]); SQRADDDB; SQRADD(a[13], a[13]);
                     +   COMBA_STORE(b[26]);
+                    +
                     +   /* output 27 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[27]); SQRADDAC(a[1], a[26]); SQRADDAC(a[2], a[25]); SQRADDAC(a[3], a[24]); SQRADDAC(a[4], a[23]); SQRADDAC(a[5], a[22]); SQRADDAC(a[6], a[21]); SQRADDAC(a[7], a[20]); SQRADDAC(a[8], a[19]); SQRADDAC(a[9], a[18]); SQRADDAC(a[10], a[17]); SQRADDAC(a[11], a[16]); SQRADDAC(a[12], a[15]); SQRADDAC(a[13], a[14]); SQRADDDB;
                     +   COMBA_STORE(b[27]);
+                    +
                     +   /* output 28 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[1], a[27]); SQRADDAC(a[2], a[26]); SQRADDAC(a[3], a[25]); SQRADDAC(a[4], a[24]); SQRADDAC(a[5], a[23]); SQRADDAC(a[6], a[22]); SQRADDAC(a[7], a[21]); SQRADDAC(a[8], a[20]); SQRADDAC(a[9], a[19]); SQRADDAC(a[10], a[18]); SQRADDAC(a[11], a[17]); SQRADDAC(a[12], a[16]); SQRADDAC(a[13], a[15]); SQRADDDB; SQRADD(a[14], a[14]);
                     +   COMBA_STORE(b[28]);
+                    +
                     +   /* output 29 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[2], a[27]); SQRADDAC(a[3], a[26]); SQRADDAC(a[4], a[25]); SQRADDAC(a[5], a[24]); SQRADDAC(a[6], a[23]); SQRADDAC(a[7], a[22]); SQRADDAC(a[8], a[21]); SQRADDAC(a[9], a[20]); SQRADDAC(a[10], a[19]); SQRADDAC(a[11], a[18]); SQRADDAC(a[12], a[17]); SQRADDAC(a[13], a[16]); SQRADDAC(a[14], a[15]); SQRADDDB;
                     +   COMBA_STORE(b[29]);
+                    +
                     +   /* output 30 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[3], a[27]); SQRADDAC(a[4], a[26]); SQRADDAC(a[5], a[25]); SQRADDAC(a[6], a[24]); SQRADDAC(a[7], a[23]); SQRADDAC(a[8], a[22]); SQRADDAC(a[9], a[21]); SQRADDAC(a[10], a[20]); SQRADDAC(a[11], a[19]); SQRADDAC(a[12], a[18]); SQRADDAC(a[13], a[17]); SQRADDAC(a[14], a[16]); SQRADDDB; SQRADD(a[15], a[15]);
                     +   COMBA_STORE(b[30]);
+                    +
                     +   /* output 31 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[4], a[27]); SQRADDAC(a[5], a[26]); SQRADDAC(a[6], a[25]); SQRADDAC(a[7], a[24]); SQRADDAC(a[8], a[23]); SQRADDAC(a[9], a[22]); SQRADDAC(a[10], a[21]); SQRADDAC(a[11], a[20]); SQRADDAC(a[12], a[19]); SQRADDAC(a[13], a[18]); SQRADDAC(a[14], a[17]); SQRADDAC(a[15], a[16]); SQRADDDB;
                     +   COMBA_STORE(b[31]);
+                    +
                     +   /* output 32 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[5], a[27]); SQRADDAC(a[6], a[26]); SQRADDAC(a[7], a[25]); SQRADDAC(a[8], a[24]); SQRADDAC(a[9], a[23]); SQRADDAC(a[10], a[22]); SQRADDAC(a[11], a[21]); SQRADDAC(a[12], a[20]); SQRADDAC(a[13], a[19]); SQRADDAC(a[14], a[18]); SQRADDAC(a[15], a[17]); SQRADDDB; SQRADD(a[16], a[16]);
                     +   COMBA_STORE(b[32]);
+                    +
                     +   /* output 33 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[6], a[27]); SQRADDAC(a[7], a[26]); SQRADDAC(a[8], a[25]); SQRADDAC(a[9], a[24]); SQRADDAC(a[10], a[23]); SQRADDAC(a[11], a[22]); SQRADDAC(a[12], a[21]); SQRADDAC(a[13], a[20]); SQRADDAC(a[14], a[19]); SQRADDAC(a[15], a[18]); SQRADDAC(a[16], a[17]); SQRADDDB;
                     +   COMBA_STORE(b[33]);
+                    +
                     +   /* output 34 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[7], a[27]); SQRADDAC(a[8], a[26]); SQRADDAC(a[9], a[25]); SQRADDAC(a[10], a[24]); SQRADDAC(a[11], a[23]); SQRADDAC(a[12], a[22]); SQRADDAC(a[13], a[21]); SQRADDAC(a[14], a[20]); SQRADDAC(a[15], a[19]); SQRADDAC(a[16], a[18]); SQRADDDB; SQRADD(a[17], a[17]);
                     +   COMBA_STORE(b[34]);
+                    +
                     +   /* output 35 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[8], a[27]); SQRADDAC(a[9], a[26]); SQRADDAC(a[10], a[25]); SQRADDAC(a[11], a[24]); SQRADDAC(a[12], a[23]); SQRADDAC(a[13], a[22]); SQRADDAC(a[14], a[21]); SQRADDAC(a[15], a[20]); SQRADDAC(a[16], a[19]); SQRADDAC(a[17], a[18]); SQRADDDB;
                     +   COMBA_STORE(b[35]);
+                    +
                     +   /* output 36 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[9], a[27]); SQRADDAC(a[10], a[26]); SQRADDAC(a[11], a[25]); SQRADDAC(a[12], a[24]); SQRADDAC(a[13], a[23]); SQRADDAC(a[14], a[22]); SQRADDAC(a[15], a[21]); SQRADDAC(a[16], a[20]); SQRADDAC(a[17], a[19]); SQRADDDB; SQRADD(a[18], a[18]);
                     +   COMBA_STORE(b[36]);
+                    +
                     +   /* output 37 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[10], a[27]); SQRADDAC(a[11], a[26]); SQRADDAC(a[12], a[25]); SQRADDAC(a[13], a[24]); SQRADDAC(a[14], a[23]); SQRADDAC(a[15], a[22]); SQRADDAC(a[16], a[21]); SQRADDAC(a[17], a[20]); SQRADDAC(a[18], a[19]); SQRADDDB;
                     +   COMBA_STORE(b[37]);
+                    +
                     +   /* output 38 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[11], a[27]); SQRADDAC(a[12], a[26]); SQRADDAC(a[13], a[25]); SQRADDAC(a[14], a[24]); SQRADDAC(a[15], a[23]); SQRADDAC(a[16], a[22]); SQRADDAC(a[17], a[21]); SQRADDAC(a[18], a[20]); SQRADDDB; SQRADD(a[19], a[19]);
                     +   COMBA_STORE(b[38]);
+                    +
                     +   /* output 39 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[12], a[27]); SQRADDAC(a[13], a[26]); SQRADDAC(a[14], a[25]); SQRADDAC(a[15], a[24]); SQRADDAC(a[16], a[23]); SQRADDAC(a[17], a[22]); SQRADDAC(a[18], a[21]); SQRADDAC(a[19], a[20]); SQRADDDB;
                     +   COMBA_STORE(b[39]);
+                    +
                     +   /* output 40 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[13], a[27]); SQRADDAC(a[14], a[26]); SQRADDAC(a[15], a[25]); SQRADDAC(a[16], a[24]); SQRADDAC(a[17], a[23]); SQRADDAC(a[18], a[22]); SQRADDAC(a[19], a[21]); SQRADDDB; SQRADD(a[20], a[20]);
                     +   COMBA_STORE(b[40]);
+                    +
                     +   /* output 41 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[14], a[27]); SQRADDAC(a[15], a[26]); SQRADDAC(a[16], a[25]); SQRADDAC(a[17], a[24]); SQRADDAC(a[18], a[23]); SQRADDAC(a[19], a[22]); SQRADDAC(a[20], a[21]); SQRADDDB;
                     +   COMBA_STORE(b[41]);
+                    +
                     +   /* output 42 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[15], a[27]); SQRADDAC(a[16], a[26]); SQRADDAC(a[17], a[25]); SQRADDAC(a[18], a[24]); SQRADDAC(a[19], a[23]); SQRADDAC(a[20], a[22]); SQRADDDB; SQRADD(a[21], a[21]);
                     +   COMBA_STORE(b[42]);
+                    +
                     +   /* output 43 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[16], a[27]); SQRADDAC(a[17], a[26]); SQRADDAC(a[18], a[25]); SQRADDAC(a[19], a[24]); SQRADDAC(a[20], a[23]); SQRADDAC(a[21], a[22]); SQRADDDB;
                     +   COMBA_STORE(b[43]);
+                    +
                     +   /* output 44 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[17], a[27]); SQRADDAC(a[18], a[26]); SQRADDAC(a[19], a[25]); SQRADDAC(a[20], a[24]); SQRADDAC(a[21], a[23]); SQRADDDB; SQRADD(a[22], a[22]);
                     +   COMBA_STORE(b[44]);
+                    +
                     +   /* output 45 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[18], a[27]); SQRADDAC(a[19], a[26]); SQRADDAC(a[20], a[25]); SQRADDAC(a[21], a[24]); SQRADDAC(a[22], a[23]); SQRADDDB;
                     +   COMBA_STORE(b[45]);
+                    +
                     +   /* output 46 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[19], a[27]); SQRADDAC(a[20], a[26]); SQRADDAC(a[21], a[25]); SQRADDAC(a[22], a[24]); SQRADDDB; SQRADD(a[23], a[23]);
                     +   COMBA_STORE(b[46]);
+                    +
                     +   /* output 47 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[20], a[27]); SQRADDAC(a[21], a[26]); SQRADDAC(a[22], a[25]); SQRADDAC(a[23], a[24]); SQRADDDB;
                     +   COMBA_STORE(b[47]);
+                    +
                     +   /* output 48 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[21], a[27]); SQRADDAC(a[22], a[26]); SQRADDAC(a[23], a[25]); SQRADDDB; SQRADD(a[24], a[24]);
                     +   COMBA_STORE(b[48]);
+                    +
                     +   /* output 49 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[22], a[27]); SQRADDAC(a[23], a[26]); SQRADDAC(a[24], a[25]); SQRADDDB;
                     +   COMBA_STORE(b[49]);
+                    +
                     +   /* output 50 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[23], a[27]); SQRADD2(a[24], a[26]); SQRADD(a[25], a[25]);
                     +   COMBA_STORE(b[50]);
+                    +
                     +   /* output 51 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[24], a[27]); SQRADD2(a[25], a[26]);
                     +   COMBA_STORE(b[51]);
+                    +
                     +   /* output 52 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[25], a[27]); SQRADD(a[26], a[26]);
                     +   COMBA_STORE(b[52]);
+                    +
                     +   /* output 53 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[26], a[27]);
                     +   COMBA_STORE(b[53]);
+                    +
                     +   /* output 54 */
                     +   CARRY_FORWARD;
                     +   SQRADD(a[27], a[27]);
                     +   COMBA_STORE(b[54]);
                     +   COMBA_STORE2(b[55]);
                     +   COMBA_FINI;
+                    +
                     +   B->used = 56;
                     +   B->sign = FP_ZPOS;
                     +   memcpy(B->dp, b, 56 * sizeof(fp_digit));
                     +   fp_clamp(B);
+                     }
                      #endif
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_sqr.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
                     -/* End: bn_mp_sqr.c */
                     +/* $Source: /cvs/libtom/tomsfastmath/src/sqr/fp_sqr_comba_28.c,v $ */
                     +/* $Revision: 1.2 $ */
                     +/* $Date: 2007/02/17 03:39:01 $ */
                     -/* Start: bn_mp_sqrmod.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_SQRMOD_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     - *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     - */
+                    -
                     -/* c = a * a (mod b) */
                     -int
                     -mp_sqrmod (mp_int * a, mp_int * b, mp_int * c)
                     -{
                     -  int     res;
                     -  mp_int  t;
                     +/* End: fp_sqr_comba_28.c */
                     -  if ((res = mp_init (&t)) != MP_OKAY) {
                     -    return res;
                     -  }
                     +/* Start: fp_sqr_comba_3.c */
                     +#define TFM_DEFINES
                     +#include "fp_sqr_comba.c"
                     -  if ((res = mp_sqr (a, &t)) != MP_OKAY) {
                     -    mp_clear (&t);
                     -    return res;
                     -  }
                     -  res = mp_mod (&t, b, c);
                     -  mp_clear (&t);
                     -  return res;
                     +#ifdef TFM_SQR3
                     +void fp_sqr_comba3(fp_int *A, fp_int *B)
                     +{
                     +   fp_digit *a, b[6], c0, c1, c2, sc0, sc1, sc2;
                     +#ifdef TFM_ISO
                     +   fp_word tt;
                     +#endif
+                    +
                     +   a = A->dp;
                     +   COMBA_START;
+                    +
                     +   /* clear carries */
                     +   CLEAR_CARRY;
+                    +
                     +   /* output 0 */
                     +   SQRADD(a[0],a[0]);
                     +   COMBA_STORE(b[0]);
+                    +
                     +   /* output 1 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[0], a[1]);
                     +   COMBA_STORE(b[1]);
+                    +
                     +   /* output 2 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[0], a[2]); SQRADD(a[1], a[1]);
                     +   COMBA_STORE(b[2]);
+                    +
                     +   /* output 3 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[1], a[2]);
                     +   COMBA_STORE(b[3]);
+                    +
                     +   /* output 4 */
                     +   CARRY_FORWARD;
                     +   SQRADD(a[2], a[2]);
                     +   COMBA_STORE(b[4]);
                     +   COMBA_STORE2(b[5]);
                     +   COMBA_FINI;
+                    +
                     +   B->used = 6;
                     +   B->sign = FP_ZPOS;
                     +   memcpy(B->dp, b, 6 * sizeof(fp_digit));
                     +   fp_clamp(B);
+                     }
                      #endif
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_sqrmod.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
+                    -
                     -/* End: bn_mp_sqrmod.c */
+                    -
                     -/* Start: bn_mp_sqrt.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_SQRT_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     - *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     - */
+                    -
                     -/* this function is less generic than mp_n_root, simpler and faster */
                     -int mp_sqrt(mp_int *arg, mp_int *ret)
                     -{
                     -  int res;
                     -  mp_int t1,t2;
+                    -
                     -  /* must be positive */
                     -  if (arg->sign == MP_NEG) {
                     -    return MP_VAL;
                     -  }
+                    -
                     -  /* easy out */
                     -  if (mp_iszero(arg) == MP_YES) {
                     -    mp_zero(ret);
                     -    return MP_OKAY;
                     -  }
+                    -
                     -  if ((res = mp_init_copy(&t1, arg)) != MP_OKAY) {
                     -    return res;
                     -  }
+                    -
                     -  if ((res = mp_init(&t2)) != MP_OKAY) {
                     -    goto E2;
                     -  }
                     -  /* First approx. (not very bad for large arg) */
                     -  mp_rshd (&t1,t1.used/2);
                     +/* $Source: /cvs/libtom/tomsfastmath/src/sqr/fp_sqr_comba_3.c,v $ */
                     +/* $Revision: 1.2 $ */
                     +/* $Date: 2007/02/17 03:39:01 $ */
                     -  /* t1 > 0  */
                     -  if ((res = mp_div(arg,&t1,&t2,NULL)) != MP_OKAY) {
                     -    goto E1;
                     -  }
                     -  if ((res = mp_add(&t1,&t2,&t1)) != MP_OKAY) {
                     -    goto E1;
                     -  }
                     -  if ((res = mp_div_2(&t1,&t1)) != MP_OKAY) {
                     -    goto E1;
                     -  }
                     -  /* And now t1 > sqrt(arg) */
                     -  do {
                     -    if ((res = mp_div(arg,&t1,&t2,NULL)) != MP_OKAY) {
                     -      goto E1;
                     -    }
                     -    if ((res = mp_add(&t1,&t2,&t1)) != MP_OKAY) {
                     -      goto E1;
                     -    }
                     -    if ((res = mp_div_2(&t1,&t1)) != MP_OKAY) {
                     -      goto E1;
                     -    }
                     -    /* t1 >= sqrt(arg) >= t2 at this point */
                     -  } while (mp_cmp_mag(&t1,&t2) == MP_GT);
                     +/* End: fp_sqr_comba_3.c */
                     -  mp_exch(&t1,ret);
                     +/* Start: fp_sqr_comba_32.c */
                     +#define TFM_DEFINES
                     +#include "fp_sqr_comba.c"
                     -E1: mp_clear(&t2);
                     -E2: mp_clear(&t1);
                     -  return res;
                     +#ifdef TFM_SQR32
                     +void fp_sqr_comba32(fp_int *A, fp_int *B)
                     +{
                     +   fp_digit *a, b[64], c0, c1, c2, sc0, sc1, sc2;
                     +#ifdef TFM_ISO
                     +   fp_word tt;
                     +#endif
+                    +
                     +   a = A->dp;
                     +   COMBA_START;
+                    +
                     +   /* clear carries */
                     +   CLEAR_CARRY;
+                    +
                     +   /* output 0 */
                     +   SQRADD(a[0],a[0]);
                     +   COMBA_STORE(b[0]);
+                    +
                     +   /* output 1 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[0], a[1]);
                     +   COMBA_STORE(b[1]);
+                    +
                     +   /* output 2 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[0], a[2]); SQRADD(a[1], a[1]);
                     +   COMBA_STORE(b[2]);
+                    +
                     +   /* output 3 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[0], a[3]); SQRADD2(a[1], a[2]);
                     +   COMBA_STORE(b[3]);
+                    +
                     +   /* output 4 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[0], a[4]); SQRADD2(a[1], a[3]); SQRADD(a[2], a[2]);
                     +   COMBA_STORE(b[4]);
+                    +
                     +   /* output 5 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[5]); SQRADDAC(a[1], a[4]); SQRADDAC(a[2], a[3]); SQRADDDB;
                     +   COMBA_STORE(b[5]);
+                    +
                     +   /* output 6 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[6]); SQRADDAC(a[1], a[5]); SQRADDAC(a[2], a[4]); SQRADDDB; SQRADD(a[3], a[3]);
                     +   COMBA_STORE(b[6]);
+                    +
                     +   /* output 7 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[7]); SQRADDAC(a[1], a[6]); SQRADDAC(a[2], a[5]); SQRADDAC(a[3], a[4]); SQRADDDB;
                     +   COMBA_STORE(b[7]);
+                    +
                     +   /* output 8 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[8]); SQRADDAC(a[1], a[7]); SQRADDAC(a[2], a[6]); SQRADDAC(a[3], a[5]); SQRADDDB; SQRADD(a[4], a[4]);
                     +   COMBA_STORE(b[8]);
+                    +
                     +   /* output 9 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[9]); SQRADDAC(a[1], a[8]); SQRADDAC(a[2], a[7]); SQRADDAC(a[3], a[6]); SQRADDAC(a[4], a[5]); SQRADDDB;
                     +   COMBA_STORE(b[9]);
+                    +
                     +   /* output 10 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[10]); SQRADDAC(a[1], a[9]); SQRADDAC(a[2], a[8]); SQRADDAC(a[3], a[7]); SQRADDAC(a[4], a[6]); SQRADDDB; SQRADD(a[5], a[5]);
                     +   COMBA_STORE(b[10]);
+                    +
                     +   /* output 11 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[11]); SQRADDAC(a[1], a[10]); SQRADDAC(a[2], a[9]); SQRADDAC(a[3], a[8]); SQRADDAC(a[4], a[7]); SQRADDAC(a[5], a[6]); SQRADDDB;
                     +   COMBA_STORE(b[11]);
+                    +
                     +   /* output 12 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[12]); SQRADDAC(a[1], a[11]); SQRADDAC(a[2], a[10]); SQRADDAC(a[3], a[9]); SQRADDAC(a[4], a[8]); SQRADDAC(a[5], a[7]); SQRADDDB; SQRADD(a[6], a[6]);
                     +   COMBA_STORE(b[12]);
+                    +
                     +   /* output 13 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[13]); SQRADDAC(a[1], a[12]); SQRADDAC(a[2], a[11]); SQRADDAC(a[3], a[10]); SQRADDAC(a[4], a[9]); SQRADDAC(a[5], a[8]); SQRADDAC(a[6], a[7]); SQRADDDB;
                     +   COMBA_STORE(b[13]);
+                    +
                     +   /* output 14 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[14]); SQRADDAC(a[1], a[13]); SQRADDAC(a[2], a[12]); SQRADDAC(a[3], a[11]); SQRADDAC(a[4], a[10]); SQRADDAC(a[5], a[9]); SQRADDAC(a[6], a[8]); SQRADDDB; SQRADD(a[7], a[7]);
                     +   COMBA_STORE(b[14]);
+                    +
                     +   /* output 15 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[15]); SQRADDAC(a[1], a[14]); SQRADDAC(a[2], a[13]); SQRADDAC(a[3], a[12]); SQRADDAC(a[4], a[11]); SQRADDAC(a[5], a[10]); SQRADDAC(a[6], a[9]); SQRADDAC(a[7], a[8]); SQRADDDB;
                     +   COMBA_STORE(b[15]);
+                    +
                     +   /* output 16 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[16]); SQRADDAC(a[1], a[15]); SQRADDAC(a[2], a[14]); SQRADDAC(a[3], a[13]); SQRADDAC(a[4], a[12]); SQRADDAC(a[5], a[11]); SQRADDAC(a[6], a[10]); SQRADDAC(a[7], a[9]); SQRADDDB; SQRADD(a[8], a[8]);
                     +   COMBA_STORE(b[16]);
+                    +
                     +   /* output 17 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[17]); SQRADDAC(a[1], a[16]); SQRADDAC(a[2], a[15]); SQRADDAC(a[3], a[14]); SQRADDAC(a[4], a[13]); SQRADDAC(a[5], a[12]); SQRADDAC(a[6], a[11]); SQRADDAC(a[7], a[10]); SQRADDAC(a[8], a[9]); SQRADDDB;
                     +   COMBA_STORE(b[17]);
+                    +
                     +   /* output 18 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[18]); SQRADDAC(a[1], a[17]); SQRADDAC(a[2], a[16]); SQRADDAC(a[3], a[15]); SQRADDAC(a[4], a[14]); SQRADDAC(a[5], a[13]); SQRADDAC(a[6], a[12]); SQRADDAC(a[7], a[11]); SQRADDAC(a[8], a[10]); SQRADDDB; SQRADD(a[9], a[9]);
                     +   COMBA_STORE(b[18]);
+                    +
                     +   /* output 19 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[19]); SQRADDAC(a[1], a[18]); SQRADDAC(a[2], a[17]); SQRADDAC(a[3], a[16]); SQRADDAC(a[4], a[15]); SQRADDAC(a[5], a[14]); SQRADDAC(a[6], a[13]); SQRADDAC(a[7], a[12]); SQRADDAC(a[8], a[11]); SQRADDAC(a[9], a[10]); SQRADDDB;
                     +   COMBA_STORE(b[19]);
+                    +
                     +   /* output 20 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[20]); SQRADDAC(a[1], a[19]); SQRADDAC(a[2], a[18]); SQRADDAC(a[3], a[17]); SQRADDAC(a[4], a[16]); SQRADDAC(a[5], a[15]); SQRADDAC(a[6], a[14]); SQRADDAC(a[7], a[13]); SQRADDAC(a[8], a[12]); SQRADDAC(a[9], a[11]); SQRADDDB; SQRADD(a[10], a[10]);
                     +   COMBA_STORE(b[20]);
+                    +
                     +   /* output 21 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[21]); SQRADDAC(a[1], a[20]); SQRADDAC(a[2], a[19]); SQRADDAC(a[3], a[18]); SQRADDAC(a[4], a[17]); SQRADDAC(a[5], a[16]); SQRADDAC(a[6], a[15]); SQRADDAC(a[7], a[14]); SQRADDAC(a[8], a[13]); SQRADDAC(a[9], a[12]); SQRADDAC(a[10], a[11]); SQRADDDB;
                     +   COMBA_STORE(b[21]);
+                    +
                     +   /* output 22 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[22]); SQRADDAC(a[1], a[21]); SQRADDAC(a[2], a[20]); SQRADDAC(a[3], a[19]); SQRADDAC(a[4], a[18]); SQRADDAC(a[5], a[17]); SQRADDAC(a[6], a[16]); SQRADDAC(a[7], a[15]); SQRADDAC(a[8], a[14]); SQRADDAC(a[9], a[13]); SQRADDAC(a[10], a[12]); SQRADDDB; SQRADD(a[11], a[11]);
                     +   COMBA_STORE(b[22]);
+                    +
                     +   /* output 23 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[23]); SQRADDAC(a[1], a[22]); SQRADDAC(a[2], a[21]); SQRADDAC(a[3], a[20]); SQRADDAC(a[4], a[19]); SQRADDAC(a[5], a[18]); SQRADDAC(a[6], a[17]); SQRADDAC(a[7], a[16]); SQRADDAC(a[8], a[15]); SQRADDAC(a[9], a[14]); SQRADDAC(a[10], a[13]); SQRADDAC(a[11], a[12]); SQRADDDB;
                     +   COMBA_STORE(b[23]);
+                    +
                     +   /* output 24 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[24]); SQRADDAC(a[1], a[23]); SQRADDAC(a[2], a[22]); SQRADDAC(a[3], a[21]); SQRADDAC(a[4], a[20]); SQRADDAC(a[5], a[19]); SQRADDAC(a[6], a[18]); SQRADDAC(a[7], a[17]); SQRADDAC(a[8], a[16]); SQRADDAC(a[9], a[15]); SQRADDAC(a[10], a[14]); SQRADDAC(a[11], a[13]); SQRADDDB; SQRADD(a[12], a[12]);
                     +   COMBA_STORE(b[24]);
+                    +
                     +   /* output 25 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[25]); SQRADDAC(a[1], a[24]); SQRADDAC(a[2], a[23]); SQRADDAC(a[3], a[22]); SQRADDAC(a[4], a[21]); SQRADDAC(a[5], a[20]); SQRADDAC(a[6], a[19]); SQRADDAC(a[7], a[18]); SQRADDAC(a[8], a[17]); SQRADDAC(a[9], a[16]); SQRADDAC(a[10], a[15]); SQRADDAC(a[11], a[14]); SQRADDAC(a[12], a[13]); SQRADDDB;
                     +   COMBA_STORE(b[25]);
+                    +
                     +   /* output 26 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[26]); SQRADDAC(a[1], a[25]); SQRADDAC(a[2], a[24]); SQRADDAC(a[3], a[23]); SQRADDAC(a[4], a[22]); SQRADDAC(a[5], a[21]); SQRADDAC(a[6], a[20]); SQRADDAC(a[7], a[19]); SQRADDAC(a[8], a[18]); SQRADDAC(a[9], a[17]); SQRADDAC(a[10], a[16]); SQRADDAC(a[11], a[15]); SQRADDAC(a[12], a[14]); SQRADDDB; SQRADD(a[13], a[13]);
                     +   COMBA_STORE(b[26]);
+                    +
                     +   /* output 27 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[27]); SQRADDAC(a[1], a[26]); SQRADDAC(a[2], a[25]); SQRADDAC(a[3], a[24]); SQRADDAC(a[4], a[23]); SQRADDAC(a[5], a[22]); SQRADDAC(a[6], a[21]); SQRADDAC(a[7], a[20]); SQRADDAC(a[8], a[19]); SQRADDAC(a[9], a[18]); SQRADDAC(a[10], a[17]); SQRADDAC(a[11], a[16]); SQRADDAC(a[12], a[15]); SQRADDAC(a[13], a[14]); SQRADDDB;
                     +   COMBA_STORE(b[27]);
+                    +
                     +   /* output 28 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[28]); SQRADDAC(a[1], a[27]); SQRADDAC(a[2], a[26]); SQRADDAC(a[3], a[25]); SQRADDAC(a[4], a[24]); SQRADDAC(a[5], a[23]); SQRADDAC(a[6], a[22]); SQRADDAC(a[7], a[21]); SQRADDAC(a[8], a[20]); SQRADDAC(a[9], a[19]); SQRADDAC(a[10], a[18]); SQRADDAC(a[11], a[17]); SQRADDAC(a[12], a[16]); SQRADDAC(a[13], a[15]); SQRADDDB; SQRADD(a[14], a[14]);
                     +   COMBA_STORE(b[28]);
+                    +
                     +   /* output 29 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[29]); SQRADDAC(a[1], a[28]); SQRADDAC(a[2], a[27]); SQRADDAC(a[3], a[26]); SQRADDAC(a[4], a[25]); SQRADDAC(a[5], a[24]); SQRADDAC(a[6], a[23]); SQRADDAC(a[7], a[22]); SQRADDAC(a[8], a[21]); SQRADDAC(a[9], a[20]); SQRADDAC(a[10], a[19]); SQRADDAC(a[11], a[18]); SQRADDAC(a[12], a[17]); SQRADDAC(a[13], a[16]); SQRADDAC(a[14], a[15]); SQRADDDB;
                     +   COMBA_STORE(b[29]);
+                    +
                     +   /* output 30 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[30]); SQRADDAC(a[1], a[29]); SQRADDAC(a[2], a[28]); SQRADDAC(a[3], a[27]); SQRADDAC(a[4], a[26]); SQRADDAC(a[5], a[25]); SQRADDAC(a[6], a[24]); SQRADDAC(a[7], a[23]); SQRADDAC(a[8], a[22]); SQRADDAC(a[9], a[21]); SQRADDAC(a[10], a[20]); SQRADDAC(a[11], a[19]); SQRADDAC(a[12], a[18]); SQRADDAC(a[13], a[17]); SQRADDAC(a[14], a[16]); SQRADDDB; SQRADD(a[15], a[15]);
                     +   COMBA_STORE(b[30]);
+                    +
                     +   /* output 31 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[31]); SQRADDAC(a[1], a[30]); SQRADDAC(a[2], a[29]); SQRADDAC(a[3], a[28]); SQRADDAC(a[4], a[27]); SQRADDAC(a[5], a[26]); SQRADDAC(a[6], a[25]); SQRADDAC(a[7], a[24]); SQRADDAC(a[8], a[23]); SQRADDAC(a[9], a[22]); SQRADDAC(a[10], a[21]); SQRADDAC(a[11], a[20]); SQRADDAC(a[12], a[19]); SQRADDAC(a[13], a[18]); SQRADDAC(a[14], a[17]); SQRADDAC(a[15], a[16]); SQRADDDB;
                     +   COMBA_STORE(b[31]);
+                    +
                     +   /* output 32 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[1], a[31]); SQRADDAC(a[2], a[30]); SQRADDAC(a[3], a[29]); SQRADDAC(a[4], a[28]); SQRADDAC(a[5], a[27]); SQRADDAC(a[6], a[26]); SQRADDAC(a[7], a[25]); SQRADDAC(a[8], a[24]); SQRADDAC(a[9], a[23]); SQRADDAC(a[10], a[22]); SQRADDAC(a[11], a[21]); SQRADDAC(a[12], a[20]); SQRADDAC(a[13], a[19]); SQRADDAC(a[14], a[18]); SQRADDAC(a[15], a[17]); SQRADDDB; SQRADD(a[16], a[16]);
                     +   COMBA_STORE(b[32]);
+                    +
                     +   /* output 33 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[2], a[31]); SQRADDAC(a[3], a[30]); SQRADDAC(a[4], a[29]); SQRADDAC(a[5], a[28]); SQRADDAC(a[6], a[27]); SQRADDAC(a[7], a[26]); SQRADDAC(a[8], a[25]); SQRADDAC(a[9], a[24]); SQRADDAC(a[10], a[23]); SQRADDAC(a[11], a[22]); SQRADDAC(a[12], a[21]); SQRADDAC(a[13], a[20]); SQRADDAC(a[14], a[19]); SQRADDAC(a[15], a[18]); SQRADDAC(a[16], a[17]); SQRADDDB;
                     +   COMBA_STORE(b[33]);
+                    +
                     +   /* output 34 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[3], a[31]); SQRADDAC(a[4], a[30]); SQRADDAC(a[5], a[29]); SQRADDAC(a[6], a[28]); SQRADDAC(a[7], a[27]); SQRADDAC(a[8], a[26]); SQRADDAC(a[9], a[25]); SQRADDAC(a[10], a[24]); SQRADDAC(a[11], a[23]); SQRADDAC(a[12], a[22]); SQRADDAC(a[13], a[21]); SQRADDAC(a[14], a[20]); SQRADDAC(a[15], a[19]); SQRADDAC(a[16], a[18]); SQRADDDB; SQRADD(a[17], a[17]);
                     +   COMBA_STORE(b[34]);
+                    +
                     +   /* output 35 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[4], a[31]); SQRADDAC(a[5], a[30]); SQRADDAC(a[6], a[29]); SQRADDAC(a[7], a[28]); SQRADDAC(a[8], a[27]); SQRADDAC(a[9], a[26]); SQRADDAC(a[10], a[25]); SQRADDAC(a[11], a[24]); SQRADDAC(a[12], a[23]); SQRADDAC(a[13], a[22]); SQRADDAC(a[14], a[21]); SQRADDAC(a[15], a[20]); SQRADDAC(a[16], a[19]); SQRADDAC(a[17], a[18]); SQRADDDB;
                     +   COMBA_STORE(b[35]);
+                    +
                     +   /* output 36 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[5], a[31]); SQRADDAC(a[6], a[30]); SQRADDAC(a[7], a[29]); SQRADDAC(a[8], a[28]); SQRADDAC(a[9], a[27]); SQRADDAC(a[10], a[26]); SQRADDAC(a[11], a[25]); SQRADDAC(a[12], a[24]); SQRADDAC(a[13], a[23]); SQRADDAC(a[14], a[22]); SQRADDAC(a[15], a[21]); SQRADDAC(a[16], a[20]); SQRADDAC(a[17], a[19]); SQRADDDB; SQRADD(a[18], a[18]);
                     +   COMBA_STORE(b[36]);
+                    +
                     +   /* output 37 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[6], a[31]); SQRADDAC(a[7], a[30]); SQRADDAC(a[8], a[29]); SQRADDAC(a[9], a[28]); SQRADDAC(a[10], a[27]); SQRADDAC(a[11], a[26]); SQRADDAC(a[12], a[25]); SQRADDAC(a[13], a[24]); SQRADDAC(a[14], a[23]); SQRADDAC(a[15], a[22]); SQRADDAC(a[16], a[21]); SQRADDAC(a[17], a[20]); SQRADDAC(a[18], a[19]); SQRADDDB;
                     +   COMBA_STORE(b[37]);
+                    +
                     +   /* output 38 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[7], a[31]); SQRADDAC(a[8], a[30]); SQRADDAC(a[9], a[29]); SQRADDAC(a[10], a[28]); SQRADDAC(a[11], a[27]); SQRADDAC(a[12], a[26]); SQRADDAC(a[13], a[25]); SQRADDAC(a[14], a[24]); SQRADDAC(a[15], a[23]); SQRADDAC(a[16], a[22]); SQRADDAC(a[17], a[21]); SQRADDAC(a[18], a[20]); SQRADDDB; SQRADD(a[19], a[19]);
                     +   COMBA_STORE(b[38]);
+                    +
                     +   /* output 39 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[8], a[31]); SQRADDAC(a[9], a[30]); SQRADDAC(a[10], a[29]); SQRADDAC(a[11], a[28]); SQRADDAC(a[12], a[27]); SQRADDAC(a[13], a[26]); SQRADDAC(a[14], a[25]); SQRADDAC(a[15], a[24]); SQRADDAC(a[16], a[23]); SQRADDAC(a[17], a[22]); SQRADDAC(a[18], a[21]); SQRADDAC(a[19], a[20]); SQRADDDB;
                     +   COMBA_STORE(b[39]);
+                    +
                     +   /* output 40 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[9], a[31]); SQRADDAC(a[10], a[30]); SQRADDAC(a[11], a[29]); SQRADDAC(a[12], a[28]); SQRADDAC(a[13], a[27]); SQRADDAC(a[14], a[26]); SQRADDAC(a[15], a[25]); SQRADDAC(a[16], a[24]); SQRADDAC(a[17], a[23]); SQRADDAC(a[18], a[22]); SQRADDAC(a[19], a[21]); SQRADDDB; SQRADD(a[20], a[20]);
                     +   COMBA_STORE(b[40]);
+                    +
                     +   /* output 41 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[10], a[31]); SQRADDAC(a[11], a[30]); SQRADDAC(a[12], a[29]); SQRADDAC(a[13], a[28]); SQRADDAC(a[14], a[27]); SQRADDAC(a[15], a[26]); SQRADDAC(a[16], a[25]); SQRADDAC(a[17], a[24]); SQRADDAC(a[18], a[23]); SQRADDAC(a[19], a[22]); SQRADDAC(a[20], a[21]); SQRADDDB;
                     +   COMBA_STORE(b[41]);
+                    +
                     +   /* output 42 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[11], a[31]); SQRADDAC(a[12], a[30]); SQRADDAC(a[13], a[29]); SQRADDAC(a[14], a[28]); SQRADDAC(a[15], a[27]); SQRADDAC(a[16], a[26]); SQRADDAC(a[17], a[25]); SQRADDAC(a[18], a[24]); SQRADDAC(a[19], a[23]); SQRADDAC(a[20], a[22]); SQRADDDB; SQRADD(a[21], a[21]);
                     +   COMBA_STORE(b[42]);
+                    +
                     +   /* output 43 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[12], a[31]); SQRADDAC(a[13], a[30]); SQRADDAC(a[14], a[29]); SQRADDAC(a[15], a[28]); SQRADDAC(a[16], a[27]); SQRADDAC(a[17], a[26]); SQRADDAC(a[18], a[25]); SQRADDAC(a[19], a[24]); SQRADDAC(a[20], a[23]); SQRADDAC(a[21], a[22]); SQRADDDB;
                     +   COMBA_STORE(b[43]);
+                    +
                     +   /* output 44 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[13], a[31]); SQRADDAC(a[14], a[30]); SQRADDAC(a[15], a[29]); SQRADDAC(a[16], a[28]); SQRADDAC(a[17], a[27]); SQRADDAC(a[18], a[26]); SQRADDAC(a[19], a[25]); SQRADDAC(a[20], a[24]); SQRADDAC(a[21], a[23]); SQRADDDB; SQRADD(a[22], a[22]);
                     +   COMBA_STORE(b[44]);
+                    +
                     +   /* output 45 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[14], a[31]); SQRADDAC(a[15], a[30]); SQRADDAC(a[16], a[29]); SQRADDAC(a[17], a[28]); SQRADDAC(a[18], a[27]); SQRADDAC(a[19], a[26]); SQRADDAC(a[20], a[25]); SQRADDAC(a[21], a[24]); SQRADDAC(a[22], a[23]); SQRADDDB;
                     +   COMBA_STORE(b[45]);
+                    +
                     +   /* output 46 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[15], a[31]); SQRADDAC(a[16], a[30]); SQRADDAC(a[17], a[29]); SQRADDAC(a[18], a[28]); SQRADDAC(a[19], a[27]); SQRADDAC(a[20], a[26]); SQRADDAC(a[21], a[25]); SQRADDAC(a[22], a[24]); SQRADDDB; SQRADD(a[23], a[23]);
                     +   COMBA_STORE(b[46]);
+                    +
                     +   /* output 47 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[16], a[31]); SQRADDAC(a[17], a[30]); SQRADDAC(a[18], a[29]); SQRADDAC(a[19], a[28]); SQRADDAC(a[20], a[27]); SQRADDAC(a[21], a[26]); SQRADDAC(a[22], a[25]); SQRADDAC(a[23], a[24]); SQRADDDB;
                     +   COMBA_STORE(b[47]);
+                    +
                     +   /* output 48 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[17], a[31]); SQRADDAC(a[18], a[30]); SQRADDAC(a[19], a[29]); SQRADDAC(a[20], a[28]); SQRADDAC(a[21], a[27]); SQRADDAC(a[22], a[26]); SQRADDAC(a[23], a[25]); SQRADDDB; SQRADD(a[24], a[24]);
                     +   COMBA_STORE(b[48]);
+                    +
                     +   /* output 49 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[18], a[31]); SQRADDAC(a[19], a[30]); SQRADDAC(a[20], a[29]); SQRADDAC(a[21], a[28]); SQRADDAC(a[22], a[27]); SQRADDAC(a[23], a[26]); SQRADDAC(a[24], a[25]); SQRADDDB;
                     +   COMBA_STORE(b[49]);
+                    +
                     +   /* output 50 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[19], a[31]); SQRADDAC(a[20], a[30]); SQRADDAC(a[21], a[29]); SQRADDAC(a[22], a[28]); SQRADDAC(a[23], a[27]); SQRADDAC(a[24], a[26]); SQRADDDB; SQRADD(a[25], a[25]);
                     +   COMBA_STORE(b[50]);
+                    +
                     +   /* output 51 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[20], a[31]); SQRADDAC(a[21], a[30]); SQRADDAC(a[22], a[29]); SQRADDAC(a[23], a[28]); SQRADDAC(a[24], a[27]); SQRADDAC(a[25], a[26]); SQRADDDB;
                     +   COMBA_STORE(b[51]);
+                    +
                     +   /* output 52 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[21], a[31]); SQRADDAC(a[22], a[30]); SQRADDAC(a[23], a[29]); SQRADDAC(a[24], a[28]); SQRADDAC(a[25], a[27]); SQRADDDB; SQRADD(a[26], a[26]);
                     +   COMBA_STORE(b[52]);
+                    +
                     +   /* output 53 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[22], a[31]); SQRADDAC(a[23], a[30]); SQRADDAC(a[24], a[29]); SQRADDAC(a[25], a[28]); SQRADDAC(a[26], a[27]); SQRADDDB;
                     +   COMBA_STORE(b[53]);
+                    +
                     +   /* output 54 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[23], a[31]); SQRADDAC(a[24], a[30]); SQRADDAC(a[25], a[29]); SQRADDAC(a[26], a[28]); SQRADDDB; SQRADD(a[27], a[27]);
                     +   COMBA_STORE(b[54]);
+                    +
                     +   /* output 55 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[24], a[31]); SQRADDAC(a[25], a[30]); SQRADDAC(a[26], a[29]); SQRADDAC(a[27], a[28]); SQRADDDB;
                     +   COMBA_STORE(b[55]);
+                    +
                     +   /* output 56 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[25], a[31]); SQRADDAC(a[26], a[30]); SQRADDAC(a[27], a[29]); SQRADDDB; SQRADD(a[28], a[28]);
                     +   COMBA_STORE(b[56]);
+                    +
                     +   /* output 57 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[26], a[31]); SQRADDAC(a[27], a[30]); SQRADDAC(a[28], a[29]); SQRADDDB;
                     +   COMBA_STORE(b[57]);
+                    +
                     +   /* output 58 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[27], a[31]); SQRADD2(a[28], a[30]); SQRADD(a[29], a[29]);
                     +   COMBA_STORE(b[58]);
+                    +
                     +   /* output 59 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[28], a[31]); SQRADD2(a[29], a[30]);
                     +   COMBA_STORE(b[59]);
+                    +
                     +   /* output 60 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[29], a[31]); SQRADD(a[30], a[30]);
                     +   COMBA_STORE(b[60]);
+                    +
                     +   /* output 61 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[30], a[31]);
                     +   COMBA_STORE(b[61]);
+                    +
                     +   /* output 62 */
                     +   CARRY_FORWARD;
                     +   SQRADD(a[31], a[31]);
                     +   COMBA_STORE(b[62]);
                     +   COMBA_STORE2(b[63]);
                     +   COMBA_FINI;
+                    +
                     +   B->used = 64;
                     +   B->sign = FP_ZPOS;
                     +   memcpy(B->dp, b, 64 * sizeof(fp_digit));
                     +   fp_clamp(B);
+                     }
+                    -
                      #endif
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_sqrt.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
                     -/* End: bn_mp_sqrt.c */
                     +/* $Source: /cvs/libtom/tomsfastmath/src/sqr/fp_sqr_comba_32.c,v $ */
                     +/* $Revision: 1.2 $ */
                     +/* $Date: 2007/02/17 03:39:01 $ */
                     -/* Start: bn_mp_sub.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_SUB_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     - *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     - */
                     +/* End: fp_sqr_comba_32.c */
                     -/* high level subtraction (handles signs) */
                     -int
                     -mp_sub (mp_int * a, mp_int * b, mp_int * c)
                     -{
                     -  int     sa, sb, res;
                     +/* Start: fp_sqr_comba_4.c */
                     +#define TFM_DEFINES
                     +#include "fp_sqr_comba.c"
                     -  sa = a->sign;
                     -  sb = b->sign;
+                    -
                     -  if (sa != sb) {
                     -    /* subtract a negative from a positive, OR */
                     -    /* subtract a positive from a negative. */
                     -    /* In either case, ADD their magnitudes, */
                     -    /* and use the sign of the first number. */
                     -    c->sign = sa;
                     -    res = s_mp_add (a, b, c);
                     -  } else {
                     -    /* subtract a positive from a positive, OR */
                     -    /* subtract a negative from a negative. */
                     -    /* First, take the difference between their */
                     -    /* magnitudes, then... */
                     -    if (mp_cmp_mag (a, b) != MP_LT) {
                     -      /* Copy the sign from the first */
                     -      c->sign = sa;
                     -      /* The first has a larger or equal magnitude */
                     -      res = s_mp_sub (a, b, c);
                     -    } else {
                     -      /* The result has the *opposite* sign from */
                     -      /* the first number. */
                     -      c->sign = (sa == MP_ZPOS) ? MP_NEG : MP_ZPOS;
                     -      /* The second has a larger magnitude */
                     -      res = s_mp_sub (b, a, c);
                     -    }
                     -  }
                     -  return res;
                     +#ifdef TFM_SQR4
                     +void fp_sqr_comba4(fp_int *A, fp_int *B)
                     +{
                     +   fp_digit *a, b[8], c0, c1, c2, sc0, sc1, sc2;
                     +#ifdef TFM_ISO
                     +   fp_word tt;
                     +#endif
+                    +
                     +   a = A->dp;
                     +   COMBA_START;
+                    +
                     +   /* clear carries */
                     +   CLEAR_CARRY;
+                    +
                     +   /* output 0 */
                     +   SQRADD(a[0],a[0]);
                     +   COMBA_STORE(b[0]);
+                    +
                     +   /* output 1 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[0], a[1]);
                     +   COMBA_STORE(b[1]);
+                    +
                     +   /* output 2 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[0], a[2]); SQRADD(a[1], a[1]);
                     +   COMBA_STORE(b[2]);
+                    +
                     +   /* output 3 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[0], a[3]); SQRADD2(a[1], a[2]);
                     +   COMBA_STORE(b[3]);
+                    +
                     +   /* output 4 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[1], a[3]); SQRADD(a[2], a[2]);
                     +   COMBA_STORE(b[4]);
+                    +
                     +   /* output 5 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[2], a[3]);
                     +   COMBA_STORE(b[5]);
+                    +
                     +   /* output 6 */
                     +   CARRY_FORWARD;
                     +   SQRADD(a[3], a[3]);
                     +   COMBA_STORE(b[6]);
                     +   COMBA_STORE2(b[7]);
                     +   COMBA_FINI;
+                    +
                     +   B->used = 8;
                     +   B->sign = FP_ZPOS;
                     +   memcpy(B->dp, b, 8 * sizeof(fp_digit));
                     +   fp_clamp(B);
+                     }
+                    -
                      #endif
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_sub.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
+                    -
                     -/* End: bn_mp_sub.c */
+                    -
                     -/* Start: bn_mp_sub_d.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_SUB_D_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     - *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     - */
+                    -
                     -/* single digit subtraction */
                     -int
                     -mp_sub_d (mp_int * a, mp_digit b, mp_int * c)
                     -{
                     -  mp_digit *tmpa, *tmpc, mu;
                     -  int       res, ix, oldused;
+                    -
                     -  /* grow c as required */
                     -  if (c->alloc < a->used + 1) {
                     -     if ((res = mp_grow(c, a->used + 1)) != MP_OKAY) {
                     -        return res;
                     -     }
                     -  }
                     -  /* if a is negative just do an unsigned
                     -   * addition [with fudged signs]
                     -   */
                     -  if (a->sign == MP_NEG) {
                     -     a->sign = MP_ZPOS;
                     -     res     = mp_add_d(a, b, c);
                     -     a->sign = c->sign = MP_NEG;
                     +/* $Source: /cvs/libtom/tomsfastmath/src/sqr/fp_sqr_comba_4.c,v $ */
                     +/* $Revision: 1.2 $ */
                     +/* $Date: 2007/02/17 03:39:01 $ */
                     -     /* clamp */
                     -     mp_clamp(c);
                     +/* End: fp_sqr_comba_4.c */
                     -     return res;
                     -  }
                     +/* Start: fp_sqr_comba_48.c */
                     +#define TFM_DEFINES
                     +#include "fp_sqr_comba.c"
                     -  /* setup regs */
                     -  oldused = c->used;
                     -  tmpa    = a->dp;
                     -  tmpc    = c->dp;
+                    -
                     -  /* if a <= b simply fix the single digit */
                     -  if ((a->used == 1 && a->dp[0] <= b) || a->used == 0) {
                     -     if (a->used == 1) {
                     -        *tmpc++ = b - *tmpa;
                     -     } else {
                     -        *tmpc++ = b;
                     -     }
                     -     ix      = 1;
+                    -
                     -     /* negative/1digit */
                     -     c->sign = MP_NEG;
                     -     c->used = 1;
                     -  } else {
                     -     /* positive/size */
                     -     c->sign = MP_ZPOS;
                     -     c->used = a->used;
+                    -
                     -     /* subtract first digit */
                     -     *tmpc    = *tmpa++ - b;
                     -     mu       = *tmpc >> (sizeof(mp_digit) * CHAR_BIT - 1);
                     -     *tmpc++ &= MP_MASK;
+                    -
                     -     /* handle rest of the digits */
                     -     for (ix = 1; ix < a->used; ix++) {
                     -        *tmpc    = *tmpa++ - mu;
                     -        mu       = *tmpc >> (sizeof(mp_digit) * CHAR_BIT - 1);
                     -        *tmpc++ &= MP_MASK;
                     -     }
                     -  }
+                    -
                     -  /* zero excess digits */
                     -  while (ix++ < oldused) {
                     -     *tmpc++ = 0;
                     -  }
                     -  mp_clamp(c);
                     -  return MP_OKAY;
                     +#ifdef TFM_SQR48
                     +void fp_sqr_comba48(fp_int *A, fp_int *B)
                     +{
                     +   fp_digit *a, b[96], c0, c1, c2, sc0, sc1, sc2;
                     +#ifdef TFM_ISO
                     +   fp_word tt;
                     +#endif
+                    +
                     +   a = A->dp;
                     +   COMBA_START;
+                    +
                     +   /* clear carries */
                     +   CLEAR_CARRY;
+                    +
                     +   /* output 0 */
                     +   SQRADD(a[0],a[0]);
                     +   COMBA_STORE(b[0]);
+                    +
                     +   /* output 1 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[0], a[1]);
                     +   COMBA_STORE(b[1]);
+                    +
                     +   /* output 2 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[0], a[2]); SQRADD(a[1], a[1]);
                     +   COMBA_STORE(b[2]);
+                    +
                     +   /* output 3 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[0], a[3]); SQRADD2(a[1], a[2]);
                     +   COMBA_STORE(b[3]);
+                    +
                     +   /* output 4 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[0], a[4]); SQRADD2(a[1], a[3]); SQRADD(a[2], a[2]);
                     +   COMBA_STORE(b[4]);
+                    +
                     +   /* output 5 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[5]); SQRADDAC(a[1], a[4]); SQRADDAC(a[2], a[3]); SQRADDDB;
                     +   COMBA_STORE(b[5]);
+                    +
                     +   /* output 6 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[6]); SQRADDAC(a[1], a[5]); SQRADDAC(a[2], a[4]); SQRADDDB; SQRADD(a[3], a[3]);
                     +   COMBA_STORE(b[6]);
+                    +
                     +   /* output 7 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[7]); SQRADDAC(a[1], a[6]); SQRADDAC(a[2], a[5]); SQRADDAC(a[3], a[4]); SQRADDDB;
                     +   COMBA_STORE(b[7]);
+                    +
                     +   /* output 8 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[8]); SQRADDAC(a[1], a[7]); SQRADDAC(a[2], a[6]); SQRADDAC(a[3], a[5]); SQRADDDB; SQRADD(a[4], a[4]);
                     +   COMBA_STORE(b[8]);
+                    +
                     +   /* output 9 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[9]); SQRADDAC(a[1], a[8]); SQRADDAC(a[2], a[7]); SQRADDAC(a[3], a[6]); SQRADDAC(a[4], a[5]); SQRADDDB;
                     +   COMBA_STORE(b[9]);
+                    +
                     +   /* output 10 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[10]); SQRADDAC(a[1], a[9]); SQRADDAC(a[2], a[8]); SQRADDAC(a[3], a[7]); SQRADDAC(a[4], a[6]); SQRADDDB; SQRADD(a[5], a[5]);
                     +   COMBA_STORE(b[10]);
+                    +
                     +   /* output 11 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[11]); SQRADDAC(a[1], a[10]); SQRADDAC(a[2], a[9]); SQRADDAC(a[3], a[8]); SQRADDAC(a[4], a[7]); SQRADDAC(a[5], a[6]); SQRADDDB;
                     +   COMBA_STORE(b[11]);
+                    +
                     +   /* output 12 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[12]); SQRADDAC(a[1], a[11]); SQRADDAC(a[2], a[10]); SQRADDAC(a[3], a[9]); SQRADDAC(a[4], a[8]); SQRADDAC(a[5], a[7]); SQRADDDB; SQRADD(a[6], a[6]);
                     +   COMBA_STORE(b[12]);
+                    +
                     +   /* output 13 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[13]); SQRADDAC(a[1], a[12]); SQRADDAC(a[2], a[11]); SQRADDAC(a[3], a[10]); SQRADDAC(a[4], a[9]); SQRADDAC(a[5], a[8]); SQRADDAC(a[6], a[7]); SQRADDDB;
                     +   COMBA_STORE(b[13]);
+                    +
                     +   /* output 14 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[14]); SQRADDAC(a[1], a[13]); SQRADDAC(a[2], a[12]); SQRADDAC(a[3], a[11]); SQRADDAC(a[4], a[10]); SQRADDAC(a[5], a[9]); SQRADDAC(a[6], a[8]); SQRADDDB; SQRADD(a[7], a[7]);
                     +   COMBA_STORE(b[14]);
+                    +
                     +   /* output 15 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[15]); SQRADDAC(a[1], a[14]); SQRADDAC(a[2], a[13]); SQRADDAC(a[3], a[12]); SQRADDAC(a[4], a[11]); SQRADDAC(a[5], a[10]); SQRADDAC(a[6], a[9]); SQRADDAC(a[7], a[8]); SQRADDDB;
                     +   COMBA_STORE(b[15]);
+                    +
                     +   /* output 16 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[16]); SQRADDAC(a[1], a[15]); SQRADDAC(a[2], a[14]); SQRADDAC(a[3], a[13]); SQRADDAC(a[4], a[12]); SQRADDAC(a[5], a[11]); SQRADDAC(a[6], a[10]); SQRADDAC(a[7], a[9]); SQRADDDB; SQRADD(a[8], a[8]);
                     +   COMBA_STORE(b[16]);
+                    +
                     +   /* output 17 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[17]); SQRADDAC(a[1], a[16]); SQRADDAC(a[2], a[15]); SQRADDAC(a[3], a[14]); SQRADDAC(a[4], a[13]); SQRADDAC(a[5], a[12]); SQRADDAC(a[6], a[11]); SQRADDAC(a[7], a[10]); SQRADDAC(a[8], a[9]); SQRADDDB;
                     +   COMBA_STORE(b[17]);
+                    +
                     +   /* output 18 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[18]); SQRADDAC(a[1], a[17]); SQRADDAC(a[2], a[16]); SQRADDAC(a[3], a[15]); SQRADDAC(a[4], a[14]); SQRADDAC(a[5], a[13]); SQRADDAC(a[6], a[12]); SQRADDAC(a[7], a[11]); SQRADDAC(a[8], a[10]); SQRADDDB; SQRADD(a[9], a[9]);
                     +   COMBA_STORE(b[18]);
+                    +
                     +   /* output 19 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[19]); SQRADDAC(a[1], a[18]); SQRADDAC(a[2], a[17]); SQRADDAC(a[3], a[16]); SQRADDAC(a[4], a[15]); SQRADDAC(a[5], a[14]); SQRADDAC(a[6], a[13]); SQRADDAC(a[7], a[12]); SQRADDAC(a[8], a[11]); SQRADDAC(a[9], a[10]); SQRADDDB;
                     +   COMBA_STORE(b[19]);
+                    +
                     +   /* output 20 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[20]); SQRADDAC(a[1], a[19]); SQRADDAC(a[2], a[18]); SQRADDAC(a[3], a[17]); SQRADDAC(a[4], a[16]); SQRADDAC(a[5], a[15]); SQRADDAC(a[6], a[14]); SQRADDAC(a[7], a[13]); SQRADDAC(a[8], a[12]); SQRADDAC(a[9], a[11]); SQRADDDB; SQRADD(a[10], a[10]);
                     +   COMBA_STORE(b[20]);
+                    +
                     +   /* output 21 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[21]); SQRADDAC(a[1], a[20]); SQRADDAC(a[2], a[19]); SQRADDAC(a[3], a[18]); SQRADDAC(a[4], a[17]); SQRADDAC(a[5], a[16]); SQRADDAC(a[6], a[15]); SQRADDAC(a[7], a[14]); SQRADDAC(a[8], a[13]); SQRADDAC(a[9], a[12]); SQRADDAC(a[10], a[11]); SQRADDDB;
                     +   COMBA_STORE(b[21]);
+                    +
                     +   /* output 22 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[22]); SQRADDAC(a[1], a[21]); SQRADDAC(a[2], a[20]); SQRADDAC(a[3], a[19]); SQRADDAC(a[4], a[18]); SQRADDAC(a[5], a[17]); SQRADDAC(a[6], a[16]); SQRADDAC(a[7], a[15]); SQRADDAC(a[8], a[14]); SQRADDAC(a[9], a[13]); SQRADDAC(a[10], a[12]); SQRADDDB; SQRADD(a[11], a[11]);
                     +   COMBA_STORE(b[22]);
+                    +
                     +   /* output 23 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[23]); SQRADDAC(a[1], a[22]); SQRADDAC(a[2], a[21]); SQRADDAC(a[3], a[20]); SQRADDAC(a[4], a[19]); SQRADDAC(a[5], a[18]); SQRADDAC(a[6], a[17]); SQRADDAC(a[7], a[16]); SQRADDAC(a[8], a[15]); SQRADDAC(a[9], a[14]); SQRADDAC(a[10], a[13]); SQRADDAC(a[11], a[12]); SQRADDDB;
                     +   COMBA_STORE(b[23]);
+                    +
                     +   /* output 24 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[24]); SQRADDAC(a[1], a[23]); SQRADDAC(a[2], a[22]); SQRADDAC(a[3], a[21]); SQRADDAC(a[4], a[20]); SQRADDAC(a[5], a[19]); SQRADDAC(a[6], a[18]); SQRADDAC(a[7], a[17]); SQRADDAC(a[8], a[16]); SQRADDAC(a[9], a[15]); SQRADDAC(a[10], a[14]); SQRADDAC(a[11], a[13]); SQRADDDB; SQRADD(a[12], a[12]);
                     +   COMBA_STORE(b[24]);
+                    +
                     +   /* output 25 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[25]); SQRADDAC(a[1], a[24]); SQRADDAC(a[2], a[23]); SQRADDAC(a[3], a[22]); SQRADDAC(a[4], a[21]); SQRADDAC(a[5], a[20]); SQRADDAC(a[6], a[19]); SQRADDAC(a[7], a[18]); SQRADDAC(a[8], a[17]); SQRADDAC(a[9], a[16]); SQRADDAC(a[10], a[15]); SQRADDAC(a[11], a[14]); SQRADDAC(a[12], a[13]); SQRADDDB;
                     +   COMBA_STORE(b[25]);
+                    +
                     +   /* output 26 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[26]); SQRADDAC(a[1], a[25]); SQRADDAC(a[2], a[24]); SQRADDAC(a[3], a[23]); SQRADDAC(a[4], a[22]); SQRADDAC(a[5], a[21]); SQRADDAC(a[6], a[20]); SQRADDAC(a[7], a[19]); SQRADDAC(a[8], a[18]); SQRADDAC(a[9], a[17]); SQRADDAC(a[10], a[16]); SQRADDAC(a[11], a[15]); SQRADDAC(a[12], a[14]); SQRADDDB; SQRADD(a[13], a[13]);
                     +   COMBA_STORE(b[26]);
+                    +
                     +   /* output 27 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[27]); SQRADDAC(a[1], a[26]); SQRADDAC(a[2], a[25]); SQRADDAC(a[3], a[24]); SQRADDAC(a[4], a[23]); SQRADDAC(a[5], a[22]); SQRADDAC(a[6], a[21]); SQRADDAC(a[7], a[20]); SQRADDAC(a[8], a[19]); SQRADDAC(a[9], a[18]); SQRADDAC(a[10], a[17]); SQRADDAC(a[11], a[16]); SQRADDAC(a[12], a[15]); SQRADDAC(a[13], a[14]); SQRADDDB;
                     +   COMBA_STORE(b[27]);
+                    +
                     +   /* output 28 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[28]); SQRADDAC(a[1], a[27]); SQRADDAC(a[2], a[26]); SQRADDAC(a[3], a[25]); SQRADDAC(a[4], a[24]); SQRADDAC(a[5], a[23]); SQRADDAC(a[6], a[22]); SQRADDAC(a[7], a[21]); SQRADDAC(a[8], a[20]); SQRADDAC(a[9], a[19]); SQRADDAC(a[10], a[18]); SQRADDAC(a[11], a[17]); SQRADDAC(a[12], a[16]); SQRADDAC(a[13], a[15]); SQRADDDB; SQRADD(a[14], a[14]);
                     +   COMBA_STORE(b[28]);
+                    +
                     +   /* output 29 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[29]); SQRADDAC(a[1], a[28]); SQRADDAC(a[2], a[27]); SQRADDAC(a[3], a[26]); SQRADDAC(a[4], a[25]); SQRADDAC(a[5], a[24]); SQRADDAC(a[6], a[23]); SQRADDAC(a[7], a[22]); SQRADDAC(a[8], a[21]); SQRADDAC(a[9], a[20]); SQRADDAC(a[10], a[19]); SQRADDAC(a[11], a[18]); SQRADDAC(a[12], a[17]); SQRADDAC(a[13], a[16]); SQRADDAC(a[14], a[15]); SQRADDDB;
                     +   COMBA_STORE(b[29]);
+                    +
                     +   /* output 30 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[30]); SQRADDAC(a[1], a[29]); SQRADDAC(a[2], a[28]); SQRADDAC(a[3], a[27]); SQRADDAC(a[4], a[26]); SQRADDAC(a[5], a[25]); SQRADDAC(a[6], a[24]); SQRADDAC(a[7], a[23]); SQRADDAC(a[8], a[22]); SQRADDAC(a[9], a[21]); SQRADDAC(a[10], a[20]); SQRADDAC(a[11], a[19]); SQRADDAC(a[12], a[18]); SQRADDAC(a[13], a[17]); SQRADDAC(a[14], a[16]); SQRADDDB; SQRADD(a[15], a[15]);
                     +   COMBA_STORE(b[30]);
+                    +
                     +   /* output 31 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[31]); SQRADDAC(a[1], a[30]); SQRADDAC(a[2], a[29]); SQRADDAC(a[3], a[28]); SQRADDAC(a[4], a[27]); SQRADDAC(a[5], a[26]); SQRADDAC(a[6], a[25]); SQRADDAC(a[7], a[24]); SQRADDAC(a[8], a[23]); SQRADDAC(a[9], a[22]); SQRADDAC(a[10], a[21]); SQRADDAC(a[11], a[20]); SQRADDAC(a[12], a[19]); SQRADDAC(a[13], a[18]); SQRADDAC(a[14], a[17]); SQRADDAC(a[15], a[16]); SQRADDDB;
                     +   COMBA_STORE(b[31]);
+                    +
                     +   /* output 32 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[32]); SQRADDAC(a[1], a[31]); SQRADDAC(a[2], a[30]); SQRADDAC(a[3], a[29]); SQRADDAC(a[4], a[28]); SQRADDAC(a[5], a[27]); SQRADDAC(a[6], a[26]); SQRADDAC(a[7], a[25]); SQRADDAC(a[8], a[24]); SQRADDAC(a[9], a[23]); SQRADDAC(a[10], a[22]); SQRADDAC(a[11], a[21]); SQRADDAC(a[12], a[20]); SQRADDAC(a[13], a[19]); SQRADDAC(a[14], a[18]); SQRADDAC(a[15], a[17]); SQRADDDB; SQRADD(a[16], a[16]);
                     +   COMBA_STORE(b[32]);
+                    +
                     +   /* output 33 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[33]); SQRADDAC(a[1], a[32]); SQRADDAC(a[2], a[31]); SQRADDAC(a[3], a[30]); SQRADDAC(a[4], a[29]); SQRADDAC(a[5], a[28]); SQRADDAC(a[6], a[27]); SQRADDAC(a[7], a[26]); SQRADDAC(a[8], a[25]); SQRADDAC(a[9], a[24]); SQRADDAC(a[10], a[23]); SQRADDAC(a[11], a[22]); SQRADDAC(a[12], a[21]); SQRADDAC(a[13], a[20]); SQRADDAC(a[14], a[19]); SQRADDAC(a[15], a[18]); SQRADDAC(a[16], a[17]); SQRADDDB;
                     +   COMBA_STORE(b[33]);
+                    +
                     +   /* output 34 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[34]); SQRADDAC(a[1], a[33]); SQRADDAC(a[2], a[32]); SQRADDAC(a[3], a[31]); SQRADDAC(a[4], a[30]); SQRADDAC(a[5], a[29]); SQRADDAC(a[6], a[28]); SQRADDAC(a[7], a[27]); SQRADDAC(a[8], a[26]); SQRADDAC(a[9], a[25]); SQRADDAC(a[10], a[24]); SQRADDAC(a[11], a[23]); SQRADDAC(a[12], a[22]); SQRADDAC(a[13], a[21]); SQRADDAC(a[14], a[20]); SQRADDAC(a[15], a[19]); SQRADDAC(a[16], a[18]); SQRADDDB; SQRADD(a[17], a[17]);
                     +   COMBA_STORE(b[34]);
+                    +
                     +   /* output 35 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[35]); SQRADDAC(a[1], a[34]); SQRADDAC(a[2], a[33]); SQRADDAC(a[3], a[32]); SQRADDAC(a[4], a[31]); SQRADDAC(a[5], a[30]); SQRADDAC(a[6], a[29]); SQRADDAC(a[7], a[28]); SQRADDAC(a[8], a[27]); SQRADDAC(a[9], a[26]); SQRADDAC(a[10], a[25]); SQRADDAC(a[11], a[24]); SQRADDAC(a[12], a[23]); SQRADDAC(a[13], a[22]); SQRADDAC(a[14], a[21]); SQRADDAC(a[15], a[20]); SQRADDAC(a[16], a[19]); SQRADDAC(a[17], a[18]); SQRADDDB;
                     +   COMBA_STORE(b[35]);
+                    +
                     +   /* output 36 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[36]); SQRADDAC(a[1], a[35]); SQRADDAC(a[2], a[34]); SQRADDAC(a[3], a[33]); SQRADDAC(a[4], a[32]); SQRADDAC(a[5], a[31]); SQRADDAC(a[6], a[30]); SQRADDAC(a[7], a[29]); SQRADDAC(a[8], a[28]); SQRADDAC(a[9], a[27]); SQRADDAC(a[10], a[26]); SQRADDAC(a[11], a[25]); SQRADDAC(a[12], a[24]); SQRADDAC(a[13], a[23]); SQRADDAC(a[14], a[22]); SQRADDAC(a[15], a[21]); SQRADDAC(a[16], a[20]); SQRADDAC(a[17], a[19]); SQRADDDB; SQRADD(a[18], a[18]);
                     +   COMBA_STORE(b[36]);
+                    +
                     +   /* output 37 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[37]); SQRADDAC(a[1], a[36]); SQRADDAC(a[2], a[35]); SQRADDAC(a[3], a[34]); SQRADDAC(a[4], a[33]); SQRADDAC(a[5], a[32]); SQRADDAC(a[6], a[31]); SQRADDAC(a[7], a[30]); SQRADDAC(a[8], a[29]); SQRADDAC(a[9], a[28]); SQRADDAC(a[10], a[27]); SQRADDAC(a[11], a[26]); SQRADDAC(a[12], a[25]); SQRADDAC(a[13], a[24]); SQRADDAC(a[14], a[23]); SQRADDAC(a[15], a[22]); SQRADDAC(a[16], a[21]); SQRADDAC(a[17], a[20]); SQRADDAC(a[18], a[19]); SQRADDDB;
                     +   COMBA_STORE(b[37]);
+                    +
                     +   /* output 38 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[38]); SQRADDAC(a[1], a[37]); SQRADDAC(a[2], a[36]); SQRADDAC(a[3], a[35]); SQRADDAC(a[4], a[34]); SQRADDAC(a[5], a[33]); SQRADDAC(a[6], a[32]); SQRADDAC(a[7], a[31]); SQRADDAC(a[8], a[30]); SQRADDAC(a[9], a[29]); SQRADDAC(a[10], a[28]); SQRADDAC(a[11], a[27]); SQRADDAC(a[12], a[26]); SQRADDAC(a[13], a[25]); SQRADDAC(a[14], a[24]); SQRADDAC(a[15], a[23]); SQRADDAC(a[16], a[22]); SQRADDAC(a[17], a[21]); SQRADDAC(a[18], a[20]); SQRADDDB; SQRADD(a[19], a[19]);
                     +   COMBA_STORE(b[38]);
+                    +
                     +   /* output 39 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[39]); SQRADDAC(a[1], a[38]); SQRADDAC(a[2], a[37]); SQRADDAC(a[3], a[36]); SQRADDAC(a[4], a[35]); SQRADDAC(a[5], a[34]); SQRADDAC(a[6], a[33]); SQRADDAC(a[7], a[32]); SQRADDAC(a[8], a[31]); SQRADDAC(a[9], a[30]); SQRADDAC(a[10], a[29]); SQRADDAC(a[11], a[28]); SQRADDAC(a[12], a[27]); SQRADDAC(a[13], a[26]); SQRADDAC(a[14], a[25]); SQRADDAC(a[15], a[24]); SQRADDAC(a[16], a[23]); SQRADDAC(a[17], a[22]); SQRADDAC(a[18], a[21]); SQRADDAC(a[19], a[20]); SQRADDDB;
                     +   COMBA_STORE(b[39]);
+                    +
                     +   /* output 40 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[40]); SQRADDAC(a[1], a[39]); SQRADDAC(a[2], a[38]); SQRADDAC(a[3], a[37]); SQRADDAC(a[4], a[36]); SQRADDAC(a[5], a[35]); SQRADDAC(a[6], a[34]); SQRADDAC(a[7], a[33]); SQRADDAC(a[8], a[32]); SQRADDAC(a[9], a[31]); SQRADDAC(a[10], a[30]); SQRADDAC(a[11], a[29]); SQRADDAC(a[12], a[28]); SQRADDAC(a[13], a[27]); SQRADDAC(a[14], a[26]); SQRADDAC(a[15], a[25]); SQRADDAC(a[16], a[24]); SQRADDAC(a[17], a[23]); SQRADDAC(a[18], a[22]); SQRADDAC(a[19], a[21]); SQRADDDB; SQRADD(a[20], a[20]);
                     +   COMBA_STORE(b[40]);
+                    +
                     +   /* output 41 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[41]); SQRADDAC(a[1], a[40]); SQRADDAC(a[2], a[39]); SQRADDAC(a[3], a[38]); SQRADDAC(a[4], a[37]); SQRADDAC(a[5], a[36]); SQRADDAC(a[6], a[35]); SQRADDAC(a[7], a[34]); SQRADDAC(a[8], a[33]); SQRADDAC(a[9], a[32]); SQRADDAC(a[10], a[31]); SQRADDAC(a[11], a[30]); SQRADDAC(a[12], a[29]); SQRADDAC(a[13], a[28]); SQRADDAC(a[14], a[27]); SQRADDAC(a[15], a[26]); SQRADDAC(a[16], a[25]); SQRADDAC(a[17], a[24]); SQRADDAC(a[18], a[23]); SQRADDAC(a[19], a[22]); SQRADDAC(a[20], a[21]); SQRADDDB;
                     +   COMBA_STORE(b[41]);
+                    +
                     +   /* output 42 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[42]); SQRADDAC(a[1], a[41]); SQRADDAC(a[2], a[40]); SQRADDAC(a[3], a[39]); SQRADDAC(a[4], a[38]); SQRADDAC(a[5], a[37]); SQRADDAC(a[6], a[36]); SQRADDAC(a[7], a[35]); SQRADDAC(a[8], a[34]); SQRADDAC(a[9], a[33]); SQRADDAC(a[10], a[32]); SQRADDAC(a[11], a[31]); SQRADDAC(a[12], a[30]); SQRADDAC(a[13], a[29]); SQRADDAC(a[14], a[28]); SQRADDAC(a[15], a[27]); SQRADDAC(a[16], a[26]); SQRADDAC(a[17], a[25]); SQRADDAC(a[18], a[24]); SQRADDAC(a[19], a[23]); SQRADDAC(a[20], a[22]); SQRADDDB; SQRADD(a[21], a[21]);
                     +   COMBA_STORE(b[42]);
+                    +
                     +   /* output 43 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[43]); SQRADDAC(a[1], a[42]); SQRADDAC(a[2], a[41]); SQRADDAC(a[3], a[40]); SQRADDAC(a[4], a[39]); SQRADDAC(a[5], a[38]); SQRADDAC(a[6], a[37]); SQRADDAC(a[7], a[36]); SQRADDAC(a[8], a[35]); SQRADDAC(a[9], a[34]); SQRADDAC(a[10], a[33]); SQRADDAC(a[11], a[32]); SQRADDAC(a[12], a[31]); SQRADDAC(a[13], a[30]); SQRADDAC(a[14], a[29]); SQRADDAC(a[15], a[28]); SQRADDAC(a[16], a[27]); SQRADDAC(a[17], a[26]); SQRADDAC(a[18], a[25]); SQRADDAC(a[19], a[24]); SQRADDAC(a[20], a[23]); SQRADDAC(a[21], a[22]); SQRADDDB;
                     +   COMBA_STORE(b[43]);
+                    +
                     +   /* output 44 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[44]); SQRADDAC(a[1], a[43]); SQRADDAC(a[2], a[42]); SQRADDAC(a[3], a[41]); SQRADDAC(a[4], a[40]); SQRADDAC(a[5], a[39]); SQRADDAC(a[6], a[38]); SQRADDAC(a[7], a[37]); SQRADDAC(a[8], a[36]); SQRADDAC(a[9], a[35]); SQRADDAC(a[10], a[34]); SQRADDAC(a[11], a[33]); SQRADDAC(a[12], a[32]); SQRADDAC(a[13], a[31]); SQRADDAC(a[14], a[30]); SQRADDAC(a[15], a[29]); SQRADDAC(a[16], a[28]); SQRADDAC(a[17], a[27]); SQRADDAC(a[18], a[26]); SQRADDAC(a[19], a[25]); SQRADDAC(a[20], a[24]); SQRADDAC(a[21], a[23]); SQRADDDB; SQRADD(a[22], a[22]);
                     +   COMBA_STORE(b[44]);
+                    +
                     +   /* output 45 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[45]); SQRADDAC(a[1], a[44]); SQRADDAC(a[2], a[43]); SQRADDAC(a[3], a[42]); SQRADDAC(a[4], a[41]); SQRADDAC(a[5], a[40]); SQRADDAC(a[6], a[39]); SQRADDAC(a[7], a[38]); SQRADDAC(a[8], a[37]); SQRADDAC(a[9], a[36]); SQRADDAC(a[10], a[35]); SQRADDAC(a[11], a[34]); SQRADDAC(a[12], a[33]); SQRADDAC(a[13], a[32]); SQRADDAC(a[14], a[31]); SQRADDAC(a[15], a[30]); SQRADDAC(a[16], a[29]); SQRADDAC(a[17], a[28]); SQRADDAC(a[18], a[27]); SQRADDAC(a[19], a[26]); SQRADDAC(a[20], a[25]); SQRADDAC(a[21], a[24]); SQRADDAC(a[22], a[23]); SQRADDDB;
                     +   COMBA_STORE(b[45]);
+                    +
                     +   /* output 46 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[46]); SQRADDAC(a[1], a[45]); SQRADDAC(a[2], a[44]); SQRADDAC(a[3], a[43]); SQRADDAC(a[4], a[42]); SQRADDAC(a[5], a[41]); SQRADDAC(a[6], a[40]); SQRADDAC(a[7], a[39]); SQRADDAC(a[8], a[38]); SQRADDAC(a[9], a[37]); SQRADDAC(a[10], a[36]); SQRADDAC(a[11], a[35]); SQRADDAC(a[12], a[34]); SQRADDAC(a[13], a[33]); SQRADDAC(a[14], a[32]); SQRADDAC(a[15], a[31]); SQRADDAC(a[16], a[30]); SQRADDAC(a[17], a[29]); SQRADDAC(a[18], a[28]); SQRADDAC(a[19], a[27]); SQRADDAC(a[20], a[26]); SQRADDAC(a[21], a[25]); SQRADDAC(a[22], a[24]); SQRADDDB; SQRADD(a[23], a[23]);
                     +   COMBA_STORE(b[46]);
+                    +
                     +   /* output 47 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[47]); SQRADDAC(a[1], a[46]); SQRADDAC(a[2], a[45]); SQRADDAC(a[3], a[44]); SQRADDAC(a[4], a[43]); SQRADDAC(a[5], a[42]); SQRADDAC(a[6], a[41]); SQRADDAC(a[7], a[40]); SQRADDAC(a[8], a[39]); SQRADDAC(a[9], a[38]); SQRADDAC(a[10], a[37]); SQRADDAC(a[11], a[36]); SQRADDAC(a[12], a[35]); SQRADDAC(a[13], a[34]); SQRADDAC(a[14], a[33]); SQRADDAC(a[15], a[32]); SQRADDAC(a[16], a[31]); SQRADDAC(a[17], a[30]); SQRADDAC(a[18], a[29]); SQRADDAC(a[19], a[28]); SQRADDAC(a[20], a[27]); SQRADDAC(a[21], a[26]); SQRADDAC(a[22], a[25]); SQRADDAC(a[23], a[24]); SQRADDDB;
                     +   COMBA_STORE(b[47]);
+                    +
                     +   /* output 48 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[1], a[47]); SQRADDAC(a[2], a[46]); SQRADDAC(a[3], a[45]); SQRADDAC(a[4], a[44]); SQRADDAC(a[5], a[43]); SQRADDAC(a[6], a[42]); SQRADDAC(a[7], a[41]); SQRADDAC(a[8], a[40]); SQRADDAC(a[9], a[39]); SQRADDAC(a[10], a[38]); SQRADDAC(a[11], a[37]); SQRADDAC(a[12], a[36]); SQRADDAC(a[13], a[35]); SQRADDAC(a[14], a[34]); SQRADDAC(a[15], a[33]); SQRADDAC(a[16], a[32]); SQRADDAC(a[17], a[31]); SQRADDAC(a[18], a[30]); SQRADDAC(a[19], a[29]); SQRADDAC(a[20], a[28]); SQRADDAC(a[21], a[27]); SQRADDAC(a[22], a[26]); SQRADDAC(a[23], a[25]); SQRADDDB; SQRADD(a[24], a[24]);
                     +   COMBA_STORE(b[48]);
+                    +
                     +   /* output 49 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[2], a[47]); SQRADDAC(a[3], a[46]); SQRADDAC(a[4], a[45]); SQRADDAC(a[5], a[44]); SQRADDAC(a[6], a[43]); SQRADDAC(a[7], a[42]); SQRADDAC(a[8], a[41]); SQRADDAC(a[9], a[40]); SQRADDAC(a[10], a[39]); SQRADDAC(a[11], a[38]); SQRADDAC(a[12], a[37]); SQRADDAC(a[13], a[36]); SQRADDAC(a[14], a[35]); SQRADDAC(a[15], a[34]); SQRADDAC(a[16], a[33]); SQRADDAC(a[17], a[32]); SQRADDAC(a[18], a[31]); SQRADDAC(a[19], a[30]); SQRADDAC(a[20], a[29]); SQRADDAC(a[21], a[28]); SQRADDAC(a[22], a[27]); SQRADDAC(a[23], a[26]); SQRADDAC(a[24], a[25]); SQRADDDB;
                     +   COMBA_STORE(b[49]);
+                    +
                     +   /* output 50 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[3], a[47]); SQRADDAC(a[4], a[46]); SQRADDAC(a[5], a[45]); SQRADDAC(a[6], a[44]); SQRADDAC(a[7], a[43]); SQRADDAC(a[8], a[42]); SQRADDAC(a[9], a[41]); SQRADDAC(a[10], a[40]); SQRADDAC(a[11], a[39]); SQRADDAC(a[12], a[38]); SQRADDAC(a[13], a[37]); SQRADDAC(a[14], a[36]); SQRADDAC(a[15], a[35]); SQRADDAC(a[16], a[34]); SQRADDAC(a[17], a[33]); SQRADDAC(a[18], a[32]); SQRADDAC(a[19], a[31]); SQRADDAC(a[20], a[30]); SQRADDAC(a[21], a[29]); SQRADDAC(a[22], a[28]); SQRADDAC(a[23], a[27]); SQRADDAC(a[24], a[26]); SQRADDDB; SQRADD(a[25], a[25]);
                     +   COMBA_STORE(b[50]);
+                    +
                     +   /* output 51 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[4], a[47]); SQRADDAC(a[5], a[46]); SQRADDAC(a[6], a[45]); SQRADDAC(a[7], a[44]); SQRADDAC(a[8], a[43]); SQRADDAC(a[9], a[42]); SQRADDAC(a[10], a[41]); SQRADDAC(a[11], a[40]); SQRADDAC(a[12], a[39]); SQRADDAC(a[13], a[38]); SQRADDAC(a[14], a[37]); SQRADDAC(a[15], a[36]); SQRADDAC(a[16], a[35]); SQRADDAC(a[17], a[34]); SQRADDAC(a[18], a[33]); SQRADDAC(a[19], a[32]); SQRADDAC(a[20], a[31]); SQRADDAC(a[21], a[30]); SQRADDAC(a[22], a[29]); SQRADDAC(a[23], a[28]); SQRADDAC(a[24], a[27]); SQRADDAC(a[25], a[26]); SQRADDDB;
                     +   COMBA_STORE(b[51]);
+                    +
                     +   /* output 52 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[5], a[47]); SQRADDAC(a[6], a[46]); SQRADDAC(a[7], a[45]); SQRADDAC(a[8], a[44]); SQRADDAC(a[9], a[43]); SQRADDAC(a[10], a[42]); SQRADDAC(a[11], a[41]); SQRADDAC(a[12], a[40]); SQRADDAC(a[13], a[39]); SQRADDAC(a[14], a[38]); SQRADDAC(a[15], a[37]); SQRADDAC(a[16], a[36]); SQRADDAC(a[17], a[35]); SQRADDAC(a[18], a[34]); SQRADDAC(a[19], a[33]); SQRADDAC(a[20], a[32]); SQRADDAC(a[21], a[31]); SQRADDAC(a[22], a[30]); SQRADDAC(a[23], a[29]); SQRADDAC(a[24], a[28]); SQRADDAC(a[25], a[27]); SQRADDDB; SQRADD(a[26], a[26]);
                     +   COMBA_STORE(b[52]);
+                    +
                     +   /* output 53 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[6], a[47]); SQRADDAC(a[7], a[46]); SQRADDAC(a[8], a[45]); SQRADDAC(a[9], a[44]); SQRADDAC(a[10], a[43]); SQRADDAC(a[11], a[42]); SQRADDAC(a[12], a[41]); SQRADDAC(a[13], a[40]); SQRADDAC(a[14], a[39]); SQRADDAC(a[15], a[38]); SQRADDAC(a[16], a[37]); SQRADDAC(a[17], a[36]); SQRADDAC(a[18], a[35]); SQRADDAC(a[19], a[34]); SQRADDAC(a[20], a[33]); SQRADDAC(a[21], a[32]); SQRADDAC(a[22], a[31]); SQRADDAC(a[23], a[30]); SQRADDAC(a[24], a[29]); SQRADDAC(a[25], a[28]); SQRADDAC(a[26], a[27]); SQRADDDB;
                     +   COMBA_STORE(b[53]);
+                    +
                     +   /* output 54 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[7], a[47]); SQRADDAC(a[8], a[46]); SQRADDAC(a[9], a[45]); SQRADDAC(a[10], a[44]); SQRADDAC(a[11], a[43]); SQRADDAC(a[12], a[42]); SQRADDAC(a[13], a[41]); SQRADDAC(a[14], a[40]); SQRADDAC(a[15], a[39]); SQRADDAC(a[16], a[38]); SQRADDAC(a[17], a[37]); SQRADDAC(a[18], a[36]); SQRADDAC(a[19], a[35]); SQRADDAC(a[20], a[34]); SQRADDAC(a[21], a[33]); SQRADDAC(a[22], a[32]); SQRADDAC(a[23], a[31]); SQRADDAC(a[24], a[30]); SQRADDAC(a[25], a[29]); SQRADDAC(a[26], a[28]); SQRADDDB; SQRADD(a[27], a[27]);
                     +   COMBA_STORE(b[54]);
+                    +
                     +   /* output 55 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[8], a[47]); SQRADDAC(a[9], a[46]); SQRADDAC(a[10], a[45]); SQRADDAC(a[11], a[44]); SQRADDAC(a[12], a[43]); SQRADDAC(a[13], a[42]); SQRADDAC(a[14], a[41]); SQRADDAC(a[15], a[40]); SQRADDAC(a[16], a[39]); SQRADDAC(a[17], a[38]); SQRADDAC(a[18], a[37]); SQRADDAC(a[19], a[36]); SQRADDAC(a[20], a[35]); SQRADDAC(a[21], a[34]); SQRADDAC(a[22], a[33]); SQRADDAC(a[23], a[32]); SQRADDAC(a[24], a[31]); SQRADDAC(a[25], a[30]); SQRADDAC(a[26], a[29]); SQRADDAC(a[27], a[28]); SQRADDDB;
                     +   COMBA_STORE(b[55]);
+                    +
                     +   /* output 56 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[9], a[47]); SQRADDAC(a[10], a[46]); SQRADDAC(a[11], a[45]); SQRADDAC(a[12], a[44]); SQRADDAC(a[13], a[43]); SQRADDAC(a[14], a[42]); SQRADDAC(a[15], a[41]); SQRADDAC(a[16], a[40]); SQRADDAC(a[17], a[39]); SQRADDAC(a[18], a[38]); SQRADDAC(a[19], a[37]); SQRADDAC(a[20], a[36]); SQRADDAC(a[21], a[35]); SQRADDAC(a[22], a[34]); SQRADDAC(a[23], a[33]); SQRADDAC(a[24], a[32]); SQRADDAC(a[25], a[31]); SQRADDAC(a[26], a[30]); SQRADDAC(a[27], a[29]); SQRADDDB; SQRADD(a[28], a[28]);
                     +   COMBA_STORE(b[56]);
+                    +
                     +   /* output 57 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[10], a[47]); SQRADDAC(a[11], a[46]); SQRADDAC(a[12], a[45]); SQRADDAC(a[13], a[44]); SQRADDAC(a[14], a[43]); SQRADDAC(a[15], a[42]); SQRADDAC(a[16], a[41]); SQRADDAC(a[17], a[40]); SQRADDAC(a[18], a[39]); SQRADDAC(a[19], a[38]); SQRADDAC(a[20], a[37]); SQRADDAC(a[21], a[36]); SQRADDAC(a[22], a[35]); SQRADDAC(a[23], a[34]); SQRADDAC(a[24], a[33]); SQRADDAC(a[25], a[32]); SQRADDAC(a[26], a[31]); SQRADDAC(a[27], a[30]); SQRADDAC(a[28], a[29]); SQRADDDB;
                     +   COMBA_STORE(b[57]);
+                    +
                     +   /* output 58 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[11], a[47]); SQRADDAC(a[12], a[46]); SQRADDAC(a[13], a[45]); SQRADDAC(a[14], a[44]); SQRADDAC(a[15], a[43]); SQRADDAC(a[16], a[42]); SQRADDAC(a[17], a[41]); SQRADDAC(a[18], a[40]); SQRADDAC(a[19], a[39]); SQRADDAC(a[20], a[38]); SQRADDAC(a[21], a[37]); SQRADDAC(a[22], a[36]); SQRADDAC(a[23], a[35]); SQRADDAC(a[24], a[34]); SQRADDAC(a[25], a[33]); SQRADDAC(a[26], a[32]); SQRADDAC(a[27], a[31]); SQRADDAC(a[28], a[30]); SQRADDDB; SQRADD(a[29], a[29]);
                     +   COMBA_STORE(b[58]);
+                    +
                     +   /* output 59 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[12], a[47]); SQRADDAC(a[13], a[46]); SQRADDAC(a[14], a[45]); SQRADDAC(a[15], a[44]); SQRADDAC(a[16], a[43]); SQRADDAC(a[17], a[42]); SQRADDAC(a[18], a[41]); SQRADDAC(a[19], a[40]); SQRADDAC(a[20], a[39]); SQRADDAC(a[21], a[38]); SQRADDAC(a[22], a[37]); SQRADDAC(a[23], a[36]); SQRADDAC(a[24], a[35]); SQRADDAC(a[25], a[34]); SQRADDAC(a[26], a[33]); SQRADDAC(a[27], a[32]); SQRADDAC(a[28], a[31]); SQRADDAC(a[29], a[30]); SQRADDDB;
                     +   COMBA_STORE(b[59]);
+                    +
                     +   /* output 60 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[13], a[47]); SQRADDAC(a[14], a[46]); SQRADDAC(a[15], a[45]); SQRADDAC(a[16], a[44]); SQRADDAC(a[17], a[43]); SQRADDAC(a[18], a[42]); SQRADDAC(a[19], a[41]); SQRADDAC(a[20], a[40]); SQRADDAC(a[21], a[39]); SQRADDAC(a[22], a[38]); SQRADDAC(a[23], a[37]); SQRADDAC(a[24], a[36]); SQRADDAC(a[25], a[35]); SQRADDAC(a[26], a[34]); SQRADDAC(a[27], a[33]); SQRADDAC(a[28], a[32]); SQRADDAC(a[29], a[31]); SQRADDDB; SQRADD(a[30], a[30]);
                     +   COMBA_STORE(b[60]);
+                    +
                     +   /* output 61 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[14], a[47]); SQRADDAC(a[15], a[46]); SQRADDAC(a[16], a[45]); SQRADDAC(a[17], a[44]); SQRADDAC(a[18], a[43]); SQRADDAC(a[19], a[42]); SQRADDAC(a[20], a[41]); SQRADDAC(a[21], a[40]); SQRADDAC(a[22], a[39]); SQRADDAC(a[23], a[38]); SQRADDAC(a[24], a[37]); SQRADDAC(a[25], a[36]); SQRADDAC(a[26], a[35]); SQRADDAC(a[27], a[34]); SQRADDAC(a[28], a[33]); SQRADDAC(a[29], a[32]); SQRADDAC(a[30], a[31]); SQRADDDB;
                     +   COMBA_STORE(b[61]);
+                    +
                     +   /* output 62 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[15], a[47]); SQRADDAC(a[16], a[46]); SQRADDAC(a[17], a[45]); SQRADDAC(a[18], a[44]); SQRADDAC(a[19], a[43]); SQRADDAC(a[20], a[42]); SQRADDAC(a[21], a[41]); SQRADDAC(a[22], a[40]); SQRADDAC(a[23], a[39]); SQRADDAC(a[24], a[38]); SQRADDAC(a[25], a[37]); SQRADDAC(a[26], a[36]); SQRADDAC(a[27], a[35]); SQRADDAC(a[28], a[34]); SQRADDAC(a[29], a[33]); SQRADDAC(a[30], a[32]); SQRADDDB; SQRADD(a[31], a[31]);
                     +   COMBA_STORE(b[62]);
+                    +
                     +   /* output 63 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[16], a[47]); SQRADDAC(a[17], a[46]); SQRADDAC(a[18], a[45]); SQRADDAC(a[19], a[44]); SQRADDAC(a[20], a[43]); SQRADDAC(a[21], a[42]); SQRADDAC(a[22], a[41]); SQRADDAC(a[23], a[40]); SQRADDAC(a[24], a[39]); SQRADDAC(a[25], a[38]); SQRADDAC(a[26], a[37]); SQRADDAC(a[27], a[36]); SQRADDAC(a[28], a[35]); SQRADDAC(a[29], a[34]); SQRADDAC(a[30], a[33]); SQRADDAC(a[31], a[32]); SQRADDDB;
                     +   COMBA_STORE(b[63]);
+                    +
                     +   /* output 64 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[17], a[47]); SQRADDAC(a[18], a[46]); SQRADDAC(a[19], a[45]); SQRADDAC(a[20], a[44]); SQRADDAC(a[21], a[43]); SQRADDAC(a[22], a[42]); SQRADDAC(a[23], a[41]); SQRADDAC(a[24], a[40]); SQRADDAC(a[25], a[39]); SQRADDAC(a[26], a[38]); SQRADDAC(a[27], a[37]); SQRADDAC(a[28], a[36]); SQRADDAC(a[29], a[35]); SQRADDAC(a[30], a[34]); SQRADDAC(a[31], a[33]); SQRADDDB; SQRADD(a[32], a[32]);
                     +   COMBA_STORE(b[64]);
+                    +
                     +   /* output 65 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[18], a[47]); SQRADDAC(a[19], a[46]); SQRADDAC(a[20], a[45]); SQRADDAC(a[21], a[44]); SQRADDAC(a[22], a[43]); SQRADDAC(a[23], a[42]); SQRADDAC(a[24], a[41]); SQRADDAC(a[25], a[40]); SQRADDAC(a[26], a[39]); SQRADDAC(a[27], a[38]); SQRADDAC(a[28], a[37]); SQRADDAC(a[29], a[36]); SQRADDAC(a[30], a[35]); SQRADDAC(a[31], a[34]); SQRADDAC(a[32], a[33]); SQRADDDB;
                     +   COMBA_STORE(b[65]);
+                    +
                     +   /* output 66 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[19], a[47]); SQRADDAC(a[20], a[46]); SQRADDAC(a[21], a[45]); SQRADDAC(a[22], a[44]); SQRADDAC(a[23], a[43]); SQRADDAC(a[24], a[42]); SQRADDAC(a[25], a[41]); SQRADDAC(a[26], a[40]); SQRADDAC(a[27], a[39]); SQRADDAC(a[28], a[38]); SQRADDAC(a[29], a[37]); SQRADDAC(a[30], a[36]); SQRADDAC(a[31], a[35]); SQRADDAC(a[32], a[34]); SQRADDDB; SQRADD(a[33], a[33]);
                     +   COMBA_STORE(b[66]);
+                    +
                     +   /* output 67 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[20], a[47]); SQRADDAC(a[21], a[46]); SQRADDAC(a[22], a[45]); SQRADDAC(a[23], a[44]); SQRADDAC(a[24], a[43]); SQRADDAC(a[25], a[42]); SQRADDAC(a[26], a[41]); SQRADDAC(a[27], a[40]); SQRADDAC(a[28], a[39]); SQRADDAC(a[29], a[38]); SQRADDAC(a[30], a[37]); SQRADDAC(a[31], a[36]); SQRADDAC(a[32], a[35]); SQRADDAC(a[33], a[34]); SQRADDDB;
                     +   COMBA_STORE(b[67]);
+                    +
                     +   /* output 68 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[21], a[47]); SQRADDAC(a[22], a[46]); SQRADDAC(a[23], a[45]); SQRADDAC(a[24], a[44]); SQRADDAC(a[25], a[43]); SQRADDAC(a[26], a[42]); SQRADDAC(a[27], a[41]); SQRADDAC(a[28], a[40]); SQRADDAC(a[29], a[39]); SQRADDAC(a[30], a[38]); SQRADDAC(a[31], a[37]); SQRADDAC(a[32], a[36]); SQRADDAC(a[33], a[35]); SQRADDDB; SQRADD(a[34], a[34]);
                     +   COMBA_STORE(b[68]);
+                    +
                     +   /* output 69 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[22], a[47]); SQRADDAC(a[23], a[46]); SQRADDAC(a[24], a[45]); SQRADDAC(a[25], a[44]); SQRADDAC(a[26], a[43]); SQRADDAC(a[27], a[42]); SQRADDAC(a[28], a[41]); SQRADDAC(a[29], a[40]); SQRADDAC(a[30], a[39]); SQRADDAC(a[31], a[38]); SQRADDAC(a[32], a[37]); SQRADDAC(a[33], a[36]); SQRADDAC(a[34], a[35]); SQRADDDB;
                     +   COMBA_STORE(b[69]);
+                    +
                     +   /* output 70 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[23], a[47]); SQRADDAC(a[24], a[46]); SQRADDAC(a[25], a[45]); SQRADDAC(a[26], a[44]); SQRADDAC(a[27], a[43]); SQRADDAC(a[28], a[42]); SQRADDAC(a[29], a[41]); SQRADDAC(a[30], a[40]); SQRADDAC(a[31], a[39]); SQRADDAC(a[32], a[38]); SQRADDAC(a[33], a[37]); SQRADDAC(a[34], a[36]); SQRADDDB; SQRADD(a[35], a[35]);
                     +   COMBA_STORE(b[70]);
+                    +
                     +   /* output 71 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[24], a[47]); SQRADDAC(a[25], a[46]); SQRADDAC(a[26], a[45]); SQRADDAC(a[27], a[44]); SQRADDAC(a[28], a[43]); SQRADDAC(a[29], a[42]); SQRADDAC(a[30], a[41]); SQRADDAC(a[31], a[40]); SQRADDAC(a[32], a[39]); SQRADDAC(a[33], a[38]); SQRADDAC(a[34], a[37]); SQRADDAC(a[35], a[36]); SQRADDDB;
                     +   COMBA_STORE(b[71]);
+                    +
                     +   /* output 72 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[25], a[47]); SQRADDAC(a[26], a[46]); SQRADDAC(a[27], a[45]); SQRADDAC(a[28], a[44]); SQRADDAC(a[29], a[43]); SQRADDAC(a[30], a[42]); SQRADDAC(a[31], a[41]); SQRADDAC(a[32], a[40]); SQRADDAC(a[33], a[39]); SQRADDAC(a[34], a[38]); SQRADDAC(a[35], a[37]); SQRADDDB; SQRADD(a[36], a[36]);
                     +   COMBA_STORE(b[72]);
+                    +
                     +   /* output 73 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[26], a[47]); SQRADDAC(a[27], a[46]); SQRADDAC(a[28], a[45]); SQRADDAC(a[29], a[44]); SQRADDAC(a[30], a[43]); SQRADDAC(a[31], a[42]); SQRADDAC(a[32], a[41]); SQRADDAC(a[33], a[40]); SQRADDAC(a[34], a[39]); SQRADDAC(a[35], a[38]); SQRADDAC(a[36], a[37]); SQRADDDB;
                     +   COMBA_STORE(b[73]);
+                    +
                     +   /* output 74 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[27], a[47]); SQRADDAC(a[28], a[46]); SQRADDAC(a[29], a[45]); SQRADDAC(a[30], a[44]); SQRADDAC(a[31], a[43]); SQRADDAC(a[32], a[42]); SQRADDAC(a[33], a[41]); SQRADDAC(a[34], a[40]); SQRADDAC(a[35], a[39]); SQRADDAC(a[36], a[38]); SQRADDDB; SQRADD(a[37], a[37]);
                     +   COMBA_STORE(b[74]);
+                    +
                     +   /* output 75 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[28], a[47]); SQRADDAC(a[29], a[46]); SQRADDAC(a[30], a[45]); SQRADDAC(a[31], a[44]); SQRADDAC(a[32], a[43]); SQRADDAC(a[33], a[42]); SQRADDAC(a[34], a[41]); SQRADDAC(a[35], a[40]); SQRADDAC(a[36], a[39]); SQRADDAC(a[37], a[38]); SQRADDDB;
                     +   COMBA_STORE(b[75]);
+                    +
                     +   /* output 76 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[29], a[47]); SQRADDAC(a[30], a[46]); SQRADDAC(a[31], a[45]); SQRADDAC(a[32], a[44]); SQRADDAC(a[33], a[43]); SQRADDAC(a[34], a[42]); SQRADDAC(a[35], a[41]); SQRADDAC(a[36], a[40]); SQRADDAC(a[37], a[39]); SQRADDDB; SQRADD(a[38], a[38]);
                     +   COMBA_STORE(b[76]);
+                    +
                     +   /* output 77 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[30], a[47]); SQRADDAC(a[31], a[46]); SQRADDAC(a[32], a[45]); SQRADDAC(a[33], a[44]); SQRADDAC(a[34], a[43]); SQRADDAC(a[35], a[42]); SQRADDAC(a[36], a[41]); SQRADDAC(a[37], a[40]); SQRADDAC(a[38], a[39]); SQRADDDB;
                     +   COMBA_STORE(b[77]);
+                    +
                     +   /* output 78 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[31], a[47]); SQRADDAC(a[32], a[46]); SQRADDAC(a[33], a[45]); SQRADDAC(a[34], a[44]); SQRADDAC(a[35], a[43]); SQRADDAC(a[36], a[42]); SQRADDAC(a[37], a[41]); SQRADDAC(a[38], a[40]); SQRADDDB; SQRADD(a[39], a[39]);
                     +   COMBA_STORE(b[78]);
+                    +
                     +   /* output 79 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[32], a[47]); SQRADDAC(a[33], a[46]); SQRADDAC(a[34], a[45]); SQRADDAC(a[35], a[44]); SQRADDAC(a[36], a[43]); SQRADDAC(a[37], a[42]); SQRADDAC(a[38], a[41]); SQRADDAC(a[39], a[40]); SQRADDDB;
                     +   COMBA_STORE(b[79]);
+                    +
                     +   /* output 80 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[33], a[47]); SQRADDAC(a[34], a[46]); SQRADDAC(a[35], a[45]); SQRADDAC(a[36], a[44]); SQRADDAC(a[37], a[43]); SQRADDAC(a[38], a[42]); SQRADDAC(a[39], a[41]); SQRADDDB; SQRADD(a[40], a[40]);
                     +   COMBA_STORE(b[80]);
+                    +
                     +   /* output 81 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[34], a[47]); SQRADDAC(a[35], a[46]); SQRADDAC(a[36], a[45]); SQRADDAC(a[37], a[44]); SQRADDAC(a[38], a[43]); SQRADDAC(a[39], a[42]); SQRADDAC(a[40], a[41]); SQRADDDB;
                     +   COMBA_STORE(b[81]);
+                    +
                     +   /* output 82 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[35], a[47]); SQRADDAC(a[36], a[46]); SQRADDAC(a[37], a[45]); SQRADDAC(a[38], a[44]); SQRADDAC(a[39], a[43]); SQRADDAC(a[40], a[42]); SQRADDDB; SQRADD(a[41], a[41]);
                     +   COMBA_STORE(b[82]);
+                    +
                     +   /* output 83 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[36], a[47]); SQRADDAC(a[37], a[46]); SQRADDAC(a[38], a[45]); SQRADDAC(a[39], a[44]); SQRADDAC(a[40], a[43]); SQRADDAC(a[41], a[42]); SQRADDDB;
                     +   COMBA_STORE(b[83]);
+                    +
                     +   /* output 84 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[37], a[47]); SQRADDAC(a[38], a[46]); SQRADDAC(a[39], a[45]); SQRADDAC(a[40], a[44]); SQRADDAC(a[41], a[43]); SQRADDDB; SQRADD(a[42], a[42]);
                     +   COMBA_STORE(b[84]);
+                    +
                     +   /* output 85 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[38], a[47]); SQRADDAC(a[39], a[46]); SQRADDAC(a[40], a[45]); SQRADDAC(a[41], a[44]); SQRADDAC(a[42], a[43]); SQRADDDB;
                     +   COMBA_STORE(b[85]);
+                    +
                     +   /* output 86 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[39], a[47]); SQRADDAC(a[40], a[46]); SQRADDAC(a[41], a[45]); SQRADDAC(a[42], a[44]); SQRADDDB; SQRADD(a[43], a[43]);
                     +   COMBA_STORE(b[86]);
+                    +
                     +   /* output 87 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[40], a[47]); SQRADDAC(a[41], a[46]); SQRADDAC(a[42], a[45]); SQRADDAC(a[43], a[44]); SQRADDDB;
                     +   COMBA_STORE(b[87]);
+                    +
                     +   /* output 88 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[41], a[47]); SQRADDAC(a[42], a[46]); SQRADDAC(a[43], a[45]); SQRADDDB; SQRADD(a[44], a[44]);
                     +   COMBA_STORE(b[88]);
+                    +
                     +   /* output 89 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[42], a[47]); SQRADDAC(a[43], a[46]); SQRADDAC(a[44], a[45]); SQRADDDB;
                     +   COMBA_STORE(b[89]);
+                    +
                     +   /* output 90 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[43], a[47]); SQRADD2(a[44], a[46]); SQRADD(a[45], a[45]);
                     +   COMBA_STORE(b[90]);
+                    +
                     +   /* output 91 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[44], a[47]); SQRADD2(a[45], a[46]);
                     +   COMBA_STORE(b[91]);
+                    +
                     +   /* output 92 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[45], a[47]); SQRADD(a[46], a[46]);
                     +   COMBA_STORE(b[92]);
+                    +
                     +   /* output 93 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[46], a[47]);
                     +   COMBA_STORE(b[93]);
+                    +
                     +   /* output 94 */
                     +   CARRY_FORWARD;
                     +   SQRADD(a[47], a[47]);
                     +   COMBA_STORE(b[94]);
                     +   COMBA_STORE2(b[95]);
                     +   COMBA_FINI;
+                    +
                     +   B->used = 96;
                     +   B->sign = FP_ZPOS;
                     +   memcpy(B->dp, b, 96 * sizeof(fp_digit));
                     +   fp_clamp(B);
+                     }
+                    -
                      #endif
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_sub_d.c,v $ */
                     -/* $Revision: 1.5 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
                     -/* End: bn_mp_sub_d.c */
                     +/* $Source: /cvs/libtom/tomsfastmath/src/sqr/fp_sqr_comba_48.c,v $ */
                     +/* $Revision: 1.2 $ */
                     +/* $Date: 2007/02/17 03:39:01 $ */
                     -/* Start: bn_mp_submod.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_SUBMOD_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     - *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     - */
                     +/* End: fp_sqr_comba_48.c */
                     -/* d = a - b (mod c) */
                     -int
                     -mp_submod (mp_int * a, mp_int * b, mp_int * c, mp_int * d)
                     -{
                     -  int     res;
                     -  mp_int  t;
+                    -
+                    -
                     -  if ((res = mp_init (&t)) != MP_OKAY) {
                     -    return res;
                     -  }
                     +/* Start: fp_sqr_comba_6.c */
                     +#define TFM_DEFINES
                     +#include "fp_sqr_comba.c"
                     -  if ((res = mp_sub (a, b, &t)) != MP_OKAY) {
                     -    mp_clear (&t);
                     -    return res;
                     -  }
                     -  res = mp_mod (&t, c, d);
                     -  mp_clear (&t);
                     -  return res;
                     +#ifdef TFM_SQR6
                     +void fp_sqr_comba6(fp_int *A, fp_int *B)
                     +{
                     +   fp_digit *a, b[12], c0, c1, c2, sc0, sc1, sc2;
                     +#ifdef TFM_ISO
                     +   fp_word tt;
                     +#endif
+                    +
                     +   a = A->dp;
                     +   COMBA_START;
+                    +
                     +   /* clear carries */
                     +   CLEAR_CARRY;
+                    +
                     +   /* output 0 */
                     +   SQRADD(a[0],a[0]);
                     +   COMBA_STORE(b[0]);
+                    +
                     +   /* output 1 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[0], a[1]);
                     +   COMBA_STORE(b[1]);
+                    +
                     +   /* output 2 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[0], a[2]); SQRADD(a[1], a[1]);
                     +   COMBA_STORE(b[2]);
+                    +
                     +   /* output 3 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[0], a[3]); SQRADD2(a[1], a[2]);
                     +   COMBA_STORE(b[3]);
+                    +
                     +   /* output 4 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[0], a[4]); SQRADD2(a[1], a[3]); SQRADD(a[2], a[2]);
                     +   COMBA_STORE(b[4]);
+                    +
                     +   /* output 5 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[5]); SQRADDAC(a[1], a[4]); SQRADDAC(a[2], a[3]); SQRADDDB;
                     +   COMBA_STORE(b[5]);
+                    +
                     +   /* output 6 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[1], a[5]); SQRADD2(a[2], a[4]); SQRADD(a[3], a[3]);
                     +   COMBA_STORE(b[6]);
+                    +
                     +   /* output 7 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[2], a[5]); SQRADD2(a[3], a[4]);
                     +   COMBA_STORE(b[7]);
+                    +
                     +   /* output 8 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[3], a[5]); SQRADD(a[4], a[4]);
                     +   COMBA_STORE(b[8]);
+                    +
                     +   /* output 9 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[4], a[5]);
                     +   COMBA_STORE(b[9]);
+                    +
                     +   /* output 10 */
                     +   CARRY_FORWARD;
                     +   SQRADD(a[5], a[5]);
                     +   COMBA_STORE(b[10]);
                     +   COMBA_STORE2(b[11]);
                     +   COMBA_FINI;
+                    +
                     +   B->used = 12;
                     +   B->sign = FP_ZPOS;
                     +   memcpy(B->dp, b, 12 * sizeof(fp_digit));
                     +   fp_clamp(B);
+                     }
                      #endif
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_submod.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
                     -/* End: bn_mp_submod.c */
                     +/* $Source: /cvs/libtom/tomsfastmath/src/sqr/fp_sqr_comba_6.c,v $ */
                     +/* $Revision: 1.2 $ */
                     +/* $Date: 2007/02/17 03:39:01 $ */
                     -/* Start: bn_mp_to_signed_bin.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_TO_SIGNED_BIN_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     - *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     - */
                     +/* End: fp_sqr_comba_6.c */
                     -/* store in signed [big endian] format */
                     -int mp_to_signed_bin (mp_int * a, unsigned char *b)
                     -{
                     -  int     res;
                     +/* Start: fp_sqr_comba_64.c */
                     +#define TFM_DEFINES
                     +#include "fp_sqr_comba.c"
                     -  if ((res = mp_to_unsigned_bin (a, b + 1)) != MP_OKAY) {
                     -    return res;
                     -  }
                     -  b[0] = (unsigned char) ((a->sign == MP_ZPOS) ? 0 : 1);
                     -  return MP_OKAY;
                     +#ifdef TFM_SQR64
                     +void fp_sqr_comba64(fp_int *A, fp_int *B)
                     +{
                     +   fp_digit *a, b[128], c0, c1, c2, sc0, sc1, sc2;
                     +#ifdef TFM_ISO
                     +   fp_word tt;
                     +#endif
+                    +
                     +   a = A->dp;
                     +   COMBA_START;
+                    +
                     +   /* clear carries */
                     +   CLEAR_CARRY;
+                    +
                     +   /* output 0 */
                     +   SQRADD(a[0],a[0]);
                     +   COMBA_STORE(b[0]);
+                    +
                     +   /* output 1 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[0], a[1]);
                     +   COMBA_STORE(b[1]);
+                    +
                     +   /* output 2 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[0], a[2]); SQRADD(a[1], a[1]);
                     +   COMBA_STORE(b[2]);
+                    +
                     +   /* output 3 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[0], a[3]); SQRADD2(a[1], a[2]);
                     +   COMBA_STORE(b[3]);
+                    +
                     +   /* output 4 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[0], a[4]); SQRADD2(a[1], a[3]); SQRADD(a[2], a[2]);
                     +   COMBA_STORE(b[4]);
+                    +
                     +   /* output 5 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[5]); SQRADDAC(a[1], a[4]); SQRADDAC(a[2], a[3]); SQRADDDB;
                     +   COMBA_STORE(b[5]);
+                    +
                     +   /* output 6 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[6]); SQRADDAC(a[1], a[5]); SQRADDAC(a[2], a[4]); SQRADDDB; SQRADD(a[3], a[3]);
                     +   COMBA_STORE(b[6]);
+                    +
                     +   /* output 7 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[7]); SQRADDAC(a[1], a[6]); SQRADDAC(a[2], a[5]); SQRADDAC(a[3], a[4]); SQRADDDB;
                     +   COMBA_STORE(b[7]);
+                    +
                     +   /* output 8 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[8]); SQRADDAC(a[1], a[7]); SQRADDAC(a[2], a[6]); SQRADDAC(a[3], a[5]); SQRADDDB; SQRADD(a[4], a[4]);
                     +   COMBA_STORE(b[8]);
+                    +
                     +   /* output 9 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[9]); SQRADDAC(a[1], a[8]); SQRADDAC(a[2], a[7]); SQRADDAC(a[3], a[6]); SQRADDAC(a[4], a[5]); SQRADDDB;
                     +   COMBA_STORE(b[9]);
+                    +
                     +   /* output 10 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[10]); SQRADDAC(a[1], a[9]); SQRADDAC(a[2], a[8]); SQRADDAC(a[3], a[7]); SQRADDAC(a[4], a[6]); SQRADDDB; SQRADD(a[5], a[5]);
                     +   COMBA_STORE(b[10]);
+                    +
                     +   /* output 11 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[11]); SQRADDAC(a[1], a[10]); SQRADDAC(a[2], a[9]); SQRADDAC(a[3], a[8]); SQRADDAC(a[4], a[7]); SQRADDAC(a[5], a[6]); SQRADDDB;
                     +   COMBA_STORE(b[11]);
+                    +
                     +   /* output 12 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[12]); SQRADDAC(a[1], a[11]); SQRADDAC(a[2], a[10]); SQRADDAC(a[3], a[9]); SQRADDAC(a[4], a[8]); SQRADDAC(a[5], a[7]); SQRADDDB; SQRADD(a[6], a[6]);
                     +   COMBA_STORE(b[12]);
+                    +
                     +   /* output 13 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[13]); SQRADDAC(a[1], a[12]); SQRADDAC(a[2], a[11]); SQRADDAC(a[3], a[10]); SQRADDAC(a[4], a[9]); SQRADDAC(a[5], a[8]); SQRADDAC(a[6], a[7]); SQRADDDB;
                     +   COMBA_STORE(b[13]);
+                    +
                     +   /* output 14 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[14]); SQRADDAC(a[1], a[13]); SQRADDAC(a[2], a[12]); SQRADDAC(a[3], a[11]); SQRADDAC(a[4], a[10]); SQRADDAC(a[5], a[9]); SQRADDAC(a[6], a[8]); SQRADDDB; SQRADD(a[7], a[7]);
                     +   COMBA_STORE(b[14]);
+                    +
                     +   /* output 15 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[15]); SQRADDAC(a[1], a[14]); SQRADDAC(a[2], a[13]); SQRADDAC(a[3], a[12]); SQRADDAC(a[4], a[11]); SQRADDAC(a[5], a[10]); SQRADDAC(a[6], a[9]); SQRADDAC(a[7], a[8]); SQRADDDB;
                     +   COMBA_STORE(b[15]);
+                    +
                     +   /* output 16 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[16]); SQRADDAC(a[1], a[15]); SQRADDAC(a[2], a[14]); SQRADDAC(a[3], a[13]); SQRADDAC(a[4], a[12]); SQRADDAC(a[5], a[11]); SQRADDAC(a[6], a[10]); SQRADDAC(a[7], a[9]); SQRADDDB; SQRADD(a[8], a[8]);
                     +   COMBA_STORE(b[16]);
+                    +
                     +   /* output 17 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[17]); SQRADDAC(a[1], a[16]); SQRADDAC(a[2], a[15]); SQRADDAC(a[3], a[14]); SQRADDAC(a[4], a[13]); SQRADDAC(a[5], a[12]); SQRADDAC(a[6], a[11]); SQRADDAC(a[7], a[10]); SQRADDAC(a[8], a[9]); SQRADDDB;
                     +   COMBA_STORE(b[17]);
+                    +
                     +   /* output 18 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[18]); SQRADDAC(a[1], a[17]); SQRADDAC(a[2], a[16]); SQRADDAC(a[3], a[15]); SQRADDAC(a[4], a[14]); SQRADDAC(a[5], a[13]); SQRADDAC(a[6], a[12]); SQRADDAC(a[7], a[11]); SQRADDAC(a[8], a[10]); SQRADDDB; SQRADD(a[9], a[9]);
                     +   COMBA_STORE(b[18]);
+                    +
                     +   /* output 19 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[19]); SQRADDAC(a[1], a[18]); SQRADDAC(a[2], a[17]); SQRADDAC(a[3], a[16]); SQRADDAC(a[4], a[15]); SQRADDAC(a[5], a[14]); SQRADDAC(a[6], a[13]); SQRADDAC(a[7], a[12]); SQRADDAC(a[8], a[11]); SQRADDAC(a[9], a[10]); SQRADDDB;
                     +   COMBA_STORE(b[19]);
+                    +
                     +   /* output 20 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[20]); SQRADDAC(a[1], a[19]); SQRADDAC(a[2], a[18]); SQRADDAC(a[3], a[17]); SQRADDAC(a[4], a[16]); SQRADDAC(a[5], a[15]); SQRADDAC(a[6], a[14]); SQRADDAC(a[7], a[13]); SQRADDAC(a[8], a[12]); SQRADDAC(a[9], a[11]); SQRADDDB; SQRADD(a[10], a[10]);
                     +   COMBA_STORE(b[20]);
+                    +
                     +   /* output 21 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[21]); SQRADDAC(a[1], a[20]); SQRADDAC(a[2], a[19]); SQRADDAC(a[3], a[18]); SQRADDAC(a[4], a[17]); SQRADDAC(a[5], a[16]); SQRADDAC(a[6], a[15]); SQRADDAC(a[7], a[14]); SQRADDAC(a[8], a[13]); SQRADDAC(a[9], a[12]); SQRADDAC(a[10], a[11]); SQRADDDB;
                     +   COMBA_STORE(b[21]);
+                    +
                     +   /* output 22 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[22]); SQRADDAC(a[1], a[21]); SQRADDAC(a[2], a[20]); SQRADDAC(a[3], a[19]); SQRADDAC(a[4], a[18]); SQRADDAC(a[5], a[17]); SQRADDAC(a[6], a[16]); SQRADDAC(a[7], a[15]); SQRADDAC(a[8], a[14]); SQRADDAC(a[9], a[13]); SQRADDAC(a[10], a[12]); SQRADDDB; SQRADD(a[11], a[11]);
                     +   COMBA_STORE(b[22]);
+                    +
                     +   /* output 23 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[23]); SQRADDAC(a[1], a[22]); SQRADDAC(a[2], a[21]); SQRADDAC(a[3], a[20]); SQRADDAC(a[4], a[19]); SQRADDAC(a[5], a[18]); SQRADDAC(a[6], a[17]); SQRADDAC(a[7], a[16]); SQRADDAC(a[8], a[15]); SQRADDAC(a[9], a[14]); SQRADDAC(a[10], a[13]); SQRADDAC(a[11], a[12]); SQRADDDB;
                     +   COMBA_STORE(b[23]);
+                    +
                     +   /* output 24 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[24]); SQRADDAC(a[1], a[23]); SQRADDAC(a[2], a[22]); SQRADDAC(a[3], a[21]); SQRADDAC(a[4], a[20]); SQRADDAC(a[5], a[19]); SQRADDAC(a[6], a[18]); SQRADDAC(a[7], a[17]); SQRADDAC(a[8], a[16]); SQRADDAC(a[9], a[15]); SQRADDAC(a[10], a[14]); SQRADDAC(a[11], a[13]); SQRADDDB; SQRADD(a[12], a[12]);
                     +   COMBA_STORE(b[24]);
+                    +
                     +   /* output 25 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[25]); SQRADDAC(a[1], a[24]); SQRADDAC(a[2], a[23]); SQRADDAC(a[3], a[22]); SQRADDAC(a[4], a[21]); SQRADDAC(a[5], a[20]); SQRADDAC(a[6], a[19]); SQRADDAC(a[7], a[18]); SQRADDAC(a[8], a[17]); SQRADDAC(a[9], a[16]); SQRADDAC(a[10], a[15]); SQRADDAC(a[11], a[14]); SQRADDAC(a[12], a[13]); SQRADDDB;
                     +   COMBA_STORE(b[25]);
+                    +
                     +   /* output 26 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[26]); SQRADDAC(a[1], a[25]); SQRADDAC(a[2], a[24]); SQRADDAC(a[3], a[23]); SQRADDAC(a[4], a[22]); SQRADDAC(a[5], a[21]); SQRADDAC(a[6], a[20]); SQRADDAC(a[7], a[19]); SQRADDAC(a[8], a[18]); SQRADDAC(a[9], a[17]); SQRADDAC(a[10], a[16]); SQRADDAC(a[11], a[15]); SQRADDAC(a[12], a[14]); SQRADDDB; SQRADD(a[13], a[13]);
                     +   COMBA_STORE(b[26]);
+                    +
                     +   /* output 27 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[27]); SQRADDAC(a[1], a[26]); SQRADDAC(a[2], a[25]); SQRADDAC(a[3], a[24]); SQRADDAC(a[4], a[23]); SQRADDAC(a[5], a[22]); SQRADDAC(a[6], a[21]); SQRADDAC(a[7], a[20]); SQRADDAC(a[8], a[19]); SQRADDAC(a[9], a[18]); SQRADDAC(a[10], a[17]); SQRADDAC(a[11], a[16]); SQRADDAC(a[12], a[15]); SQRADDAC(a[13], a[14]); SQRADDDB;
                     +   COMBA_STORE(b[27]);
+                    +
                     +   /* output 28 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[28]); SQRADDAC(a[1], a[27]); SQRADDAC(a[2], a[26]); SQRADDAC(a[3], a[25]); SQRADDAC(a[4], a[24]); SQRADDAC(a[5], a[23]); SQRADDAC(a[6], a[22]); SQRADDAC(a[7], a[21]); SQRADDAC(a[8], a[20]); SQRADDAC(a[9], a[19]); SQRADDAC(a[10], a[18]); SQRADDAC(a[11], a[17]); SQRADDAC(a[12], a[16]); SQRADDAC(a[13], a[15]); SQRADDDB; SQRADD(a[14], a[14]);
                     +   COMBA_STORE(b[28]);
+                    +
                     +   /* output 29 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[29]); SQRADDAC(a[1], a[28]); SQRADDAC(a[2], a[27]); SQRADDAC(a[3], a[26]); SQRADDAC(a[4], a[25]); SQRADDAC(a[5], a[24]); SQRADDAC(a[6], a[23]); SQRADDAC(a[7], a[22]); SQRADDAC(a[8], a[21]); SQRADDAC(a[9], a[20]); SQRADDAC(a[10], a[19]); SQRADDAC(a[11], a[18]); SQRADDAC(a[12], a[17]); SQRADDAC(a[13], a[16]); SQRADDAC(a[14], a[15]); SQRADDDB;
                     +   COMBA_STORE(b[29]);
+                    +
                     +   /* output 30 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[30]); SQRADDAC(a[1], a[29]); SQRADDAC(a[2], a[28]); SQRADDAC(a[3], a[27]); SQRADDAC(a[4], a[26]); SQRADDAC(a[5], a[25]); SQRADDAC(a[6], a[24]); SQRADDAC(a[7], a[23]); SQRADDAC(a[8], a[22]); SQRADDAC(a[9], a[21]); SQRADDAC(a[10], a[20]); SQRADDAC(a[11], a[19]); SQRADDAC(a[12], a[18]); SQRADDAC(a[13], a[17]); SQRADDAC(a[14], a[16]); SQRADDDB; SQRADD(a[15], a[15]);
                     +   COMBA_STORE(b[30]);
+                    +
                     +   /* output 31 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[31]); SQRADDAC(a[1], a[30]); SQRADDAC(a[2], a[29]); SQRADDAC(a[3], a[28]); SQRADDAC(a[4], a[27]); SQRADDAC(a[5], a[26]); SQRADDAC(a[6], a[25]); SQRADDAC(a[7], a[24]); SQRADDAC(a[8], a[23]); SQRADDAC(a[9], a[22]); SQRADDAC(a[10], a[21]); SQRADDAC(a[11], a[20]); SQRADDAC(a[12], a[19]); SQRADDAC(a[13], a[18]); SQRADDAC(a[14], a[17]); SQRADDAC(a[15], a[16]); SQRADDDB;
                     +   COMBA_STORE(b[31]);
+                    +
                     +   /* output 32 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[32]); SQRADDAC(a[1], a[31]); SQRADDAC(a[2], a[30]); SQRADDAC(a[3], a[29]); SQRADDAC(a[4], a[28]); SQRADDAC(a[5], a[27]); SQRADDAC(a[6], a[26]); SQRADDAC(a[7], a[25]); SQRADDAC(a[8], a[24]); SQRADDAC(a[9], a[23]); SQRADDAC(a[10], a[22]); SQRADDAC(a[11], a[21]); SQRADDAC(a[12], a[20]); SQRADDAC(a[13], a[19]); SQRADDAC(a[14], a[18]); SQRADDAC(a[15], a[17]); SQRADDDB; SQRADD(a[16], a[16]);
                     +   COMBA_STORE(b[32]);
+                    +
                     +   /* output 33 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[33]); SQRADDAC(a[1], a[32]); SQRADDAC(a[2], a[31]); SQRADDAC(a[3], a[30]); SQRADDAC(a[4], a[29]); SQRADDAC(a[5], a[28]); SQRADDAC(a[6], a[27]); SQRADDAC(a[7], a[26]); SQRADDAC(a[8], a[25]); SQRADDAC(a[9], a[24]); SQRADDAC(a[10], a[23]); SQRADDAC(a[11], a[22]); SQRADDAC(a[12], a[21]); SQRADDAC(a[13], a[20]); SQRADDAC(a[14], a[19]); SQRADDAC(a[15], a[18]); SQRADDAC(a[16], a[17]); SQRADDDB;
                     +   COMBA_STORE(b[33]);
+                    +
                     +   /* output 34 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[34]); SQRADDAC(a[1], a[33]); SQRADDAC(a[2], a[32]); SQRADDAC(a[3], a[31]); SQRADDAC(a[4], a[30]); SQRADDAC(a[5], a[29]); SQRADDAC(a[6], a[28]); SQRADDAC(a[7], a[27]); SQRADDAC(a[8], a[26]); SQRADDAC(a[9], a[25]); SQRADDAC(a[10], a[24]); SQRADDAC(a[11], a[23]); SQRADDAC(a[12], a[22]); SQRADDAC(a[13], a[21]); SQRADDAC(a[14], a[20]); SQRADDAC(a[15], a[19]); SQRADDAC(a[16], a[18]); SQRADDDB; SQRADD(a[17], a[17]);
                     +   COMBA_STORE(b[34]);
+                    +
                     +   /* output 35 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[35]); SQRADDAC(a[1], a[34]); SQRADDAC(a[2], a[33]); SQRADDAC(a[3], a[32]); SQRADDAC(a[4], a[31]); SQRADDAC(a[5], a[30]); SQRADDAC(a[6], a[29]); SQRADDAC(a[7], a[28]); SQRADDAC(a[8], a[27]); SQRADDAC(a[9], a[26]); SQRADDAC(a[10], a[25]); SQRADDAC(a[11], a[24]); SQRADDAC(a[12], a[23]); SQRADDAC(a[13], a[22]); SQRADDAC(a[14], a[21]); SQRADDAC(a[15], a[20]); SQRADDAC(a[16], a[19]); SQRADDAC(a[17], a[18]); SQRADDDB;
                     +   COMBA_STORE(b[35]);
+                    +
                     +   /* output 36 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[36]); SQRADDAC(a[1], a[35]); SQRADDAC(a[2], a[34]); SQRADDAC(a[3], a[33]); SQRADDAC(a[4], a[32]); SQRADDAC(a[5], a[31]); SQRADDAC(a[6], a[30]); SQRADDAC(a[7], a[29]); SQRADDAC(a[8], a[28]); SQRADDAC(a[9], a[27]); SQRADDAC(a[10], a[26]); SQRADDAC(a[11], a[25]); SQRADDAC(a[12], a[24]); SQRADDAC(a[13], a[23]); SQRADDAC(a[14], a[22]); SQRADDAC(a[15], a[21]); SQRADDAC(a[16], a[20]); SQRADDAC(a[17], a[19]); SQRADDDB; SQRADD(a[18], a[18]);
                     +   COMBA_STORE(b[36]);
+                    +
                     +   /* output 37 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[37]); SQRADDAC(a[1], a[36]); SQRADDAC(a[2], a[35]); SQRADDAC(a[3], a[34]); SQRADDAC(a[4], a[33]); SQRADDAC(a[5], a[32]); SQRADDAC(a[6], a[31]); SQRADDAC(a[7], a[30]); SQRADDAC(a[8], a[29]); SQRADDAC(a[9], a[28]); SQRADDAC(a[10], a[27]); SQRADDAC(a[11], a[26]); SQRADDAC(a[12], a[25]); SQRADDAC(a[13], a[24]); SQRADDAC(a[14], a[23]); SQRADDAC(a[15], a[22]); SQRADDAC(a[16], a[21]); SQRADDAC(a[17], a[20]); SQRADDAC(a[18], a[19]); SQRADDDB;
                     +   COMBA_STORE(b[37]);
+                    +
                     +   /* output 38 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[38]); SQRADDAC(a[1], a[37]); SQRADDAC(a[2], a[36]); SQRADDAC(a[3], a[35]); SQRADDAC(a[4], a[34]); SQRADDAC(a[5], a[33]); SQRADDAC(a[6], a[32]); SQRADDAC(a[7], a[31]); SQRADDAC(a[8], a[30]); SQRADDAC(a[9], a[29]); SQRADDAC(a[10], a[28]); SQRADDAC(a[11], a[27]); SQRADDAC(a[12], a[26]); SQRADDAC(a[13], a[25]); SQRADDAC(a[14], a[24]); SQRADDAC(a[15], a[23]); SQRADDAC(a[16], a[22]); SQRADDAC(a[17], a[21]); SQRADDAC(a[18], a[20]); SQRADDDB; SQRADD(a[19], a[19]);
                     +   COMBA_STORE(b[38]);
+                    +
                     +   /* output 39 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[39]); SQRADDAC(a[1], a[38]); SQRADDAC(a[2], a[37]); SQRADDAC(a[3], a[36]); SQRADDAC(a[4], a[35]); SQRADDAC(a[5], a[34]); SQRADDAC(a[6], a[33]); SQRADDAC(a[7], a[32]); SQRADDAC(a[8], a[31]); SQRADDAC(a[9], a[30]); SQRADDAC(a[10], a[29]); SQRADDAC(a[11], a[28]); SQRADDAC(a[12], a[27]); SQRADDAC(a[13], a[26]); SQRADDAC(a[14], a[25]); SQRADDAC(a[15], a[24]); SQRADDAC(a[16], a[23]); SQRADDAC(a[17], a[22]); SQRADDAC(a[18], a[21]); SQRADDAC(a[19], a[20]); SQRADDDB;
                     +   COMBA_STORE(b[39]);
+                    +
                     +   /* output 40 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[40]); SQRADDAC(a[1], a[39]); SQRADDAC(a[2], a[38]); SQRADDAC(a[3], a[37]); SQRADDAC(a[4], a[36]); SQRADDAC(a[5], a[35]); SQRADDAC(a[6], a[34]); SQRADDAC(a[7], a[33]); SQRADDAC(a[8], a[32]); SQRADDAC(a[9], a[31]); SQRADDAC(a[10], a[30]); SQRADDAC(a[11], a[29]); SQRADDAC(a[12], a[28]); SQRADDAC(a[13], a[27]); SQRADDAC(a[14], a[26]); SQRADDAC(a[15], a[25]); SQRADDAC(a[16], a[24]); SQRADDAC(a[17], a[23]); SQRADDAC(a[18], a[22]); SQRADDAC(a[19], a[21]); SQRADDDB; SQRADD(a[20], a[20]);
                     +   COMBA_STORE(b[40]);
+                    +
                     +   /* output 41 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[41]); SQRADDAC(a[1], a[40]); SQRADDAC(a[2], a[39]); SQRADDAC(a[3], a[38]); SQRADDAC(a[4], a[37]); SQRADDAC(a[5], a[36]); SQRADDAC(a[6], a[35]); SQRADDAC(a[7], a[34]); SQRADDAC(a[8], a[33]); SQRADDAC(a[9], a[32]); SQRADDAC(a[10], a[31]); SQRADDAC(a[11], a[30]); SQRADDAC(a[12], a[29]); SQRADDAC(a[13], a[28]); SQRADDAC(a[14], a[27]); SQRADDAC(a[15], a[26]); SQRADDAC(a[16], a[25]); SQRADDAC(a[17], a[24]); SQRADDAC(a[18], a[23]); SQRADDAC(a[19], a[22]); SQRADDAC(a[20], a[21]); SQRADDDB;
                     +   COMBA_STORE(b[41]);
+                    +
                     +   /* output 42 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[42]); SQRADDAC(a[1], a[41]); SQRADDAC(a[2], a[40]); SQRADDAC(a[3], a[39]); SQRADDAC(a[4], a[38]); SQRADDAC(a[5], a[37]); SQRADDAC(a[6], a[36]); SQRADDAC(a[7], a[35]); SQRADDAC(a[8], a[34]); SQRADDAC(a[9], a[33]); SQRADDAC(a[10], a[32]); SQRADDAC(a[11], a[31]); SQRADDAC(a[12], a[30]); SQRADDAC(a[13], a[29]); SQRADDAC(a[14], a[28]); SQRADDAC(a[15], a[27]); SQRADDAC(a[16], a[26]); SQRADDAC(a[17], a[25]); SQRADDAC(a[18], a[24]); SQRADDAC(a[19], a[23]); SQRADDAC(a[20], a[22]); SQRADDDB; SQRADD(a[21], a[21]);
                     +   COMBA_STORE(b[42]);
+                    +
                     +   /* output 43 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[43]); SQRADDAC(a[1], a[42]); SQRADDAC(a[2], a[41]); SQRADDAC(a[3], a[40]); SQRADDAC(a[4], a[39]); SQRADDAC(a[5], a[38]); SQRADDAC(a[6], a[37]); SQRADDAC(a[7], a[36]); SQRADDAC(a[8], a[35]); SQRADDAC(a[9], a[34]); SQRADDAC(a[10], a[33]); SQRADDAC(a[11], a[32]); SQRADDAC(a[12], a[31]); SQRADDAC(a[13], a[30]); SQRADDAC(a[14], a[29]); SQRADDAC(a[15], a[28]); SQRADDAC(a[16], a[27]); SQRADDAC(a[17], a[26]); SQRADDAC(a[18], a[25]); SQRADDAC(a[19], a[24]); SQRADDAC(a[20], a[23]); SQRADDAC(a[21], a[22]); SQRADDDB;
                     +   COMBA_STORE(b[43]);
+                    +
                     +   /* output 44 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[44]); SQRADDAC(a[1], a[43]); SQRADDAC(a[2], a[42]); SQRADDAC(a[3], a[41]); SQRADDAC(a[4], a[40]); SQRADDAC(a[5], a[39]); SQRADDAC(a[6], a[38]); SQRADDAC(a[7], a[37]); SQRADDAC(a[8], a[36]); SQRADDAC(a[9], a[35]); SQRADDAC(a[10], a[34]); SQRADDAC(a[11], a[33]); SQRADDAC(a[12], a[32]); SQRADDAC(a[13], a[31]); SQRADDAC(a[14], a[30]); SQRADDAC(a[15], a[29]); SQRADDAC(a[16], a[28]); SQRADDAC(a[17], a[27]); SQRADDAC(a[18], a[26]); SQRADDAC(a[19], a[25]); SQRADDAC(a[20], a[24]); SQRADDAC(a[21], a[23]); SQRADDDB; SQRADD(a[22], a[22]);
                     +   COMBA_STORE(b[44]);
+                    +
                     +   /* output 45 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[45]); SQRADDAC(a[1], a[44]); SQRADDAC(a[2], a[43]); SQRADDAC(a[3], a[42]); SQRADDAC(a[4], a[41]); SQRADDAC(a[5], a[40]); SQRADDAC(a[6], a[39]); SQRADDAC(a[7], a[38]); SQRADDAC(a[8], a[37]); SQRADDAC(a[9], a[36]); SQRADDAC(a[10], a[35]); SQRADDAC(a[11], a[34]); SQRADDAC(a[12], a[33]); SQRADDAC(a[13], a[32]); SQRADDAC(a[14], a[31]); SQRADDAC(a[15], a[30]); SQRADDAC(a[16], a[29]); SQRADDAC(a[17], a[28]); SQRADDAC(a[18], a[27]); SQRADDAC(a[19], a[26]); SQRADDAC(a[20], a[25]); SQRADDAC(a[21], a[24]); SQRADDAC(a[22], a[23]); SQRADDDB;
                     +   COMBA_STORE(b[45]);
+                    +
                     +   /* output 46 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[46]); SQRADDAC(a[1], a[45]); SQRADDAC(a[2], a[44]); SQRADDAC(a[3], a[43]); SQRADDAC(a[4], a[42]); SQRADDAC(a[5], a[41]); SQRADDAC(a[6], a[40]); SQRADDAC(a[7], a[39]); SQRADDAC(a[8], a[38]); SQRADDAC(a[9], a[37]); SQRADDAC(a[10], a[36]); SQRADDAC(a[11], a[35]); SQRADDAC(a[12], a[34]); SQRADDAC(a[13], a[33]); SQRADDAC(a[14], a[32]); SQRADDAC(a[15], a[31]); SQRADDAC(a[16], a[30]); SQRADDAC(a[17], a[29]); SQRADDAC(a[18], a[28]); SQRADDAC(a[19], a[27]); SQRADDAC(a[20], a[26]); SQRADDAC(a[21], a[25]); SQRADDAC(a[22], a[24]); SQRADDDB; SQRADD(a[23], a[23]);
                     +   COMBA_STORE(b[46]);
+                    +
                     +   /* output 47 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[47]); SQRADDAC(a[1], a[46]); SQRADDAC(a[2], a[45]); SQRADDAC(a[3], a[44]); SQRADDAC(a[4], a[43]); SQRADDAC(a[5], a[42]); SQRADDAC(a[6], a[41]); SQRADDAC(a[7], a[40]); SQRADDAC(a[8], a[39]); SQRADDAC(a[9], a[38]); SQRADDAC(a[10], a[37]); SQRADDAC(a[11], a[36]); SQRADDAC(a[12], a[35]); SQRADDAC(a[13], a[34]); SQRADDAC(a[14], a[33]); SQRADDAC(a[15], a[32]); SQRADDAC(a[16], a[31]); SQRADDAC(a[17], a[30]); SQRADDAC(a[18], a[29]); SQRADDAC(a[19], a[28]); SQRADDAC(a[20], a[27]); SQRADDAC(a[21], a[26]); SQRADDAC(a[22], a[25]); SQRADDAC(a[23], a[24]); SQRADDDB;
                     +   COMBA_STORE(b[47]);
+                    +
                     +   /* output 48 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[48]); SQRADDAC(a[1], a[47]); SQRADDAC(a[2], a[46]); SQRADDAC(a[3], a[45]); SQRADDAC(a[4], a[44]); SQRADDAC(a[5], a[43]); SQRADDAC(a[6], a[42]); SQRADDAC(a[7], a[41]); SQRADDAC(a[8], a[40]); SQRADDAC(a[9], a[39]); SQRADDAC(a[10], a[38]); SQRADDAC(a[11], a[37]); SQRADDAC(a[12], a[36]); SQRADDAC(a[13], a[35]); SQRADDAC(a[14], a[34]); SQRADDAC(a[15], a[33]); SQRADDAC(a[16], a[32]); SQRADDAC(a[17], a[31]); SQRADDAC(a[18], a[30]); SQRADDAC(a[19], a[29]); SQRADDAC(a[20], a[28]); SQRADDAC(a[21], a[27]); SQRADDAC(a[22], a[26]); SQRADDAC(a[23], a[25]); SQRADDDB; SQRADD(a[24], a[24]);
                     +   COMBA_STORE(b[48]);
+                    +
                     +   /* output 49 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[49]); SQRADDAC(a[1], a[48]); SQRADDAC(a[2], a[47]); SQRADDAC(a[3], a[46]); SQRADDAC(a[4], a[45]); SQRADDAC(a[5], a[44]); SQRADDAC(a[6], a[43]); SQRADDAC(a[7], a[42]); SQRADDAC(a[8], a[41]); SQRADDAC(a[9], a[40]); SQRADDAC(a[10], a[39]); SQRADDAC(a[11], a[38]); SQRADDAC(a[12], a[37]); SQRADDAC(a[13], a[36]); SQRADDAC(a[14], a[35]); SQRADDAC(a[15], a[34]); SQRADDAC(a[16], a[33]); SQRADDAC(a[17], a[32]); SQRADDAC(a[18], a[31]); SQRADDAC(a[19], a[30]); SQRADDAC(a[20], a[29]); SQRADDAC(a[21], a[28]); SQRADDAC(a[22], a[27]); SQRADDAC(a[23], a[26]); SQRADDAC(a[24], a[25]); SQRADDDB;
                     +   COMBA_STORE(b[49]);
+                    +
                     +   /* output 50 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[50]); SQRADDAC(a[1], a[49]); SQRADDAC(a[2], a[48]); SQRADDAC(a[3], a[47]); SQRADDAC(a[4], a[46]); SQRADDAC(a[5], a[45]); SQRADDAC(a[6], a[44]); SQRADDAC(a[7], a[43]); SQRADDAC(a[8], a[42]); SQRADDAC(a[9], a[41]); SQRADDAC(a[10], a[40]); SQRADDAC(a[11], a[39]); SQRADDAC(a[12], a[38]); SQRADDAC(a[13], a[37]); SQRADDAC(a[14], a[36]); SQRADDAC(a[15], a[35]); SQRADDAC(a[16], a[34]); SQRADDAC(a[17], a[33]); SQRADDAC(a[18], a[32]); SQRADDAC(a[19], a[31]); SQRADDAC(a[20], a[30]); SQRADDAC(a[21], a[29]); SQRADDAC(a[22], a[28]); SQRADDAC(a[23], a[27]); SQRADDAC(a[24], a[26]); SQRADDDB; SQRADD(a[25], a[25]);
                     +   COMBA_STORE(b[50]);
+                    +
                     +   /* output 51 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[51]); SQRADDAC(a[1], a[50]); SQRADDAC(a[2], a[49]); SQRADDAC(a[3], a[48]); SQRADDAC(a[4], a[47]); SQRADDAC(a[5], a[46]); SQRADDAC(a[6], a[45]); SQRADDAC(a[7], a[44]); SQRADDAC(a[8], a[43]); SQRADDAC(a[9], a[42]); SQRADDAC(a[10], a[41]); SQRADDAC(a[11], a[40]); SQRADDAC(a[12], a[39]); SQRADDAC(a[13], a[38]); SQRADDAC(a[14], a[37]); SQRADDAC(a[15], a[36]); SQRADDAC(a[16], a[35]); SQRADDAC(a[17], a[34]); SQRADDAC(a[18], a[33]); SQRADDAC(a[19], a[32]); SQRADDAC(a[20], a[31]); SQRADDAC(a[21], a[30]); SQRADDAC(a[22], a[29]); SQRADDAC(a[23], a[28]); SQRADDAC(a[24], a[27]); SQRADDAC(a[25], a[26]); SQRADDDB;
                     +   COMBA_STORE(b[51]);
+                    +
                     +   /* output 52 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[52]); SQRADDAC(a[1], a[51]); SQRADDAC(a[2], a[50]); SQRADDAC(a[3], a[49]); SQRADDAC(a[4], a[48]); SQRADDAC(a[5], a[47]); SQRADDAC(a[6], a[46]); SQRADDAC(a[7], a[45]); SQRADDAC(a[8], a[44]); SQRADDAC(a[9], a[43]); SQRADDAC(a[10], a[42]); SQRADDAC(a[11], a[41]); SQRADDAC(a[12], a[40]); SQRADDAC(a[13], a[39]); SQRADDAC(a[14], a[38]); SQRADDAC(a[15], a[37]); SQRADDAC(a[16], a[36]); SQRADDAC(a[17], a[35]); SQRADDAC(a[18], a[34]); SQRADDAC(a[19], a[33]); SQRADDAC(a[20], a[32]); SQRADDAC(a[21], a[31]); SQRADDAC(a[22], a[30]); SQRADDAC(a[23], a[29]); SQRADDAC(a[24], a[28]); SQRADDAC(a[25], a[27]); SQRADDDB; SQRADD(a[26], a[26]);
                     +   COMBA_STORE(b[52]);
+                    +
                     +   /* output 53 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[53]); SQRADDAC(a[1], a[52]); SQRADDAC(a[2], a[51]); SQRADDAC(a[3], a[50]); SQRADDAC(a[4], a[49]); SQRADDAC(a[5], a[48]); SQRADDAC(a[6], a[47]); SQRADDAC(a[7], a[46]); SQRADDAC(a[8], a[45]); SQRADDAC(a[9], a[44]); SQRADDAC(a[10], a[43]); SQRADDAC(a[11], a[42]); SQRADDAC(a[12], a[41]); SQRADDAC(a[13], a[40]); SQRADDAC(a[14], a[39]); SQRADDAC(a[15], a[38]); SQRADDAC(a[16], a[37]); SQRADDAC(a[17], a[36]); SQRADDAC(a[18], a[35]); SQRADDAC(a[19], a[34]); SQRADDAC(a[20], a[33]); SQRADDAC(a[21], a[32]); SQRADDAC(a[22], a[31]); SQRADDAC(a[23], a[30]); SQRADDAC(a[24], a[29]); SQRADDAC(a[25], a[28]); SQRADDAC(a[26], a[27]); SQRADDDB;
                     +   COMBA_STORE(b[53]);
+                    +
                     +   /* output 54 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[54]); SQRADDAC(a[1], a[53]); SQRADDAC(a[2], a[52]); SQRADDAC(a[3], a[51]); SQRADDAC(a[4], a[50]); SQRADDAC(a[5], a[49]); SQRADDAC(a[6], a[48]); SQRADDAC(a[7], a[47]); SQRADDAC(a[8], a[46]); SQRADDAC(a[9], a[45]); SQRADDAC(a[10], a[44]); SQRADDAC(a[11], a[43]); SQRADDAC(a[12], a[42]); SQRADDAC(a[13], a[41]); SQRADDAC(a[14], a[40]); SQRADDAC(a[15], a[39]); SQRADDAC(a[16], a[38]); SQRADDAC(a[17], a[37]); SQRADDAC(a[18], a[36]); SQRADDAC(a[19], a[35]); SQRADDAC(a[20], a[34]); SQRADDAC(a[21], a[33]); SQRADDAC(a[22], a[32]); SQRADDAC(a[23], a[31]); SQRADDAC(a[24], a[30]); SQRADDAC(a[25], a[29]); SQRADDAC(a[26], a[28]); SQRADDDB; SQRADD(a[27], a[27]);
                     +   COMBA_STORE(b[54]);
+                    +
                     +   /* output 55 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[55]); SQRADDAC(a[1], a[54]); SQRADDAC(a[2], a[53]); SQRADDAC(a[3], a[52]); SQRADDAC(a[4], a[51]); SQRADDAC(a[5], a[50]); SQRADDAC(a[6], a[49]); SQRADDAC(a[7], a[48]); SQRADDAC(a[8], a[47]); SQRADDAC(a[9], a[46]); SQRADDAC(a[10], a[45]); SQRADDAC(a[11], a[44]); SQRADDAC(a[12], a[43]); SQRADDAC(a[13], a[42]); SQRADDAC(a[14], a[41]); SQRADDAC(a[15], a[40]); SQRADDAC(a[16], a[39]); SQRADDAC(a[17], a[38]); SQRADDAC(a[18], a[37]); SQRADDAC(a[19], a[36]); SQRADDAC(a[20], a[35]); SQRADDAC(a[21], a[34]); SQRADDAC(a[22], a[33]); SQRADDAC(a[23], a[32]); SQRADDAC(a[24], a[31]); SQRADDAC(a[25], a[30]); SQRADDAC(a[26], a[29]); SQRADDAC(a[27], a[28]); SQRADDDB;
                     +   COMBA_STORE(b[55]);
+                    +
                     +   /* output 56 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[56]); SQRADDAC(a[1], a[55]); SQRADDAC(a[2], a[54]); SQRADDAC(a[3], a[53]); SQRADDAC(a[4], a[52]); SQRADDAC(a[5], a[51]); SQRADDAC(a[6], a[50]); SQRADDAC(a[7], a[49]); SQRADDAC(a[8], a[48]); SQRADDAC(a[9], a[47]); SQRADDAC(a[10], a[46]); SQRADDAC(a[11], a[45]); SQRADDAC(a[12], a[44]); SQRADDAC(a[13], a[43]); SQRADDAC(a[14], a[42]); SQRADDAC(a[15], a[41]); SQRADDAC(a[16], a[40]); SQRADDAC(a[17], a[39]); SQRADDAC(a[18], a[38]); SQRADDAC(a[19], a[37]); SQRADDAC(a[20], a[36]); SQRADDAC(a[21], a[35]); SQRADDAC(a[22], a[34]); SQRADDAC(a[23], a[33]); SQRADDAC(a[24], a[32]); SQRADDAC(a[25], a[31]); SQRADDAC(a[26], a[30]); SQRADDAC(a[27], a[29]); SQRADDDB; SQRADD(a[28], a[28]);
                     +   COMBA_STORE(b[56]);
+                    +
                     +   /* output 57 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[57]); SQRADDAC(a[1], a[56]); SQRADDAC(a[2], a[55]); SQRADDAC(a[3], a[54]); SQRADDAC(a[4], a[53]); SQRADDAC(a[5], a[52]); SQRADDAC(a[6], a[51]); SQRADDAC(a[7], a[50]); SQRADDAC(a[8], a[49]); SQRADDAC(a[9], a[48]); SQRADDAC(a[10], a[47]); SQRADDAC(a[11], a[46]); SQRADDAC(a[12], a[45]); SQRADDAC(a[13], a[44]); SQRADDAC(a[14], a[43]); SQRADDAC(a[15], a[42]); SQRADDAC(a[16], a[41]); SQRADDAC(a[17], a[40]); SQRADDAC(a[18], a[39]); SQRADDAC(a[19], a[38]); SQRADDAC(a[20], a[37]); SQRADDAC(a[21], a[36]); SQRADDAC(a[22], a[35]); SQRADDAC(a[23], a[34]); SQRADDAC(a[24], a[33]); SQRADDAC(a[25], a[32]); SQRADDAC(a[26], a[31]); SQRADDAC(a[27], a[30]); SQRADDAC(a[28], a[29]); SQRADDDB;
                     +   COMBA_STORE(b[57]);
+                    +
                     +   /* output 58 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[58]); SQRADDAC(a[1], a[57]); SQRADDAC(a[2], a[56]); SQRADDAC(a[3], a[55]); SQRADDAC(a[4], a[54]); SQRADDAC(a[5], a[53]); SQRADDAC(a[6], a[52]); SQRADDAC(a[7], a[51]); SQRADDAC(a[8], a[50]); SQRADDAC(a[9], a[49]); SQRADDAC(a[10], a[48]); SQRADDAC(a[11], a[47]); SQRADDAC(a[12], a[46]); SQRADDAC(a[13], a[45]); SQRADDAC(a[14], a[44]); SQRADDAC(a[15], a[43]); SQRADDAC(a[16], a[42]); SQRADDAC(a[17], a[41]); SQRADDAC(a[18], a[40]); SQRADDAC(a[19], a[39]); SQRADDAC(a[20], a[38]); SQRADDAC(a[21], a[37]); SQRADDAC(a[22], a[36]); SQRADDAC(a[23], a[35]); SQRADDAC(a[24], a[34]); SQRADDAC(a[25], a[33]); SQRADDAC(a[26], a[32]); SQRADDAC(a[27], a[31]); SQRADDAC(a[28], a[30]); SQRADDDB; SQRADD(a[29], a[29]);
                     +   COMBA_STORE(b[58]);
+                    +
                     +   /* output 59 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[59]); SQRADDAC(a[1], a[58]); SQRADDAC(a[2], a[57]); SQRADDAC(a[3], a[56]); SQRADDAC(a[4], a[55]); SQRADDAC(a[5], a[54]); SQRADDAC(a[6], a[53]); SQRADDAC(a[7], a[52]); SQRADDAC(a[8], a[51]); SQRADDAC(a[9], a[50]); SQRADDAC(a[10], a[49]); SQRADDAC(a[11], a[48]); SQRADDAC(a[12], a[47]); SQRADDAC(a[13], a[46]); SQRADDAC(a[14], a[45]); SQRADDAC(a[15], a[44]); SQRADDAC(a[16], a[43]); SQRADDAC(a[17], a[42]); SQRADDAC(a[18], a[41]); SQRADDAC(a[19], a[40]); SQRADDAC(a[20], a[39]); SQRADDAC(a[21], a[38]); SQRADDAC(a[22], a[37]); SQRADDAC(a[23], a[36]); SQRADDAC(a[24], a[35]); SQRADDAC(a[25], a[34]); SQRADDAC(a[26], a[33]); SQRADDAC(a[27], a[32]); SQRADDAC(a[28], a[31]); SQRADDAC(a[29], a[30]); SQRADDDB;
                     +   COMBA_STORE(b[59]);
+                    +
                     +   /* output 60 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[60]); SQRADDAC(a[1], a[59]); SQRADDAC(a[2], a[58]); SQRADDAC(a[3], a[57]); SQRADDAC(a[4], a[56]); SQRADDAC(a[5], a[55]); SQRADDAC(a[6], a[54]); SQRADDAC(a[7], a[53]); SQRADDAC(a[8], a[52]); SQRADDAC(a[9], a[51]); SQRADDAC(a[10], a[50]); SQRADDAC(a[11], a[49]); SQRADDAC(a[12], a[48]); SQRADDAC(a[13], a[47]); SQRADDAC(a[14], a[46]); SQRADDAC(a[15], a[45]); SQRADDAC(a[16], a[44]); SQRADDAC(a[17], a[43]); SQRADDAC(a[18], a[42]); SQRADDAC(a[19], a[41]); SQRADDAC(a[20], a[40]); SQRADDAC(a[21], a[39]); SQRADDAC(a[22], a[38]); SQRADDAC(a[23], a[37]); SQRADDAC(a[24], a[36]); SQRADDAC(a[25], a[35]); SQRADDAC(a[26], a[34]); SQRADDAC(a[27], a[33]); SQRADDAC(a[28], a[32]); SQRADDAC(a[29], a[31]); SQRADDDB; SQRADD(a[30], a[30]);
                     +   COMBA_STORE(b[60]);
+                    +
                     +   /* output 61 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[61]); SQRADDAC(a[1], a[60]); SQRADDAC(a[2], a[59]); SQRADDAC(a[3], a[58]); SQRADDAC(a[4], a[57]); SQRADDAC(a[5], a[56]); SQRADDAC(a[6], a[55]); SQRADDAC(a[7], a[54]); SQRADDAC(a[8], a[53]); SQRADDAC(a[9], a[52]); SQRADDAC(a[10], a[51]); SQRADDAC(a[11], a[50]); SQRADDAC(a[12], a[49]); SQRADDAC(a[13], a[48]); SQRADDAC(a[14], a[47]); SQRADDAC(a[15], a[46]); SQRADDAC(a[16], a[45]); SQRADDAC(a[17], a[44]); SQRADDAC(a[18], a[43]); SQRADDAC(a[19], a[42]); SQRADDAC(a[20], a[41]); SQRADDAC(a[21], a[40]); SQRADDAC(a[22], a[39]); SQRADDAC(a[23], a[38]); SQRADDAC(a[24], a[37]); SQRADDAC(a[25], a[36]); SQRADDAC(a[26], a[35]); SQRADDAC(a[27], a[34]); SQRADDAC(a[28], a[33]); SQRADDAC(a[29], a[32]); SQRADDAC(a[30], a[31]); SQRADDDB;
                     +   COMBA_STORE(b[61]);
+                    +
                     +   /* output 62 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[62]); SQRADDAC(a[1], a[61]); SQRADDAC(a[2], a[60]); SQRADDAC(a[3], a[59]); SQRADDAC(a[4], a[58]); SQRADDAC(a[5], a[57]); SQRADDAC(a[6], a[56]); SQRADDAC(a[7], a[55]); SQRADDAC(a[8], a[54]); SQRADDAC(a[9], a[53]); SQRADDAC(a[10], a[52]); SQRADDAC(a[11], a[51]); SQRADDAC(a[12], a[50]); SQRADDAC(a[13], a[49]); SQRADDAC(a[14], a[48]); SQRADDAC(a[15], a[47]); SQRADDAC(a[16], a[46]); SQRADDAC(a[17], a[45]); SQRADDAC(a[18], a[44]); SQRADDAC(a[19], a[43]); SQRADDAC(a[20], a[42]); SQRADDAC(a[21], a[41]); SQRADDAC(a[22], a[40]); SQRADDAC(a[23], a[39]); SQRADDAC(a[24], a[38]); SQRADDAC(a[25], a[37]); SQRADDAC(a[26], a[36]); SQRADDAC(a[27], a[35]); SQRADDAC(a[28], a[34]); SQRADDAC(a[29], a[33]); SQRADDAC(a[30], a[32]); SQRADDDB; SQRADD(a[31], a[31]);
                     +   COMBA_STORE(b[62]);
+                    +
                     +   /* output 63 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[63]); SQRADDAC(a[1], a[62]); SQRADDAC(a[2], a[61]); SQRADDAC(a[3], a[60]); SQRADDAC(a[4], a[59]); SQRADDAC(a[5], a[58]); SQRADDAC(a[6], a[57]); SQRADDAC(a[7], a[56]); SQRADDAC(a[8], a[55]); SQRADDAC(a[9], a[54]); SQRADDAC(a[10], a[53]); SQRADDAC(a[11], a[52]); SQRADDAC(a[12], a[51]); SQRADDAC(a[13], a[50]); SQRADDAC(a[14], a[49]); SQRADDAC(a[15], a[48]); SQRADDAC(a[16], a[47]); SQRADDAC(a[17], a[46]); SQRADDAC(a[18], a[45]); SQRADDAC(a[19], a[44]); SQRADDAC(a[20], a[43]); SQRADDAC(a[21], a[42]); SQRADDAC(a[22], a[41]); SQRADDAC(a[23], a[40]); SQRADDAC(a[24], a[39]); SQRADDAC(a[25], a[38]); SQRADDAC(a[26], a[37]); SQRADDAC(a[27], a[36]); SQRADDAC(a[28], a[35]); SQRADDAC(a[29], a[34]); SQRADDAC(a[30], a[33]); SQRADDAC(a[31], a[32]); SQRADDDB;
                     +   COMBA_STORE(b[63]);
+                    +
                     +   /* output 64 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[1], a[63]); SQRADDAC(a[2], a[62]); SQRADDAC(a[3], a[61]); SQRADDAC(a[4], a[60]); SQRADDAC(a[5], a[59]); SQRADDAC(a[6], a[58]); SQRADDAC(a[7], a[57]); SQRADDAC(a[8], a[56]); SQRADDAC(a[9], a[55]); SQRADDAC(a[10], a[54]); SQRADDAC(a[11], a[53]); SQRADDAC(a[12], a[52]); SQRADDAC(a[13], a[51]); SQRADDAC(a[14], a[50]); SQRADDAC(a[15], a[49]); SQRADDAC(a[16], a[48]); SQRADDAC(a[17], a[47]); SQRADDAC(a[18], a[46]); SQRADDAC(a[19], a[45]); SQRADDAC(a[20], a[44]); SQRADDAC(a[21], a[43]); SQRADDAC(a[22], a[42]); SQRADDAC(a[23], a[41]); SQRADDAC(a[24], a[40]); SQRADDAC(a[25], a[39]); SQRADDAC(a[26], a[38]); SQRADDAC(a[27], a[37]); SQRADDAC(a[28], a[36]); SQRADDAC(a[29], a[35]); SQRADDAC(a[30], a[34]); SQRADDAC(a[31], a[33]); SQRADDDB; SQRADD(a[32], a[32]);
                     +   COMBA_STORE(b[64]);
+                    +
                     +   /* output 65 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[2], a[63]); SQRADDAC(a[3], a[62]); SQRADDAC(a[4], a[61]); SQRADDAC(a[5], a[60]); SQRADDAC(a[6], a[59]); SQRADDAC(a[7], a[58]); SQRADDAC(a[8], a[57]); SQRADDAC(a[9], a[56]); SQRADDAC(a[10], a[55]); SQRADDAC(a[11], a[54]); SQRADDAC(a[12], a[53]); SQRADDAC(a[13], a[52]); SQRADDAC(a[14], a[51]); SQRADDAC(a[15], a[50]); SQRADDAC(a[16], a[49]); SQRADDAC(a[17], a[48]); SQRADDAC(a[18], a[47]); SQRADDAC(a[19], a[46]); SQRADDAC(a[20], a[45]); SQRADDAC(a[21], a[44]); SQRADDAC(a[22], a[43]); SQRADDAC(a[23], a[42]); SQRADDAC(a[24], a[41]); SQRADDAC(a[25], a[40]); SQRADDAC(a[26], a[39]); SQRADDAC(a[27], a[38]); SQRADDAC(a[28], a[37]); SQRADDAC(a[29], a[36]); SQRADDAC(a[30], a[35]); SQRADDAC(a[31], a[34]); SQRADDAC(a[32], a[33]); SQRADDDB;
                     +   COMBA_STORE(b[65]);
+                    +
                     +   /* output 66 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[3], a[63]); SQRADDAC(a[4], a[62]); SQRADDAC(a[5], a[61]); SQRADDAC(a[6], a[60]); SQRADDAC(a[7], a[59]); SQRADDAC(a[8], a[58]); SQRADDAC(a[9], a[57]); SQRADDAC(a[10], a[56]); SQRADDAC(a[11], a[55]); SQRADDAC(a[12], a[54]); SQRADDAC(a[13], a[53]); SQRADDAC(a[14], a[52]); SQRADDAC(a[15], a[51]); SQRADDAC(a[16], a[50]); SQRADDAC(a[17], a[49]); SQRADDAC(a[18], a[48]); SQRADDAC(a[19], a[47]); SQRADDAC(a[20], a[46]); SQRADDAC(a[21], a[45]); SQRADDAC(a[22], a[44]); SQRADDAC(a[23], a[43]); SQRADDAC(a[24], a[42]); SQRADDAC(a[25], a[41]); SQRADDAC(a[26], a[40]); SQRADDAC(a[27], a[39]); SQRADDAC(a[28], a[38]); SQRADDAC(a[29], a[37]); SQRADDAC(a[30], a[36]); SQRADDAC(a[31], a[35]); SQRADDAC(a[32], a[34]); SQRADDDB; SQRADD(a[33], a[33]);
                     +   COMBA_STORE(b[66]);
+                    +
                     +   /* output 67 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[4], a[63]); SQRADDAC(a[5], a[62]); SQRADDAC(a[6], a[61]); SQRADDAC(a[7], a[60]); SQRADDAC(a[8], a[59]); SQRADDAC(a[9], a[58]); SQRADDAC(a[10], a[57]); SQRADDAC(a[11], a[56]); SQRADDAC(a[12], a[55]); SQRADDAC(a[13], a[54]); SQRADDAC(a[14], a[53]); SQRADDAC(a[15], a[52]); SQRADDAC(a[16], a[51]); SQRADDAC(a[17], a[50]); SQRADDAC(a[18], a[49]); SQRADDAC(a[19], a[48]); SQRADDAC(a[20], a[47]); SQRADDAC(a[21], a[46]); SQRADDAC(a[22], a[45]); SQRADDAC(a[23], a[44]); SQRADDAC(a[24], a[43]); SQRADDAC(a[25], a[42]); SQRADDAC(a[26], a[41]); SQRADDAC(a[27], a[40]); SQRADDAC(a[28], a[39]); SQRADDAC(a[29], a[38]); SQRADDAC(a[30], a[37]); SQRADDAC(a[31], a[36]); SQRADDAC(a[32], a[35]); SQRADDAC(a[33], a[34]); SQRADDDB;
                     +   COMBA_STORE(b[67]);
+                    +
                     +   /* output 68 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[5], a[63]); SQRADDAC(a[6], a[62]); SQRADDAC(a[7], a[61]); SQRADDAC(a[8], a[60]); SQRADDAC(a[9], a[59]); SQRADDAC(a[10], a[58]); SQRADDAC(a[11], a[57]); SQRADDAC(a[12], a[56]); SQRADDAC(a[13], a[55]); SQRADDAC(a[14], a[54]); SQRADDAC(a[15], a[53]); SQRADDAC(a[16], a[52]); SQRADDAC(a[17], a[51]); SQRADDAC(a[18], a[50]); SQRADDAC(a[19], a[49]); SQRADDAC(a[20], a[48]); SQRADDAC(a[21], a[47]); SQRADDAC(a[22], a[46]); SQRADDAC(a[23], a[45]); SQRADDAC(a[24], a[44]); SQRADDAC(a[25], a[43]); SQRADDAC(a[26], a[42]); SQRADDAC(a[27], a[41]); SQRADDAC(a[28], a[40]); SQRADDAC(a[29], a[39]); SQRADDAC(a[30], a[38]); SQRADDAC(a[31], a[37]); SQRADDAC(a[32], a[36]); SQRADDAC(a[33], a[35]); SQRADDDB; SQRADD(a[34], a[34]);
                     +   COMBA_STORE(b[68]);
+                    +
                     +   /* output 69 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[6], a[63]); SQRADDAC(a[7], a[62]); SQRADDAC(a[8], a[61]); SQRADDAC(a[9], a[60]); SQRADDAC(a[10], a[59]); SQRADDAC(a[11], a[58]); SQRADDAC(a[12], a[57]); SQRADDAC(a[13], a[56]); SQRADDAC(a[14], a[55]); SQRADDAC(a[15], a[54]); SQRADDAC(a[16], a[53]); SQRADDAC(a[17], a[52]); SQRADDAC(a[18], a[51]); SQRADDAC(a[19], a[50]); SQRADDAC(a[20], a[49]); SQRADDAC(a[21], a[48]); SQRADDAC(a[22], a[47]); SQRADDAC(a[23], a[46]); SQRADDAC(a[24], a[45]); SQRADDAC(a[25], a[44]); SQRADDAC(a[26], a[43]); SQRADDAC(a[27], a[42]); SQRADDAC(a[28], a[41]); SQRADDAC(a[29], a[40]); SQRADDAC(a[30], a[39]); SQRADDAC(a[31], a[38]); SQRADDAC(a[32], a[37]); SQRADDAC(a[33], a[36]); SQRADDAC(a[34], a[35]); SQRADDDB;
                     +   COMBA_STORE(b[69]);
+                    +
                     +   /* output 70 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[7], a[63]); SQRADDAC(a[8], a[62]); SQRADDAC(a[9], a[61]); SQRADDAC(a[10], a[60]); SQRADDAC(a[11], a[59]); SQRADDAC(a[12], a[58]); SQRADDAC(a[13], a[57]); SQRADDAC(a[14], a[56]); SQRADDAC(a[15], a[55]); SQRADDAC(a[16], a[54]); SQRADDAC(a[17], a[53]); SQRADDAC(a[18], a[52]); SQRADDAC(a[19], a[51]); SQRADDAC(a[20], a[50]); SQRADDAC(a[21], a[49]); SQRADDAC(a[22], a[48]); SQRADDAC(a[23], a[47]); SQRADDAC(a[24], a[46]); SQRADDAC(a[25], a[45]); SQRADDAC(a[26], a[44]); SQRADDAC(a[27], a[43]); SQRADDAC(a[28], a[42]); SQRADDAC(a[29], a[41]); SQRADDAC(a[30], a[40]); SQRADDAC(a[31], a[39]); SQRADDAC(a[32], a[38]); SQRADDAC(a[33], a[37]); SQRADDAC(a[34], a[36]); SQRADDDB; SQRADD(a[35], a[35]);
                     +   COMBA_STORE(b[70]);
+                    +
                     +   /* output 71 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[8], a[63]); SQRADDAC(a[9], a[62]); SQRADDAC(a[10], a[61]); SQRADDAC(a[11], a[60]); SQRADDAC(a[12], a[59]); SQRADDAC(a[13], a[58]); SQRADDAC(a[14], a[57]); SQRADDAC(a[15], a[56]); SQRADDAC(a[16], a[55]); SQRADDAC(a[17], a[54]); SQRADDAC(a[18], a[53]); SQRADDAC(a[19], a[52]); SQRADDAC(a[20], a[51]); SQRADDAC(a[21], a[50]); SQRADDAC(a[22], a[49]); SQRADDAC(a[23], a[48]); SQRADDAC(a[24], a[47]); SQRADDAC(a[25], a[46]); SQRADDAC(a[26], a[45]); SQRADDAC(a[27], a[44]); SQRADDAC(a[28], a[43]); SQRADDAC(a[29], a[42]); SQRADDAC(a[30], a[41]); SQRADDAC(a[31], a[40]); SQRADDAC(a[32], a[39]); SQRADDAC(a[33], a[38]); SQRADDAC(a[34], a[37]); SQRADDAC(a[35], a[36]); SQRADDDB;
                     +   COMBA_STORE(b[71]);
+                    +
                     +   /* output 72 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[9], a[63]); SQRADDAC(a[10], a[62]); SQRADDAC(a[11], a[61]); SQRADDAC(a[12], a[60]); SQRADDAC(a[13], a[59]); SQRADDAC(a[14], a[58]); SQRADDAC(a[15], a[57]); SQRADDAC(a[16], a[56]); SQRADDAC(a[17], a[55]); SQRADDAC(a[18], a[54]); SQRADDAC(a[19], a[53]); SQRADDAC(a[20], a[52]); SQRADDAC(a[21], a[51]); SQRADDAC(a[22], a[50]); SQRADDAC(a[23], a[49]); SQRADDAC(a[24], a[48]); SQRADDAC(a[25], a[47]); SQRADDAC(a[26], a[46]); SQRADDAC(a[27], a[45]); SQRADDAC(a[28], a[44]); SQRADDAC(a[29], a[43]); SQRADDAC(a[30], a[42]); SQRADDAC(a[31], a[41]); SQRADDAC(a[32], a[40]); SQRADDAC(a[33], a[39]); SQRADDAC(a[34], a[38]); SQRADDAC(a[35], a[37]); SQRADDDB; SQRADD(a[36], a[36]);
                     +   COMBA_STORE(b[72]);
+                    +
                     +   /* output 73 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[10], a[63]); SQRADDAC(a[11], a[62]); SQRADDAC(a[12], a[61]); SQRADDAC(a[13], a[60]); SQRADDAC(a[14], a[59]); SQRADDAC(a[15], a[58]); SQRADDAC(a[16], a[57]); SQRADDAC(a[17], a[56]); SQRADDAC(a[18], a[55]); SQRADDAC(a[19], a[54]); SQRADDAC(a[20], a[53]); SQRADDAC(a[21], a[52]); SQRADDAC(a[22], a[51]); SQRADDAC(a[23], a[50]); SQRADDAC(a[24], a[49]); SQRADDAC(a[25], a[48]); SQRADDAC(a[26], a[47]); SQRADDAC(a[27], a[46]); SQRADDAC(a[28], a[45]); SQRADDAC(a[29], a[44]); SQRADDAC(a[30], a[43]); SQRADDAC(a[31], a[42]); SQRADDAC(a[32], a[41]); SQRADDAC(a[33], a[40]); SQRADDAC(a[34], a[39]); SQRADDAC(a[35], a[38]); SQRADDAC(a[36], a[37]); SQRADDDB;
                     +   COMBA_STORE(b[73]);
+                    +
                     +   /* output 74 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[11], a[63]); SQRADDAC(a[12], a[62]); SQRADDAC(a[13], a[61]); SQRADDAC(a[14], a[60]); SQRADDAC(a[15], a[59]); SQRADDAC(a[16], a[58]); SQRADDAC(a[17], a[57]); SQRADDAC(a[18], a[56]); SQRADDAC(a[19], a[55]); SQRADDAC(a[20], a[54]); SQRADDAC(a[21], a[53]); SQRADDAC(a[22], a[52]); SQRADDAC(a[23], a[51]); SQRADDAC(a[24], a[50]); SQRADDAC(a[25], a[49]); SQRADDAC(a[26], a[48]); SQRADDAC(a[27], a[47]); SQRADDAC(a[28], a[46]); SQRADDAC(a[29], a[45]); SQRADDAC(a[30], a[44]); SQRADDAC(a[31], a[43]); SQRADDAC(a[32], a[42]); SQRADDAC(a[33], a[41]); SQRADDAC(a[34], a[40]); SQRADDAC(a[35], a[39]); SQRADDAC(a[36], a[38]); SQRADDDB; SQRADD(a[37], a[37]);
                     +   COMBA_STORE(b[74]);
+                    +
                     +   /* output 75 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[12], a[63]); SQRADDAC(a[13], a[62]); SQRADDAC(a[14], a[61]); SQRADDAC(a[15], a[60]); SQRADDAC(a[16], a[59]); SQRADDAC(a[17], a[58]); SQRADDAC(a[18], a[57]); SQRADDAC(a[19], a[56]); SQRADDAC(a[20], a[55]); SQRADDAC(a[21], a[54]); SQRADDAC(a[22], a[53]); SQRADDAC(a[23], a[52]); SQRADDAC(a[24], a[51]); SQRADDAC(a[25], a[50]); SQRADDAC(a[26], a[49]); SQRADDAC(a[27], a[48]); SQRADDAC(a[28], a[47]); SQRADDAC(a[29], a[46]); SQRADDAC(a[30], a[45]); SQRADDAC(a[31], a[44]); SQRADDAC(a[32], a[43]); SQRADDAC(a[33], a[42]); SQRADDAC(a[34], a[41]); SQRADDAC(a[35], a[40]); SQRADDAC(a[36], a[39]); SQRADDAC(a[37], a[38]); SQRADDDB;
                     +   COMBA_STORE(b[75]);
+                    +
                     +   /* output 76 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[13], a[63]); SQRADDAC(a[14], a[62]); SQRADDAC(a[15], a[61]); SQRADDAC(a[16], a[60]); SQRADDAC(a[17], a[59]); SQRADDAC(a[18], a[58]); SQRADDAC(a[19], a[57]); SQRADDAC(a[20], a[56]); SQRADDAC(a[21], a[55]); SQRADDAC(a[22], a[54]); SQRADDAC(a[23], a[53]); SQRADDAC(a[24], a[52]); SQRADDAC(a[25], a[51]); SQRADDAC(a[26], a[50]); SQRADDAC(a[27], a[49]); SQRADDAC(a[28], a[48]); SQRADDAC(a[29], a[47]); SQRADDAC(a[30], a[46]); SQRADDAC(a[31], a[45]); SQRADDAC(a[32], a[44]); SQRADDAC(a[33], a[43]); SQRADDAC(a[34], a[42]); SQRADDAC(a[35], a[41]); SQRADDAC(a[36], a[40]); SQRADDAC(a[37], a[39]); SQRADDDB; SQRADD(a[38], a[38]);
                     +   COMBA_STORE(b[76]);
+                    +
                     +   /* output 77 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[14], a[63]); SQRADDAC(a[15], a[62]); SQRADDAC(a[16], a[61]); SQRADDAC(a[17], a[60]); SQRADDAC(a[18], a[59]); SQRADDAC(a[19], a[58]); SQRADDAC(a[20], a[57]); SQRADDAC(a[21], a[56]); SQRADDAC(a[22], a[55]); SQRADDAC(a[23], a[54]); SQRADDAC(a[24], a[53]); SQRADDAC(a[25], a[52]); SQRADDAC(a[26], a[51]); SQRADDAC(a[27], a[50]); SQRADDAC(a[28], a[49]); SQRADDAC(a[29], a[48]); SQRADDAC(a[30], a[47]); SQRADDAC(a[31], a[46]); SQRADDAC(a[32], a[45]); SQRADDAC(a[33], a[44]); SQRADDAC(a[34], a[43]); SQRADDAC(a[35], a[42]); SQRADDAC(a[36], a[41]); SQRADDAC(a[37], a[40]); SQRADDAC(a[38], a[39]); SQRADDDB;
                     +   COMBA_STORE(b[77]);
+                    +
                     +   /* output 78 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[15], a[63]); SQRADDAC(a[16], a[62]); SQRADDAC(a[17], a[61]); SQRADDAC(a[18], a[60]); SQRADDAC(a[19], a[59]); SQRADDAC(a[20], a[58]); SQRADDAC(a[21], a[57]); SQRADDAC(a[22], a[56]); SQRADDAC(a[23], a[55]); SQRADDAC(a[24], a[54]); SQRADDAC(a[25], a[53]); SQRADDAC(a[26], a[52]); SQRADDAC(a[27], a[51]); SQRADDAC(a[28], a[50]); SQRADDAC(a[29], a[49]); SQRADDAC(a[30], a[48]); SQRADDAC(a[31], a[47]); SQRADDAC(a[32], a[46]); SQRADDAC(a[33], a[45]); SQRADDAC(a[34], a[44]); SQRADDAC(a[35], a[43]); SQRADDAC(a[36], a[42]); SQRADDAC(a[37], a[41]); SQRADDAC(a[38], a[40]); SQRADDDB; SQRADD(a[39], a[39]);
                     +   COMBA_STORE(b[78]);
+                    +
                     +   /* output 79 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[16], a[63]); SQRADDAC(a[17], a[62]); SQRADDAC(a[18], a[61]); SQRADDAC(a[19], a[60]); SQRADDAC(a[20], a[59]); SQRADDAC(a[21], a[58]); SQRADDAC(a[22], a[57]); SQRADDAC(a[23], a[56]); SQRADDAC(a[24], a[55]); SQRADDAC(a[25], a[54]); SQRADDAC(a[26], a[53]); SQRADDAC(a[27], a[52]); SQRADDAC(a[28], a[51]); SQRADDAC(a[29], a[50]); SQRADDAC(a[30], a[49]); SQRADDAC(a[31], a[48]); SQRADDAC(a[32], a[47]); SQRADDAC(a[33], a[46]); SQRADDAC(a[34], a[45]); SQRADDAC(a[35], a[44]); SQRADDAC(a[36], a[43]); SQRADDAC(a[37], a[42]); SQRADDAC(a[38], a[41]); SQRADDAC(a[39], a[40]); SQRADDDB;
                     +   COMBA_STORE(b[79]);
+                    +
                     +   /* output 80 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[17], a[63]); SQRADDAC(a[18], a[62]); SQRADDAC(a[19], a[61]); SQRADDAC(a[20], a[60]); SQRADDAC(a[21], a[59]); SQRADDAC(a[22], a[58]); SQRADDAC(a[23], a[57]); SQRADDAC(a[24], a[56]); SQRADDAC(a[25], a[55]); SQRADDAC(a[26], a[54]); SQRADDAC(a[27], a[53]); SQRADDAC(a[28], a[52]); SQRADDAC(a[29], a[51]); SQRADDAC(a[30], a[50]); SQRADDAC(a[31], a[49]); SQRADDAC(a[32], a[48]); SQRADDAC(a[33], a[47]); SQRADDAC(a[34], a[46]); SQRADDAC(a[35], a[45]); SQRADDAC(a[36], a[44]); SQRADDAC(a[37], a[43]); SQRADDAC(a[38], a[42]); SQRADDAC(a[39], a[41]); SQRADDDB; SQRADD(a[40], a[40]);
                     +   COMBA_STORE(b[80]);
+                    +
                     +   /* output 81 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[18], a[63]); SQRADDAC(a[19], a[62]); SQRADDAC(a[20], a[61]); SQRADDAC(a[21], a[60]); SQRADDAC(a[22], a[59]); SQRADDAC(a[23], a[58]); SQRADDAC(a[24], a[57]); SQRADDAC(a[25], a[56]); SQRADDAC(a[26], a[55]); SQRADDAC(a[27], a[54]); SQRADDAC(a[28], a[53]); SQRADDAC(a[29], a[52]); SQRADDAC(a[30], a[51]); SQRADDAC(a[31], a[50]); SQRADDAC(a[32], a[49]); SQRADDAC(a[33], a[48]); SQRADDAC(a[34], a[47]); SQRADDAC(a[35], a[46]); SQRADDAC(a[36], a[45]); SQRADDAC(a[37], a[44]); SQRADDAC(a[38], a[43]); SQRADDAC(a[39], a[42]); SQRADDAC(a[40], a[41]); SQRADDDB;
                     +   COMBA_STORE(b[81]);
+                    +
                     +   /* output 82 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[19], a[63]); SQRADDAC(a[20], a[62]); SQRADDAC(a[21], a[61]); SQRADDAC(a[22], a[60]); SQRADDAC(a[23], a[59]); SQRADDAC(a[24], a[58]); SQRADDAC(a[25], a[57]); SQRADDAC(a[26], a[56]); SQRADDAC(a[27], a[55]); SQRADDAC(a[28], a[54]); SQRADDAC(a[29], a[53]); SQRADDAC(a[30], a[52]); SQRADDAC(a[31], a[51]); SQRADDAC(a[32], a[50]); SQRADDAC(a[33], a[49]); SQRADDAC(a[34], a[48]); SQRADDAC(a[35], a[47]); SQRADDAC(a[36], a[46]); SQRADDAC(a[37], a[45]); SQRADDAC(a[38], a[44]); SQRADDAC(a[39], a[43]); SQRADDAC(a[40], a[42]); SQRADDDB; SQRADD(a[41], a[41]);
                     +   COMBA_STORE(b[82]);
+                    +
                     +   /* output 83 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[20], a[63]); SQRADDAC(a[21], a[62]); SQRADDAC(a[22], a[61]); SQRADDAC(a[23], a[60]); SQRADDAC(a[24], a[59]); SQRADDAC(a[25], a[58]); SQRADDAC(a[26], a[57]); SQRADDAC(a[27], a[56]); SQRADDAC(a[28], a[55]); SQRADDAC(a[29], a[54]); SQRADDAC(a[30], a[53]); SQRADDAC(a[31], a[52]); SQRADDAC(a[32], a[51]); SQRADDAC(a[33], a[50]); SQRADDAC(a[34], a[49]); SQRADDAC(a[35], a[48]); SQRADDAC(a[36], a[47]); SQRADDAC(a[37], a[46]); SQRADDAC(a[38], a[45]); SQRADDAC(a[39], a[44]); SQRADDAC(a[40], a[43]); SQRADDAC(a[41], a[42]); SQRADDDB;
                     +   COMBA_STORE(b[83]);
+                    +
                     +   /* output 84 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[21], a[63]); SQRADDAC(a[22], a[62]); SQRADDAC(a[23], a[61]); SQRADDAC(a[24], a[60]); SQRADDAC(a[25], a[59]); SQRADDAC(a[26], a[58]); SQRADDAC(a[27], a[57]); SQRADDAC(a[28], a[56]); SQRADDAC(a[29], a[55]); SQRADDAC(a[30], a[54]); SQRADDAC(a[31], a[53]); SQRADDAC(a[32], a[52]); SQRADDAC(a[33], a[51]); SQRADDAC(a[34], a[50]); SQRADDAC(a[35], a[49]); SQRADDAC(a[36], a[48]); SQRADDAC(a[37], a[47]); SQRADDAC(a[38], a[46]); SQRADDAC(a[39], a[45]); SQRADDAC(a[40], a[44]); SQRADDAC(a[41], a[43]); SQRADDDB; SQRADD(a[42], a[42]);
                     +   COMBA_STORE(b[84]);
+                    +
                     +   /* output 85 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[22], a[63]); SQRADDAC(a[23], a[62]); SQRADDAC(a[24], a[61]); SQRADDAC(a[25], a[60]); SQRADDAC(a[26], a[59]); SQRADDAC(a[27], a[58]); SQRADDAC(a[28], a[57]); SQRADDAC(a[29], a[56]); SQRADDAC(a[30], a[55]); SQRADDAC(a[31], a[54]); SQRADDAC(a[32], a[53]); SQRADDAC(a[33], a[52]); SQRADDAC(a[34], a[51]); SQRADDAC(a[35], a[50]); SQRADDAC(a[36], a[49]); SQRADDAC(a[37], a[48]); SQRADDAC(a[38], a[47]); SQRADDAC(a[39], a[46]); SQRADDAC(a[40], a[45]); SQRADDAC(a[41], a[44]); SQRADDAC(a[42], a[43]); SQRADDDB;
                     +   COMBA_STORE(b[85]);
+                    +
                     +   /* output 86 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[23], a[63]); SQRADDAC(a[24], a[62]); SQRADDAC(a[25], a[61]); SQRADDAC(a[26], a[60]); SQRADDAC(a[27], a[59]); SQRADDAC(a[28], a[58]); SQRADDAC(a[29], a[57]); SQRADDAC(a[30], a[56]); SQRADDAC(a[31], a[55]); SQRADDAC(a[32], a[54]); SQRADDAC(a[33], a[53]); SQRADDAC(a[34], a[52]); SQRADDAC(a[35], a[51]); SQRADDAC(a[36], a[50]); SQRADDAC(a[37], a[49]); SQRADDAC(a[38], a[48]); SQRADDAC(a[39], a[47]); SQRADDAC(a[40], a[46]); SQRADDAC(a[41], a[45]); SQRADDAC(a[42], a[44]); SQRADDDB; SQRADD(a[43], a[43]);
                     +   COMBA_STORE(b[86]);
+                    +
                     +   /* output 87 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[24], a[63]); SQRADDAC(a[25], a[62]); SQRADDAC(a[26], a[61]); SQRADDAC(a[27], a[60]); SQRADDAC(a[28], a[59]); SQRADDAC(a[29], a[58]); SQRADDAC(a[30], a[57]); SQRADDAC(a[31], a[56]); SQRADDAC(a[32], a[55]); SQRADDAC(a[33], a[54]); SQRADDAC(a[34], a[53]); SQRADDAC(a[35], a[52]); SQRADDAC(a[36], a[51]); SQRADDAC(a[37], a[50]); SQRADDAC(a[38], a[49]); SQRADDAC(a[39], a[48]); SQRADDAC(a[40], a[47]); SQRADDAC(a[41], a[46]); SQRADDAC(a[42], a[45]); SQRADDAC(a[43], a[44]); SQRADDDB;
                     +   COMBA_STORE(b[87]);
+                    +
                     +   /* output 88 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[25], a[63]); SQRADDAC(a[26], a[62]); SQRADDAC(a[27], a[61]); SQRADDAC(a[28], a[60]); SQRADDAC(a[29], a[59]); SQRADDAC(a[30], a[58]); SQRADDAC(a[31], a[57]); SQRADDAC(a[32], a[56]); SQRADDAC(a[33], a[55]); SQRADDAC(a[34], a[54]); SQRADDAC(a[35], a[53]); SQRADDAC(a[36], a[52]); SQRADDAC(a[37], a[51]); SQRADDAC(a[38], a[50]); SQRADDAC(a[39], a[49]); SQRADDAC(a[40], a[48]); SQRADDAC(a[41], a[47]); SQRADDAC(a[42], a[46]); SQRADDAC(a[43], a[45]); SQRADDDB; SQRADD(a[44], a[44]);
                     +   COMBA_STORE(b[88]);
+                    +
                     +   /* output 89 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[26], a[63]); SQRADDAC(a[27], a[62]); SQRADDAC(a[28], a[61]); SQRADDAC(a[29], a[60]); SQRADDAC(a[30], a[59]); SQRADDAC(a[31], a[58]); SQRADDAC(a[32], a[57]); SQRADDAC(a[33], a[56]); SQRADDAC(a[34], a[55]); SQRADDAC(a[35], a[54]); SQRADDAC(a[36], a[53]); SQRADDAC(a[37], a[52]); SQRADDAC(a[38], a[51]); SQRADDAC(a[39], a[50]); SQRADDAC(a[40], a[49]); SQRADDAC(a[41], a[48]); SQRADDAC(a[42], a[47]); SQRADDAC(a[43], a[46]); SQRADDAC(a[44], a[45]); SQRADDDB;
                     +   COMBA_STORE(b[89]);
+                    +
                     +   /* output 90 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[27], a[63]); SQRADDAC(a[28], a[62]); SQRADDAC(a[29], a[61]); SQRADDAC(a[30], a[60]); SQRADDAC(a[31], a[59]); SQRADDAC(a[32], a[58]); SQRADDAC(a[33], a[57]); SQRADDAC(a[34], a[56]); SQRADDAC(a[35], a[55]); SQRADDAC(a[36], a[54]); SQRADDAC(a[37], a[53]); SQRADDAC(a[38], a[52]); SQRADDAC(a[39], a[51]); SQRADDAC(a[40], a[50]); SQRADDAC(a[41], a[49]); SQRADDAC(a[42], a[48]); SQRADDAC(a[43], a[47]); SQRADDAC(a[44], a[46]); SQRADDDB; SQRADD(a[45], a[45]);
                     +   COMBA_STORE(b[90]);
+                    +
                     +   /* output 91 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[28], a[63]); SQRADDAC(a[29], a[62]); SQRADDAC(a[30], a[61]); SQRADDAC(a[31], a[60]); SQRADDAC(a[32], a[59]); SQRADDAC(a[33], a[58]); SQRADDAC(a[34], a[57]); SQRADDAC(a[35], a[56]); SQRADDAC(a[36], a[55]); SQRADDAC(a[37], a[54]); SQRADDAC(a[38], a[53]); SQRADDAC(a[39], a[52]); SQRADDAC(a[40], a[51]); SQRADDAC(a[41], a[50]); SQRADDAC(a[42], a[49]); SQRADDAC(a[43], a[48]); SQRADDAC(a[44], a[47]); SQRADDAC(a[45], a[46]); SQRADDDB;
                     +   COMBA_STORE(b[91]);
+                    +
                     +   /* output 92 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[29], a[63]); SQRADDAC(a[30], a[62]); SQRADDAC(a[31], a[61]); SQRADDAC(a[32], a[60]); SQRADDAC(a[33], a[59]); SQRADDAC(a[34], a[58]); SQRADDAC(a[35], a[57]); SQRADDAC(a[36], a[56]); SQRADDAC(a[37], a[55]); SQRADDAC(a[38], a[54]); SQRADDAC(a[39], a[53]); SQRADDAC(a[40], a[52]); SQRADDAC(a[41], a[51]); SQRADDAC(a[42], a[50]); SQRADDAC(a[43], a[49]); SQRADDAC(a[44], a[48]); SQRADDAC(a[45], a[47]); SQRADDDB; SQRADD(a[46], a[46]);
                     +   COMBA_STORE(b[92]);
+                    +
                     +   /* output 93 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[30], a[63]); SQRADDAC(a[31], a[62]); SQRADDAC(a[32], a[61]); SQRADDAC(a[33], a[60]); SQRADDAC(a[34], a[59]); SQRADDAC(a[35], a[58]); SQRADDAC(a[36], a[57]); SQRADDAC(a[37], a[56]); SQRADDAC(a[38], a[55]); SQRADDAC(a[39], a[54]); SQRADDAC(a[40], a[53]); SQRADDAC(a[41], a[52]); SQRADDAC(a[42], a[51]); SQRADDAC(a[43], a[50]); SQRADDAC(a[44], a[49]); SQRADDAC(a[45], a[48]); SQRADDAC(a[46], a[47]); SQRADDDB;
                     +   COMBA_STORE(b[93]);
+                    +
                     +   /* output 94 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[31], a[63]); SQRADDAC(a[32], a[62]); SQRADDAC(a[33], a[61]); SQRADDAC(a[34], a[60]); SQRADDAC(a[35], a[59]); SQRADDAC(a[36], a[58]); SQRADDAC(a[37], a[57]); SQRADDAC(a[38], a[56]); SQRADDAC(a[39], a[55]); SQRADDAC(a[40], a[54]); SQRADDAC(a[41], a[53]); SQRADDAC(a[42], a[52]); SQRADDAC(a[43], a[51]); SQRADDAC(a[44], a[50]); SQRADDAC(a[45], a[49]); SQRADDAC(a[46], a[48]); SQRADDDB; SQRADD(a[47], a[47]);
                     +   COMBA_STORE(b[94]);
+                    +
                     +   /* output 95 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[32], a[63]); SQRADDAC(a[33], a[62]); SQRADDAC(a[34], a[61]); SQRADDAC(a[35], a[60]); SQRADDAC(a[36], a[59]); SQRADDAC(a[37], a[58]); SQRADDAC(a[38], a[57]); SQRADDAC(a[39], a[56]); SQRADDAC(a[40], a[55]); SQRADDAC(a[41], a[54]); SQRADDAC(a[42], a[53]); SQRADDAC(a[43], a[52]); SQRADDAC(a[44], a[51]); SQRADDAC(a[45], a[50]); SQRADDAC(a[46], a[49]); SQRADDAC(a[47], a[48]); SQRADDDB;
                     +   COMBA_STORE(b[95]);
+                    +
                     +   /* output 96 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[33], a[63]); SQRADDAC(a[34], a[62]); SQRADDAC(a[35], a[61]); SQRADDAC(a[36], a[60]); SQRADDAC(a[37], a[59]); SQRADDAC(a[38], a[58]); SQRADDAC(a[39], a[57]); SQRADDAC(a[40], a[56]); SQRADDAC(a[41], a[55]); SQRADDAC(a[42], a[54]); SQRADDAC(a[43], a[53]); SQRADDAC(a[44], a[52]); SQRADDAC(a[45], a[51]); SQRADDAC(a[46], a[50]); SQRADDAC(a[47], a[49]); SQRADDDB; SQRADD(a[48], a[48]);
                     +   COMBA_STORE(b[96]);
+                    +
                     +   /* output 97 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[34], a[63]); SQRADDAC(a[35], a[62]); SQRADDAC(a[36], a[61]); SQRADDAC(a[37], a[60]); SQRADDAC(a[38], a[59]); SQRADDAC(a[39], a[58]); SQRADDAC(a[40], a[57]); SQRADDAC(a[41], a[56]); SQRADDAC(a[42], a[55]); SQRADDAC(a[43], a[54]); SQRADDAC(a[44], a[53]); SQRADDAC(a[45], a[52]); SQRADDAC(a[46], a[51]); SQRADDAC(a[47], a[50]); SQRADDAC(a[48], a[49]); SQRADDDB;
                     +   COMBA_STORE(b[97]);
+                    +
                     +   /* output 98 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[35], a[63]); SQRADDAC(a[36], a[62]); SQRADDAC(a[37], a[61]); SQRADDAC(a[38], a[60]); SQRADDAC(a[39], a[59]); SQRADDAC(a[40], a[58]); SQRADDAC(a[41], a[57]); SQRADDAC(a[42], a[56]); SQRADDAC(a[43], a[55]); SQRADDAC(a[44], a[54]); SQRADDAC(a[45], a[53]); SQRADDAC(a[46], a[52]); SQRADDAC(a[47], a[51]); SQRADDAC(a[48], a[50]); SQRADDDB; SQRADD(a[49], a[49]);
                     +   COMBA_STORE(b[98]);
+                    +
                     +   /* output 99 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[36], a[63]); SQRADDAC(a[37], a[62]); SQRADDAC(a[38], a[61]); SQRADDAC(a[39], a[60]); SQRADDAC(a[40], a[59]); SQRADDAC(a[41], a[58]); SQRADDAC(a[42], a[57]); SQRADDAC(a[43], a[56]); SQRADDAC(a[44], a[55]); SQRADDAC(a[45], a[54]); SQRADDAC(a[46], a[53]); SQRADDAC(a[47], a[52]); SQRADDAC(a[48], a[51]); SQRADDAC(a[49], a[50]); SQRADDDB;
                     +   COMBA_STORE(b[99]);
+                    +
                     +   /* output 100 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[37], a[63]); SQRADDAC(a[38], a[62]); SQRADDAC(a[39], a[61]); SQRADDAC(a[40], a[60]); SQRADDAC(a[41], a[59]); SQRADDAC(a[42], a[58]); SQRADDAC(a[43], a[57]); SQRADDAC(a[44], a[56]); SQRADDAC(a[45], a[55]); SQRADDAC(a[46], a[54]); SQRADDAC(a[47], a[53]); SQRADDAC(a[48], a[52]); SQRADDAC(a[49], a[51]); SQRADDDB; SQRADD(a[50], a[50]);
                     +   COMBA_STORE(b[100]);
+                    +
                     +   /* output 101 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[38], a[63]); SQRADDAC(a[39], a[62]); SQRADDAC(a[40], a[61]); SQRADDAC(a[41], a[60]); SQRADDAC(a[42], a[59]); SQRADDAC(a[43], a[58]); SQRADDAC(a[44], a[57]); SQRADDAC(a[45], a[56]); SQRADDAC(a[46], a[55]); SQRADDAC(a[47], a[54]); SQRADDAC(a[48], a[53]); SQRADDAC(a[49], a[52]); SQRADDAC(a[50], a[51]); SQRADDDB;
                     +   COMBA_STORE(b[101]);
+                    +
                     +   /* output 102 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[39], a[63]); SQRADDAC(a[40], a[62]); SQRADDAC(a[41], a[61]); SQRADDAC(a[42], a[60]); SQRADDAC(a[43], a[59]); SQRADDAC(a[44], a[58]); SQRADDAC(a[45], a[57]); SQRADDAC(a[46], a[56]); SQRADDAC(a[47], a[55]); SQRADDAC(a[48], a[54]); SQRADDAC(a[49], a[53]); SQRADDAC(a[50], a[52]); SQRADDDB; SQRADD(a[51], a[51]);
                     +   COMBA_STORE(b[102]);
+                    +
                     +   /* output 103 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[40], a[63]); SQRADDAC(a[41], a[62]); SQRADDAC(a[42], a[61]); SQRADDAC(a[43], a[60]); SQRADDAC(a[44], a[59]); SQRADDAC(a[45], a[58]); SQRADDAC(a[46], a[57]); SQRADDAC(a[47], a[56]); SQRADDAC(a[48], a[55]); SQRADDAC(a[49], a[54]); SQRADDAC(a[50], a[53]); SQRADDAC(a[51], a[52]); SQRADDDB;
                     +   COMBA_STORE(b[103]);
+                    +
                     +   /* output 104 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[41], a[63]); SQRADDAC(a[42], a[62]); SQRADDAC(a[43], a[61]); SQRADDAC(a[44], a[60]); SQRADDAC(a[45], a[59]); SQRADDAC(a[46], a[58]); SQRADDAC(a[47], a[57]); SQRADDAC(a[48], a[56]); SQRADDAC(a[49], a[55]); SQRADDAC(a[50], a[54]); SQRADDAC(a[51], a[53]); SQRADDDB; SQRADD(a[52], a[52]);
                     +   COMBA_STORE(b[104]);
+                    +
                     +   /* output 105 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[42], a[63]); SQRADDAC(a[43], a[62]); SQRADDAC(a[44], a[61]); SQRADDAC(a[45], a[60]); SQRADDAC(a[46], a[59]); SQRADDAC(a[47], a[58]); SQRADDAC(a[48], a[57]); SQRADDAC(a[49], a[56]); SQRADDAC(a[50], a[55]); SQRADDAC(a[51], a[54]); SQRADDAC(a[52], a[53]); SQRADDDB;
                     +   COMBA_STORE(b[105]);
+                    +
                     +   /* output 106 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[43], a[63]); SQRADDAC(a[44], a[62]); SQRADDAC(a[45], a[61]); SQRADDAC(a[46], a[60]); SQRADDAC(a[47], a[59]); SQRADDAC(a[48], a[58]); SQRADDAC(a[49], a[57]); SQRADDAC(a[50], a[56]); SQRADDAC(a[51], a[55]); SQRADDAC(a[52], a[54]); SQRADDDB; SQRADD(a[53], a[53]);
                     +   COMBA_STORE(b[106]);
+                    +
                     +   /* output 107 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[44], a[63]); SQRADDAC(a[45], a[62]); SQRADDAC(a[46], a[61]); SQRADDAC(a[47], a[60]); SQRADDAC(a[48], a[59]); SQRADDAC(a[49], a[58]); SQRADDAC(a[50], a[57]); SQRADDAC(a[51], a[56]); SQRADDAC(a[52], a[55]); SQRADDAC(a[53], a[54]); SQRADDDB;
                     +   COMBA_STORE(b[107]);
+                    +
                     +   /* output 108 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[45], a[63]); SQRADDAC(a[46], a[62]); SQRADDAC(a[47], a[61]); SQRADDAC(a[48], a[60]); SQRADDAC(a[49], a[59]); SQRADDAC(a[50], a[58]); SQRADDAC(a[51], a[57]); SQRADDAC(a[52], a[56]); SQRADDAC(a[53], a[55]); SQRADDDB; SQRADD(a[54], a[54]);
                     +   COMBA_STORE(b[108]);
+                    +
                     +   /* output 109 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[46], a[63]); SQRADDAC(a[47], a[62]); SQRADDAC(a[48], a[61]); SQRADDAC(a[49], a[60]); SQRADDAC(a[50], a[59]); SQRADDAC(a[51], a[58]); SQRADDAC(a[52], a[57]); SQRADDAC(a[53], a[56]); SQRADDAC(a[54], a[55]); SQRADDDB;
                     +   COMBA_STORE(b[109]);
+                    +
                     +   /* output 110 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[47], a[63]); SQRADDAC(a[48], a[62]); SQRADDAC(a[49], a[61]); SQRADDAC(a[50], a[60]); SQRADDAC(a[51], a[59]); SQRADDAC(a[52], a[58]); SQRADDAC(a[53], a[57]); SQRADDAC(a[54], a[56]); SQRADDDB; SQRADD(a[55], a[55]);
                     +   COMBA_STORE(b[110]);
+                    +
                     +   /* output 111 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[48], a[63]); SQRADDAC(a[49], a[62]); SQRADDAC(a[50], a[61]); SQRADDAC(a[51], a[60]); SQRADDAC(a[52], a[59]); SQRADDAC(a[53], a[58]); SQRADDAC(a[54], a[57]); SQRADDAC(a[55], a[56]); SQRADDDB;
                     +   COMBA_STORE(b[111]);
+                    +
                     +   /* output 112 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[49], a[63]); SQRADDAC(a[50], a[62]); SQRADDAC(a[51], a[61]); SQRADDAC(a[52], a[60]); SQRADDAC(a[53], a[59]); SQRADDAC(a[54], a[58]); SQRADDAC(a[55], a[57]); SQRADDDB; SQRADD(a[56], a[56]);
                     +   COMBA_STORE(b[112]);
+                    +
                     +   /* output 113 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[50], a[63]); SQRADDAC(a[51], a[62]); SQRADDAC(a[52], a[61]); SQRADDAC(a[53], a[60]); SQRADDAC(a[54], a[59]); SQRADDAC(a[55], a[58]); SQRADDAC(a[56], a[57]); SQRADDDB;
                     +   COMBA_STORE(b[113]);
+                    +
                     +   /* output 114 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[51], a[63]); SQRADDAC(a[52], a[62]); SQRADDAC(a[53], a[61]); SQRADDAC(a[54], a[60]); SQRADDAC(a[55], a[59]); SQRADDAC(a[56], a[58]); SQRADDDB; SQRADD(a[57], a[57]);
                     +   COMBA_STORE(b[114]);
+                    +
                     +   /* output 115 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[52], a[63]); SQRADDAC(a[53], a[62]); SQRADDAC(a[54], a[61]); SQRADDAC(a[55], a[60]); SQRADDAC(a[56], a[59]); SQRADDAC(a[57], a[58]); SQRADDDB;
                     +   COMBA_STORE(b[115]);
+                    +
                     +   /* output 116 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[53], a[63]); SQRADDAC(a[54], a[62]); SQRADDAC(a[55], a[61]); SQRADDAC(a[56], a[60]); SQRADDAC(a[57], a[59]); SQRADDDB; SQRADD(a[58], a[58]);
                     +   COMBA_STORE(b[116]);
+                    +
                     +   /* output 117 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[54], a[63]); SQRADDAC(a[55], a[62]); SQRADDAC(a[56], a[61]); SQRADDAC(a[57], a[60]); SQRADDAC(a[58], a[59]); SQRADDDB;
                     +   COMBA_STORE(b[117]);
+                    +
                     +   /* output 118 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[55], a[63]); SQRADDAC(a[56], a[62]); SQRADDAC(a[57], a[61]); SQRADDAC(a[58], a[60]); SQRADDDB; SQRADD(a[59], a[59]);
                     +   COMBA_STORE(b[118]);
+                    +
                     +   /* output 119 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[56], a[63]); SQRADDAC(a[57], a[62]); SQRADDAC(a[58], a[61]); SQRADDAC(a[59], a[60]); SQRADDDB;
                     +   COMBA_STORE(b[119]);
+                    +
                     +   /* output 120 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[57], a[63]); SQRADDAC(a[58], a[62]); SQRADDAC(a[59], a[61]); SQRADDDB; SQRADD(a[60], a[60]);
                     +   COMBA_STORE(b[120]);
+                    +
                     +   /* output 121 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[58], a[63]); SQRADDAC(a[59], a[62]); SQRADDAC(a[60], a[61]); SQRADDDB;
                     +   COMBA_STORE(b[121]);
+                    +
                     +   /* output 122 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[59], a[63]); SQRADD2(a[60], a[62]); SQRADD(a[61], a[61]);
                     +   COMBA_STORE(b[122]);
+                    +
                     +   /* output 123 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[60], a[63]); SQRADD2(a[61], a[62]);
                     +   COMBA_STORE(b[123]);
+                    +
                     +   /* output 124 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[61], a[63]); SQRADD(a[62], a[62]);
                     +   COMBA_STORE(b[124]);
+                    +
                     +   /* output 125 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[62], a[63]);
                     +   COMBA_STORE(b[125]);
+                    +
                     +   /* output 126 */
                     +   CARRY_FORWARD;
                     +   SQRADD(a[63], a[63]);
                     +   COMBA_STORE(b[126]);
                     +   COMBA_STORE2(b[127]);
                     +   COMBA_FINI;
+                    +
                     +   B->used = 128;
                     +   B->sign = FP_ZPOS;
                     +   memcpy(B->dp, b, 128 * sizeof(fp_digit));
                     +   fp_clamp(B);
+                     }
                      #endif
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_to_signed_bin.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
                     -/* End: bn_mp_to_signed_bin.c */
                     +/* $Source: /cvs/libtom/tomsfastmath/src/sqr/fp_sqr_comba_64.c,v $ */
                     +/* $Revision: 1.2 $ */
                     +/* $Date: 2007/02/17 03:39:01 $ */
                     -/* Start: bn_mp_to_signed_bin_n.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_TO_SIGNED_BIN_N_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     - *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     - */
                     +/* End: fp_sqr_comba_64.c */
+                    +
                     +/* Start: fp_sqr_comba_7.c */
                     +#define TFM_DEFINES
                     +#include "fp_sqr_comba.c"
                     -/* store in signed [big endian] format */
                     -int mp_to_signed_bin_n (mp_int * a, unsigned char *b, unsigned long *outlen)
                     +#ifdef TFM_SQR7
                     +void fp_sqr_comba7(fp_int *A, fp_int *B)
+                     {
                     -   if (*outlen < (unsigned long)mp_signed_bin_size(a)) {
                     -      return MP_VAL;
                     -   }
                     -   *outlen = mp_signed_bin_size(a);
                     -   return mp_to_signed_bin(a, b);
                     +   fp_digit *a, b[14], c0, c1, c2, sc0, sc1, sc2;
                     +#ifdef TFM_ISO
                     +   fp_word tt;
                     +#endif
+                    +
                     +   a = A->dp;
                     +   COMBA_START;
+                    +
                     +   /* clear carries */
                     +   CLEAR_CARRY;
+                    +
                     +   /* output 0 */
                     +   SQRADD(a[0],a[0]);
                     +   COMBA_STORE(b[0]);
+                    +
                     +   /* output 1 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[0], a[1]);
                     +   COMBA_STORE(b[1]);
+                    +
                     +   /* output 2 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[0], a[2]); SQRADD(a[1], a[1]);
                     +   COMBA_STORE(b[2]);
+                    +
                     +   /* output 3 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[0], a[3]); SQRADD2(a[1], a[2]);
                     +   COMBA_STORE(b[3]);
+                    +
                     +   /* output 4 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[0], a[4]); SQRADD2(a[1], a[3]); SQRADD(a[2], a[2]);
                     +   COMBA_STORE(b[4]);
+                    +
                     +   /* output 5 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[5]); SQRADDAC(a[1], a[4]); SQRADDAC(a[2], a[3]); SQRADDDB;
                     +   COMBA_STORE(b[5]);
+                    +
                     +   /* output 6 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[6]); SQRADDAC(a[1], a[5]); SQRADDAC(a[2], a[4]); SQRADDDB; SQRADD(a[3], a[3]);
                     +   COMBA_STORE(b[6]);
+                    +
                     +   /* output 7 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[1], a[6]); SQRADDAC(a[2], a[5]); SQRADDAC(a[3], a[4]); SQRADDDB;
                     +   COMBA_STORE(b[7]);
+                    +
                     +   /* output 8 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[2], a[6]); SQRADD2(a[3], a[5]); SQRADD(a[4], a[4]);
                     +   COMBA_STORE(b[8]);
+                    +
                     +   /* output 9 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[3], a[6]); SQRADD2(a[4], a[5]);
                     +   COMBA_STORE(b[9]);
+                    +
                     +   /* output 10 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[4], a[6]); SQRADD(a[5], a[5]);
                     +   COMBA_STORE(b[10]);
+                    +
                     +   /* output 11 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[5], a[6]);
                     +   COMBA_STORE(b[11]);
+                    +
                     +   /* output 12 */
                     +   CARRY_FORWARD;
                     +   SQRADD(a[6], a[6]);
                     +   COMBA_STORE(b[12]);
                     +   COMBA_STORE2(b[13]);
                     +   COMBA_FINI;
+                    +
                     +   B->used = 14;
                     +   B->sign = FP_ZPOS;
                     +   memcpy(B->dp, b, 14 * sizeof(fp_digit));
                     +   fp_clamp(B);
+                     }
                      #endif
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_to_signed_bin_n.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
+                    -
                     -/* End: bn_mp_to_signed_bin_n.c */
                     -/* Start: bn_mp_to_unsigned_bin.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_TO_UNSIGNED_BIN_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     - *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     - */
                     +/* $Source: /cvs/libtom/tomsfastmath/src/sqr/fp_sqr_comba_7.c,v $ */
                     +/* $Revision: 1.2 $ */
                     +/* $Date: 2007/02/17 03:39:01 $ */
                     -/* store in unsigned [big endian] format */
                     -int mp_to_unsigned_bin (mp_int * a, unsigned char *b)
                     -{
                     -  int     x, res;
                     -  mp_int  t;
                     +/* End: fp_sqr_comba_7.c */
                     -  if ((res = mp_init_copy (&t, a)) != MP_OKAY) {
                     -    return res;
                     -  }
                     +/* Start: fp_sqr_comba_8.c */
                     +#define TFM_DEFINES
                     +#include "fp_sqr_comba.c"
                     -  x = 0;
                     -  while (mp_iszero (&t) == 0) {
                     -#ifndef MP_8BIT
                     -      b[x++] = (unsigned char) (t.dp[0] & 255);
                     -#else
                     -      b[x++] = (unsigned char) (t.dp[0] | ((t.dp[1] & 0x01) << 7));
                     -#endif
                     -    if ((res = mp_div_2d (&t, 8, &t, NULL)) != MP_OKAY) {
                     -      mp_clear (&t);
                     -      return res;
                     -    }
                     -  }
                     -  bn_reverse (b, x);
                     -  mp_clear (&t);
                     -  return MP_OKAY;
                     +#ifdef TFM_SQR8
                     +void fp_sqr_comba8(fp_int *A, fp_int *B)
                     +{
                     +   fp_digit *a, b[16], c0, c1, c2, sc0, sc1, sc2;
                     +#ifdef TFM_ISO
                     +   fp_word tt;
                     +#endif
+                    +
                     +   a = A->dp;
                     +   COMBA_START;
+                    +
                     +   /* clear carries */
                     +   CLEAR_CARRY;
+                    +
                     +   /* output 0 */
                     +   SQRADD(a[0],a[0]);
                     +   COMBA_STORE(b[0]);
+                    +
                     +   /* output 1 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[0], a[1]);
                     +   COMBA_STORE(b[1]);
+                    +
                     +   /* output 2 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[0], a[2]); SQRADD(a[1], a[1]);
                     +   COMBA_STORE(b[2]);
+                    +
                     +   /* output 3 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[0], a[3]); SQRADD2(a[1], a[2]);
                     +   COMBA_STORE(b[3]);
+                    +
                     +   /* output 4 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[0], a[4]); SQRADD2(a[1], a[3]); SQRADD(a[2], a[2]);
                     +   COMBA_STORE(b[4]);
+                    +
                     +   /* output 5 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[5]); SQRADDAC(a[1], a[4]); SQRADDAC(a[2], a[3]); SQRADDDB;
                     +   COMBA_STORE(b[5]);
+                    +
                     +   /* output 6 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[6]); SQRADDAC(a[1], a[5]); SQRADDAC(a[2], a[4]); SQRADDDB; SQRADD(a[3], a[3]);
                     +   COMBA_STORE(b[6]);
+                    +
                     +   /* output 7 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[7]); SQRADDAC(a[1], a[6]); SQRADDAC(a[2], a[5]); SQRADDAC(a[3], a[4]); SQRADDDB;
                     +   COMBA_STORE(b[7]);
+                    +
                     +   /* output 8 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[1], a[7]); SQRADDAC(a[2], a[6]); SQRADDAC(a[3], a[5]); SQRADDDB; SQRADD(a[4], a[4]);
                     +   COMBA_STORE(b[8]);
+                    +
                     +   /* output 9 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[2], a[7]); SQRADDAC(a[3], a[6]); SQRADDAC(a[4], a[5]); SQRADDDB;
                     +   COMBA_STORE(b[9]);
+                    +
                     +   /* output 10 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[3], a[7]); SQRADD2(a[4], a[6]); SQRADD(a[5], a[5]);
                     +   COMBA_STORE(b[10]);
+                    +
                     +   /* output 11 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[4], a[7]); SQRADD2(a[5], a[6]);
                     +   COMBA_STORE(b[11]);
+                    +
                     +   /* output 12 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[5], a[7]); SQRADD(a[6], a[6]);
                     +   COMBA_STORE(b[12]);
+                    +
                     +   /* output 13 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[6], a[7]);
                     +   COMBA_STORE(b[13]);
+                    +
                     +   /* output 14 */
                     +   CARRY_FORWARD;
                     +   SQRADD(a[7], a[7]);
                     +   COMBA_STORE(b[14]);
                     +   COMBA_STORE2(b[15]);
                     +   COMBA_FINI;
+                    +
                     +   B->used = 16;
                     +   B->sign = FP_ZPOS;
                     +   memcpy(B->dp, b, 16 * sizeof(fp_digit));
                     +   fp_clamp(B);
+                     }
                      #endif
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_to_unsigned_bin.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
                     -/* End: bn_mp_to_unsigned_bin.c */
                     +/* $Source: /cvs/libtom/tomsfastmath/src/sqr/fp_sqr_comba_8.c,v $ */
                     +/* $Revision: 1.2 $ */
                     +/* $Date: 2007/02/17 03:39:01 $ */
                     -/* Start: bn_mp_to_unsigned_bin_n.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_TO_UNSIGNED_BIN_N_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     - *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     - */
                     +/* End: fp_sqr_comba_8.c */
+                    +
                     +/* Start: fp_sqr_comba_9.c */
                     +#define TFM_DEFINES
                     +#include "fp_sqr_comba.c"
                     -/* store in unsigned [big endian] format */
                     -int mp_to_unsigned_bin_n (mp_int * a, unsigned char *b, unsigned long *outlen)
                     +#ifdef TFM_SQR9
                     +void fp_sqr_comba9(fp_int *A, fp_int *B)
+                     {
                     -   if (*outlen < (unsigned long)mp_unsigned_bin_size(a)) {
                     -      return MP_VAL;
                     -   }
                     -   *outlen = mp_unsigned_bin_size(a);
                     -   return mp_to_unsigned_bin(a, b);
                     +   fp_digit *a, b[18], c0, c1, c2, sc0, sc1, sc2;
                     +#ifdef TFM_ISO
                     +   fp_word tt;
                     +#endif
+                    +
                     +   a = A->dp;
                     +   COMBA_START;
+                    +
                     +   /* clear carries */
                     +   CLEAR_CARRY;
+                    +
                     +   /* output 0 */
                     +   SQRADD(a[0],a[0]);
                     +   COMBA_STORE(b[0]);
+                    +
                     +   /* output 1 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[0], a[1]);
                     +   COMBA_STORE(b[1]);
+                    +
                     +   /* output 2 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[0], a[2]); SQRADD(a[1], a[1]);
                     +   COMBA_STORE(b[2]);
+                    +
                     +   /* output 3 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[0], a[3]); SQRADD2(a[1], a[2]);
                     +   COMBA_STORE(b[3]);
+                    +
                     +   /* output 4 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[0], a[4]); SQRADD2(a[1], a[3]); SQRADD(a[2], a[2]);
                     +   COMBA_STORE(b[4]);
+                    +
                     +   /* output 5 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[5]); SQRADDAC(a[1], a[4]); SQRADDAC(a[2], a[3]); SQRADDDB;
                     +   COMBA_STORE(b[5]);
+                    +
                     +   /* output 6 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[6]); SQRADDAC(a[1], a[5]); SQRADDAC(a[2], a[4]); SQRADDDB; SQRADD(a[3], a[3]);
                     +   COMBA_STORE(b[6]);
+                    +
                     +   /* output 7 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[7]); SQRADDAC(a[1], a[6]); SQRADDAC(a[2], a[5]); SQRADDAC(a[3], a[4]); SQRADDDB;
                     +   COMBA_STORE(b[7]);
+                    +
                     +   /* output 8 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[8]); SQRADDAC(a[1], a[7]); SQRADDAC(a[2], a[6]); SQRADDAC(a[3], a[5]); SQRADDDB; SQRADD(a[4], a[4]);
                     +   COMBA_STORE(b[8]);
+                    +
                     +   /* output 9 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[1], a[8]); SQRADDAC(a[2], a[7]); SQRADDAC(a[3], a[6]); SQRADDAC(a[4], a[5]); SQRADDDB;
                     +   COMBA_STORE(b[9]);
+                    +
                     +   /* output 10 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[2], a[8]); SQRADDAC(a[3], a[7]); SQRADDAC(a[4], a[6]); SQRADDDB; SQRADD(a[5], a[5]);
                     +   COMBA_STORE(b[10]);
+                    +
                     +   /* output 11 */
                     +   CARRY_FORWARD;
                     +   SQRADDSC(a[3], a[8]); SQRADDAC(a[4], a[7]); SQRADDAC(a[5], a[6]); SQRADDDB;
                     +   COMBA_STORE(b[11]);
+                    +
                     +   /* output 12 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[4], a[8]); SQRADD2(a[5], a[7]); SQRADD(a[6], a[6]);
                     +   COMBA_STORE(b[12]);
+                    +
                     +   /* output 13 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[5], a[8]); SQRADD2(a[6], a[7]);
                     +   COMBA_STORE(b[13]);
+                    +
                     +   /* output 14 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[6], a[8]); SQRADD(a[7], a[7]);
                     +   COMBA_STORE(b[14]);
+                    +
                     +   /* output 15 */
                     +   CARRY_FORWARD;
                     +   SQRADD2(a[7], a[8]);
                     +   COMBA_STORE(b[15]);
+                    +
                     +   /* output 16 */
                     +   CARRY_FORWARD;
                     +   SQRADD(a[8], a[8]);
                     +   COMBA_STORE(b[16]);
                     +   COMBA_STORE2(b[17]);
                     +   COMBA_FINI;
+                    +
                     +   B->used = 18;
                     +   B->sign = FP_ZPOS;
                     +   memcpy(B->dp, b, 18 * sizeof(fp_digit));
                     +   fp_clamp(B);
+                     }
                      #endif
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_to_unsigned_bin_n.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
+                    -
                     -/* End: bn_mp_to_unsigned_bin_n.c */
+                    -
                     -/* Start: bn_mp_toom_mul.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_TOOM_MUL_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     - *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     - */
+                    -
                     -/* multiplication using the Toom-Cook 3-way algorithm
                     - *
                     - * Much more complicated than Karatsuba but has a lower
                     - * asymptotic running time of O(N**1.464).  This algorithm is
                     - * only particularly useful on VERY large inputs
                     - * (we're talking 1000s of digits here...).
                     -*/
                     -int mp_toom_mul(mp_int *a, mp_int *b, mp_int *c)
                     -{
                     -    mp_int w0, w1, w2, w3, w4, tmp1, tmp2, a0, a1, a2, b0, b1, b2;
                     -    int res, B;
+                    -
                     -    /* init temps */
                     -    if ((res = mp_init_multi(&w0, &w1, &w2, &w3, &w4,
                     -                             &a0, &a1, &a2, &b0, &b1,
                     -                             &b2, &tmp1, &tmp2, NULL)) != MP_OKAY) {
                     -       return res;
                     -    }
+                    -
                     -    /* B */
                     -    B = MIN(a->used, b->used) / 3;
+                    -
                     -    /* a = a2 * B**2 + a1 * B + a0 */
                     -    if ((res = mp_mod_2d(a, DIGIT_BIT * B, &a0)) != MP_OKAY) {
                     -       goto ERR;
                     -    }
+                    -
                     -    if ((res = mp_copy(a, &a1)) != MP_OKAY) {
                     -       goto ERR;
                     -    }
                     -    mp_rshd(&a1, B);
                     -    mp_mod_2d(&a1, DIGIT_BIT * B, &a1);
+                    -
                     -    if ((res = mp_copy(a, &a2)) != MP_OKAY) {
                     -       goto ERR;
                     -    }
                     -    mp_rshd(&a2, B*2);
+                    -
                     -    /* b = b2 * B**2 + b1 * B + b0 */
                     -    if ((res = mp_mod_2d(b, DIGIT_BIT * B, &b0)) != MP_OKAY) {
                     -       goto ERR;
                     -    }
+                    -
                     -    if ((res = mp_copy(b, &b1)) != MP_OKAY) {
                     -       goto ERR;
                     -    }
                     -    mp_rshd(&b1, B);
                     -    mp_mod_2d(&b1, DIGIT_BIT * B, &b1);
+                    -
                     -    if ((res = mp_copy(b, &b2)) != MP_OKAY) {
                     -       goto ERR;
                     -    }
                     -    mp_rshd(&b2, B*2);
+                    -
                     -    /* w0 = a0*b0 */
                     -    if ((res = mp_mul(&a0, &b0, &w0)) != MP_OKAY) {
                     -       goto ERR;
                     -    }
+                    -
                     -    /* w4 = a2 * b2 */
                     -    if ((res = mp_mul(&a2, &b2, &w4)) != MP_OKAY) {
                     -       goto ERR;
                     -    }
+                    -
                     -    /* w1 = (a2 + 2(a1 + 2a0))(b2 + 2(b1 + 2b0)) */
                     -    if ((res = mp_mul_2(&a0, &tmp1)) != MP_OKAY) {
                     -       goto ERR;
                     -    }
                     -    if ((res = mp_add(&tmp1, &a1, &tmp1)) != MP_OKAY) {
                     -       goto ERR;
                     -    }
                     -    if ((res = mp_mul_2(&tmp1, &tmp1)) != MP_OKAY) {
                     -       goto ERR;
                     -    }
                     -    if ((res = mp_add(&tmp1, &a2, &tmp1)) != MP_OKAY) {
                     -       goto ERR;
                     -    }
+                    -
                     -    if ((res = mp_mul_2(&b0, &tmp2)) != MP_OKAY) {
                     -       goto ERR;
                     -    }
                     -    if ((res = mp_add(&tmp2, &b1, &tmp2)) != MP_OKAY) {
                     -       goto ERR;
                     -    }
                     -    if ((res = mp_mul_2(&tmp2, &tmp2)) != MP_OKAY) {
                     -       goto ERR;
                     -    }
                     -    if ((res = mp_add(&tmp2, &b2, &tmp2)) != MP_OKAY) {
                     -       goto ERR;
                     -    }
+                    -
                     -    if ((res = mp_mul(&tmp1, &tmp2, &w1)) != MP_OKAY) {
                     -       goto ERR;
                     -    }
+                    -
                     -    /* w3 = (a0 + 2(a1 + 2a2))(b0 + 2(b1 + 2b2)) */
                     -    if ((res = mp_mul_2(&a2, &tmp1)) != MP_OKAY) {
                     -       goto ERR;
                     -    }
                     -    if ((res = mp_add(&tmp1, &a1, &tmp1)) != MP_OKAY) {
                     -       goto ERR;
                     -    }
                     -    if ((res = mp_mul_2(&tmp1, &tmp1)) != MP_OKAY) {
                     -       goto ERR;
                     -    }
                     -    if ((res = mp_add(&tmp1, &a0, &tmp1)) != MP_OKAY) {
                     -       goto ERR;
                     -    }
+                    -
                     -    if ((res = mp_mul_2(&b2, &tmp2)) != MP_OKAY) {
                     -       goto ERR;
                     -    }
                     -    if ((res = mp_add(&tmp2, &b1, &tmp2)) != MP_OKAY) {
                     -       goto ERR;
                     -    }
                     -    if ((res = mp_mul_2(&tmp2, &tmp2)) != MP_OKAY) {
                     -       goto ERR;
                     -    }
                     -    if ((res = mp_add(&tmp2, &b0, &tmp2)) != MP_OKAY) {
                     -       goto ERR;
                     -    }
+                    -
                     -    if ((res = mp_mul(&tmp1, &tmp2, &w3)) != MP_OKAY) {
                     -       goto ERR;
                     -    }
+                    -
+                    -
                     -    /* w2 = (a2 + a1 + a0)(b2 + b1 + b0) */
                     -    if ((res = mp_add(&a2, &a1, &tmp1)) != MP_OKAY) {
                     -       goto ERR;
                     -    }
                     -    if ((res = mp_add(&tmp1, &a0, &tmp1)) != MP_OKAY) {
                     -       goto ERR;
                     -    }
                     -    if ((res = mp_add(&b2, &b1, &tmp2)) != MP_OKAY) {
                     -       goto ERR;
                     -    }
                     -    if ((res = mp_add(&tmp2, &b0, &tmp2)) != MP_OKAY) {
                     -       goto ERR;
                     -    }
                     -    if ((res = mp_mul(&tmp1, &tmp2, &w2)) != MP_OKAY) {
                     -       goto ERR;
                     -    }
+                    -
                     -    /* now solve the matrix
+                    -
                     -       0  0  0  0  1
                     -       1  2  4  8  16
                     -       1  1  1  1  1
                     -       16 8  4  2  1
                     -       1  0  0  0  0
+                    -
                     -       using 12 subtractions, 4 shifts,
                     -              2 small divisions and 1 small multiplication
                     -     */
+                    -
                     -     /* r1 - r4 */
                     -     if ((res = mp_sub(&w1, &w4, &w1)) != MP_OKAY) {
                     -        goto ERR;
                     -     }
                     -     /* r3 - r0 */
                     -     if ((res = mp_sub(&w3, &w0, &w3)) != MP_OKAY) {
                     -        goto ERR;
                     -     }
                     -     /* r1/2 */
                     -     if ((res = mp_div_2(&w1, &w1)) != MP_OKAY) {
                     -        goto ERR;
                     -     }
                     -     /* r3/2 */
                     -     if ((res = mp_div_2(&w3, &w3)) != MP_OKAY) {
                     -        goto ERR;
                     -     }
                     -     /* r2 - r0 - r4 */
                     -     if ((res = mp_sub(&w2, &w0, &w2)) != MP_OKAY) {
                     -        goto ERR;
                     -     }
                     -     if ((res = mp_sub(&w2, &w4, &w2)) != MP_OKAY) {
                     -        goto ERR;
                     -     }
                     -     /* r1 - r2 */
                     -     if ((res = mp_sub(&w1, &w2, &w1)) != MP_OKAY) {
                     -        goto ERR;
                     -     }
                     -     /* r3 - r2 */
                     -     if ((res = mp_sub(&w3, &w2, &w3)) != MP_OKAY) {
                     -        goto ERR;
                     -     }
                     -     /* r1 - 8r0 */
                     -     if ((res = mp_mul_2d(&w0, 3, &tmp1)) != MP_OKAY) {
                     -        goto ERR;
                     -     }
                     -     if ((res = mp_sub(&w1, &tmp1, &w1)) != MP_OKAY) {
                     -        goto ERR;
                     -     }
                     -     /* r3 - 8r4 */
                     -     if ((res = mp_mul_2d(&w4, 3, &tmp1)) != MP_OKAY) {
                     -        goto ERR;
                     -     }
                     -     if ((res = mp_sub(&w3, &tmp1, &w3)) != MP_OKAY) {
                     -        goto ERR;
                     -     }
                     -     /* 3r2 - r1 - r3 */
                     -     if ((res = mp_mul_d(&w2, 3, &w2)) != MP_OKAY) {
                     -        goto ERR;
                     -     }
                     -     if ((res = mp_sub(&w2, &w1, &w2)) != MP_OKAY) {
                     -        goto ERR;
                     -     }
                     -     if ((res = mp_sub(&w2, &w3, &w2)) != MP_OKAY) {
                     -        goto ERR;
                     -     }
                     -     /* r1 - r2 */
                     -     if ((res = mp_sub(&w1, &w2, &w1)) != MP_OKAY) {
                     -        goto ERR;
                     -     }
                     -     /* r3 - r2 */
                     -     if ((res = mp_sub(&w3, &w2, &w3)) != MP_OKAY) {
                     -        goto ERR;
                     -     }
                     -     /* r1/3 */
                     -     if ((res = mp_div_3(&w1, &w1, NULL)) != MP_OKAY) {
                     -        goto ERR;
                     -     }
                     -     /* r3/3 */
                     -     if ((res = mp_div_3(&w3, &w3, NULL)) != MP_OKAY) {
                     -        goto ERR;
                     -     }
+                    -
                     -     /* at this point shift W[n] by B*n */
                     -     if ((res = mp_lshd(&w1, 1*B)) != MP_OKAY) {
                     -        goto ERR;
                     -     }
                     -     if ((res = mp_lshd(&w2, 2*B)) != MP_OKAY) {
                     -        goto ERR;
                     -     }
                     -     if ((res = mp_lshd(&w3, 3*B)) != MP_OKAY) {
                     -        goto ERR;
                     -     }
                     -     if ((res = mp_lshd(&w4, 4*B)) != MP_OKAY) {
                     -        goto ERR;
                     -     }
+                    -
                     -     if ((res = mp_add(&w0, &w1, c)) != MP_OKAY) {
                     -        goto ERR;
                     -     }
                     -     if ((res = mp_add(&w2, &w3, &tmp1)) != MP_OKAY) {
                     -        goto ERR;
                     -     }
                     -     if ((res = mp_add(&w4, &tmp1, &tmp1)) != MP_OKAY) {
                     -        goto ERR;
                     -     }
                     -     if ((res = mp_add(&tmp1, c, c)) != MP_OKAY) {
                     -        goto ERR;
                     -     }
+                    -
                     -ERR:
                     -     mp_clear_multi(&w0, &w1, &w2, &w3, &w4,
                     -                    &a0, &a1, &a2, &b0, &b1,
                     -                    &b2, &tmp1, &tmp2, NULL);
                     -     return res;
                     -}
+                    -
                     -#endif
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_toom_mul.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
                     +/* $Source: /cvs/libtom/tomsfastmath/src/sqr/fp_sqr_comba_9.c,v $ */
                     +/* $Revision: 1.2 $ */
                     +/* $Date: 2007/02/17 03:39:01 $ */
                     -/* End: bn_mp_toom_mul.c */
                     +/* End: fp_sqr_comba_9.c */
                     -/* Start: bn_mp_toom_sqr.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_TOOM_SQR_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     - *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     - */
                     +/* Start: fp_sqr_comba_small_set.c */
                     +#define TFM_DEFINES
                     +#include "fp_sqr_comba.c"
                     -/* squaring using Toom-Cook 3-way algorithm */
                     -int
                     -mp_toom_sqr(mp_int *a, mp_int *b)
                     +#if defined(TFM_SMALL_SET)
                     +void fp_sqr_comba_small(fp_int *A, fp_int *B)
+                     {
                     -    mp_int w0, w1, w2, w3, w4, tmp1, a0, a1, a2;
                     -    int res, B;
+                    -
                     -    /* init temps */
                     -    if ((res = mp_init_multi(&w0, &w1, &w2, &w3, &w4, &a0, &a1, &a2, &tmp1, NULL)) != MP_OKAY) {
                     -       return res;
                     -    }
+                    -
                     -    /* B */
                     -    B = a->used / 3;
+                    -
                     -    /* a = a2 * B**2 + a1 * B + a0 */
                     -    if ((res = mp_mod_2d(a, DIGIT_BIT * B, &a0)) != MP_OKAY) {
                     -       goto ERR;
                     -    }
+                    -
                     -    if ((res = mp_copy(a, &a1)) != MP_OKAY) {
                     -       goto ERR;
                     -    }
                     -    mp_rshd(&a1, B);
                     -    mp_mod_2d(&a1, DIGIT_BIT * B, &a1);
+                    -
                     -    if ((res = mp_copy(a, &a2)) != MP_OKAY) {
                     -       goto ERR;
                     -    }
                     -    mp_rshd(&a2, B*2);
                     +   fp_digit *a, b[32], c0, c1, c2, sc0, sc1, sc2;
                     +#ifdef TFM_ISO
                     +   fp_word   tt;
                     +#endif
                     +   switch (A->used) {
                     +   case 1:
                     +      a = A->dp;
                     +      COMBA_START;
+                    +
                     +      /* clear carries */
                     +      CLEAR_CARRY;
+                    +
                     +      /* output 0 */
                     +      SQRADD(a[0],a[0]);
                     +      COMBA_STORE(b[0]);
                     +      COMBA_STORE2(b[1]);
                     +      COMBA_FINI;
+                    +
                     +      B->used = 2;
                     +      B->sign = FP_ZPOS;
                     +      memcpy(B->dp, b, 2 * sizeof(fp_digit));
                     +      fp_clamp(B);
                     +      break;
                     -    /* w0 = a0*a0 */
                     -    if ((res = mp_sqr(&a0, &w0)) != MP_OKAY) {
                     -       goto ERR;
                     -    }
                     +   case 2:
                     +      a = A->dp;
                     +      COMBA_START;
+                    +
                     +      /* clear carries */
                     +      CLEAR_CARRY;
+                    +
                     +      /* output 0 */
                     +      SQRADD(a[0],a[0]);
                     +      COMBA_STORE(b[0]);
+                    +
                     +      /* output 1 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[0], a[1]);
                     +      COMBA_STORE(b[1]);
+                    +
                     +      /* output 2 */
                     +      CARRY_FORWARD;
                     +      SQRADD(a[1], a[1]);
                     +      COMBA_STORE(b[2]);
                     +      COMBA_STORE2(b[3]);
                     +      COMBA_FINI;
+                    +
                     +      B->used = 4;
                     +      B->sign = FP_ZPOS;
                     +      memcpy(B->dp, b, 4 * sizeof(fp_digit));
                     +      fp_clamp(B);
                     +      break;
                     -    /* w4 = a2 * a2 */
                     -    if ((res = mp_sqr(&a2, &w4)) != MP_OKAY) {
                     -       goto ERR;
                     -    }
                     +   case 3:
                     +      a = A->dp;
                     +      COMBA_START;
+                    +
                     +      /* clear carries */
                     +      CLEAR_CARRY;
+                    +
                     +      /* output 0 */
                     +      SQRADD(a[0],a[0]);
                     +      COMBA_STORE(b[0]);
+                    +
                     +      /* output 1 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[0], a[1]);
                     +      COMBA_STORE(b[1]);
+                    +
                     +      /* output 2 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[0], a[2]);    SQRADD(a[1], a[1]);
                     +      COMBA_STORE(b[2]);
+                    +
                     +      /* output 3 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[1], a[2]);
                     +      COMBA_STORE(b[3]);
+                    +
                     +      /* output 4 */
                     +      CARRY_FORWARD;
                     +      SQRADD(a[2], a[2]);
                     +      COMBA_STORE(b[4]);
                     +      COMBA_STORE2(b[5]);
                     +      COMBA_FINI;
+                    +
                     +      B->used = 6;
                     +      B->sign = FP_ZPOS;
                     +      memcpy(B->dp, b, 6 * sizeof(fp_digit));
                     +      fp_clamp(B);
                     +      break;
                     -    /* w1 = (a2 + 2(a1 + 2a0))**2 */
                     -    if ((res = mp_mul_2(&a0, &tmp1)) != MP_OKAY) {
                     -       goto ERR;
                     -    }
                     -    if ((res = mp_add(&tmp1, &a1, &tmp1)) != MP_OKAY) {
                     -       goto ERR;
                     -    }
                     -    if ((res = mp_mul_2(&tmp1, &tmp1)) != MP_OKAY) {
                     -       goto ERR;
                     -    }
                     -    if ((res = mp_add(&tmp1, &a2, &tmp1)) != MP_OKAY) {
                     -       goto ERR;
                     -    }
                     +   case 4:
                     +      a = A->dp;
                     +      COMBA_START;
+                    +
                     +      /* clear carries */
                     +      CLEAR_CARRY;
+                    +
                     +      /* output 0 */
                     +      SQRADD(a[0],a[0]);
                     +      COMBA_STORE(b[0]);
+                    +
                     +      /* output 1 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[0], a[1]);
                     +      COMBA_STORE(b[1]);
+                    +
                     +      /* output 2 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[0], a[2]);    SQRADD(a[1], a[1]);
                     +      COMBA_STORE(b[2]);
+                    +
                     +      /* output 3 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[0], a[3]);    SQRADD2(a[1], a[2]);
                     +      COMBA_STORE(b[3]);
+                    +
                     +      /* output 4 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[1], a[3]);    SQRADD(a[2], a[2]);
                     +      COMBA_STORE(b[4]);
+                    +
                     +      /* output 5 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[2], a[3]);
                     +      COMBA_STORE(b[5]);
+                    +
                     +      /* output 6 */
                     +      CARRY_FORWARD;
                     +      SQRADD(a[3], a[3]);
                     +      COMBA_STORE(b[6]);
                     +      COMBA_STORE2(b[7]);
                     +      COMBA_FINI;
+                    +
                     +      B->used = 8;
                     +      B->sign = FP_ZPOS;
                     +      memcpy(B->dp, b, 8 * sizeof(fp_digit));
                     +      fp_clamp(B);
                     +      break;
                     -    if ((res = mp_sqr(&tmp1, &w1)) != MP_OKAY) {
                     -       goto ERR;
                     -    }
                     +   case 5:
                     +      a = A->dp;
                     +      COMBA_START;
+                    +
                     +      /* clear carries */
                     +      CLEAR_CARRY;
+                    +
                     +      /* output 0 */
                     +      SQRADD(a[0],a[0]);
                     +      COMBA_STORE(b[0]);
+                    +
                     +      /* output 1 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[0], a[1]);
                     +      COMBA_STORE(b[1]);
+                    +
                     +      /* output 2 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[0], a[2]);    SQRADD(a[1], a[1]);
                     +      COMBA_STORE(b[2]);
+                    +
                     +      /* output 3 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[0], a[3]);    SQRADD2(a[1], a[2]);
                     +      COMBA_STORE(b[3]);
+                    +
                     +      /* output 4 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[0], a[4]);    SQRADD2(a[1], a[3]);    SQRADD(a[2], a[2]);
                     +      COMBA_STORE(b[4]);
+                    +
                     +      /* output 5 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[1], a[4]);    SQRADD2(a[2], a[3]);
                     +      COMBA_STORE(b[5]);
+                    +
                     +      /* output 6 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[2], a[4]);    SQRADD(a[3], a[3]);
                     +      COMBA_STORE(b[6]);
+                    +
                     +      /* output 7 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[3], a[4]);
                     +      COMBA_STORE(b[7]);
+                    +
                     +      /* output 8 */
                     +      CARRY_FORWARD;
                     +      SQRADD(a[4], a[4]);
                     +      COMBA_STORE(b[8]);
                     +      COMBA_STORE2(b[9]);
                     +      COMBA_FINI;
+                    +
                     +      B->used = 10;
                     +      B->sign = FP_ZPOS;
                     +      memcpy(B->dp, b, 10 * sizeof(fp_digit));
                     +      fp_clamp(B);
                     +      break;
                     -    /* w3 = (a0 + 2(a1 + 2a2))**2 */
                     -    if ((res = mp_mul_2(&a2, &tmp1)) != MP_OKAY) {
                     -       goto ERR;
                     -    }
                     -    if ((res = mp_add(&tmp1, &a1, &tmp1)) != MP_OKAY) {
                     -       goto ERR;
                     -    }
                     -    if ((res = mp_mul_2(&tmp1, &tmp1)) != MP_OKAY) {
                     -       goto ERR;
                     -    }
                     -    if ((res = mp_add(&tmp1, &a0, &tmp1)) != MP_OKAY) {
                     -       goto ERR;
                     -    }
                     +   case 6:
                     +      a = A->dp;
                     +      COMBA_START;
+                    +
                     +      /* clear carries */
                     +      CLEAR_CARRY;
+                    +
                     +      /* output 0 */
                     +      SQRADD(a[0],a[0]);
                     +      COMBA_STORE(b[0]);
+                    +
                     +      /* output 1 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[0], a[1]);
                     +      COMBA_STORE(b[1]);
+                    +
                     +      /* output 2 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[0], a[2]);    SQRADD(a[1], a[1]);
                     +      COMBA_STORE(b[2]);
+                    +
                     +      /* output 3 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[0], a[3]);    SQRADD2(a[1], a[2]);
                     +      COMBA_STORE(b[3]);
+                    +
                     +      /* output 4 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[0], a[4]);    SQRADD2(a[1], a[3]);    SQRADD(a[2], a[2]);
                     +      COMBA_STORE(b[4]);
+                    +
                     +      /* output 5 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[5]); SQRADDAC(a[1], a[4]); SQRADDAC(a[2], a[3]); SQRADDDB;
                     +      COMBA_STORE(b[5]);
+                    +
                     +      /* output 6 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[1], a[5]);    SQRADD2(a[2], a[4]);    SQRADD(a[3], a[3]);
                     +      COMBA_STORE(b[6]);
+                    +
                     +      /* output 7 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[2], a[5]);    SQRADD2(a[3], a[4]);
                     +      COMBA_STORE(b[7]);
+                    +
                     +      /* output 8 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[3], a[5]);    SQRADD(a[4], a[4]);
                     +      COMBA_STORE(b[8]);
+                    +
                     +      /* output 9 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[4], a[5]);
                     +      COMBA_STORE(b[9]);
+                    +
                     +      /* output 10 */
                     +      CARRY_FORWARD;
                     +      SQRADD(a[5], a[5]);
                     +      COMBA_STORE(b[10]);
                     +      COMBA_STORE2(b[11]);
                     +      COMBA_FINI;
+                    +
                     +      B->used = 12;
                     +      B->sign = FP_ZPOS;
                     +      memcpy(B->dp, b, 12 * sizeof(fp_digit));
                     +      fp_clamp(B);
                     +      break;
                     -    if ((res = mp_sqr(&tmp1, &w3)) != MP_OKAY) {
                     -       goto ERR;
                     -    }
                     +   case 7:
                     +      a = A->dp;
                     +      COMBA_START;
+                    +
                     +      /* clear carries */
                     +      CLEAR_CARRY;
+                    +
                     +      /* output 0 */
                     +      SQRADD(a[0],a[0]);
                     +      COMBA_STORE(b[0]);
+                    +
                     +      /* output 1 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[0], a[1]);
                     +      COMBA_STORE(b[1]);
+                    +
                     +      /* output 2 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[0], a[2]);    SQRADD(a[1], a[1]);
                     +      COMBA_STORE(b[2]);
+                    +
                     +      /* output 3 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[0], a[3]);    SQRADD2(a[1], a[2]);
                     +      COMBA_STORE(b[3]);
+                    +
                     +      /* output 4 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[0], a[4]);    SQRADD2(a[1], a[3]);    SQRADD(a[2], a[2]);
                     +      COMBA_STORE(b[4]);
+                    +
                     +      /* output 5 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[5]); SQRADDAC(a[1], a[4]); SQRADDAC(a[2], a[3]); SQRADDDB;
                     +      COMBA_STORE(b[5]);
+                    +
                     +      /* output 6 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[6]); SQRADDAC(a[1], a[5]); SQRADDAC(a[2], a[4]); SQRADDDB; SQRADD(a[3], a[3]);
                     +      COMBA_STORE(b[6]);
+                    +
                     +      /* output 7 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[1], a[6]); SQRADDAC(a[2], a[5]); SQRADDAC(a[3], a[4]); SQRADDDB;
                     +      COMBA_STORE(b[7]);
+                    +
                     +      /* output 8 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[2], a[6]);    SQRADD2(a[3], a[5]);    SQRADD(a[4], a[4]);
                     +      COMBA_STORE(b[8]);
+                    +
                     +      /* output 9 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[3], a[6]);    SQRADD2(a[4], a[5]);
                     +      COMBA_STORE(b[9]);
+                    +
                     +      /* output 10 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[4], a[6]);    SQRADD(a[5], a[5]);
                     +      COMBA_STORE(b[10]);
+                    +
                     +      /* output 11 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[5], a[6]);
                     +      COMBA_STORE(b[11]);
+                    +
                     +      /* output 12 */
                     +      CARRY_FORWARD;
                     +      SQRADD(a[6], a[6]);
                     +      COMBA_STORE(b[12]);
                     +      COMBA_STORE2(b[13]);
                     +      COMBA_FINI;
+                    +
                     +      B->used = 14;
                     +      B->sign = FP_ZPOS;
                     +      memcpy(B->dp, b, 14 * sizeof(fp_digit));
                     +      fp_clamp(B);
                     +      break;
                     +   case 8:
                     +      a = A->dp;
                     +      COMBA_START;
+                    +
                     +      /* clear carries */
                     +      CLEAR_CARRY;
+                    +
                     +      /* output 0 */
                     +      SQRADD(a[0],a[0]);
                     +      COMBA_STORE(b[0]);
+                    +
                     +      /* output 1 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[0], a[1]);
                     +      COMBA_STORE(b[1]);
+                    +
                     +      /* output 2 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[0], a[2]);    SQRADD(a[1], a[1]);
                     +      COMBA_STORE(b[2]);
+                    +
                     +      /* output 3 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[0], a[3]);    SQRADD2(a[1], a[2]);
                     +      COMBA_STORE(b[3]);
+                    +
                     +      /* output 4 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[0], a[4]);    SQRADD2(a[1], a[3]);    SQRADD(a[2], a[2]);
                     +      COMBA_STORE(b[4]);
+                    +
                     +      /* output 5 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[5]); SQRADDAC(a[1], a[4]); SQRADDAC(a[2], a[3]); SQRADDDB;
                     +      COMBA_STORE(b[5]);
+                    +
                     +      /* output 6 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[6]); SQRADDAC(a[1], a[5]); SQRADDAC(a[2], a[4]); SQRADDDB; SQRADD(a[3], a[3]);
                     +      COMBA_STORE(b[6]);
+                    +
                     +      /* output 7 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[7]); SQRADDAC(a[1], a[6]); SQRADDAC(a[2], a[5]); SQRADDAC(a[3], a[4]); SQRADDDB;
                     +      COMBA_STORE(b[7]);
+                    +
                     +      /* output 8 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[1], a[7]); SQRADDAC(a[2], a[6]); SQRADDAC(a[3], a[5]); SQRADDDB; SQRADD(a[4], a[4]);
                     +      COMBA_STORE(b[8]);
+                    +
                     +      /* output 9 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[2], a[7]); SQRADDAC(a[3], a[6]); SQRADDAC(a[4], a[5]); SQRADDDB;
                     +      COMBA_STORE(b[9]);
+                    +
                     +      /* output 10 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[3], a[7]);    SQRADD2(a[4], a[6]);    SQRADD(a[5], a[5]);
                     +      COMBA_STORE(b[10]);
+                    +
                     +      /* output 11 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[4], a[7]);    SQRADD2(a[5], a[6]);
                     +      COMBA_STORE(b[11]);
+                    +
                     +      /* output 12 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[5], a[7]);    SQRADD(a[6], a[6]);
                     +      COMBA_STORE(b[12]);
+                    +
                     +      /* output 13 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[6], a[7]);
                     +      COMBA_STORE(b[13]);
+                    +
                     +      /* output 14 */
                     +      CARRY_FORWARD;
                     +      SQRADD(a[7], a[7]);
                     +      COMBA_STORE(b[14]);
                     +      COMBA_STORE2(b[15]);
                     +      COMBA_FINI;
+                    +
                     +      B->used = 16;
                     +      B->sign = FP_ZPOS;
                     +      memcpy(B->dp, b, 16 * sizeof(fp_digit));
                     +      fp_clamp(B);
                     +      break;
                     -    /* w2 = (a2 + a1 + a0)**2 */
                     -    if ((res = mp_add(&a2, &a1, &tmp1)) != MP_OKAY) {
                     -       goto ERR;
                     -    }
                     -    if ((res = mp_add(&tmp1, &a0, &tmp1)) != MP_OKAY) {
                     -       goto ERR;
                     -    }
                     -    if ((res = mp_sqr(&tmp1, &w2)) != MP_OKAY) {
                     -       goto ERR;
                     -    }
                     +   case 9:
                     +      a = A->dp;
                     +      COMBA_START;
+                    +
                     +      /* clear carries */
                     +      CLEAR_CARRY;
+                    +
                     +      /* output 0 */
                     +      SQRADD(a[0],a[0]);
                     +      COMBA_STORE(b[0]);
+                    +
                     +      /* output 1 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[0], a[1]);
                     +      COMBA_STORE(b[1]);
+                    +
                     +      /* output 2 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[0], a[2]);    SQRADD(a[1], a[1]);
                     +      COMBA_STORE(b[2]);
+                    +
                     +      /* output 3 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[0], a[3]);    SQRADD2(a[1], a[2]);
                     +      COMBA_STORE(b[3]);
+                    +
                     +      /* output 4 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[0], a[4]);    SQRADD2(a[1], a[3]);    SQRADD(a[2], a[2]);
                     +      COMBA_STORE(b[4]);
+                    +
                     +      /* output 5 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[5]); SQRADDAC(a[1], a[4]); SQRADDAC(a[2], a[3]); SQRADDDB;
                     +      COMBA_STORE(b[5]);
+                    +
                     +      /* output 6 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[6]); SQRADDAC(a[1], a[5]); SQRADDAC(a[2], a[4]); SQRADDDB; SQRADD(a[3], a[3]);
                     +      COMBA_STORE(b[6]);
+                    +
                     +      /* output 7 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[7]); SQRADDAC(a[1], a[6]); SQRADDAC(a[2], a[5]); SQRADDAC(a[3], a[4]); SQRADDDB;
                     +      COMBA_STORE(b[7]);
+                    +
                     +      /* output 8 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[8]); SQRADDAC(a[1], a[7]); SQRADDAC(a[2], a[6]); SQRADDAC(a[3], a[5]); SQRADDDB; SQRADD(a[4], a[4]);
                     +      COMBA_STORE(b[8]);
+                    +
                     +      /* output 9 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[1], a[8]); SQRADDAC(a[2], a[7]); SQRADDAC(a[3], a[6]); SQRADDAC(a[4], a[5]); SQRADDDB;
                     +      COMBA_STORE(b[9]);
+                    +
                     +      /* output 10 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[2], a[8]); SQRADDAC(a[3], a[7]); SQRADDAC(a[4], a[6]); SQRADDDB; SQRADD(a[5], a[5]);
                     +      COMBA_STORE(b[10]);
+                    +
                     +      /* output 11 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[3], a[8]); SQRADDAC(a[4], a[7]); SQRADDAC(a[5], a[6]); SQRADDDB;
                     +      COMBA_STORE(b[11]);
+                    +
                     +      /* output 12 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[4], a[8]);    SQRADD2(a[5], a[7]);    SQRADD(a[6], a[6]);
                     +      COMBA_STORE(b[12]);
+                    +
                     +      /* output 13 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[5], a[8]);    SQRADD2(a[6], a[7]);
                     +      COMBA_STORE(b[13]);
+                    +
                     +      /* output 14 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[6], a[8]);    SQRADD(a[7], a[7]);
                     +      COMBA_STORE(b[14]);
+                    +
                     +      /* output 15 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[7], a[8]);
                     +      COMBA_STORE(b[15]);
+                    +
                     +      /* output 16 */
                     +      CARRY_FORWARD;
                     +      SQRADD(a[8], a[8]);
                     +      COMBA_STORE(b[16]);
                     +      COMBA_STORE2(b[17]);
                     +      COMBA_FINI;
+                    +
                     +      B->used = 18;
                     +      B->sign = FP_ZPOS;
                     +      memcpy(B->dp, b, 18 * sizeof(fp_digit));
                     +      fp_clamp(B);
                     +      break;
                     -    /* now solve the matrix
                     +   case 10:
                     +      a = A->dp;
                     +      COMBA_START;
+                    +
                     +      /* clear carries */
                     +      CLEAR_CARRY;
+                    +
                     +      /* output 0 */
                     +      SQRADD(a[0],a[0]);
                     +      COMBA_STORE(b[0]);
+                    +
                     +      /* output 1 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[0], a[1]);
                     +      COMBA_STORE(b[1]);
+                    +
                     +      /* output 2 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[0], a[2]);    SQRADD(a[1], a[1]);
                     +      COMBA_STORE(b[2]);
+                    +
                     +      /* output 3 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[0], a[3]);    SQRADD2(a[1], a[2]);
                     +      COMBA_STORE(b[3]);
+                    +
                     +      /* output 4 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[0], a[4]);    SQRADD2(a[1], a[3]);    SQRADD(a[2], a[2]);
                     +      COMBA_STORE(b[4]);
+                    +
                     +      /* output 5 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[5]); SQRADDAC(a[1], a[4]); SQRADDAC(a[2], a[3]); SQRADDDB;
                     +      COMBA_STORE(b[5]);
+                    +
                     +      /* output 6 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[6]); SQRADDAC(a[1], a[5]); SQRADDAC(a[2], a[4]); SQRADDDB; SQRADD(a[3], a[3]);
                     +      COMBA_STORE(b[6]);
+                    +
                     +      /* output 7 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[7]); SQRADDAC(a[1], a[6]); SQRADDAC(a[2], a[5]); SQRADDAC(a[3], a[4]); SQRADDDB;
                     +      COMBA_STORE(b[7]);
+                    +
                     +      /* output 8 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[8]); SQRADDAC(a[1], a[7]); SQRADDAC(a[2], a[6]); SQRADDAC(a[3], a[5]); SQRADDDB; SQRADD(a[4], a[4]);
                     +      COMBA_STORE(b[8]);
+                    +
                     +      /* output 9 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[9]); SQRADDAC(a[1], a[8]); SQRADDAC(a[2], a[7]); SQRADDAC(a[3], a[6]); SQRADDAC(a[4], a[5]); SQRADDDB;
                     +      COMBA_STORE(b[9]);
+                    +
                     +      /* output 10 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[1], a[9]); SQRADDAC(a[2], a[8]); SQRADDAC(a[3], a[7]); SQRADDAC(a[4], a[6]); SQRADDDB; SQRADD(a[5], a[5]);
                     +      COMBA_STORE(b[10]);
+                    +
                     +      /* output 11 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[2], a[9]); SQRADDAC(a[3], a[8]); SQRADDAC(a[4], a[7]); SQRADDAC(a[5], a[6]); SQRADDDB;
                     +      COMBA_STORE(b[11]);
+                    +
                     +      /* output 12 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[3], a[9]); SQRADDAC(a[4], a[8]); SQRADDAC(a[5], a[7]); SQRADDDB; SQRADD(a[6], a[6]);
                     +      COMBA_STORE(b[12]);
+                    +
                     +      /* output 13 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[4], a[9]); SQRADDAC(a[5], a[8]); SQRADDAC(a[6], a[7]); SQRADDDB;
                     +      COMBA_STORE(b[13]);
+                    +
                     +      /* output 14 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[5], a[9]);    SQRADD2(a[6], a[8]);    SQRADD(a[7], a[7]);
                     +      COMBA_STORE(b[14]);
+                    +
                     +      /* output 15 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[6], a[9]);    SQRADD2(a[7], a[8]);
                     +      COMBA_STORE(b[15]);
+                    +
                     +      /* output 16 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[7], a[9]);    SQRADD(a[8], a[8]);
                     +      COMBA_STORE(b[16]);
+                    +
                     +      /* output 17 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[8], a[9]);
                     +      COMBA_STORE(b[17]);
+                    +
                     +      /* output 18 */
                     +      CARRY_FORWARD;
                     +      SQRADD(a[9], a[9]);
                     +      COMBA_STORE(b[18]);
                     +      COMBA_STORE2(b[19]);
                     +      COMBA_FINI;
+                    +
                     +      B->used = 20;
                     +      B->sign = FP_ZPOS;
                     +      memcpy(B->dp, b, 20 * sizeof(fp_digit));
                     +      fp_clamp(B);
                     +      break;
                     -       0  0  0  0  1
                     -       1  2  4  8  16
                     -       1  1  1  1  1
                     -       16 8  4  2  1
                     -       1  0  0  0  0
                     +   case 11:
                     +      a = A->dp;
                     +      COMBA_START;
+                    +
                     +      /* clear carries */
                     +      CLEAR_CARRY;
+                    +
                     +      /* output 0 */
                     +      SQRADD(a[0],a[0]);
                     +      COMBA_STORE(b[0]);
+                    +
                     +      /* output 1 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[0], a[1]);
                     +      COMBA_STORE(b[1]);
+                    +
                     +      /* output 2 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[0], a[2]);    SQRADD(a[1], a[1]);
                     +      COMBA_STORE(b[2]);
+                    +
                     +      /* output 3 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[0], a[3]);    SQRADD2(a[1], a[2]);
                     +      COMBA_STORE(b[3]);
+                    +
                     +      /* output 4 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[0], a[4]);    SQRADD2(a[1], a[3]);    SQRADD(a[2], a[2]);
                     +      COMBA_STORE(b[4]);
+                    +
                     +      /* output 5 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[5]); SQRADDAC(a[1], a[4]); SQRADDAC(a[2], a[3]); SQRADDDB;
                     +      COMBA_STORE(b[5]);
+                    +
                     +      /* output 6 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[6]); SQRADDAC(a[1], a[5]); SQRADDAC(a[2], a[4]); SQRADDDB; SQRADD(a[3], a[3]);
                     +      COMBA_STORE(b[6]);
+                    +
                     +      /* output 7 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[7]); SQRADDAC(a[1], a[6]); SQRADDAC(a[2], a[5]); SQRADDAC(a[3], a[4]); SQRADDDB;
                     +      COMBA_STORE(b[7]);
+                    +
                     +      /* output 8 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[8]); SQRADDAC(a[1], a[7]); SQRADDAC(a[2], a[6]); SQRADDAC(a[3], a[5]); SQRADDDB; SQRADD(a[4], a[4]);
                     +      COMBA_STORE(b[8]);
+                    +
                     +      /* output 9 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[9]); SQRADDAC(a[1], a[8]); SQRADDAC(a[2], a[7]); SQRADDAC(a[3], a[6]); SQRADDAC(a[4], a[5]); SQRADDDB;
                     +      COMBA_STORE(b[9]);
+                    +
                     +      /* output 10 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[10]); SQRADDAC(a[1], a[9]); SQRADDAC(a[2], a[8]); SQRADDAC(a[3], a[7]); SQRADDAC(a[4], a[6]); SQRADDDB; SQRADD(a[5], a[5]);
                     +      COMBA_STORE(b[10]);
+                    +
                     +      /* output 11 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[1], a[10]); SQRADDAC(a[2], a[9]); SQRADDAC(a[3], a[8]); SQRADDAC(a[4], a[7]); SQRADDAC(a[5], a[6]); SQRADDDB;
                     +      COMBA_STORE(b[11]);
+                    +
                     +      /* output 12 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[2], a[10]); SQRADDAC(a[3], a[9]); SQRADDAC(a[4], a[8]); SQRADDAC(a[5], a[7]); SQRADDDB; SQRADD(a[6], a[6]);
                     +      COMBA_STORE(b[12]);
+                    +
                     +      /* output 13 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[3], a[10]); SQRADDAC(a[4], a[9]); SQRADDAC(a[5], a[8]); SQRADDAC(a[6], a[7]); SQRADDDB;
                     +      COMBA_STORE(b[13]);
+                    +
                     +      /* output 14 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[4], a[10]); SQRADDAC(a[5], a[9]); SQRADDAC(a[6], a[8]); SQRADDDB; SQRADD(a[7], a[7]);
                     +      COMBA_STORE(b[14]);
+                    +
                     +      /* output 15 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[5], a[10]); SQRADDAC(a[6], a[9]); SQRADDAC(a[7], a[8]); SQRADDDB;
                     +      COMBA_STORE(b[15]);
+                    +
                     +      /* output 16 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[6], a[10]);    SQRADD2(a[7], a[9]);    SQRADD(a[8], a[8]);
                     +      COMBA_STORE(b[16]);
+                    +
                     +      /* output 17 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[7], a[10]);    SQRADD2(a[8], a[9]);
                     +      COMBA_STORE(b[17]);
+                    +
                     +      /* output 18 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[8], a[10]);    SQRADD(a[9], a[9]);
                     +      COMBA_STORE(b[18]);
+                    +
                     +      /* output 19 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[9], a[10]);
                     +      COMBA_STORE(b[19]);
+                    +
                     +      /* output 20 */
                     +      CARRY_FORWARD;
                     +      SQRADD(a[10], a[10]);
                     +      COMBA_STORE(b[20]);
                     +      COMBA_STORE2(b[21]);
                     +      COMBA_FINI;
+                    +
                     +      B->used = 22;
                     +      B->sign = FP_ZPOS;
                     +      memcpy(B->dp, b, 22 * sizeof(fp_digit));
                     +      fp_clamp(B);
                     +      break;
                     -       using 12 subtractions, 4 shifts, 2 small divisions and 1 small multiplication.
                     -     */
                     +   case 12:
                     +      a = A->dp;
                     +      COMBA_START;
+                    +
                     +      /* clear carries */
                     +      CLEAR_CARRY;
+                    +
                     +      /* output 0 */
                     +      SQRADD(a[0],a[0]);
                     +      COMBA_STORE(b[0]);
+                    +
                     +      /* output 1 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[0], a[1]);
                     +      COMBA_STORE(b[1]);
+                    +
                     +      /* output 2 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[0], a[2]);    SQRADD(a[1], a[1]);
                     +      COMBA_STORE(b[2]);
+                    +
                     +      /* output 3 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[0], a[3]);    SQRADD2(a[1], a[2]);
                     +      COMBA_STORE(b[3]);
+                    +
                     +      /* output 4 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[0], a[4]);    SQRADD2(a[1], a[3]);    SQRADD(a[2], a[2]);
                     +      COMBA_STORE(b[4]);
+                    +
                     +      /* output 5 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[5]); SQRADDAC(a[1], a[4]); SQRADDAC(a[2], a[3]); SQRADDDB;
                     +      COMBA_STORE(b[5]);
+                    +
                     +      /* output 6 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[6]); SQRADDAC(a[1], a[5]); SQRADDAC(a[2], a[4]); SQRADDDB; SQRADD(a[3], a[3]);
                     +      COMBA_STORE(b[6]);
+                    +
                     +      /* output 7 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[7]); SQRADDAC(a[1], a[6]); SQRADDAC(a[2], a[5]); SQRADDAC(a[3], a[4]); SQRADDDB;
                     +      COMBA_STORE(b[7]);
+                    +
                     +      /* output 8 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[8]); SQRADDAC(a[1], a[7]); SQRADDAC(a[2], a[6]); SQRADDAC(a[3], a[5]); SQRADDDB; SQRADD(a[4], a[4]);
                     +      COMBA_STORE(b[8]);
+                    +
                     +      /* output 9 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[9]); SQRADDAC(a[1], a[8]); SQRADDAC(a[2], a[7]); SQRADDAC(a[3], a[6]); SQRADDAC(a[4], a[5]); SQRADDDB;
                     +      COMBA_STORE(b[9]);
+                    +
                     +      /* output 10 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[10]); SQRADDAC(a[1], a[9]); SQRADDAC(a[2], a[8]); SQRADDAC(a[3], a[7]); SQRADDAC(a[4], a[6]); SQRADDDB; SQRADD(a[5], a[5]);
                     +      COMBA_STORE(b[10]);
+                    +
                     +      /* output 11 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[11]); SQRADDAC(a[1], a[10]); SQRADDAC(a[2], a[9]); SQRADDAC(a[3], a[8]); SQRADDAC(a[4], a[7]); SQRADDAC(a[5], a[6]); SQRADDDB;
                     +      COMBA_STORE(b[11]);
+                    +
                     +      /* output 12 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[1], a[11]); SQRADDAC(a[2], a[10]); SQRADDAC(a[3], a[9]); SQRADDAC(a[4], a[8]); SQRADDAC(a[5], a[7]); SQRADDDB; SQRADD(a[6], a[6]);
                     +      COMBA_STORE(b[12]);
+                    +
                     +      /* output 13 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[2], a[11]); SQRADDAC(a[3], a[10]); SQRADDAC(a[4], a[9]); SQRADDAC(a[5], a[8]); SQRADDAC(a[6], a[7]); SQRADDDB;
                     +      COMBA_STORE(b[13]);
+                    +
                     +      /* output 14 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[3], a[11]); SQRADDAC(a[4], a[10]); SQRADDAC(a[5], a[9]); SQRADDAC(a[6], a[8]); SQRADDDB; SQRADD(a[7], a[7]);
                     +      COMBA_STORE(b[14]);
+                    +
                     +      /* output 15 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[4], a[11]); SQRADDAC(a[5], a[10]); SQRADDAC(a[6], a[9]); SQRADDAC(a[7], a[8]); SQRADDDB;
                     +      COMBA_STORE(b[15]);
+                    +
                     +      /* output 16 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[5], a[11]); SQRADDAC(a[6], a[10]); SQRADDAC(a[7], a[9]); SQRADDDB; SQRADD(a[8], a[8]);
                     +      COMBA_STORE(b[16]);
+                    +
                     +      /* output 17 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[6], a[11]); SQRADDAC(a[7], a[10]); SQRADDAC(a[8], a[9]); SQRADDDB;
                     +      COMBA_STORE(b[17]);
+                    +
                     +      /* output 18 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[7], a[11]);    SQRADD2(a[8], a[10]);    SQRADD(a[9], a[9]);
                     +      COMBA_STORE(b[18]);
+                    +
                     +      /* output 19 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[8], a[11]);    SQRADD2(a[9], a[10]);
                     +      COMBA_STORE(b[19]);
+                    +
                     +      /* output 20 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[9], a[11]);    SQRADD(a[10], a[10]);
                     +      COMBA_STORE(b[20]);
+                    +
                     +      /* output 21 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[10], a[11]);
                     +      COMBA_STORE(b[21]);
+                    +
                     +      /* output 22 */
                     +      CARRY_FORWARD;
                     +      SQRADD(a[11], a[11]);
                     +      COMBA_STORE(b[22]);
                     +      COMBA_STORE2(b[23]);
                     +      COMBA_FINI;
+                    +
                     +      B->used = 24;
                     +      B->sign = FP_ZPOS;
                     +      memcpy(B->dp, b, 24 * sizeof(fp_digit));
                     +      fp_clamp(B);
                     +      break;
                     -     /* r1 - r4 */
                     -     if ((res = mp_sub(&w1, &w4, &w1)) != MP_OKAY) {
                     -        goto ERR;
                     -     }
                     -     /* r3 - r0 */
                     -     if ((res = mp_sub(&w3, &w0, &w3)) != MP_OKAY) {
                     -        goto ERR;
                     -     }
                     -     /* r1/2 */
                     -     if ((res = mp_div_2(&w1, &w1)) != MP_OKAY) {
                     -        goto ERR;
                     -     }
                     -     /* r3/2 */
                     -     if ((res = mp_div_2(&w3, &w3)) != MP_OKAY) {
                     -        goto ERR;
                     -     }
                     -     /* r2 - r0 - r4 */
                     -     if ((res = mp_sub(&w2, &w0, &w2)) != MP_OKAY) {
                     -        goto ERR;
                     -     }
                     -     if ((res = mp_sub(&w2, &w4, &w2)) != MP_OKAY) {
                     -        goto ERR;
                     -     }
                     -     /* r1 - r2 */
                     -     if ((res = mp_sub(&w1, &w2, &w1)) != MP_OKAY) {
                     -        goto ERR;
                     -     }
                     -     /* r3 - r2 */
                     -     if ((res = mp_sub(&w3, &w2, &w3)) != MP_OKAY) {
                     -        goto ERR;
                     -     }
                     -     /* r1 - 8r0 */
                     -     if ((res = mp_mul_2d(&w0, 3, &tmp1)) != MP_OKAY) {
                     -        goto ERR;
                     -     }
                     -     if ((res = mp_sub(&w1, &tmp1, &w1)) != MP_OKAY) {
                     -        goto ERR;
                     -     }
                     -     /* r3 - 8r4 */
                     -     if ((res = mp_mul_2d(&w4, 3, &tmp1)) != MP_OKAY) {
                     -        goto ERR;
                     -     }
                     -     if ((res = mp_sub(&w3, &tmp1, &w3)) != MP_OKAY) {
                     -        goto ERR;
                     -     }
                     -     /* 3r2 - r1 - r3 */
                     -     if ((res = mp_mul_d(&w2, 3, &w2)) != MP_OKAY) {
                     -        goto ERR;
                     -     }
                     -     if ((res = mp_sub(&w2, &w1, &w2)) != MP_OKAY) {
                     -        goto ERR;
                     -     }
                     -     if ((res = mp_sub(&w2, &w3, &w2)) != MP_OKAY) {
                     -        goto ERR;
                     -     }
                     -     /* r1 - r2 */
                     -     if ((res = mp_sub(&w1, &w2, &w1)) != MP_OKAY) {
                     -        goto ERR;
                     -     }
                     -     /* r3 - r2 */
                     -     if ((res = mp_sub(&w3, &w2, &w3)) != MP_OKAY) {
                     -        goto ERR;
                     -     }
                     -     /* r1/3 */
                     -     if ((res = mp_div_3(&w1, &w1, NULL)) != MP_OKAY) {
                     -        goto ERR;
                     -     }
                     -     /* r3/3 */
                     -     if ((res = mp_div_3(&w3, &w3, NULL)) != MP_OKAY) {
                     -        goto ERR;
                     -     }
                     +   case 13:
                     +      a = A->dp;
                     +      COMBA_START;
+                    +
                     +      /* clear carries */
                     +      CLEAR_CARRY;
+                    +
                     +      /* output 0 */
                     +      SQRADD(a[0],a[0]);
                     +      COMBA_STORE(b[0]);
+                    +
                     +      /* output 1 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[0], a[1]);
                     +      COMBA_STORE(b[1]);
+                    +
                     +      /* output 2 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[0], a[2]);    SQRADD(a[1], a[1]);
                     +      COMBA_STORE(b[2]);
+                    +
                     +      /* output 3 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[0], a[3]);    SQRADD2(a[1], a[2]);
                     +      COMBA_STORE(b[3]);
+                    +
                     +      /* output 4 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[0], a[4]);    SQRADD2(a[1], a[3]);    SQRADD(a[2], a[2]);
                     +      COMBA_STORE(b[4]);
+                    +
                     +      /* output 5 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[5]); SQRADDAC(a[1], a[4]); SQRADDAC(a[2], a[3]); SQRADDDB;
                     +      COMBA_STORE(b[5]);
+                    +
                     +      /* output 6 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[6]); SQRADDAC(a[1], a[5]); SQRADDAC(a[2], a[4]); SQRADDDB; SQRADD(a[3], a[3]);
                     +      COMBA_STORE(b[6]);
+                    +
                     +      /* output 7 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[7]); SQRADDAC(a[1], a[6]); SQRADDAC(a[2], a[5]); SQRADDAC(a[3], a[4]); SQRADDDB;
                     +      COMBA_STORE(b[7]);
+                    +
                     +      /* output 8 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[8]); SQRADDAC(a[1], a[7]); SQRADDAC(a[2], a[6]); SQRADDAC(a[3], a[5]); SQRADDDB; SQRADD(a[4], a[4]);
                     +      COMBA_STORE(b[8]);
+                    +
                     +      /* output 9 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[9]); SQRADDAC(a[1], a[8]); SQRADDAC(a[2], a[7]); SQRADDAC(a[3], a[6]); SQRADDAC(a[4], a[5]); SQRADDDB;
                     +      COMBA_STORE(b[9]);
+                    +
                     +      /* output 10 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[10]); SQRADDAC(a[1], a[9]); SQRADDAC(a[2], a[8]); SQRADDAC(a[3], a[7]); SQRADDAC(a[4], a[6]); SQRADDDB; SQRADD(a[5], a[5]);
                     +      COMBA_STORE(b[10]);
+                    +
                     +      /* output 11 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[11]); SQRADDAC(a[1], a[10]); SQRADDAC(a[2], a[9]); SQRADDAC(a[3], a[8]); SQRADDAC(a[4], a[7]); SQRADDAC(a[5], a[6]); SQRADDDB;
                     +      COMBA_STORE(b[11]);
+                    +
                     +      /* output 12 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[12]); SQRADDAC(a[1], a[11]); SQRADDAC(a[2], a[10]); SQRADDAC(a[3], a[9]); SQRADDAC(a[4], a[8]); SQRADDAC(a[5], a[7]); SQRADDDB; SQRADD(a[6], a[6]);
                     +      COMBA_STORE(b[12]);
+                    +
                     +      /* output 13 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[1], a[12]); SQRADDAC(a[2], a[11]); SQRADDAC(a[3], a[10]); SQRADDAC(a[4], a[9]); SQRADDAC(a[5], a[8]); SQRADDAC(a[6], a[7]); SQRADDDB;
                     +      COMBA_STORE(b[13]);
+                    +
                     +      /* output 14 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[2], a[12]); SQRADDAC(a[3], a[11]); SQRADDAC(a[4], a[10]); SQRADDAC(a[5], a[9]); SQRADDAC(a[6], a[8]); SQRADDDB; SQRADD(a[7], a[7]);
                     +      COMBA_STORE(b[14]);
+                    +
                     +      /* output 15 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[3], a[12]); SQRADDAC(a[4], a[11]); SQRADDAC(a[5], a[10]); SQRADDAC(a[6], a[9]); SQRADDAC(a[7], a[8]); SQRADDDB;
                     +      COMBA_STORE(b[15]);
+                    +
                     +      /* output 16 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[4], a[12]); SQRADDAC(a[5], a[11]); SQRADDAC(a[6], a[10]); SQRADDAC(a[7], a[9]); SQRADDDB; SQRADD(a[8], a[8]);
                     +      COMBA_STORE(b[16]);
+                    +
                     +      /* output 17 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[5], a[12]); SQRADDAC(a[6], a[11]); SQRADDAC(a[7], a[10]); SQRADDAC(a[8], a[9]); SQRADDDB;
                     +      COMBA_STORE(b[17]);
+                    +
                     +      /* output 18 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[6], a[12]); SQRADDAC(a[7], a[11]); SQRADDAC(a[8], a[10]); SQRADDDB; SQRADD(a[9], a[9]);
                     +      COMBA_STORE(b[18]);
+                    +
                     +      /* output 19 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[7], a[12]); SQRADDAC(a[8], a[11]); SQRADDAC(a[9], a[10]); SQRADDDB;
                     +      COMBA_STORE(b[19]);
+                    +
                     +      /* output 20 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[8], a[12]);    SQRADD2(a[9], a[11]);    SQRADD(a[10], a[10]);
                     +      COMBA_STORE(b[20]);
+                    +
                     +      /* output 21 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[9], a[12]);    SQRADD2(a[10], a[11]);
                     +      COMBA_STORE(b[21]);
+                    +
                     +      /* output 22 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[10], a[12]);    SQRADD(a[11], a[11]);
                     +      COMBA_STORE(b[22]);
+                    +
                     +      /* output 23 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[11], a[12]);
                     +      COMBA_STORE(b[23]);
+                    +
                     +      /* output 24 */
                     +      CARRY_FORWARD;
                     +      SQRADD(a[12], a[12]);
                     +      COMBA_STORE(b[24]);
                     +      COMBA_STORE2(b[25]);
                     +      COMBA_FINI;
+                    +
                     +      B->used = 26;
                     +      B->sign = FP_ZPOS;
                     +      memcpy(B->dp, b, 26 * sizeof(fp_digit));
                     +      fp_clamp(B);
                     +      break;
                     -     /* at this point shift W[n] by B*n */
                     -     if ((res = mp_lshd(&w1, 1*B)) != MP_OKAY) {
                     -        goto ERR;
                     -     }
                     -     if ((res = mp_lshd(&w2, 2*B)) != MP_OKAY) {
                     -        goto ERR;
                     -     }
                     -     if ((res = mp_lshd(&w3, 3*B)) != MP_OKAY) {
                     -        goto ERR;
                     -     }
                     -     if ((res = mp_lshd(&w4, 4*B)) != MP_OKAY) {
                     -        goto ERR;
                     -     }
                     +   case 14:
                     +      a = A->dp;
                     +      COMBA_START;
+                    +
                     +      /* clear carries */
                     +      CLEAR_CARRY;
+                    +
                     +      /* output 0 */
                     +      SQRADD(a[0],a[0]);
                     +      COMBA_STORE(b[0]);
+                    +
                     +      /* output 1 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[0], a[1]);
                     +      COMBA_STORE(b[1]);
+                    +
                     +      /* output 2 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[0], a[2]);    SQRADD(a[1], a[1]);
                     +      COMBA_STORE(b[2]);
+                    +
                     +      /* output 3 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[0], a[3]);    SQRADD2(a[1], a[2]);
                     +      COMBA_STORE(b[3]);
+                    +
                     +      /* output 4 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[0], a[4]);    SQRADD2(a[1], a[3]);    SQRADD(a[2], a[2]);
                     +      COMBA_STORE(b[4]);
+                    +
                     +      /* output 5 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[5]); SQRADDAC(a[1], a[4]); SQRADDAC(a[2], a[3]); SQRADDDB;
                     +      COMBA_STORE(b[5]);
+                    +
                     +      /* output 6 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[6]); SQRADDAC(a[1], a[5]); SQRADDAC(a[2], a[4]); SQRADDDB; SQRADD(a[3], a[3]);
                     +      COMBA_STORE(b[6]);
+                    +
                     +      /* output 7 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[7]); SQRADDAC(a[1], a[6]); SQRADDAC(a[2], a[5]); SQRADDAC(a[3], a[4]); SQRADDDB;
                     +      COMBA_STORE(b[7]);
+                    +
                     +      /* output 8 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[8]); SQRADDAC(a[1], a[7]); SQRADDAC(a[2], a[6]); SQRADDAC(a[3], a[5]); SQRADDDB; SQRADD(a[4], a[4]);
                     +      COMBA_STORE(b[8]);
+                    +
                     +      /* output 9 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[9]); SQRADDAC(a[1], a[8]); SQRADDAC(a[2], a[7]); SQRADDAC(a[3], a[6]); SQRADDAC(a[4], a[5]); SQRADDDB;
                     +      COMBA_STORE(b[9]);
+                    +
                     +      /* output 10 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[10]); SQRADDAC(a[1], a[9]); SQRADDAC(a[2], a[8]); SQRADDAC(a[3], a[7]); SQRADDAC(a[4], a[6]); SQRADDDB; SQRADD(a[5], a[5]);
                     +      COMBA_STORE(b[10]);
+                    +
                     +      /* output 11 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[11]); SQRADDAC(a[1], a[10]); SQRADDAC(a[2], a[9]); SQRADDAC(a[3], a[8]); SQRADDAC(a[4], a[7]); SQRADDAC(a[5], a[6]); SQRADDDB;
                     +      COMBA_STORE(b[11]);
+                    +
                     +      /* output 12 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[12]); SQRADDAC(a[1], a[11]); SQRADDAC(a[2], a[10]); SQRADDAC(a[3], a[9]); SQRADDAC(a[4], a[8]); SQRADDAC(a[5], a[7]); SQRADDDB; SQRADD(a[6], a[6]);
                     +      COMBA_STORE(b[12]);
+                    +
                     +      /* output 13 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[13]); SQRADDAC(a[1], a[12]); SQRADDAC(a[2], a[11]); SQRADDAC(a[3], a[10]); SQRADDAC(a[4], a[9]); SQRADDAC(a[5], a[8]); SQRADDAC(a[6], a[7]); SQRADDDB;
                     +      COMBA_STORE(b[13]);
+                    +
                     +      /* output 14 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[1], a[13]); SQRADDAC(a[2], a[12]); SQRADDAC(a[3], a[11]); SQRADDAC(a[4], a[10]); SQRADDAC(a[5], a[9]); SQRADDAC(a[6], a[8]); SQRADDDB; SQRADD(a[7], a[7]);
                     +      COMBA_STORE(b[14]);
+                    +
                     +      /* output 15 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[2], a[13]); SQRADDAC(a[3], a[12]); SQRADDAC(a[4], a[11]); SQRADDAC(a[5], a[10]); SQRADDAC(a[6], a[9]); SQRADDAC(a[7], a[8]); SQRADDDB;
                     +      COMBA_STORE(b[15]);
+                    +
                     +      /* output 16 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[3], a[13]); SQRADDAC(a[4], a[12]); SQRADDAC(a[5], a[11]); SQRADDAC(a[6], a[10]); SQRADDAC(a[7], a[9]); SQRADDDB; SQRADD(a[8], a[8]);
                     +      COMBA_STORE(b[16]);
+                    +
                     +      /* output 17 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[4], a[13]); SQRADDAC(a[5], a[12]); SQRADDAC(a[6], a[11]); SQRADDAC(a[7], a[10]); SQRADDAC(a[8], a[9]); SQRADDDB;
                     +      COMBA_STORE(b[17]);
+                    +
                     +      /* output 18 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[5], a[13]); SQRADDAC(a[6], a[12]); SQRADDAC(a[7], a[11]); SQRADDAC(a[8], a[10]); SQRADDDB; SQRADD(a[9], a[9]);
                     +      COMBA_STORE(b[18]);
+                    +
                     +      /* output 19 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[6], a[13]); SQRADDAC(a[7], a[12]); SQRADDAC(a[8], a[11]); SQRADDAC(a[9], a[10]); SQRADDDB;
                     +      COMBA_STORE(b[19]);
+                    +
                     +      /* output 20 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[7], a[13]); SQRADDAC(a[8], a[12]); SQRADDAC(a[9], a[11]); SQRADDDB; SQRADD(a[10], a[10]);
                     +      COMBA_STORE(b[20]);
+                    +
                     +      /* output 21 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[8], a[13]); SQRADDAC(a[9], a[12]); SQRADDAC(a[10], a[11]); SQRADDDB;
                     +      COMBA_STORE(b[21]);
+                    +
                     +      /* output 22 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[9], a[13]);    SQRADD2(a[10], a[12]);    SQRADD(a[11], a[11]);
                     +      COMBA_STORE(b[22]);
+                    +
                     +      /* output 23 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[10], a[13]);    SQRADD2(a[11], a[12]);
                     +      COMBA_STORE(b[23]);
+                    +
                     +      /* output 24 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[11], a[13]);    SQRADD(a[12], a[12]);
                     +      COMBA_STORE(b[24]);
+                    +
                     +      /* output 25 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[12], a[13]);
                     +      COMBA_STORE(b[25]);
+                    +
                     +      /* output 26 */
                     +      CARRY_FORWARD;
                     +      SQRADD(a[13], a[13]);
                     +      COMBA_STORE(b[26]);
                     +      COMBA_STORE2(b[27]);
                     +      COMBA_FINI;
+                    +
                     +      B->used = 28;
                     +      B->sign = FP_ZPOS;
                     +      memcpy(B->dp, b, 28 * sizeof(fp_digit));
                     +      fp_clamp(B);
                     +      break;
                     -     if ((res = mp_add(&w0, &w1, b)) != MP_OKAY) {
                     -        goto ERR;
                     -     }
                     -     if ((res = mp_add(&w2, &w3, &tmp1)) != MP_OKAY) {
                     -        goto ERR;
                     -     }
                     -     if ((res = mp_add(&w4, &tmp1, &tmp1)) != MP_OKAY) {
                     -        goto ERR;
                     -     }
                     -     if ((res = mp_add(&tmp1, b, b)) != MP_OKAY) {
                     -        goto ERR;
                     -     }
                     +   case 15:
                     +      a = A->dp;
                     +      COMBA_START;
+                    +
                     +      /* clear carries */
                     +      CLEAR_CARRY;
+                    +
                     +      /* output 0 */
                     +      SQRADD(a[0],a[0]);
                     +      COMBA_STORE(b[0]);
+                    +
                     +      /* output 1 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[0], a[1]);
                     +      COMBA_STORE(b[1]);
+                    +
                     +      /* output 2 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[0], a[2]);    SQRADD(a[1], a[1]);
                     +      COMBA_STORE(b[2]);
+                    +
                     +      /* output 3 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[0], a[3]);    SQRADD2(a[1], a[2]);
                     +      COMBA_STORE(b[3]);
+                    +
                     +      /* output 4 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[0], a[4]);    SQRADD2(a[1], a[3]);    SQRADD(a[2], a[2]);
                     +      COMBA_STORE(b[4]);
+                    +
                     +      /* output 5 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[5]); SQRADDAC(a[1], a[4]); SQRADDAC(a[2], a[3]); SQRADDDB;
                     +      COMBA_STORE(b[5]);
+                    +
                     +      /* output 6 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[6]); SQRADDAC(a[1], a[5]); SQRADDAC(a[2], a[4]); SQRADDDB; SQRADD(a[3], a[3]);
                     +      COMBA_STORE(b[6]);
+                    +
                     +      /* output 7 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[7]); SQRADDAC(a[1], a[6]); SQRADDAC(a[2], a[5]); SQRADDAC(a[3], a[4]); SQRADDDB;
                     +      COMBA_STORE(b[7]);
+                    +
                     +      /* output 8 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[8]); SQRADDAC(a[1], a[7]); SQRADDAC(a[2], a[6]); SQRADDAC(a[3], a[5]); SQRADDDB; SQRADD(a[4], a[4]);
                     +      COMBA_STORE(b[8]);
+                    +
                     +      /* output 9 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[9]); SQRADDAC(a[1], a[8]); SQRADDAC(a[2], a[7]); SQRADDAC(a[3], a[6]); SQRADDAC(a[4], a[5]); SQRADDDB;
                     +      COMBA_STORE(b[9]);
+                    +
                     +      /* output 10 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[10]); SQRADDAC(a[1], a[9]); SQRADDAC(a[2], a[8]); SQRADDAC(a[3], a[7]); SQRADDAC(a[4], a[6]); SQRADDDB; SQRADD(a[5], a[5]);
                     +      COMBA_STORE(b[10]);
+                    +
                     +      /* output 11 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[11]); SQRADDAC(a[1], a[10]); SQRADDAC(a[2], a[9]); SQRADDAC(a[3], a[8]); SQRADDAC(a[4], a[7]); SQRADDAC(a[5], a[6]); SQRADDDB;
                     +      COMBA_STORE(b[11]);
+                    +
                     +      /* output 12 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[12]); SQRADDAC(a[1], a[11]); SQRADDAC(a[2], a[10]); SQRADDAC(a[3], a[9]); SQRADDAC(a[4], a[8]); SQRADDAC(a[5], a[7]); SQRADDDB; SQRADD(a[6], a[6]);
                     +      COMBA_STORE(b[12]);
+                    +
                     +      /* output 13 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[13]); SQRADDAC(a[1], a[12]); SQRADDAC(a[2], a[11]); SQRADDAC(a[3], a[10]); SQRADDAC(a[4], a[9]); SQRADDAC(a[5], a[8]); SQRADDAC(a[6], a[7]); SQRADDDB;
                     +      COMBA_STORE(b[13]);
+                    +
                     +      /* output 14 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[14]); SQRADDAC(a[1], a[13]); SQRADDAC(a[2], a[12]); SQRADDAC(a[3], a[11]); SQRADDAC(a[4], a[10]); SQRADDAC(a[5], a[9]); SQRADDAC(a[6], a[8]); SQRADDDB; SQRADD(a[7], a[7]);
                     +      COMBA_STORE(b[14]);
+                    +
                     +      /* output 15 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[1], a[14]); SQRADDAC(a[2], a[13]); SQRADDAC(a[3], a[12]); SQRADDAC(a[4], a[11]); SQRADDAC(a[5], a[10]); SQRADDAC(a[6], a[9]); SQRADDAC(a[7], a[8]); SQRADDDB;
                     +      COMBA_STORE(b[15]);
+                    +
                     +      /* output 16 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[2], a[14]); SQRADDAC(a[3], a[13]); SQRADDAC(a[4], a[12]); SQRADDAC(a[5], a[11]); SQRADDAC(a[6], a[10]); SQRADDAC(a[7], a[9]); SQRADDDB; SQRADD(a[8], a[8]);
                     +      COMBA_STORE(b[16]);
+                    +
                     +      /* output 17 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[3], a[14]); SQRADDAC(a[4], a[13]); SQRADDAC(a[5], a[12]); SQRADDAC(a[6], a[11]); SQRADDAC(a[7], a[10]); SQRADDAC(a[8], a[9]); SQRADDDB;
                     +      COMBA_STORE(b[17]);
+                    +
                     +      /* output 18 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[4], a[14]); SQRADDAC(a[5], a[13]); SQRADDAC(a[6], a[12]); SQRADDAC(a[7], a[11]); SQRADDAC(a[8], a[10]); SQRADDDB; SQRADD(a[9], a[9]);
                     +      COMBA_STORE(b[18]);
+                    +
                     +      /* output 19 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[5], a[14]); SQRADDAC(a[6], a[13]); SQRADDAC(a[7], a[12]); SQRADDAC(a[8], a[11]); SQRADDAC(a[9], a[10]); SQRADDDB;
                     +      COMBA_STORE(b[19]);
+                    +
                     +      /* output 20 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[6], a[14]); SQRADDAC(a[7], a[13]); SQRADDAC(a[8], a[12]); SQRADDAC(a[9], a[11]); SQRADDDB; SQRADD(a[10], a[10]);
                     +      COMBA_STORE(b[20]);
+                    +
                     +      /* output 21 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[7], a[14]); SQRADDAC(a[8], a[13]); SQRADDAC(a[9], a[12]); SQRADDAC(a[10], a[11]); SQRADDDB;
                     +      COMBA_STORE(b[21]);
+                    +
                     +      /* output 22 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[8], a[14]); SQRADDAC(a[9], a[13]); SQRADDAC(a[10], a[12]); SQRADDDB; SQRADD(a[11], a[11]);
                     +      COMBA_STORE(b[22]);
+                    +
                     +      /* output 23 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[9], a[14]); SQRADDAC(a[10], a[13]); SQRADDAC(a[11], a[12]); SQRADDDB;
                     +      COMBA_STORE(b[23]);
+                    +
                     +      /* output 24 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[10], a[14]);    SQRADD2(a[11], a[13]);    SQRADD(a[12], a[12]);
                     +      COMBA_STORE(b[24]);
+                    +
                     +      /* output 25 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[11], a[14]);    SQRADD2(a[12], a[13]);
                     +      COMBA_STORE(b[25]);
+                    +
                     +      /* output 26 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[12], a[14]);    SQRADD(a[13], a[13]);
                     +      COMBA_STORE(b[26]);
+                    +
                     +      /* output 27 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[13], a[14]);
                     +      COMBA_STORE(b[27]);
+                    +
                     +      /* output 28 */
                     +      CARRY_FORWARD;
                     +      SQRADD(a[14], a[14]);
                     +      COMBA_STORE(b[28]);
                     +      COMBA_STORE2(b[29]);
                     +      COMBA_FINI;
+                    +
                     +      B->used = 30;
                     +      B->sign = FP_ZPOS;
                     +      memcpy(B->dp, b, 30 * sizeof(fp_digit));
                     +      fp_clamp(B);
                     +      break;
                     -ERR:
                     -     mp_clear_multi(&w0, &w1, &w2, &w3, &w4, &a0, &a1, &a2, &tmp1, NULL);
                     -     return res;
                     +   case 16:
                     +      a = A->dp;
                     +      COMBA_START;
+                    +
                     +      /* clear carries */
                     +      CLEAR_CARRY;
+                    +
                     +      /* output 0 */
                     +      SQRADD(a[0],a[0]);
                     +      COMBA_STORE(b[0]);
+                    +
                     +      /* output 1 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[0], a[1]);
                     +      COMBA_STORE(b[1]);
+                    +
                     +      /* output 2 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[0], a[2]);    SQRADD(a[1], a[1]);
                     +      COMBA_STORE(b[2]);
+                    +
                     +      /* output 3 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[0], a[3]);    SQRADD2(a[1], a[2]);
                     +      COMBA_STORE(b[3]);
+                    +
                     +      /* output 4 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[0], a[4]);    SQRADD2(a[1], a[3]);    SQRADD(a[2], a[2]);
                     +      COMBA_STORE(b[4]);
+                    +
                     +      /* output 5 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[5]); SQRADDAC(a[1], a[4]); SQRADDAC(a[2], a[3]); SQRADDDB;
                     +      COMBA_STORE(b[5]);
+                    +
                     +      /* output 6 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[6]); SQRADDAC(a[1], a[5]); SQRADDAC(a[2], a[4]); SQRADDDB; SQRADD(a[3], a[3]);
                     +      COMBA_STORE(b[6]);
+                    +
                     +      /* output 7 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[7]); SQRADDAC(a[1], a[6]); SQRADDAC(a[2], a[5]); SQRADDAC(a[3], a[4]); SQRADDDB;
                     +      COMBA_STORE(b[7]);
+                    +
                     +      /* output 8 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[8]); SQRADDAC(a[1], a[7]); SQRADDAC(a[2], a[6]); SQRADDAC(a[3], a[5]); SQRADDDB; SQRADD(a[4], a[4]);
                     +      COMBA_STORE(b[8]);
+                    +
                     +      /* output 9 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[9]); SQRADDAC(a[1], a[8]); SQRADDAC(a[2], a[7]); SQRADDAC(a[3], a[6]); SQRADDAC(a[4], a[5]); SQRADDDB;
                     +      COMBA_STORE(b[9]);
+                    +
                     +      /* output 10 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[10]); SQRADDAC(a[1], a[9]); SQRADDAC(a[2], a[8]); SQRADDAC(a[3], a[7]); SQRADDAC(a[4], a[6]); SQRADDDB; SQRADD(a[5], a[5]);
                     +      COMBA_STORE(b[10]);
+                    +
                     +      /* output 11 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[11]); SQRADDAC(a[1], a[10]); SQRADDAC(a[2], a[9]); SQRADDAC(a[3], a[8]); SQRADDAC(a[4], a[7]); SQRADDAC(a[5], a[6]); SQRADDDB;
                     +      COMBA_STORE(b[11]);
+                    +
                     +      /* output 12 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[12]); SQRADDAC(a[1], a[11]); SQRADDAC(a[2], a[10]); SQRADDAC(a[3], a[9]); SQRADDAC(a[4], a[8]); SQRADDAC(a[5], a[7]); SQRADDDB; SQRADD(a[6], a[6]);
                     +      COMBA_STORE(b[12]);
+                    +
                     +      /* output 13 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[13]); SQRADDAC(a[1], a[12]); SQRADDAC(a[2], a[11]); SQRADDAC(a[3], a[10]); SQRADDAC(a[4], a[9]); SQRADDAC(a[5], a[8]); SQRADDAC(a[6], a[7]); SQRADDDB;
                     +      COMBA_STORE(b[13]);
+                    +
                     +      /* output 14 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[14]); SQRADDAC(a[1], a[13]); SQRADDAC(a[2], a[12]); SQRADDAC(a[3], a[11]); SQRADDAC(a[4], a[10]); SQRADDAC(a[5], a[9]); SQRADDAC(a[6], a[8]); SQRADDDB; SQRADD(a[7], a[7]);
                     +      COMBA_STORE(b[14]);
+                    +
                     +      /* output 15 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[0], a[15]); SQRADDAC(a[1], a[14]); SQRADDAC(a[2], a[13]); SQRADDAC(a[3], a[12]); SQRADDAC(a[4], a[11]); SQRADDAC(a[5], a[10]); SQRADDAC(a[6], a[9]); SQRADDAC(a[7], a[8]); SQRADDDB;
                     +      COMBA_STORE(b[15]);
+                    +
                     +      /* output 16 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[1], a[15]); SQRADDAC(a[2], a[14]); SQRADDAC(a[3], a[13]); SQRADDAC(a[4], a[12]); SQRADDAC(a[5], a[11]); SQRADDAC(a[6], a[10]); SQRADDAC(a[7], a[9]); SQRADDDB; SQRADD(a[8], a[8]);
                     +      COMBA_STORE(b[16]);
+                    +
                     +      /* output 17 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[2], a[15]); SQRADDAC(a[3], a[14]); SQRADDAC(a[4], a[13]); SQRADDAC(a[5], a[12]); SQRADDAC(a[6], a[11]); SQRADDAC(a[7], a[10]); SQRADDAC(a[8], a[9]); SQRADDDB;
                     +      COMBA_STORE(b[17]);
+                    +
                     +      /* output 18 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[3], a[15]); SQRADDAC(a[4], a[14]); SQRADDAC(a[5], a[13]); SQRADDAC(a[6], a[12]); SQRADDAC(a[7], a[11]); SQRADDAC(a[8], a[10]); SQRADDDB; SQRADD(a[9], a[9]);
                     +      COMBA_STORE(b[18]);
+                    +
                     +      /* output 19 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[4], a[15]); SQRADDAC(a[5], a[14]); SQRADDAC(a[6], a[13]); SQRADDAC(a[7], a[12]); SQRADDAC(a[8], a[11]); SQRADDAC(a[9], a[10]); SQRADDDB;
                     +      COMBA_STORE(b[19]);
+                    +
                     +      /* output 20 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[5], a[15]); SQRADDAC(a[6], a[14]); SQRADDAC(a[7], a[13]); SQRADDAC(a[8], a[12]); SQRADDAC(a[9], a[11]); SQRADDDB; SQRADD(a[10], a[10]);
                     +      COMBA_STORE(b[20]);
+                    +
                     +      /* output 21 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[6], a[15]); SQRADDAC(a[7], a[14]); SQRADDAC(a[8], a[13]); SQRADDAC(a[9], a[12]); SQRADDAC(a[10], a[11]); SQRADDDB;
                     +      COMBA_STORE(b[21]);
+                    +
                     +      /* output 22 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[7], a[15]); SQRADDAC(a[8], a[14]); SQRADDAC(a[9], a[13]); SQRADDAC(a[10], a[12]); SQRADDDB; SQRADD(a[11], a[11]);
                     +      COMBA_STORE(b[22]);
+                    +
                     +      /* output 23 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[8], a[15]); SQRADDAC(a[9], a[14]); SQRADDAC(a[10], a[13]); SQRADDAC(a[11], a[12]); SQRADDDB;
                     +      COMBA_STORE(b[23]);
+                    +
                     +      /* output 24 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[9], a[15]); SQRADDAC(a[10], a[14]); SQRADDAC(a[11], a[13]); SQRADDDB; SQRADD(a[12], a[12]);
                     +      COMBA_STORE(b[24]);
+                    +
                     +      /* output 25 */
                     +      CARRY_FORWARD;
                     +   SQRADDSC(a[10], a[15]); SQRADDAC(a[11], a[14]); SQRADDAC(a[12], a[13]); SQRADDDB;
                     +      COMBA_STORE(b[25]);
+                    +
                     +      /* output 26 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[11], a[15]);    SQRADD2(a[12], a[14]);    SQRADD(a[13], a[13]);
                     +      COMBA_STORE(b[26]);
+                    +
                     +      /* output 27 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[12], a[15]);    SQRADD2(a[13], a[14]);
                     +      COMBA_STORE(b[27]);
+                    +
                     +      /* output 28 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[13], a[15]);    SQRADD(a[14], a[14]);
                     +      COMBA_STORE(b[28]);
+                    +
                     +      /* output 29 */
                     +      CARRY_FORWARD;
                     +      SQRADD2(a[14], a[15]);
                     +      COMBA_STORE(b[29]);
+                    +
                     +      /* output 30 */
                     +      CARRY_FORWARD;
                     +      SQRADD(a[15], a[15]);
                     +      COMBA_STORE(b[30]);
                     +      COMBA_STORE2(b[31]);
                     +      COMBA_FINI;
+                    +
                     +      B->used = 32;
                     +      B->sign = FP_ZPOS;
                     +      memcpy(B->dp, b, 32 * sizeof(fp_digit));
                     +      fp_clamp(B);
                     +      break;
                     +}
+                     }
                     -#endif
                     +#endif /* TFM_SMALL_SET */
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_toom_sqr.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
                     +/* $Source: /cvs/libtom/tomsfastmath/src/sqr/fp_sqr_comba_small_set.c,v $ */
                     +/* $Revision: 1.1 $ */
                     +/* $Date: 2007/02/15 00:31:32 $ */
                     -/* End: bn_mp_toom_sqr.c */
                     +/* End: fp_sqr_comba_small_set.c */
                     -/* Start: bn_mp_toradix.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_TORADIX_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     +/* Start: fp_sqrmod.c */
                     +/* TomsFastMath, a fast ISO C bignum library.
                     + *
                     + * This project is meant to fill in where LibTomMath
                     + * falls short.  That is speed ;-)
+                      *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     + * This project is public domain and free for all purposes.
                     + *
                     + * Tom St Denis, tomstdenis@gmail.com
                       */
                     +#include "bignum_fast.h"
                     -/* stores a bignum as a ASCII string in a given radix (2..64) */
                     -int mp_toradix (mp_int * a, char *str, int radix)
                     +/* c = a * a (mod b) */
                     +int fp_sqrmod(fp_int *a, fp_int *b, fp_int *c)
+                     {
                     -  int     res, digs;
                     -  mp_int  t;
                     -  mp_digit d;
                     -  char   *_s = str;
+                    -
                     -  /* check range of the radix */
                     -  if (radix < 2 || radix > 64) {
                     -    return MP_VAL;
                     -  }
+                    -
                     -  /* quick out if its zero */
                     -  if (mp_iszero(a) == 1) {
                     -     *str++ = '0';
                     -     *str = '\0';
                     -     return MP_OKAY;
                     -  }
+                    -
                     -  if ((res = mp_init_copy (&t, a)) != MP_OKAY) {
                     -    return res;
                     -  }
+                    -
                     -  /* if it is negative output a - */
                     -  if (t.sign == MP_NEG) {
                     -    ++_s;
                     -    *str++ = '-';
                     -    t.sign = MP_ZPOS;
                     -  }
+                    -
                     -  digs = 0;
                     -  while (mp_iszero (&t) == 0) {
                     -    if ((res = mp_div_d (&t, (mp_digit) radix, &t, &d)) != MP_OKAY) {
                     -      mp_clear (&t);
                     -      return res;
                     -    }
                     -    *str++ = mp_s_rmap[d];
                     -    ++digs;
                     -  }
+                    -
                     -  /* reverse the digits of the string.  In this case _s points
                     -   * to the first digit [exluding the sign] of the number]
                     -   */
                     -  bn_reverse ((unsigned char *)_s, digs);
+                    -
                     -  /* append a NULL so the string is properly terminated */
                     -  *str = '\0';
+                    -
                     -  mp_clear (&t);
                     -  return MP_OKAY;
                     +  fp_int tmp;
                     +  fp_zero(&tmp);
                     +  fp_sqr(a, &tmp);
                     +  return fp_mod(&tmp, b, c);
+                     }
                     -#endif
                     +/* $Source: /cvs/libtom/tomsfastmath/src/sqr/fp_sqrmod.c,v $ */
                     +/* $Revision: 1.1 $ */
                     +/* $Date: 2006/12/31 21:25:53 $ */
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_toradix.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
+                    -
                     -/* End: bn_mp_toradix.c */
                     +/* End: fp_sqrmod.c */
                     -/* Start: bn_mp_toradix_n.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_TORADIX_N_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     +/* Start: fp_sub.c */
                     +/* TomsFastMath, a fast ISO C bignum library.
                     + *
                     + * This project is meant to fill in where LibTomMath
                     + * falls short.  That is speed ;-)
+                      *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     + * This project is public domain and free for all purposes.
                     + *
                     + * Tom St Denis, tomstdenis@gmail.com
                       */
                     +#include "bignum_fast.h"
                     -/* stores a bignum as a ASCII string in a given radix (2..64)
                     - *
                     - * Stores upto maxlen-1 chars and always a NULL byte
                     - */
                     -int mp_toradix_n(mp_int * a, char *str, int radix, int maxlen)
                     +/* c = a - b */
                     +void fp_sub(fp_int *a, fp_int *b, fp_int *c)
+                     {
                     -  int     res, digs;
                     -  mp_int  t;
                     -  mp_digit d;
                     -  char   *_s = str;
+                    -
                     -  /* check range of the maxlen, radix */
                     -  if (maxlen < 2 || radix < 2 || radix > 64) {
                     -    return MP_VAL;
                     -  }
                     +  int     sa, sb;
                     -  /* quick out if its zero */
                     -  if (mp_iszero(a) == MP_YES) {
                     -     *str++ = '0';
                     -     *str = '\0';
                     -     return MP_OKAY;
                     -  }
+                    -
                     -  if ((res = mp_init_copy (&t, a)) != MP_OKAY) {
                     -    return res;
                     -  }
+                    -
                     -  /* if it is negative output a - */
                     -  if (t.sign == MP_NEG) {
                     -    /* we have to reverse our digits later... but not the - sign!! */
                     -    ++_s;
+                    -
                     -    /* store the flag and mark the number as positive */
                     -    *str++ = '-';
                     -    t.sign = MP_ZPOS;
+                    -
                     -    /* subtract a char */
                     -    --maxlen;
                     -  }
                     +  sa = a->sign;
                     +  sb = b->sign;
                     -  digs = 0;
                     -  while (mp_iszero (&t) == 0) {
                     -    if (--maxlen < 1) {
                     -       /* no more room */
                     -       break;
                     -    }
                     -    if ((res = mp_div_d (&t, (mp_digit) radix, &t, &d)) != MP_OKAY) {
                     -      mp_clear (&t);
                     -      return res;
                     +  if (sa != sb) {
                     +    /* subtract a negative from a positive, OR */
                     +    /* subtract a positive from a negative. */
                     +    /* In either case, ADD their magnitudes, */
                     +    /* and use the sign of the first number. */
                     +    c->sign = sa;
                     +    s_fp_add (a, b, c);
                     +  } else {
                     +    /* subtract a positive from a positive, OR */
                     +    /* subtract a negative from a negative. */
                     +    /* First, take the difference between their */
                     +    /* magnitudes, then... */
                     +    if (fp_cmp_mag (a, b) != FP_LT) {
                     +      /* Copy the sign from the first */
                     +      c->sign = sa;
                     +      /* The first has a larger or equal magnitude */
                     +      s_fp_sub (a, b, c);
                     +    } else {
                     +      /* The result has the *opposite* sign from */
                     +      /* the first number. */
                     +      c->sign = (sa == FP_ZPOS) ? FP_NEG : FP_ZPOS;
                     +      /* The second has a larger magnitude */
                     +      s_fp_sub (b, a, c);
+                         }
                     -    *str++ = mp_s_rmap[d];
                     -    ++digs;
+                       }
+                    -
                     -  /* reverse the digits of the string.  In this case _s points
                     -   * to the first digit [exluding the sign] of the number
                     -   */
                     -  bn_reverse ((unsigned char *)_s, digs);
+                    -
                     -  /* append a NULL so the string is properly terminated */
                     -  *str = '\0';
+                    -
                     -  mp_clear (&t);
                     -  return MP_OKAY;
+                     }
                     -#endif
+                    -
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_toradix_n.c,v $ */
                     -/* $Revision: 1.4 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
+                    -
                     -/* End: bn_mp_toradix_n.c */
+                    -
                     -/* Start: bn_mp_unsigned_bin_size.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_UNSIGNED_BIN_SIZE_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     - *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     - */
+                    -
                     -/* get the size for an unsigned equivalent */
                     -int mp_unsigned_bin_size (mp_int * a)
                     -{
                     -  int     size = mp_count_bits (a);
                     -  return (size / 8 + ((size & 7) != 0 ? 1 : 0));
                     -}
                     -#endif
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_unsigned_bin_size.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
                     +/* $Source: /cvs/libtom/tomsfastmath/src/addsub/fp_sub.c,v $ */
                     +/* $Revision: 1.1 $ */
                     +/* $Date: 2006/12/31 21:25:53 $ */
                     -/* End: bn_mp_unsigned_bin_size.c */
                     +/* End: fp_sub.c */
                     -/* Start: bn_mp_xor.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_XOR_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     +/* Start: fp_sub_d.c */
                     +/* TomsFastMath, a fast ISO C bignum library.
                     + *
                     + * This project is meant to fill in where LibTomMath
                     + * falls short.  That is speed ;-)
+                      *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     + * This project is public domain and free for all purposes.
                     + *
                     + * Tom St Denis, tomstdenis@gmail.com
                       */
                     +#include "bignum_fast.h"
                     -/* XOR two ints together */
                     -int
                     -mp_xor (mp_int * a, mp_int * b, mp_int * c)
                     +/* c = a - b */
                     +void fp_sub_d(fp_int *a, fp_digit b, fp_int *c)
+                     {
                     -  int     res, ix, px;
                     -  mp_int  t, *x;
+                    -
                     -  if (a->used > b->used) {
                     -    if ((res = mp_init_copy (&t, a)) != MP_OKAY) {
                     -      return res;
                     -    }
                     -    px = b->used;
                     -    x = b;
                     -  } else {
                     -    if ((res = mp_init_copy (&t, b)) != MP_OKAY) {
                     -      return res;
                     -    }
                     -    px = a->used;
                     -    x = a;
                     -  }
+                    -
                     -  for (ix = 0; ix < px; ix++) {
                     -     t.dp[ix] ^= x->dp[ix];
                     -  }
                     -  mp_clamp (&t);
                     -  mp_exch (c, &t);
                     -  mp_clear (&t);
                     -  return MP_OKAY;
                     +   fp_int tmp;
                     +   fp_set(&tmp, b);
                     +   fp_sub(a, &tmp, c);
+                     }
                     -#endif
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_xor.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
                     +/* $Source: /cvs/libtom/tomsfastmath/src/addsub/fp_sub_d.c,v $ */
                     +/* $Revision: 1.1 $ */
                     +/* $Date: 2006/12/31 21:25:53 $ */
                     -/* End: bn_mp_xor.c */
                     +/* End: fp_sub_d.c */
                     -/* Start: bn_mp_zero.c */
                     -#include <bignum.h>
                     -#ifdef BN_MP_ZERO_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     +/* Start: fp_submod.c */
                     +/* TomsFastMath, a fast ISO C bignum library.
                     + *
                     + * This project is meant to fill in where LibTomMath
                     + * falls short.  That is speed ;-)
+                      *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     + * This project is public domain and free for all purposes.
                     + *
                     + * Tom St Denis, tomstdenis@gmail.com
                       */
                     +#include "bignum_fast.h"
                     -/* set to zero */
                     -void mp_zero (mp_int * a)
                     +/* d = a - b (mod c) */
                     +int fp_submod(fp_int *a, fp_int *b, fp_int *c, fp_int *d)
+                     {
                     -  int       n;
                     -  mp_digit *tmp;
+                    -
                     -  a->sign = MP_ZPOS;
                     -  a->used = 0;
+                    -
                     -  tmp = a->dp;
                     -  for (n = 0; n < a->alloc; n++) {
                     -     *tmp++ = 0;
                     -  }
                     +  fp_int tmp;
                     +  fp_zero(&tmp);
                     +  fp_sub(a, b, &tmp);
                     +  return fp_mod(&tmp, c, d);
+                     }
                     -#endif
+                    -
                     -/* $Source: /cvs/libtom/libtommath/bn_mp_zero.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
+                    -
                     -/* End: bn_mp_zero.c */
+                    -
                     -/* Start: bn_prime_tab.c */
                     -#include <bignum.h>
                     -#ifdef BN_PRIME_TAB_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     - *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     - */
                     -const mp_digit ltm_prime_tab[] = {
                     -  0x0002, 0x0003, 0x0005, 0x0007, 0x000B, 0x000D, 0x0011, 0x0013,
                     -  0x0017, 0x001D, 0x001F, 0x0025, 0x0029, 0x002B, 0x002F, 0x0035,
                     -  0x003B, 0x003D, 0x0043, 0x0047, 0x0049, 0x004F, 0x0053, 0x0059,
                     -  0x0061, 0x0065, 0x0067, 0x006B, 0x006D, 0x0071, 0x007F,
                     -#ifndef MP_8BIT
                     -  0x0083,
                     -  0x0089, 0x008B, 0x0095, 0x0097, 0x009D, 0x00A3, 0x00A7, 0x00AD,
                     -  0x00B3, 0x00B5, 0x00BF, 0x00C1, 0x00C5, 0x00C7, 0x00D3, 0x00DF,
                     -  0x00E3, 0x00E5, 0x00E9, 0x00EF, 0x00F1, 0x00FB, 0x0101, 0x0107,
                     -  0x010D, 0x010F, 0x0115, 0x0119, 0x011B, 0x0125, 0x0133, 0x0137,
                     -  0x0139, 0x013D, 0x014B, 0x0151, 0x015B, 0x015D, 0x0161, 0x0167,
                     -  0x016F, 0x0175, 0x017B, 0x017F, 0x0185, 0x018D, 0x0191, 0x0199,
                     -  0x01A3, 0x01A5, 0x01AF, 0x01B1, 0x01B7, 0x01BB, 0x01C1, 0x01C9,
                     -  0x01CD, 0x01CF, 0x01D3, 0x01DF, 0x01E7, 0x01EB, 0x01F3, 0x01F7,
                     -  0x01FD, 0x0209, 0x020B, 0x021D, 0x0223, 0x022D, 0x0233, 0x0239,
                     -  0x023B, 0x0241, 0x024B, 0x0251, 0x0257, 0x0259, 0x025F, 0x0265,
                     -  0x0269, 0x026B, 0x0277, 0x0281, 0x0283, 0x0287, 0x028D, 0x0293,
                     -  0x0295, 0x02A1, 0x02A5, 0x02AB, 0x02B3, 0x02BD, 0x02C5, 0x02CF,
                     -  0x02D7, 0x02DD, 0x02E3, 0x02E7, 0x02EF, 0x02F5, 0x02F9, 0x0301,
                     -  0x0305, 0x0313, 0x031D, 0x0329, 0x032B, 0x0335, 0x0337, 0x033B,
                     -  0x033D, 0x0347, 0x0355, 0x0359, 0x035B, 0x035F, 0x036D, 0x0371,
                     -  0x0373, 0x0377, 0x038B, 0x038F, 0x0397, 0x03A1, 0x03A9, 0x03AD,
                     -  0x03B3, 0x03B9, 0x03C7, 0x03CB, 0x03D1, 0x03D7, 0x03DF, 0x03E5,
                     -  0x03F1, 0x03F5, 0x03FB, 0x03FD, 0x0407, 0x0409, 0x040F, 0x0419,
                     -  0x041B, 0x0425, 0x0427, 0x042D, 0x043F, 0x0443, 0x0445, 0x0449,
                     -  0x044F, 0x0455, 0x045D, 0x0463, 0x0469, 0x047F, 0x0481, 0x048B,
                     +/* $Source: /cvs/libtom/tomsfastmath/src/addsub/fp_submod.c,v $ */
                     +/* $Revision: 1.1 $ */
                     +/* $Date: 2006/12/31 21:25:53 $ */
                     -  0x0493, 0x049D, 0x04A3, 0x04A9, 0x04B1, 0x04BD, 0x04C1, 0x04C7,
                     -  0x04CD, 0x04CF, 0x04D5, 0x04E1, 0x04EB, 0x04FD, 0x04FF, 0x0503,
                     -  0x0509, 0x050B, 0x0511, 0x0515, 0x0517, 0x051B, 0x0527, 0x0529,
                     -  0x052F, 0x0551, 0x0557, 0x055D, 0x0565, 0x0577, 0x0581, 0x058F,
                     -  0x0593, 0x0595, 0x0599, 0x059F, 0x05A7, 0x05AB, 0x05AD, 0x05B3,
                     -  0x05BF, 0x05C9, 0x05CB, 0x05CF, 0x05D1, 0x05D5, 0x05DB, 0x05E7,
                     -  0x05F3, 0x05FB, 0x0607, 0x060D, 0x0611, 0x0617, 0x061F, 0x0623,
                     -  0x062B, 0x062F, 0x063D, 0x0641, 0x0647, 0x0649, 0x064D, 0x0653
                     -#endif
                     -};
                     -#endif
+                    -
                     -/* $Source: /cvs/libtom/libtommath/bn_prime_tab.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
+                    -
                     -/* End: bn_prime_tab.c */
                     +/* End: fp_submod.c */
                     -/* Start: bn_reverse.c */
                     -#include <bignum.h>
                     -#ifdef BN_REVERSE_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     +/* Start: fp_to_signed_bin.c */
                     +/* TomsFastMath, a fast ISO C bignum library.
                     + *
                     + * This project is meant to fill in where LibTomMath
                     + * falls short.  That is speed ;-)
+                      *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     + * This project is public domain and free for all purposes.
                     + *
                     + * Tom St Denis, tomstdenis@gmail.com
                       */
                     +#include "bignum_fast.h"
                     -/* reverse an array, used for radix code */
                     -void
                     -bn_reverse (unsigned char *s, int len)
                     +void fp_to_signed_bin(fp_int *a, unsigned char *b)
+                     {
                     -  int     ix, iy;
                     -  unsigned char t;
+                    -
                     -  ix = 0;
                     -  iy = len - 1;
                     -  while (ix < iy) {
                     -    t     = s[ix];
                     -    s[ix] = s[iy];
                     -    s[iy] = t;
                     -    ++ix;
                     -    --iy;
                     -  }
                     +  fp_to_unsigned_bin (a, b + 1);
                     +  b[0] = (unsigned char) ((a->sign == FP_ZPOS) ? 0 : 1);
+                     }
                     -#endif
                     -/* $Source: /cvs/libtom/libtommath/bn_reverse.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
                     +/* $Source: /cvs/libtom/tomsfastmath/src/bin/fp_to_signed_bin.c,v $ */
                     +/* $Revision: 1.1 $ */
                     +/* $Date: 2006/12/31 21:25:53 $ */
                     -/* End: bn_reverse.c */
                     +/* End: fp_to_signed_bin.c */
                     -/* Start: bn_s_mp_add.c */
                     -#include <bignum.h>
                     -#ifdef BN_S_MP_ADD_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     +/* Start: fp_to_unsigned_bin.c */
                     +/* TomsFastMath, a fast ISO C bignum library.
                     + *
                     + * This project is meant to fill in where LibTomMath
                     + * falls short.  That is speed ;-)
+                      *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     + * This project is public domain and free for all purposes.
                     + *
                     + * Tom St Denis, tomstdenis@gmail.com
                       */
                     +#include "bignum_fast.h"
                     -/* low level addition, based on HAC pp.594, Algorithm 14.7 */
                     -int
                     -s_mp_add (mp_int * a, mp_int * b, mp_int * c)
                     +void fp_to_unsigned_bin(fp_int *a, unsigned char *b)
+                     {
                     -  mp_int *x;
                     -  int     olduse, res, min, max;
+                    -
                     -  /* find sizes, we let |a| <= |b| which means we have to sort
                     -   * them.  "x" will point to the input with the most digits
                     -   */
                     -  if (a->used > b->used) {
                     -    min = b->used;
                     -    max = a->used;
                     -    x = a;
                     -  } else {
                     -    min = a->used;
                     -    max = b->used;
                     -    x = b;
                     -  }
+                    -
                     -  /* init result */
                     -  if (c->alloc < max + 1) {
                     -    if ((res = mp_grow (c, max + 1)) != MP_OKAY) {
                     -      return res;
                     -    }
                     -  }
+                    -
                     -  /* get old used digit count and set new one */
                     -  olduse = c->used;
                     -  c->used = max + 1;
+                    -
                     -  {
                     -    register mp_digit u, *tmpa, *tmpb, *tmpc;
                     -    register int i;
+                    -
                     -    /* alias for digit pointers */
+                    -
                     -    /* first input */
                     -    tmpa = a->dp;
+                    -
                     -    /* second input */
                     -    tmpb = b->dp;
+                    -
                     -    /* destination */
                     -    tmpc = c->dp;
+                    -
                     -    /* zero the carry */
                     -    u = 0;
                     -    for (i = 0; i < min; i++) {
                     -      /* Compute the sum at one digit, T[i] = A[i] + B[i] + U */
                     -      *tmpc = *tmpa++ + *tmpb++ + u;
+                    -
                     -      /* U = carry bit of T[i] */
                     -      u = *tmpc >> ((mp_digit)DIGIT_BIT);
+                    -
                     -      /* take away carry bit from T[i] */
                     -      *tmpc++ &= MP_MASK;
                     -    }
+                    -
                     -    /* now copy higher words if any, that is in A+B
                     -     * if A or B has more digits add those in
                     -     */
                     -    if (min != max) {
                     -      for (; i < max; i++) {
                     -        /* T[i] = X[i] + U */
                     -        *tmpc = x->dp[i] + u;
+                    -
                     -        /* U = carry bit of T[i] */
                     -        u = *tmpc >> ((mp_digit)DIGIT_BIT);
+                    -
                     -        /* take away carry bit from T[i] */
                     -        *tmpc++ &= MP_MASK;
                     -      }
                     -    }
                     +  int     x;
                     +  fp_int  t;
                     -    /* add carry */
                     -    *tmpc++ = u;
                     +  fp_init_copy(&t, a);
                     -    /* clear digits above oldused */
                     -    for (i = c->used; i < olduse; i++) {
                     -      *tmpc++ = 0;
                     -    }
                     +  x = 0;
                     +  while (fp_iszero (&t) == FP_NO) {
                     +      b[x++] = (unsigned char) (t.dp[0] & 255);
                     +      fp_div_2d (&t, 8, &t, NULL);
+                       }
+                    -
                     -  mp_clamp (c);
                     -  return MP_OKAY;
                     +  fp_reverse (b, x);
+                     }
                     -#endif
                     -/* $Source: /cvs/libtom/libtommath/bn_s_mp_add.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
                     +/* $Source: /cvs/libtom/tomsfastmath/src/bin/fp_to_unsigned_bin.c,v $ */
                     +/* $Revision: 1.2 $ */
                     +/* $Date: 2007/02/27 02:38:44 $ */
                     -/* End: bn_s_mp_add.c */
                     +/* End: fp_to_unsigned_bin.c */
                     -/* Start: bn_s_mp_exptmod.c */
                     -#include <bignum.h>
                     -#ifdef BN_S_MP_EXPTMOD_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     +/* Start: fp_toradix.c */
                     +/* TomsFastMath, a fast ISO C bignum library.
                     + *
                     + * This project is meant to fill in where LibTomMath
                     + * falls short.  That is speed ;-)
+                      *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     + * This project is public domain and free for all purposes.
                     + *
                     + * Tom St Denis, tomstdenis@gmail.com
                       */
                     -#ifdef MP_LOW_MEM
                     -   #define TAB_SIZE 32
                     -#else
                     -   #define TAB_SIZE 256
                     -#endif
                     +#include "bignum_fast.h"
                     -int s_mp_exptmod (mp_int * G, mp_int * X, mp_int * P, mp_int * Y, int redmode)
                     +int fp_toradix(fp_int *a, char *str, int radix)
+                     {
                     -  mp_int  M[TAB_SIZE], res, mu;
                     -  mp_digit buf;
                     -  int     err, bitbuf, bitcpy, bitcnt, mode, digidx, x, y, winsize;
                     -  int (*redux)(mp_int*,mp_int*,mp_int*);
+                    -
                     -  /* find window size */
                     -  x = mp_count_bits (X);
                     -  if (x <= 7) {
                     -    winsize = 2;
                     -  } else if (x <= 36) {
                     -    winsize = 3;
                     -  } else if (x <= 140) {
                     -    winsize = 4;
                     -  } else if (x <= 450) {
                     -    winsize = 5;
                     -  } else if (x <= 1303) {
                     -    winsize = 6;
                     -  } else if (x <= 3529) {
                     -    winsize = 7;
                     -  } else {
                     -    winsize = 8;
                     -  }
+                    -
                     -#ifdef MP_LOW_MEM
                     -    if (winsize > 5) {
                     -       winsize = 5;
                     -    }
                     -#endif
                     +  int     digs;
                     +  fp_int  t;
                     +  fp_digit d;
                     +  char   *_s = str;
                     -  /* init M array */
                     -  /* init first cell */
                     -  if ((err = mp_init(&M[1])) != MP_OKAY) {
                     -     return err;
                     +  /* check range of the radix */
                     +  if (radix < 2 || radix > 64) {
                     +    return FP_VAL;
+                       }
                     -  /* now init the second half of the array */
                     -  for (x = 1<<(winsize-1); x < (1 << winsize); x++) {
                     -    if ((err = mp_init(&M[x])) != MP_OKAY) {
                     -      for (y = 1<<(winsize-1); y < x; y++) {
                     -        mp_clear (&M[y]);
                     -      }
                     -      mp_clear(&M[1]);
                     -      return err;
                     -    }
                     +  /* quick out if its zero */
                     +  if (fp_iszero(a) == 1) {
                     +     *str++ = '0';
                     +     *str = '\0';
                     +     return FP_OKAY;
+                       }
                     -  /* create mu, used for Barrett reduction */
                     -  if ((err = mp_init (&mu)) != MP_OKAY) {
                     -    goto LBL_M;
                     -  }
+                    -
                     -  if (redmode == 0) {
                     -     if ((err = mp_reduce_setup (&mu, P)) != MP_OKAY) {
                     -        goto LBL_MU;
                     -     }
                     -     redux = mp_reduce;
                     -  } else {
                     -     if ((err = mp_reduce_2k_setup_l (P, &mu)) != MP_OKAY) {
                     -        goto LBL_MU;
                     -     }
                     -     redux = mp_reduce_2k_l;
                     -  }
                     +  fp_init_copy(&t, a);
                     -  /* create M table
                     -   *
                     -   * The M table contains powers of the base,
                     -   * e.g. M[x] = G**x mod P
                     -   *
                     -   * The first half of the table is not
                     -   * computed though accept for M[0] and M[1]
                     -   */
                     -  if ((err = mp_mod (G, P, &M[1])) != MP_OKAY) {
                     -    goto LBL_MU;
                     -  }
+                    -
                     -  /* compute the value at M[1<<(winsize-1)] by squaring
                     -   * M[1] (winsize-1) times
                     -   */
                     -  if ((err = mp_copy (&M[1], &M[1 << (winsize - 1)])) != MP_OKAY) {
                     -    goto LBL_MU;
                     +  /* if it is negative output a - */
                     +  if (t.sign == FP_NEG) {
                     +    ++_s;
                     +    *str++ = '-';
                     +    t.sign = FP_ZPOS;
+                       }
                     -  for (x = 0; x < (winsize - 1); x++) {
                     -    /* square it */
                     -    if ((err = mp_sqr (&M[1 << (winsize - 1)],
                     -                       &M[1 << (winsize - 1)])) != MP_OKAY) {
                     -      goto LBL_MU;
                     -    }
+                    -
                     -    /* reduce modulo P */
                     -    if ((err = redux (&M[1 << (winsize - 1)], P, &mu)) != MP_OKAY) {
                     -      goto LBL_MU;
                     -    }
                     +  digs = 0;
                     +  while (fp_iszero (&t) == FP_NO) {
                     +    fp_div_d (&t, (fp_digit) radix, &t, &d);
                     +    *str++ = fp_s_rmap[d];
                     +    ++digs;
+                       }
                     -  /* create upper table, that is M[x] = M[x-1] * M[1] (mod P)
                     -   * for x = (2**(winsize - 1) + 1) to (2**winsize - 1)
                     +  /* reverse the digits of the string.  In this case _s points
                     +   * to the first digit [exluding the sign] of the number]
                         */
                     -  for (x = (1 << (winsize - 1)) + 1; x < (1 << winsize); x++) {
                     -    if ((err = mp_mul (&M[x - 1], &M[1], &M[x])) != MP_OKAY) {
                     -      goto LBL_MU;
                     -    }
                     -    if ((err = redux (&M[x], P, &mu)) != MP_OKAY) {
                     -      goto LBL_MU;
                     -    }
                     -  }
+                    -
                     -  /* setup result */
                     -  if ((err = mp_init (&res)) != MP_OKAY) {
                     -    goto LBL_MU;
                     -  }
                     -  mp_set (&res, 1);
+                    -
                     -  /* set initial mode and bit cnt */
                     -  mode   = 0;
                     -  bitcnt = 1;
                     -  buf    = 0;
                     -  digidx = X->used - 1;
                     -  bitcpy = 0;
                     -  bitbuf = 0;
+                    -
                     -  for (;;) {
                     -    /* grab next digit as required */
                     -    if (--bitcnt == 0) {
                     -      /* if digidx == -1 we are out of digits */
                     -      if (digidx == -1) {
                     -        break;
                     -      }
                     -      /* read next digit and reset the bitcnt */
                     -      buf    = X->dp[digidx--];
                     -      bitcnt = (int) DIGIT_BIT;
                     -    }
+                    -
                     -    /* grab the next msb from the exponent */
                     -    y     = (buf >> (mp_digit)(DIGIT_BIT - 1)) & 1;
                     -    buf <<= (mp_digit)1;
+                    -
                     -    /* if the bit is zero and mode == 0 then we ignore it
                     -     * These represent the leading zero bits before the first 1 bit
                     -     * in the exponent.  Technically this opt is not required but it
                     -     * does lower the # of trivial squaring/reductions used
                     -     */
                     -    if (mode == 0 && y == 0) {
                     -      continue;
                     -    }
+                    -
                     -    /* if the bit is zero and mode == 1 then we square */
                     -    if (mode == 1 && y == 0) {
                     -      if ((err = mp_sqr (&res, &res)) != MP_OKAY) {
                     -        goto LBL_RES;
                     -      }
                     -      if ((err = redux (&res, P, &mu)) != MP_OKAY) {
                     -        goto LBL_RES;
                     -      }
                     -      continue;
                     -    }
+                    -
                     -    /* else we add it to the window */
                     -    bitbuf |= (y << (winsize - ++bitcpy));
                     -    mode    = 2;
+                    -
                     -    if (bitcpy == winsize) {
                     -      /* ok window is filled so square as required and multiply  */
                     -      /* square first */
                     -      for (x = 0; x < winsize; x++) {
                     -        if ((err = mp_sqr (&res, &res)) != MP_OKAY) {
                     -          goto LBL_RES;
                     -        }
                     -        if ((err = redux (&res, P, &mu)) != MP_OKAY) {
                     -          goto LBL_RES;
                     -        }
                     -      }
+                    -
                     -      /* then multiply */
                     -      if ((err = mp_mul (&res, &M[bitbuf], &res)) != MP_OKAY) {
                     -        goto LBL_RES;
                     -      }
                     -      if ((err = redux (&res, P, &mu)) != MP_OKAY) {
                     -        goto LBL_RES;
                     -      }
+                    -
                     -      /* empty window and reset */
                     -      bitcpy = 0;
                     -      bitbuf = 0;
                     -      mode   = 1;
                     -    }
                     -  }
+                    -
                     -  /* if bits remain then square/multiply */
                     -  if (mode == 2 && bitcpy > 0) {
                     -    /* square then multiply if the bit is set */
                     -    for (x = 0; x < bitcpy; x++) {
                     -      if ((err = mp_sqr (&res, &res)) != MP_OKAY) {
                     -        goto LBL_RES;
                     -      }
                     -      if ((err = redux (&res, P, &mu)) != MP_OKAY) {
                     -        goto LBL_RES;
                     -      }
+                    -
                     -      bitbuf <<= 1;
                     -      if ((bitbuf & (1 << winsize)) != 0) {
                     -        /* then multiply */
                     -        if ((err = mp_mul (&res, &M[1], &res)) != MP_OKAY) {
                     -          goto LBL_RES;
                     -        }
                     -        if ((err = redux (&res, P, &mu)) != MP_OKAY) {
                     -          goto LBL_RES;
                     -        }
                     -      }
                     -    }
                     -  }
                     +  fp_reverse ((unsigned char *)_s, digs);
                     -  mp_exch (&res, Y);
                     -  err = MP_OKAY;
                     -LBL_RES:mp_clear (&res);
                     -LBL_MU:mp_clear (&mu);
                     -LBL_M:
                     -  mp_clear(&M[1]);
                     -  for (x = 1<<(winsize-1); x < (1 << winsize); x++) {
                     -    mp_clear (&M[x]);
                     -  }
                     -  return err;
                     +  /* append a NULL so the string is properly terminated */
                     +  *str = '\0';
                     +  return FP_OKAY;
+                     }
                     -#endif
                     -/* $Source: /cvs/libtom/libtommath/bn_s_mp_exptmod.c,v $ */
                     -/* $Revision: 1.4 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
                     +/* $Source: /cvs/libtom/tomsfastmath/src/bin/fp_toradix.c,v $ */
                     +/* $Revision: 1.2 $ */
                     +/* $Date: 2007/02/27 02:38:44 $ */
                     -/* End: bn_s_mp_exptmod.c */
                     +/* End: fp_toradix.c */
                     -/* Start: bn_s_mp_mul_digs.c */
                     -#include <bignum.h>
                     -#ifdef BN_S_MP_MUL_DIGS_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     +/* Start: fp_unsigned_bin_size.c */
                     +/* TomsFastMath, a fast ISO C bignum library.
                     + *
                     + * This project is meant to fill in where LibTomMath
                     + * falls short.  That is speed ;-)
+                      *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     + * This project is public domain and free for all purposes.
                     + *
                     + * Tom St Denis, tomstdenis@gmail.com
                       */
                     +#include "bignum_fast.h"
                     -/* multiplies |a| * |b| and only computes upto digs digits of result
                     - * HAC pp. 595, Algorithm 14.12  Modified so you can control how
                     - * many digits of output are created.
                     - */
                     -int s_mp_mul_digs (mp_int * a, mp_int * b, mp_int * c, int digs)
                     +int fp_unsigned_bin_size(fp_int *a)
+                     {
                     -  mp_int  t;
                     -  int     res, pa, pb, ix, iy;
                     -  mp_digit u;
                     -  mp_word r;
                     -  mp_digit tmpx, *tmpt, *tmpy;
+                    -
                     -  /* can we use the fast multiplier? */
                     -  if (((digs) < MP_WARRAY) &&
                     -      MIN (a->used, b->used) <
                     -          (1 << ((CHAR_BIT * sizeof (mp_word)) - (2 * DIGIT_BIT)))) {
                     -    return fast_s_mp_mul_digs (a, b, c, digs);
                     -  }
+                    -
                     -  if ((res = mp_init_size (&t, digs)) != MP_OKAY) {
                     -    return res;
                     -  }
                     -  t.used = digs;
+                    -
                     -  /* compute the digits of the product directly */
                     -  pa = a->used;
                     -  for (ix = 0; ix < pa; ix++) {
                     -    /* set the carry to zero */
                     -    u = 0;
+                    -
                     -    /* limit ourselves to making digs digits of output */
                     -    pb = MIN (b->used, digs - ix);
+                    -
                     -    /* setup some aliases */
                     -    /* copy of the digit from a used within the nested loop */
                     -    tmpx = a->dp[ix];
+                    -
                     -    /* an alias for the destination shifted ix places */
                     -    tmpt = t.dp + ix;
+                    -
                     -    /* an alias for the digits of b */
                     -    tmpy = b->dp;
+                    -
                     -    /* compute the columns of the output and propagate the carry */
                     -    for (iy = 0; iy < pb; iy++) {
                     -      /* compute the column as a mp_word */
                     -      r       = ((mp_word)*tmpt) +
                     -                ((mp_word)tmpx) * ((mp_word)*tmpy++) +
                     -                ((mp_word) u);
+                    -
                     -      /* the new column is the lower part of the result */
                     -      *tmpt++ = (mp_digit) (r & ((mp_word) MP_MASK));
+                    -
                     -      /* get the carry word from the result */
                     -      u       = (mp_digit) (r >> ((mp_word) DIGIT_BIT));
                     -    }
                     -    /* set carry if it is placed below digs */
                     -    if (ix + iy < digs) {
                     -      *tmpt = u;
                     -    }
                     -  }
+                    -
                     -  mp_clamp (&t);
                     -  mp_exch (&t, c);
+                    -
                     -  mp_clear (&t);
                     -  return MP_OKAY;
                     +  int     size = fp_count_bits (a);
                     +  return (size / 8 + ((size & 7) != 0 ? 1 : 0));
+                     }
                     -#endif
                     -/* $Source: /cvs/libtom/libtommath/bn_s_mp_mul_digs.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
                     +/* $Source: /cvs/libtom/tomsfastmath/src/bin/fp_unsigned_bin_size.c,v $ */
                     +/* $Revision: 1.1 $ */
                     +/* $Date: 2006/12/31 21:25:53 $ */
                     -/* End: bn_s_mp_mul_digs.c */
                     +/* End: fp_unsigned_bin_size.c */
                     -/* Start: bn_s_mp_mul_high_digs.c */
                     -#include <bignum.h>
                     -#ifdef BN_S_MP_MUL_HIGH_DIGS_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     +/* Start: s_fp_add.c */
                     +/* TomsFastMath, a fast ISO C bignum library.
                     + *
                     + * This project is meant to fill in where LibTomMath
                     + * falls short.  That is speed ;-)
+                      *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     + * This project is public domain and free for all purposes.
                     + *
                     + * Tom St Denis, tomstdenis@gmail.com
                       */
                     +#include "bignum_fast.h"
                     -/* multiplies |a| * |b| and does not compute the lower digs digits
                     - * [meant to get the higher part of the product]
                     - */
                     -int
                     -s_mp_mul_high_digs (mp_int * a, mp_int * b, mp_int * c, int digs)
                     +/* unsigned addition */
                     +void s_fp_add(fp_int *a, fp_int *b, fp_int *c)
+                     {
                     -  mp_int  t;
                     -  int     res, pa, pb, ix, iy;
                     -  mp_digit u;
                     -  mp_word r;
                     -  mp_digit tmpx, *tmpt, *tmpy;
+                    -
                     -  /* can we use the fast multiplier? */
                     -#ifdef BN_FAST_S_MP_MUL_HIGH_DIGS_C
                     -  if (((a->used + b->used + 1) < MP_WARRAY)
                     -      && MIN (a->used, b->used) < (1 << ((CHAR_BIT * sizeof (mp_word)) - (2 * DIGIT_BIT)))) {
                     -    return fast_s_mp_mul_high_digs (a, b, c, digs);
                     -  }
                     -#endif
                     +  int      x, y, oldused;
                     +  register fp_word  t;
                     -  if ((res = mp_init_size (&t, a->used + b->used + 1)) != MP_OKAY) {
                     -    return res;
                     +  y       = MAX(a->used, b->used);
                     +  oldused = c->used;
                     +  c->used = y;
+                    +
                     +  t = 0;
                     +  for (x = 0; x < y; x++) {
                     +      t         += ((fp_word)a->dp[x]) + ((fp_word)b->dp[x]);
                     +      c->dp[x]   = (fp_digit)t;
                     +      t        >>= DIGIT_BIT;
                     +  }
                     +  if (t != 0 && x < FP_SIZE) {
                     +     c->dp[c->used++] = (fp_digit)t;
                     +     ++x;
+                       }
                     -  t.used = a->used + b->used + 1;
+                    -
                     -  pa = a->used;
                     -  pb = b->used;
                     -  for (ix = 0; ix < pa; ix++) {
                     -    /* clear the carry */
                     -    u = 0;
+                    -
                     -    /* left hand side of A[ix] * B[iy] */
                     -    tmpx = a->dp[ix];
+                    -
                     -    /* alias to the address of where the digits will be stored */
                     -    tmpt = &(t.dp[digs]);
+                    -
                     -    /* alias for where to read the right hand side from */
                     -    tmpy = b->dp + (digs - ix);
+                    -
                     -    for (iy = digs - ix; iy < pb; iy++) {
                     -      /* calculate the double precision result */
                     -      r       = ((mp_word)*tmpt) +
                     -                ((mp_word)tmpx) * ((mp_word)*tmpy++) +
                     -                ((mp_word) u);
+                    -
                     -      /* get the lower part */
                     -      *tmpt++ = (mp_digit) (r & ((mp_word) MP_MASK));
                     -      /* carry the carry */
                     -      u       = (mp_digit) (r >> ((mp_word) DIGIT_BIT));
                     -    }
                     -    *tmpt = u;
                     +  c->used = x;
                     +  for (; x < oldused; x++) {
                     +     c->dp[x] = 0;
+                       }
                     -  mp_clamp (&t);
                     -  mp_exch (&t, c);
                     -  mp_clear (&t);
                     -  return MP_OKAY;
                     +  fp_clamp(c);
+                     }
                     -#endif
                     -/* $Source: /cvs/libtom/libtommath/bn_s_mp_mul_high_digs.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
                     +/* $Source: /cvs/libtom/tomsfastmath/src/addsub/s_fp_add.c,v $ */
                     +/* $Revision: 1.1 $ */
                     +/* $Date: 2006/12/31 21:25:53 $ */
                     -/* End: bn_s_mp_mul_high_digs.c */
                     +/* End: s_fp_add.c */
                     -/* Start: bn_s_mp_sqr.c */
                     -#include <bignum.h>
                     -#ifdef BN_S_MP_SQR_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     +/* Start: s_fp_sub.c */
                     +/* TomsFastMath, a fast ISO C bignum library.
                     + *
                     + * This project is meant to fill in where LibTomMath
                     + * falls short.  That is speed ;-)
+                      *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     + * This project is public domain and free for all purposes.
                     + *
                     + * Tom St Denis, tomstdenis@gmail.com
                       */
                     +#include "bignum_fast.h"
                     -/* low level squaring, b = a*a, HAC pp.596-597, Algorithm 14.16 */
                     -int s_mp_sqr (mp_int * a, mp_int * b)
                     +/* unsigned subtraction ||a|| >= ||b|| ALWAYS! */
                     +void s_fp_sub(fp_int *a, fp_int *b, fp_int *c)
+                     {
                     -  mp_int  t;
                     -  int     res, ix, iy, pa;
                     -  mp_word r;
                     -  mp_digit u, tmpx, *tmpt;
+                    -
                     -  pa = a->used;
                     -  if ((res = mp_init_size (&t, 2*pa + 1)) != MP_OKAY) {
                     -    return res;
                     -  }
+                    -
                     -  /* default used is maximum possible size */
                     -  t.used = 2*pa + 1;
+                    -
                     -  for (ix = 0; ix < pa; ix++) {
                     -    /* first calculate the digit at 2*ix */
                     -    /* calculate double precision result */
                     -    r = ((mp_word) t.dp[2*ix]) +
                     -        ((mp_word)a->dp[ix])*((mp_word)a->dp[ix]);
+                    -
                     -    /* store lower part in result */
                     -    t.dp[ix+ix] = (mp_digit) (r & ((mp_word) MP_MASK));
+                    -
                     -    /* get the carry */
                     -    u           = (mp_digit)(r >> ((mp_word) DIGIT_BIT));
+                    -
                     -    /* left hand side of A[ix] * A[iy] */
                     -    tmpx        = a->dp[ix];
+                    -
                     -    /* alias for where to store the results */
                     -    tmpt        = t.dp + (2*ix + 1);
+                    -
                     -    for (iy = ix + 1; iy < pa; iy++) {
                     -      /* first calculate the product */
                     -      r       = ((mp_word)tmpx) * ((mp_word)a->dp[iy]);
+                    -
                     -      /* now calculate the double precision result, note we use
                     -       * addition instead of *2 since it's easier to optimize
                     -       */
                     -      r       = ((mp_word) *tmpt) + r + r + ((mp_word) u);
+                    -
                     -      /* store lower part */
                     -      *tmpt++ = (mp_digit) (r & ((mp_word) MP_MASK));
+                    -
                     -      /* get carry */
                     -      u       = (mp_digit)(r >> ((mp_word) DIGIT_BIT));
                     -    }
                     -    /* propagate upwards */
                     -    while (u != ((mp_digit) 0)) {
                     -      r       = ((mp_word) *tmpt) + ((mp_word) u);
                     -      *tmpt++ = (mp_digit) (r & ((mp_word) MP_MASK));
                     -      u       = (mp_digit)(r >> ((mp_word) DIGIT_BIT));
                     -    }
                     +  int      x, oldbused, oldused;
                     +  fp_word  t;
+                    +
                     +  oldused  = c->used;
                     +  oldbused = b->used;
                     +  c->used  = a->used;
                     +  t       = 0;
                     +  for (x = 0; x < oldbused; x++) {
                     +     t         = ((fp_word)a->dp[x]) - (((fp_word)b->dp[x]) + t);
                     +     c->dp[x]  = (fp_digit)t;
                     +     t         = (t >> DIGIT_BIT)&1;
                     +  }
                     +  for (; x < a->used; x++) {
                     +     t         = ((fp_word)a->dp[x]) - t;
                     +     c->dp[x]  = (fp_digit)t;
                     +     t         = (t >> DIGIT_BIT);
                     +   }
                     +  for (; x < oldused; x++) {
                     +     c->dp[x] = 0;
+                       }
+                    -
                     -  mp_clamp (&t);
                     -  mp_exch (&t, b);
                     -  mp_clear (&t);
                     -  return MP_OKAY;
                     +  fp_clamp(c);
+                     }
                     -#endif
                     -/* $Source: /cvs/libtom/libtommath/bn_s_mp_sqr.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
                     +/* $Source: /cvs/libtom/tomsfastmath/src/addsub/s_fp_sub.c,v $ */
                     +/* $Revision: 1.1 $ */
                     +/* $Date: 2006/12/31 21:25:53 $ */
                     -/* End: bn_s_mp_sqr.c */
                     +/* End: s_fp_sub.c */
                     -/* Start: bn_s_mp_sub.c */
                     -#include <bignum.h>
                     -#ifdef BN_S_MP_SUB_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
+                    +
                     +/* EOF */
                     +/* TomsFastMath, a fast ISO C bignum library.
                     + *
                     + * This project is meant to fill in where LibTomMath
                     + * falls short.  That is speed ;-)
+                      *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     + * This project is public domain and free for all purposes.
                     + *
                     + * Tom St Denis, tomstdenis@gmail.com
                       */
                     -/* low level subtraction (assumes |a| > |b|), HAC pp.595 Algorithm 14.9 */
                     -int
                     -s_mp_sub (mp_int * a, mp_int * b, mp_int * c)
                     -{
                     -  int     olduse, res, min, max;
                     +#define TFM_DEFINES
                     +#include "fp_sqr_comba.c"
                     -  /* find sizes */
                     -  min = b->used;
                     -  max = a->used;
                     +/* generic comba squarer */
                     +void fp_sqr_comba(fp_int *A, fp_int *B)
                     +{
                     +  int       pa, ix, iz;
                     +  fp_digit  c0, c1, c2;
                     +  fp_int    tmp, *dst;
                     +#ifdef TFM_ISO
                     +  fp_word   tt;
                     +#endif
                     -  /* init result */
                     -  if (c->alloc < max) {
                     -    if ((res = mp_grow (c, max)) != MP_OKAY) {
                     -      return res;
                     -    }
                     +  /* get size of output and trim */
                     +  pa = A->used + A->used;
                     +  if (pa >= FP_SIZE) {
                     +     pa = FP_SIZE-1;
+                       }
                     -  olduse = c->used;
                     -  c->used = max;
+                    -
                     -  {
                     -    register mp_digit u, *tmpa, *tmpb, *tmpc;
                     -    register int i;
                     -    /* alias for digit pointers */
                     -    tmpa = a->dp;
                     -    tmpb = b->dp;
                     -    tmpc = c->dp;
+                    -
                     -    /* set carry to zero */
                     -    u = 0;
                     -    for (i = 0; i < min; i++) {
                     -      /* T[i] = A[i] - B[i] - U */
                     -      *tmpc = *tmpa++ - *tmpb++ - u;
+                    -
                     -      /* U = carry bit of T[i]
                     -       * Note this saves performing an AND operation since
                     -       * if a carry does occur it will propagate all the way to the
                     -       * MSB.  As a result a single shift is enough to get the carry
                     -       */
                     -      u = *tmpc >> ((mp_digit)(CHAR_BIT * sizeof (mp_digit) - 1));
+                    -
                     -      /* Clear carry from T[i] */
                     -      *tmpc++ &= MP_MASK;
                     -    }
+                    -
                     -    /* now copy higher words if any, e.g. if A has more digits than B  */
                     -    for (; i < max; i++) {
                     -      /* T[i] = A[i] - U */
                     -      *tmpc = *tmpa++ - u;
+                    -
                     -      /* U = carry bit of T[i] */
                     -      u = *tmpc >> ((mp_digit)(CHAR_BIT * sizeof (mp_digit) - 1));
+                    -
                     -      /* Clear carry from T[i] */
                     -      *tmpc++ &= MP_MASK;
                     -    }
                     +  /* number of output digits to produce */
                     +  COMBA_START;
                     +  CLEAR_CARRY;
                     -    /* clear digits above used (since we may not have grown result above) */
                     -    for (i = c->used; i < olduse; i++) {
                     -      *tmpc++ = 0;
                     -    }
                     +  if (A == B) {
                     +     fp_zero(&tmp);
                     +     dst = &tmp;
                     +  } else {
                     +     fp_zero(B);
                     +     dst = B;
+                       }
                     -  mp_clamp (c);
                     -  return MP_OKAY;
                     -}
                     +  for (ix = 0; ix < pa; ix++) {
                     +      int      tx, ty, iy;
                     +      fp_digit *tmpy, *tmpx;
                     -#endif
                     +      /* get offsets into the two bignums */
                     +      ty = MIN(A->used-1, ix);
                     +      tx = ix - ty;
                     -/* $Source: /cvs/libtom/libtommath/bn_s_mp_sub.c,v $ */
                     -/* $Revision: 1.3 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
                     +      /* setup temp aliases */
                     +      tmpx = A->dp + tx;
                     +      tmpy = A->dp + ty;
                     -/* End: bn_s_mp_sub.c */
                     +      /* this is the number of times the loop will iterrate,
                     +         while (tx++ < a->used && ty-- >= 0) { ... }
                     +       */
                     +      iy = MIN(A->used-tx, ty+1);
                     -/* Start: bncore.c */
                     -#include <bignum.h>
                     -#ifdef BNCORE_C
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     - *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     - */
                     +      /* now for squaring tx can never equal ty
                     +       * we halve the distance since they approach
                     +       * at a rate of 2x and we have to round because
                     +       * odd cases need to be executed
                     +       */
                     +      iy = MIN(iy, (ty-tx+1)>>1);
                     -/* Known optimal configurations
                     +      /* forward carries */
                     +      CARRY_FORWARD;
                     - CPU                    /Compiler     /MUL CUTOFF/SQR CUTOFF
                     - Intel P4 Northwood     /GCC v3.4.1   /        88/       128/LTM 0.32 ;-)
                     - AMD Athlon64           /GCC v3.4.4   /        80/       120/LTM 0.35
+                    -
                     -*/
                     +      /* execute loop */
                     +      for (iz = 0; iz < iy; iz++) {
                     +          SQRADD2(*tmpx++, *tmpy--);
                     +      }
                     -int     KARATSUBA_MUL_CUTOFF = 80,      /* Min. number of digits before Karatsuba multiplication is used. */
                     -        KARATSUBA_SQR_CUTOFF = 120,     /* Min. number of digits before Karatsuba squaring is used. */
+                    -
                     -        TOOM_MUL_CUTOFF      = 350,      /* no optimal values of these are known yet so set em high */
                     -        TOOM_SQR_CUTOFF      = 400;
                     -#endif
                     +      /* even columns have the square term in them */
                     +      if ((ix&1) == 0) {
                     +          SQRADD(A->dp[ix>>1], A->dp[ix>>1]);
                     +      }
                     -/* $Source: /cvs/libtom/libtommath/bncore.c,v $ */
                     -/* $Revision: 1.4 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */
                     +      /* store it */
                     +      COMBA_STORE(dst->dp[ix]);
                     +  }
                     -/* End: bncore.c */
                     +  COMBA_FINI;
                     +  /* setup dest */
                     +  dst->used = pa;
                     +  fp_clamp (dst);
                     +  if (dst != B) {
                     +     fp_copy(dst, B);
                     +  }
                     +}
                     -/* EOF */
                     +/* $Source: /cvs/libtom/tomsfastmath/src/sqr/Attic/fp_sqr_comba_generic.c,v $ */
                     +/* $Revision: 1.3 $ */
                     +/* $Date: 2007/02/15 00:31:32 $ */

libclamav/bignum.h

History View file @ 9ac4fb1

@@ -1,586 +1,32 @@
                     -/* LibTomMath, multiple-precision integer library -- Tom St Denis
                     - *
                     - * LibTomMath is a library that provides multiple-precision
                     - * integer arithmetic as well as number theoretic functionality.
                     - *
                     - * The library was designed directly after the MPI library by
                     - * Michael Fromberger but has been written from scratch with
                     - * additional optimizations in place.
                     - *
                     - * The library is free for all purposes without any express
                     - * guarantee it works.
                     - *
                     - * Tom St Denis, tomstdenis@gmail.com, http://math.libtomcrypt.com
                     - */
                     -#ifndef __BIGNUM_H
                     -#define __BIGNUM_H
+                    -
                     -#ifdef HAVE_SYSTEM_TOMMATH
                     -#include <tommath.h>
                     -#else
                     -#include <stdio.h>
                     -#include <string.h>
                     -#include <stdlib.h>
                     -#include <ctype.h>
                     -#include <limits.h>
+                    -
                     -/*
                     -#define BN_MP_INIT_C
                     -#define BN_MP_ZERO_C
                     -#define BN_MP_READ_RADIX_C
                     -#define BN_MP_RADIX_SMAP_C
                     -#define BN_MP_SET_INT_C
                     -#define BN_MP_MUL_2D_C
                     -#define BN_MP_MUL_D_C
                     -#define BN_MP_CLAMP_C
                     -#define BN_MP_ADD_D_C
                     -#define BN_S_MP_ADD_C
                     -#define BN_MP_LSHD_C
                     -#define BN_MP_GROW_C
                     -#define BN_MP_CMP_MAG_C
                     -#define BN_MP_COPY_C
                     -*/
+                    -
                     -#define LTM_ALL /* FIXME: tk: limit to the above class */
                     -#include "bignum_class.h"
+                    -
                     -#ifdef __cplusplus
                     -extern "C" {
+                    -
                     -/* C++ compilers don't like assigning void * to mp_digit * */
                     -#define  OPT_CAST(x)  (x *)
+                    -
                     -#else
+                    -
                     -/* C on the other hand doesn't care */
                     -#define  OPT_CAST(x)
+                    -
                     -#endif
+                    -
                     -#if (__GNUC__ > 4) || (__GNUC__ == 4 && __GNUC_MINOR__ >= 3)
                     -/*Don't enable this everywhere , some old gcc's have broken udivti3.
                     -Also divisions get translated into libcalls, not worth using this mode.*/
+                    -
                     -/* detect 64-bit mode if possible */
                     -#if defined(__x86_64__)
                     -   #if !(defined(MP_64BIT) && defined(MP_16BIT) && defined(MP_8BIT))
                     -      #define MP_64BIT
                     -   #endif
                     -#endif
                     -#endif
+                    -
                     -/* some default configurations.
                     - *
                     - * A "mp_digit" must be able to hold DIGIT_BIT + 1 bits
                     - * A "mp_word" must be able to hold 2*DIGIT_BIT + 1 bits
                     - *
                     - * At the very least a mp_digit must be able to hold 7 bits
                     - * [any size beyond that is ok provided it doesn't overflow the data type]
                     - */
                     -#ifdef MP_8BIT
                     -   typedef unsigned char      mp_digit;
                     -   typedef unsigned short     mp_word;
                     -#elif defined(MP_16BIT)
                     -   typedef unsigned short     mp_digit;
                     -   typedef unsigned long      mp_word;
                     -#elif defined(MP_64BIT)
                     -   /* for GCC only on supported platforms */
                     -#ifndef CRYPT
                     -   typedef unsigned long long ulong64;
                     -   typedef signed long long   long64;
                     -#endif
+                    -
                     -   typedef unsigned long      mp_digit;
                     -   typedef unsigned long      mp_word __attribute__ ((mode(TI)));
+                    -
                     -   #define DIGIT_BIT          60
                     -#else
                     -   /* this is the default case, 28-bit digits */
+                    -
                     -   /* this is to make porting into LibTomCrypt easier :-) */
                     -#ifndef CRYPT
                     -   #if defined(_MSC_VER) || defined(__BORLANDC__)
                     -      typedef unsigned __int64   ulong64;
                     -      typedef signed __int64     long64;
                     -   #else
                     -      typedef unsigned long long ulong64;
                     -      typedef signed long long   long64;
                     -   #endif
                     -#endif
+                    -
                     -   typedef unsigned long      mp_digit;
                     -   typedef ulong64            mp_word;
+                    -
                     -#ifdef MP_31BIT
                     -   /* this is an extension that uses 31-bit digits */
                     -   #define DIGIT_BIT          31
                     -#else
                     -   /* default case is 28-bit digits, defines MP_28BIT as a handy macro to test */
                     -   #define DIGIT_BIT          28
                     -   #define MP_28BIT
                     -#endif
                     +#ifndef BIGNUM_H_
                     +#define BIGNUM_H_
+                    +
                     +#define TFM_CHECK
+                    +
                     +#include "bignum_fast.h"
                     +typedef fp_int mp_int;
                     +#define mp_cmp fp_cmp
                     +#define mp_toradix_n(a,b,c,d) fp_toradix(a,b,c)
                     +#define mp_init(a) (fp_init(a), 0)
                     +#define mp_add fp_add
+                    +
                     +#define mp_init_multi(a,b,c,d) (mp_init(a), mp_init(b), mp_init(c), 0)
+                    +
                     +#define mp_read_unsigned_bin(a,b,c) (fp_read_unsigned_bin(a, b, c), 0)
+                    +
                     +#define mp_div fp_div
                     +#define mp_clear_multi(...)
                     +#define mp_copy(a,b) (fp_copy(a,b), 0)
                     +#define mp_unsigned_bin_size fp_unsigned_bin_size
                     +#define mp_to_unsigned_bin(a,b) (fp_to_unsigned_bin(a,b), 0)
                     +#define mp_read_radix fp_read_radix
                     +#define mp_exptmod fp_exptmod
                     +#define mp_get_int(a) cli_readint32(a)
+                    +
                     +static void mp_set_int(fp_int *a, int b)
                     +{
                     +    fp_read_unsigned_bin(a, (char*)&b, sizeof(b));
                     +}
                     +#define mp_mul_2d fp_mul_2d
                     +#define mp_clear(x)
                      #endif
+                    -
+                    -
                     -/* otherwise the bits per digit is calculated automatically from the size of a mp_digit */
                     -#ifndef DIGIT_BIT
                     -   #define DIGIT_BIT     ((int)((CHAR_BIT * sizeof(mp_digit) - 1)))  /* bits per digit */
                     -#endif
+                    -
                     -#define MP_DIGIT_BIT     DIGIT_BIT
                     -#define MP_MASK          ((((mp_digit)1)<<((mp_digit)DIGIT_BIT))-((mp_digit)1))
                     -#define MP_DIGIT_MAX     MP_MASK
+                    -
                     -/* equalities */
                     -#define MP_LT        -1   /* less than */
                     -#define MP_EQ         0   /* equal to */
                     -#define MP_GT         1   /* greater than */
+                    -
                     -#define MP_ZPOS       0   /* positive integer */
                     -#define MP_NEG        1   /* negative */
+                    -
                     -#define MP_OKAY       0   /* ok result */
                     -#define MP_MEM        -2  /* out of mem */
                     -#define MP_VAL        -3  /* invalid input */
                     -#define MP_RANGE      MP_VAL
+                    -
                     -#define MP_YES        1   /* yes response */
                     -#define MP_NO         0   /* no response */
+                    -
                     -/* Primality generation flags */
                     -#define LTM_PRIME_BBS      0x0001 /* BBS style prime */
                     -#define LTM_PRIME_SAFE     0x0002 /* Safe prime (p-1)/2 == prime */
                     -#define LTM_PRIME_2MSB_ON  0x0008 /* force 2nd MSB to 1 */
+                    -
                     -typedef int           mp_err;
+                    -
                     -/* you'll have to tune these... */
                     -extern int KARATSUBA_MUL_CUTOFF,
                     -           KARATSUBA_SQR_CUTOFF,
                     -           TOOM_MUL_CUTOFF,
                     -           TOOM_SQR_CUTOFF;
+                    -
                     -/* define this to use lower memory usage routines (exptmods mostly) */
                     -/* #define MP_LOW_MEM */
+                    -
                     -/* default precision */
                     -#ifndef MP_PREC
                     -   #ifndef MP_LOW_MEM
                     -      #define MP_PREC                 32     /* default digits of precision */
                     -   #else
                     -      #define MP_PREC                 8      /* default digits of precision */
                     -   #endif
                     -#endif
+                    -
                     -/* size of comba arrays, should be at least 2 * 2**(BITS_PER_WORD - BITS_PER_DIGIT*2) */
                     -#define MP_WARRAY               (1 << (sizeof(mp_word) * CHAR_BIT - 2 * DIGIT_BIT + 1))
+                    -
                     -/* the infamous mp_int structure */
                     -typedef struct  {
                     -    int used, alloc, sign;
                     -    mp_digit *dp;
                     -} mp_int;
+                    -
                     -/* callback for mp_prime_random, should fill dst with random bytes and return how many read [upto len] */
                     -typedef int ltm_prime_callback(unsigned char *dst, int len, void *dat);
+                    -
+                    -
                     -#define USED(m)    ((m)->used)
                     -#define DIGIT(m,k) ((m)->dp[(k)])
                     -#define SIGN(m)    ((m)->sign)
+                    -
                     -/* error code to char* string */
                     -const char *mp_error_to_string(int code);
+                    -
                     -/* ---> init and deinit bignum functions <--- */
                     -/* init a bignum */
                     -int mp_init(mp_int *a);
+                    -
                     -/* free a bignum */
                     -void mp_clear(mp_int *a);
+                    -
                     -/* init a null terminated series of arguments */
                     -int mp_init_multi(mp_int *mp, ...);
+                    -
                     -/* clear a null terminated series of arguments */
                     -void mp_clear_multi(mp_int *mp, ...);
+                    -
                     -/* exchange two ints */
                     -void mp_exch(mp_int *a, mp_int *b);
+                    -
                     -/* shrink ram required for a bignum */
                     -int mp_shrink(mp_int *a);
+                    -
                     -/* grow an int to a given size */
                     -int mp_grow(mp_int *a, int size);
+                    -
                     -/* init to a given number of digits */
                     -int mp_init_size(mp_int *a, int size);
+                    -
                     -/* ---> Basic Manipulations <--- */
                     -#define mp_iszero(a) (((a)->used == 0) ? MP_YES : MP_NO)
                     -#define mp_iseven(a) (((a)->used > 0 && (((a)->dp[0] & 1) == 0)) ? MP_YES : MP_NO)
                     -#define mp_isodd(a)  (((a)->used > 0 && (((a)->dp[0] & 1) == 1)) ? MP_YES : MP_NO)
+                    -
                     -/* set to zero */
                     -void mp_zero(mp_int *a);
+                    -
                     -/* set to a digit */
                     -void mp_set(mp_int *a, mp_digit b);
+                    -
                     -/* set a 32-bit const */
                     -int mp_set_int(mp_int *a, unsigned long b);
+                    -
                     -/* get a 32-bit value */
                     -unsigned long mp_get_int(mp_int * a);
+                    -
                     -/* initialize and set a digit */
                     -int mp_init_set (mp_int * a, mp_digit b);
+                    -
                     -/* initialize and set 32-bit value */
                     -int mp_init_set_int (mp_int * a, unsigned long b);
+                    -
                     -/* copy, b = a */
                     -int mp_copy(mp_int *a, mp_int *b);
+                    -
                     -/* inits and copies, a = b */
                     -int mp_init_copy(mp_int *a, mp_int *b);
+                    -
                     -/* trim unused digits */
                     -void mp_clamp(mp_int *a);
+                    -
                     -/* ---> digit manipulation <--- */
+                    -
                     -/* right shift by "b" digits */
                     -void mp_rshd(mp_int *a, int b);
+                    -
                     -/* left shift by "b" digits */
                     -int mp_lshd(mp_int *a, int b);
+                    -
                     -/* c = a / 2**b */
                     -int mp_div_2d(mp_int *a, int b, mp_int *c, mp_int *d);
+                    -
                     -/* b = a/2 */
                     -int mp_div_2(mp_int *a, mp_int *b);
+                    -
                     -/* c = a * 2**b */
                     -int mp_mul_2d(mp_int *a, int b, mp_int *c);
+                    -
                     -/* b = a*2 */
                     -int mp_mul_2(mp_int *a, mp_int *b);
+                    -
                     -/* c = a mod 2**d */
                     -int mp_mod_2d(mp_int *a, int b, mp_int *c);
+                    -
                     -/* computes a = 2**b */
                     -int mp_2expt(mp_int *a, int b);
+                    -
                     -/* Counts the number of lsbs which are zero before the first zero bit */
                     -int mp_cnt_lsb(mp_int *a);
+                    -
                     -/* I Love Earth! */
+                    -
                     -/* makes a pseudo-random int of a given size */
                     -int mp_rand(mp_int *a, int digits);
+                    -
                     -/* ---> binary operations <--- */
                     -/* c = a XOR b  */
                     -int mp_xor(mp_int *a, mp_int *b, mp_int *c);
+                    -
                     -/* c = a OR b */
                     -int mp_or(mp_int *a, mp_int *b, mp_int *c);
+                    -
                     -/* c = a AND b */
                     -int mp_and(mp_int *a, mp_int *b, mp_int *c);
+                    -
                     -/* ---> Basic arithmetic <--- */
+                    -
                     -/* b = -a */
                     -int mp_neg(mp_int *a, mp_int *b);
+                    -
                     -/* b = |a| */
                     -int mp_abs(mp_int *a, mp_int *b);
+                    -
                     -/* compare a to b */
                     -int mp_cmp(mp_int *a, mp_int *b);
+                    -
                     -/* compare |a| to |b| */
                     -int mp_cmp_mag(mp_int *a, mp_int *b);
+                    -
                     -/* c = a + b */
                     -int mp_add(mp_int *a, mp_int *b, mp_int *c);
+                    -
                     -/* c = a - b */
                     -int mp_sub(mp_int *a, mp_int *b, mp_int *c);
+                    -
                     -/* c = a * b */
                     -int mp_mul(mp_int *a, mp_int *b, mp_int *c);
+                    -
                     -/* b = a*a  */
                     -int mp_sqr(mp_int *a, mp_int *b);
+                    -
                     -/* a/b => cb + d == a */
                     -int mp_div(mp_int *a, mp_int *b, mp_int *c, mp_int *d);
+                    -
                     -/* c = a mod b, 0 <= c < b  */
                     -int mp_mod(mp_int *a, mp_int *b, mp_int *c);
+                    -
                     -/* ---> single digit functions <--- */
+                    -
                     -/* compare against a single digit */
                     -int mp_cmp_d(mp_int *a, mp_digit b);
+                    -
                     -/* c = a + b */
                     -int mp_add_d(mp_int *a, mp_digit b, mp_int *c);
+                    -
                     -/* c = a - b */
                     -int mp_sub_d(mp_int *a, mp_digit b, mp_int *c);
+                    -
                     -/* c = a * b */
                     -int mp_mul_d(mp_int *a, mp_digit b, mp_int *c);
+                    -
                     -/* a/b => cb + d == a */
                     -int mp_div_d(mp_int *a, mp_digit b, mp_int *c, mp_digit *d);
+                    -
                     -/* a/3 => 3c + d == a */
                     -int mp_div_3(mp_int *a, mp_int *c, mp_digit *d);
+                    -
                     -/* c = a**b */
                     -int mp_expt_d(mp_int *a, mp_digit b, mp_int *c);
+                    -
                     -/* c = a mod b, 0 <= c < b  */
                     -int mp_mod_d(mp_int *a, mp_digit b, mp_digit *c);
+                    -
                     -/* ---> number theory <--- */
+                    -
                     -/* d = a + b (mod c) */
                     -int mp_addmod(mp_int *a, mp_int *b, mp_int *c, mp_int *d);
+                    -
                     -/* d = a - b (mod c) */
                     -int mp_submod(mp_int *a, mp_int *b, mp_int *c, mp_int *d);
+                    -
                     -/* d = a * b (mod c) */
                     -int mp_mulmod(mp_int *a, mp_int *b, mp_int *c, mp_int *d);
+                    -
                     -/* c = a * a (mod b) */
                     -int mp_sqrmod(mp_int *a, mp_int *b, mp_int *c);
+                    -
                     -/* c = 1/a (mod b) */
                     -int mp_invmod(mp_int *a, mp_int *b, mp_int *c);
+                    -
                     -/* c = (a, b) */
                     -int mp_gcd(mp_int *a, mp_int *b, mp_int *c);
+                    -
                     -/* produces value such that U1*a + U2*b = U3 */
                     -int mp_exteuclid(mp_int *a, mp_int *b, mp_int *U1, mp_int *U2, mp_int *U3);
+                    -
                     -/* c = [a, b] or (a*b)/(a, b) */
                     -int mp_lcm(mp_int *a, mp_int *b, mp_int *c);
+                    -
                     -/* finds one of the b'th root of a, such that |c|**b <= |a|
                     - *
                     - * returns error if a < 0 and b is even
                     - */
                     -int mp_n_root(mp_int *a, mp_digit b, mp_int *c);
+                    -
                     -/* special sqrt algo */
                     -int mp_sqrt(mp_int *arg, mp_int *ret);
+                    -
                     -/* is number a square? */
                     -int mp_is_square(mp_int *arg, int *ret);
+                    -
                     -/* computes the jacobi c = (a | n) (or Legendre if b is prime)  */
                     -int mp_jacobi(mp_int *a, mp_int *n, int *c);
+                    -
                     -/* used to setup the Barrett reduction for a given modulus b */
                     -int mp_reduce_setup(mp_int *a, mp_int *b);
+                    -
                     -/* Barrett Reduction, computes a (mod b) with a precomputed value c
                     - *
                     - * Assumes that 0 < a <= b*b, note if 0 > a > -(b*b) then you can merely
                     - * compute the reduction as -1 * mp_reduce(mp_abs(a)) [pseudo code].
                     - */
                     -int mp_reduce(mp_int *a, mp_int *b, mp_int *c);
+                    -
                     -/* setups the montgomery reduction */
                     -int mp_montgomery_setup(mp_int *a, mp_digit *mp);
+                    -
                     -/* computes a = B**n mod b without division or multiplication useful for
                     - * normalizing numbers in a Montgomery system.
                     - */
                     -int mp_montgomery_calc_normalization(mp_int *a, mp_int *b);
+                    -
                     -/* computes x/R == x (mod N) via Montgomery Reduction */
                     -int mp_montgomery_reduce(mp_int *a, mp_int *m, mp_digit mp);
+                    -
                     -/* returns 1 if a is a valid DR modulus */
                     -int mp_dr_is_modulus(mp_int *a);
+                    -
                     -/* sets the value of "d" required for mp_dr_reduce */
                     -void mp_dr_setup(mp_int *a, mp_digit *d);
+                    -
                     -/* reduces a modulo b using the Diminished Radix method */
                     -int mp_dr_reduce(mp_int *a, mp_int *b, mp_digit mp);
+                    -
                     -/* returns true if a can be reduced with mp_reduce_2k */
                     -int mp_reduce_is_2k(mp_int *a);
+                    -
                     -/* determines k value for 2k reduction */
                     -int mp_reduce_2k_setup(mp_int *a, mp_digit *d);
+                    -
                     -/* reduces a modulo b where b is of the form 2**p - k [0 <= a] */
                     -int mp_reduce_2k(mp_int *a, mp_int *n, mp_digit d);
+                    -
                     -/* returns true if a can be reduced with mp_reduce_2k_l */
                     -int mp_reduce_is_2k_l(mp_int *a);
+                    -
                     -/* determines k value for 2k reduction */
                     -int mp_reduce_2k_setup_l(mp_int *a, mp_int *d);
+                    -
                     -/* reduces a modulo b where b is of the form 2**p - k [0 <= a] */
                     -int mp_reduce_2k_l(mp_int *a, mp_int *n, mp_int *d);
+                    -
                     -/* d = a**b (mod c) */
                     -int mp_exptmod(mp_int *a, mp_int *b, mp_int *c, mp_int *d);
+                    -
                     -/* ---> Primes <--- */
+                    -
                     -/* number of primes */
                     -#ifdef MP_8BIT
                     -   #define PRIME_SIZE      31
                     -#else
                     -   #define PRIME_SIZE      256
                     -#endif
+                    -
                     -/* table of first PRIME_SIZE primes */
                     -extern const mp_digit ltm_prime_tab[];
+                    -
                     -/* result=1 if a is divisible by one of the first PRIME_SIZE primes */
                     -int mp_prime_is_divisible(mp_int *a, int *result);
+                    -
                     -/* performs one Fermat test of "a" using base "b".
                     - * Sets result to 0 if composite or 1 if probable prime
                     - */
                     -int mp_prime_fermat(mp_int *a, mp_int *b, int *result);
+                    -
                     -/* performs one Miller-Rabin test of "a" using base "b".
                     - * Sets result to 0 if composite or 1 if probable prime
                     - */
                     -int mp_prime_miller_rabin(mp_int *a, mp_int *b, int *result);
+                    -
                     -/* This gives [for a given bit size] the number of trials required
                     - * such that Miller-Rabin gives a prob of failure lower than 2^-96
                     - */
                     -int mp_prime_rabin_miller_trials(int size);
+                    -
                     -/* performs t rounds of Miller-Rabin on "a" using the first
                     - * t prime bases.  Also performs an initial sieve of trial
                     - * division.  Determines if "a" is prime with probability
                     - * of error no more than (1/4)**t.
                     - *
                     - * Sets result to 1 if probably prime, 0 otherwise
                     - */
                     -int mp_prime_is_prime(mp_int *a, int t, int *result);
+                    -
                     -/* finds the next prime after the number "a" using "t" trials
                     - * of Miller-Rabin.
                     - *
                     - * bbs_style = 1 means the prime must be congruent to 3 mod 4
                     - */
                     -int mp_prime_next_prime(mp_int *a, int t, int bbs_style);
+                    -
                     -/* makes a truly random prime of a given size (bytes),
                     - * call with bbs = 1 if you want it to be congruent to 3 mod 4
                     - *
                     - * You have to supply a callback which fills in a buffer with random bytes.  "dat" is a parameter you can
                     - * have passed to the callback (e.g. a state or something).  This function doesn't use "dat" itself
                     - * so it can be NULL
                     - *
                     - * The prime generated will be larger than 2^(8*size).
                     - */
                     -#define mp_prime_random(a, t, size, bbs, cb, dat) mp_prime_random_ex(a, t, ((size) * 8) + 1, (bbs==1)?LTM_PRIME_BBS:0, cb, dat)
+                    -
                     -/* makes a truly random prime of a given size (bits),
                     - *
                     - * Flags are as follows:
                     - *
                     - *   LTM_PRIME_BBS      - make prime congruent to 3 mod 4
                     - *   LTM_PRIME_SAFE     - make sure (p-1)/2 is prime as well (implies LTM_PRIME_BBS)
                     - *   LTM_PRIME_2MSB_OFF - make the 2nd highest bit zero
                     - *   LTM_PRIME_2MSB_ON  - make the 2nd highest bit one
                     - *
                     - * You have to supply a callback which fills in a buffer with random bytes.  "dat" is a parameter you can
                     - * have passed to the callback (e.g. a state or something).  This function doesn't use "dat" itself
                     - * so it can be NULL
                     - *
                     - */
                     -int mp_prime_random_ex(mp_int *a, int t, int size, int flags, ltm_prime_callback cb, void *dat);
+                    -
                     -/* ---> radix conversion <--- */
                     -int mp_count_bits(mp_int *a);
+                    -
                     -int mp_unsigned_bin_size(mp_int *a);
                     -int mp_read_unsigned_bin(mp_int *a, const unsigned char *b, int c);
                     -int mp_to_unsigned_bin(mp_int *a, unsigned char *b);
                     -int mp_to_unsigned_bin_n (mp_int * a, unsigned char *b, unsigned long *outlen);
+                    -
                     -int mp_signed_bin_size(mp_int *a);
                     -int mp_read_signed_bin(mp_int *a, const unsigned char *b, int c);
                     -int mp_to_signed_bin(mp_int *a,  unsigned char *b);
                     -int mp_to_signed_bin_n (mp_int * a, unsigned char *b, unsigned long *outlen);
+                    -
                     -int mp_read_radix(mp_int *a, const char *str, int radix);
                     -int mp_toradix(mp_int *a, char *str, int radix);
                     -int mp_toradix_n(mp_int * a, char *str, int radix, int maxlen);
                     -int mp_radix_size(mp_int *a, int radix, int *size);
+                    -
                     -int mp_fread(mp_int *a, int radix, FILE *stream);
                     -int mp_fwrite(mp_int *a, int radix, FILE *stream);
+                    -
                     -#define mp_read_raw(mp, str, len) mp_read_signed_bin((mp), (str), (len))
                     -#define mp_raw_size(mp)           mp_signed_bin_size(mp)
                     -#define mp_toraw(mp, str)         mp_to_signed_bin((mp), (str))
                     -#define mp_read_mag(mp, str, len) mp_read_unsigned_bin((mp), (str), (len))
                     -#define mp_mag_size(mp)           mp_unsigned_bin_size(mp)
                     -#define mp_tomag(mp, str)         mp_to_unsigned_bin((mp), (str))
+                    -
                     -#define mp_tobinary(M, S)  mp_toradix((M), (S), 2)
                     -#define mp_tooctal(M, S)   mp_toradix((M), (S), 8)
                     -#define mp_todecimal(M, S) mp_toradix((M), (S), 10)
                     -#define mp_tohex(M, S)     mp_toradix((M), (S), 16)
+                    -
                     -/* lowlevel functions, do not call! */
                     -int s_mp_add(mp_int *a, mp_int *b, mp_int *c);
                     -int s_mp_sub(mp_int *a, mp_int *b, mp_int *c);
                     -#define s_mp_mul(a, b, c) s_mp_mul_digs(a, b, c, (a)->used + (b)->used + 1)
                     -int fast_s_mp_mul_digs(mp_int *a, mp_int *b, mp_int *c, int digs);
                     -int s_mp_mul_digs(mp_int *a, mp_int *b, mp_int *c, int digs);
                     -int fast_s_mp_mul_high_digs(mp_int *a, mp_int *b, mp_int *c, int digs);
                     -int s_mp_mul_high_digs(mp_int *a, mp_int *b, mp_int *c, int digs);
                     -int fast_s_mp_sqr(mp_int *a, mp_int *b);
                     -int s_mp_sqr(mp_int *a, mp_int *b);
                     -int mp_karatsuba_mul(mp_int *a, mp_int *b, mp_int *c);
                     -int mp_toom_mul(mp_int *a, mp_int *b, mp_int *c);
                     -int mp_karatsuba_sqr(mp_int *a, mp_int *b);
                     -int mp_toom_sqr(mp_int *a, mp_int *b);
                     -int fast_mp_invmod(mp_int *a, mp_int *b, mp_int *c);
                     -int mp_invmod_slow (mp_int * a, mp_int * b, mp_int * c);
                     -int fast_mp_montgomery_reduce(mp_int *a, mp_int *m, mp_digit mp);
                     -int mp_exptmod_fast(mp_int *G, mp_int *X, mp_int *P, mp_int *Y, int mode);
                     -int s_mp_exptmod (mp_int * G, mp_int * X, mp_int * P, mp_int * Y, int mode);
                     -void bn_reverse(unsigned char *s, int len);
+                    -
                     -extern const char *mp_s_rmap;
+                    -
                     -#ifdef __cplusplus
                     -   }
                     -#endif
+                    -
                     -#endif /* HAVE_SYSTEM_TOMMATH */
+                    -
                     -#endif
+                    -
+                    -
                     -/* $Source: /cvs/libtom/libtommath/tommath.h,v $ */
                     -/* $Revision: 1.8 $ */
                     -/* $Date: 2006/03/31 14:18:44 $ */

libclamav/bignum_fast.h

History View file @ 9ac4fb1

                     new file mode 100644
@@ -0,0 +1,572 @@
                     +/* TomsFastMath, a fast ISO C bignum library.
                     + *
                     + * This project is meant to fill in where LibTomMath
                     + * falls short.  That is speed ;-)
                     + *
                     + * This project is public domain and free for all purposes.
                     + *
                     + * Tom St Denis, tomstdenis@gmail.com
                     + */
                     +#ifndef TFM_H_
                     +#define TFM_H_
+                    +
                     +#ifndef __GNUC__
                     +#define TFM_NO_ASM
                     +#endif
+                    +
                     +#include <stdio.h>
                     +#include <string.h>
                     +#include <stdlib.h>
                     +#include <ctype.h>
                     +#include <limits.h>
+                    +
                     +#ifndef MIN
                     +   #define MIN(x,y) ((x)<(y)?(x):(y))
                     +#endif
+                    +
                     +#ifndef MAX
                     +   #define MAX(x,y) ((x)>(y)?(x):(y))
                     +#endif
+                    +
                     +/* externally define this symbol to ignore the default settings, useful for changing the build from the make process */
                     +#ifndef TFM_ALREADY_SET
+                    +
                     +/* do we want the large set of small multiplications ?
                     +   Enable these if you are going to be doing a lot of small (<= 16 digit) multiplications say in ECC
                     +   Or if you're on a 64-bit machine doing RSA as a 1024-bit integer == 16 digits ;-)
                     + */
                     +#define TFM_SMALL_SET
+                    +
                     +/* do we want huge code
                     +   Enable these if you are doing 20, 24, 28, 32, 48, 64 digit multiplications (useful for RSA)
                     +   Less important on 64-bit machines as 32 digits == 2048 bits
                     + */
                     +#if 0
                     +#define TFM_MUL3
                     +#define TFM_MUL4
                     +#define TFM_MUL6
                     +#define TFM_MUL7
                     +#define TFM_MUL8
                     +#define TFM_MUL9
                     +#define TFM_MUL12
                     +#define TFM_MUL17
                     +#endif
                     +#define TFM_MUL20
                     +#define TFM_MUL24
                     +#define TFM_MUL28
                     +#define TFM_MUL32
                     +#define TFM_MUL48
                     +#define TFM_MUL64
+                    +
                     +#if 0
                     +#define TFM_SQR3
                     +#define TFM_SQR4
                     +#define TFM_SQR6
                     +#define TFM_SQR7
                     +#define TFM_SQR8
                     +#define TFM_SQR9
                     +#define TFM_SQR12
                     +#define TFM_SQR17
                     +#endif
                     +#define TFM_SQR20
                     +#define TFM_SQR24
                     +#define TFM_SQR28
                     +#define TFM_SQR32
                     +#define TFM_SQR48
                     +#define TFM_SQR64
+                    +
                     +/* do we want some overflow checks
                     +   Not required if you make sure your numbers are within range (e.g. by default a modulus for fp_exptmod() can only be upto 2048 bits long)
                     + */
                     +#define TFM_CHECK
+                    +
                     +/* Is the target a P4 Prescott
                     + */
                     +/* #define TFM_PRESCOTT */
+                    +
                     +/* Do we want timing resistant fp_exptmod() ?
                     + * This makes it slower but also timing invariant with respect to the exponent
                     + */
                     +/* #define TFM_TIMING_RESISTANT */
+                    +
                     +#endif
+                    +
                     +/* Max size of any number in bits.  Basically the largest size you will be multiplying
                     + * should be half [or smaller] of FP_MAX_SIZE-four_digit
                     + *
                     + * You can externally define this or it defaults to 4096-bits [allowing multiplications upto 2048x2048 bits ]
                     + */
                     +#ifndef FP_MAX_SIZE
                     +   #define FP_MAX_SIZE           (8192+(8*DIGIT_BIT))
                     +#endif
+                    +
                     +/* will this lib work? */
                     +#if (CHAR_BIT & 7)
                     +   #error CHAR_BIT must be a multiple of eight.
                     +#endif
                     +#if FP_MAX_SIZE % CHAR_BIT
                     +   #error FP_MAX_SIZE must be a multiple of CHAR_BIT
                     +#endif
+                    +
                     +/* autodetect x86-64 and make sure we are using 64-bit digits with x86-64 asm */
                     +#if defined(__x86_64__)
                     +   #if defined(TFM_X86) || defined(TFM_SSE2) || defined(TFM_ARM)
                     +       #error x86-64 detected, x86-32/SSE2/ARM optimizations are not valid!
                     +   #endif
                     +   #if !defined(TFM_X86_64) && !defined(TFM_NO_ASM)
                     +      #define TFM_X86_64
                     +   #endif
                     +#endif
                     +#if defined(TFM_X86_64)
                     +    #if !defined(FP_64BIT)
                     +       #define FP_64BIT
                     +    #endif
                     +#endif
+                    +
                     +/* try to detect x86-32 */
                     +#if defined(__i386__) && !defined(TFM_SSE2)
                     +   #if defined(TFM_X86_64) || defined(TFM_ARM)
                     +       #error x86-32 detected, x86-64/ARM optimizations are not valid!
                     +   #endif
                     +   #if !defined(TFM_X86) && !defined(TFM_NO_ASM)
                     +      #define TFM_X86
                     +   #endif
                     +#endif
+                    +
                     +/* make sure we're 32-bit for x86-32/sse/arm/ppc32 */
                     +#if (defined(TFM_X86) || defined(TFM_SSE2) || defined(TFM_ARM) || defined(TFM_PPC32)) && defined(FP_64BIT)
                     +   #warning x86-32, SSE2 and ARM, PPC32 optimizations require 32-bit digits (undefining)
                     +   #undef FP_64BIT
                     +#endif
+                    +
                     +/* multi asms? */
                     +#ifdef TFM_X86
                     +   #define TFM_ASM
                     +#endif
                     +#ifdef TFM_X86_64
                     +   #ifdef TFM_ASM
                     +      #error TFM_ASM already defined!
                     +   #endif
                     +   #define TFM_ASM
                     +#endif
                     +#ifdef TFM_SSE2
                     +   #ifdef TFM_ASM
                     +      #error TFM_ASM already defined!
                     +   #endif
                     +   #define TFM_ASM
                     +#endif
                     +#ifdef TFM_ARM
                     +   #ifdef TFM_ASM
                     +      #error TFM_ASM already defined!
                     +   #endif
                     +   #define TFM_ASM
                     +#endif
                     +#ifdef TFM_PPC32
                     +   #ifdef TFM_ASM
                     +      #error TFM_ASM already defined!
                     +   #endif
                     +   #define TFM_ASM
                     +#endif
                     +#ifdef TFM_PPC64
                     +   #ifdef TFM_ASM
                     +      #error TFM_ASM already defined!
                     +   #endif
                     +   #define TFM_ASM
                     +#endif
                     +#ifdef TFM_AVR32
                     +   #ifdef TFM_ASM
                     +      #error TFM_ASM already defined!
                     +   #endif
                     +   #define TFM_ASM
                     +#endif
+                    +
                     +/* we want no asm? */
                     +#ifdef TFM_NO_ASM
                     +   #undef TFM_X86
                     +   #undef TFM_X86_64
                     +   #undef TFM_SSE2
                     +   #undef TFM_ARM
                     +   #undef TFM_PPC32
                     +   #undef TFM_PPC64
                     +   #undef TFM_AVR32
                     +   #undef TFM_ASM
                     +#endif
+                    +
                     +/* ECC helpers */
                     +#ifdef TFM_ECC192
                     +   #ifdef FP_64BIT
                     +       #define TFM_MUL3
                     +       #define TFM_SQR3
                     +   #else
                     +       #define TFM_MUL6
                     +       #define TFM_SQR6
                     +   #endif
                     +#endif
+                    +
                     +#ifdef TFM_ECC224
                     +   #ifdef FP_64BIT
                     +       #define TFM_MUL4
                     +       #define TFM_SQR4
                     +   #else
                     +       #define TFM_MUL7
                     +       #define TFM_SQR7
                     +   #endif
                     +#endif
+                    +
                     +#ifdef TFM_ECC256
                     +   #ifdef FP_64BIT
                     +       #define TFM_MUL4
                     +       #define TFM_SQR4
                     +   #else
                     +       #define TFM_MUL8
                     +       #define TFM_SQR8
                     +   #endif
                     +#endif
+                    +
                     +#ifdef TFM_ECC384
                     +   #ifdef FP_64BIT
                     +       #define TFM_MUL6
                     +       #define TFM_SQR6
                     +   #else
                     +       #define TFM_MUL12
                     +       #define TFM_SQR12
                     +   #endif
                     +#endif
+                    +
                     +#ifdef TFM_ECC521
                     +   #ifdef FP_64BIT
                     +       #define TFM_MUL9
                     +       #define TFM_SQR9
                     +   #else
                     +       #define TFM_MUL17
                     +       #define TFM_SQR17
                     +   #endif
                     +#endif
+                    +
+                    +
                     +/* some default configurations.
                     + */
                     +#if defined(FP_64BIT)
                     +   /* for GCC only on supported platforms */
                     +#ifndef CRYPT
                     +   typedef unsigned long ulong64;
                     +#endif
                     +   typedef ulong64            fp_digit;
                     +   typedef unsigned long      fp_word __attribute__ ((mode(TI)));
                     +#else
                     +   /* this is to make porting into LibTomCrypt easier :-) */
                     +#ifndef CRYPT
                     +   #if defined(_MSC_VER) || defined(__BORLANDC__)
                     +      typedef unsigned __int64   ulong64;
                     +      typedef signed __int64     long64;
                     +   #else
                     +      typedef unsigned long long ulong64;
                     +      typedef signed long long   long64;
                     +   #endif
                     +#endif
                     +   typedef unsigned long      fp_digit;
                     +   typedef ulong64            fp_word;
                     +#endif
+                    +
                     +/* # of digits this is */
                     +#define DIGIT_BIT  (int)((CHAR_BIT) * sizeof(fp_digit))
                     +#define FP_MASK    (fp_digit)(-1)
                     +#define FP_SIZE    (FP_MAX_SIZE/DIGIT_BIT)
+                    +
                     +/* signs */
                     +#define FP_ZPOS     0
                     +#define FP_NEG      1
+                    +
                     +/* return codes */
                     +#define FP_OKAY     0
                     +#define FP_VAL      1
                     +#define FP_MEM      2
+                    +
                     +/* equalities */
                     +#define FP_LT        -1   /* less than */
                     +#define FP_EQ         0   /* equal to */
                     +#define FP_GT         1   /* greater than */
+                    +
                     +/* replies */
                     +#define FP_YES        1   /* yes response */
                     +#define FP_NO         0   /* no response */
+                    +
                     +/* a FP type */
                     +typedef struct {
                     +    fp_digit dp[FP_SIZE];
                     +    int      used,
                     +             sign;
                     +} fp_int;
+                    +
                     +/* functions */
+                    +
                     +/* returns a TFM ident string useful for debugging... */
                     +const char *fp_ident(void);
+                    +
                     +/* initialize [or zero] an fp int */
                     +#define fp_init(a)  (void)memset((a), 0, sizeof(fp_int))
                     +#define fp_zero(a)  fp_init(a)
+                    +
                     +/* zero/even/odd ? */
                     +#define fp_iszero(a) (((a)->used == 0) ? FP_YES : FP_NO)
                     +#define fp_iseven(a) (((a)->used >= 0 && (((a)->dp[0] & 1) == 0)) ? FP_YES : FP_NO)
                     +#define fp_isodd(a)  (((a)->used > 0  && (((a)->dp[0] & 1) == 1)) ? FP_YES : FP_NO)
+                    +
                     +/* set to a small digit */
                     +void fp_set(fp_int *a, fp_digit b);
+                    +
                     +/* copy from a to b */
                     +#define fp_copy(a, b)      (void)(((a) != (b)) && memcpy((b), (a), sizeof(fp_int)))
                     +#define fp_init_copy(a, b) fp_copy(b, a)
+                    +
                     +/* clamp digits */
                     +#define fp_clamp(a)   { while ((a)->used && (a)->dp[(a)->used-1] == 0) --((a)->used); (a)->sign = (a)->used ? (a)->sign : FP_ZPOS; }
+                    +
                     +/* negate and absolute */
                     +#define fp_neg(a, b)  { fp_copy(a, b); (b)->sign ^= 1; fp_clamp(b); }
                     +#define fp_abs(a, b)  { fp_copy(a, b); (b)->sign  = 0; }
+                    +
                     +/* right shift x digits */
                     +void fp_rshd(fp_int *a, int x);
+                    +
                     +/* left shift x digits */
                     +void fp_lshd(fp_int *a, int x);
+                    +
                     +/* signed comparison */
                     +int fp_cmp(fp_int *a, fp_int *b);
+                    +
                     +/* unsigned comparison */
                     +int fp_cmp_mag(fp_int *a, fp_int *b);
+                    +
                     +/* power of 2 operations */
                     +void fp_div_2d(fp_int *a, int b, fp_int *c, fp_int *d);
                     +void fp_mod_2d(fp_int *a, int b, fp_int *c);
                     +void fp_mul_2d(fp_int *a, int b, fp_int *c);
                     +void fp_2expt (fp_int *a, int b);
                     +void fp_mul_2(fp_int *a, fp_int *c);
                     +void fp_div_2(fp_int *a, fp_int *c);
+                    +
                     +/* Counts the number of lsbs which are zero before the first zero bit */
                     +int fp_cnt_lsb(fp_int *a);
+                    +
                     +/* c = a + b */
                     +void fp_add(fp_int *a, fp_int *b, fp_int *c);
+                    +
                     +/* c = a - b */
                     +void fp_sub(fp_int *a, fp_int *b, fp_int *c);
+                    +
                     +/* c = a * b */
                     +void fp_mul(fp_int *a, fp_int *b, fp_int *c);
+                    +
                     +/* b = a*a  */
                     +void fp_sqr(fp_int *a, fp_int *b);
+                    +
                     +/* a/b => cb + d == a */
                     +int fp_div(fp_int *a, fp_int *b, fp_int *c, fp_int *d);
+                    +
                     +/* c = a mod b, 0 <= c < b  */
                     +int fp_mod(fp_int *a, fp_int *b, fp_int *c);
+                    +
                     +/* compare against a single digit */
                     +int fp_cmp_d(fp_int *a, fp_digit b);
+                    +
                     +/* c = a + b */
                     +void fp_add_d(fp_int *a, fp_digit b, fp_int *c);
+                    +
                     +/* c = a - b */
                     +void fp_sub_d(fp_int *a, fp_digit b, fp_int *c);
+                    +
                     +/* c = a * b */
                     +void fp_mul_d(fp_int *a, fp_digit b, fp_int *c);
+                    +
                     +/* a/b => cb + d == a */
                     +int fp_div_d(fp_int *a, fp_digit b, fp_int *c, fp_digit *d);
+                    +
                     +/* c = a mod b, 0 <= c < b  */
                     +int fp_mod_d(fp_int *a, fp_digit b, fp_digit *c);
+                    +
                     +/* ---> number theory <--- */
                     +/* d = a + b (mod c) */
                     +int fp_addmod(fp_int *a, fp_int *b, fp_int *c, fp_int *d);
+                    +
                     +/* d = a - b (mod c) */
                     +int fp_submod(fp_int *a, fp_int *b, fp_int *c, fp_int *d);
+                    +
                     +/* d = a * b (mod c) */
                     +int fp_mulmod(fp_int *a, fp_int *b, fp_int *c, fp_int *d);
+                    +
                     +/* c = a * a (mod b) */
                     +int fp_sqrmod(fp_int *a, fp_int *b, fp_int *c);
+                    +
                     +/* c = 1/a (mod b) */
                     +int fp_invmod(fp_int *a, fp_int *b, fp_int *c);
+                    +
                     +/* c = (a, b) */
                     +void fp_gcd(fp_int *a, fp_int *b, fp_int *c);
+                    +
                     +/* c = [a, b] */
                     +void fp_lcm(fp_int *a, fp_int *b, fp_int *c);
+                    +
                     +/* setups the montgomery reduction */
                     +int fp_montgomery_setup(fp_int *a, fp_digit *mp);
+                    +
                     +/* computes a = B**n mod b without division or multiplication useful for
                     + * normalizing numbers in a Montgomery system.
                     + */
                     +void fp_montgomery_calc_normalization(fp_int *a, fp_int *b);
+                    +
                     +/* computes x/R == x (mod N) via Montgomery Reduction */
                     +void fp_montgomery_reduce(fp_int *a, fp_int *m, fp_digit mp);
+                    +
                     +/* d = a**b (mod c) */
                     +int fp_exptmod(fp_int *a, fp_int *b, fp_int *c, fp_int *d);
+                    +
                     +/* primality stuff */
+                    +
                     +/* perform a Miller-Rabin test of a to the base b and store result in "result" */
                     +void fp_prime_miller_rabin (fp_int * a, fp_int * b, int *result);
+                    +
                     +/* 256 trial divisions + 8 Miller-Rabins, returns FP_YES if probable prime  */
                     +int fp_isprime(fp_int *a);
+                    +
                     +/* Primality generation flags */
                     +#define TFM_PRIME_BBS      0x0001 /* BBS style prime */
                     +#define TFM_PRIME_SAFE     0x0002 /* Safe prime (p-1)/2 == prime */
                     +#define TFM_PRIME_2MSB_OFF 0x0004 /* force 2nd MSB to 0 */
                     +#define TFM_PRIME_2MSB_ON  0x0008 /* force 2nd MSB to 1 */
+                    +
                     +/* callback for fp_prime_random, should fill dst with random bytes and return how many read [upto len] */
                     +typedef int tfm_prime_callback(unsigned char *dst, int len, void *dat);
+                    +
                     +#define fp_prime_random(a, t, size, bbs, cb, dat) fp_prime_random_ex(a, t, ((size) * 8) + 1, (bbs==1)?TFM_PRIME_BBS:0, cb, dat)
+                    +
                     +int fp_prime_random_ex(fp_int *a, int t, int size, int flags, tfm_prime_callback cb, void *dat);
+                    +
                     +/* radix conersions */
                     +int fp_count_bits(fp_int *a);
+                    +
                     +int fp_unsigned_bin_size(fp_int *a);
                     +void fp_read_unsigned_bin(fp_int *a, const unsigned char *b, int c);
                     +void fp_to_unsigned_bin(fp_int *a, unsigned char *b);
+                    +
                     +int fp_signed_bin_size(fp_int *a);
                     +void fp_read_signed_bin(fp_int *a, unsigned char *b, int c);
                     +void fp_to_signed_bin(fp_int *a, unsigned char *b);
+                    +
                     +int fp_read_radix(fp_int *a, const char *str, int radix);
                     +int fp_toradix(fp_int *a, char *str, int radix);
                     +int fp_toradix_n(fp_int * a, char *str, int radix, int maxlen);
+                    +
+                    +
                     +/* VARIOUS LOW LEVEL STUFFS */
                     +void s_fp_add(fp_int *a, fp_int *b, fp_int *c);
                     +void s_fp_sub(fp_int *a, fp_int *b, fp_int *c);
                     +void fp_reverse(unsigned char *s, int len);
+                    +
                     +void fp_mul_comba(fp_int *A, fp_int *B, fp_int *C);
+                    +
                     +#ifdef TFM_SMALL_SET
                     +void fp_mul_comba_small(fp_int *A, fp_int *B, fp_int *C);
                     +#endif
+                    +
                     +#ifdef TFM_MUL3
                     +void fp_mul_comba3(fp_int *A, fp_int *B, fp_int *C);
                     +#endif
                     +#ifdef TFM_MUL4
                     +void fp_mul_comba4(fp_int *A, fp_int *B, fp_int *C);
                     +#endif
                     +#ifdef TFM_MUL6
                     +void fp_mul_comba6(fp_int *A, fp_int *B, fp_int *C);
                     +#endif
                     +#ifdef TFM_MUL7
                     +void fp_mul_comba7(fp_int *A, fp_int *B, fp_int *C);
                     +#endif
                     +#ifdef TFM_MUL8
                     +void fp_mul_comba8(fp_int *A, fp_int *B, fp_int *C);
                     +#endif
                     +#ifdef TFM_MUL9
                     +void fp_mul_comba9(fp_int *A, fp_int *B, fp_int *C);
                     +#endif
                     +#ifdef TFM_MUL12
                     +void fp_mul_comba12(fp_int *A, fp_int *B, fp_int *C);
                     +#endif
                     +#ifdef TFM_MUL17
                     +void fp_mul_comba17(fp_int *A, fp_int *B, fp_int *C);
                     +#endif
+                    +
                     +#ifdef TFM_MUL20
                     +void fp_mul_comba20(fp_int *A, fp_int *B, fp_int *C);
                     +#endif
                     +#ifdef TFM_MUL24
                     +void fp_mul_comba24(fp_int *A, fp_int *B, fp_int *C);
                     +#endif
                     +#ifdef TFM_MUL28
                     +void fp_mul_comba28(fp_int *A, fp_int *B, fp_int *C);
                     +#endif
                     +#ifdef TFM_MUL32
                     +void fp_mul_comba32(fp_int *A, fp_int *B, fp_int *C);
                     +#endif
                     +#ifdef TFM_MUL48
                     +void fp_mul_comba48(fp_int *A, fp_int *B, fp_int *C);
                     +#endif
                     +#ifdef TFM_MUL64
                     +void fp_mul_comba64(fp_int *A, fp_int *B, fp_int *C);
                     +#endif
+                    +
                     +void fp_sqr_comba(fp_int *A, fp_int *B);
+                    +
                     +#ifdef TFM_SMALL_SET
                     +void fp_sqr_comba_small(fp_int *A, fp_int *B);
                     +#endif
+                    +
                     +#ifdef TFM_SQR3
                     +void fp_sqr_comba3(fp_int *A, fp_int *B);
                     +#endif
                     +#ifdef TFM_SQR4
                     +void fp_sqr_comba4(fp_int *A, fp_int *B);
                     +#endif
                     +#ifdef TFM_SQR6
                     +void fp_sqr_comba6(fp_int *A, fp_int *B);
                     +#endif
                     +#ifdef TFM_SQR7
                     +void fp_sqr_comba7(fp_int *A, fp_int *B);
                     +#endif
                     +#ifdef TFM_SQR8
                     +void fp_sqr_comba8(fp_int *A, fp_int *B);
                     +#endif
                     +#ifdef TFM_SQR9
                     +void fp_sqr_comba9(fp_int *A, fp_int *B);
                     +#endif
                     +#ifdef TFM_SQR12
                     +void fp_sqr_comba12(fp_int *A, fp_int *B);
                     +#endif
                     +#ifdef TFM_SQR17
                     +void fp_sqr_comba17(fp_int *A, fp_int *B);
                     +#endif
+                    +
                     +#ifdef TFM_SQR20
                     +void fp_sqr_comba20(fp_int *A, fp_int *B);
                     +#endif
                     +#ifdef TFM_SQR24
                     +void fp_sqr_comba24(fp_int *A, fp_int *B);
                     +#endif
                     +#ifdef TFM_SQR28
                     +void fp_sqr_comba28(fp_int *A, fp_int *B);
                     +#endif
                     +#ifdef TFM_SQR32
                     +void fp_sqr_comba32(fp_int *A, fp_int *B);
                     +#endif
                     +#ifdef TFM_SQR48
                     +void fp_sqr_comba48(fp_int *A, fp_int *B);
                     +#endif
                     +#ifdef TFM_SQR64
                     +void fp_sqr_comba64(fp_int *A, fp_int *B);
                     +#endif
                     +extern const char *fp_s_rmap;
+                    +
                     +#endif
+                    +
+                    +
                     +/* $Source: /cvs/libtom/tomsfastmath/src/headers/tfm.h,v $ */
                     +/* $Revision: 1.3 $ */
                     +/* $Date: 2007/02/27 02:38:44 $ */

libclamav/bignum_superclass.h

History View file @ 9ac4fb1

                     new file mode 100755
@@ -0,0 +1,76 @@
                     +/* super class file for PK algos */
+                    +
                     +/* default ... include all MPI */
                     +#define LTM_ALL
+                    +
                     +/* RSA only (does not support DH/DSA/ECC) */
                     +/* #define SC_RSA_1 */
+                    +
                     +/* For reference.... On an Athlon64 optimizing for speed...
+                    +
                     +   LTM's mpi.o with all functions [striped] is 142KiB in size.
+                    +
                     +*/
+                    +
                     +/* Works for RSA only, mpi.o is 68KiB */
                     +#ifdef SC_RSA_1
                     +   #define BN_MP_SHRINK_C
                     +   #define BN_MP_LCM_C
                     +   #define BN_MP_PRIME_RANDOM_EX_C
                     +   #define BN_MP_INVMOD_C
                     +   #define BN_MP_GCD_C
                     +   #define BN_MP_MOD_C
                     +   #define BN_MP_MULMOD_C
                     +   #define BN_MP_ADDMOD_C
                     +   #define BN_MP_EXPTMOD_C
                     +   #define BN_MP_SET_INT_C
                     +   #define BN_MP_INIT_MULTI_C
                     +   #define BN_MP_CLEAR_MULTI_C
                     +   #define BN_MP_UNSIGNED_BIN_SIZE_C
                     +   #define BN_MP_TO_UNSIGNED_BIN_C
                     +   #define BN_MP_MOD_D_C
                     +   #define BN_MP_PRIME_RABIN_MILLER_TRIALS_C
                     +   #define BN_REVERSE_C
                     +   #define BN_PRIME_TAB_C
+                    +
                     +   /* other modifiers */
                     +   #define BN_MP_DIV_SMALL                    /* Slower division, not critical */
+                    +
                     +   /* here we are on the last pass so we turn things off.  The functions classes are still there
                     +    * but we remove them specifically from the build.  This also invokes tweaks in functions
                     +    * like removing support for even moduli, etc...
                     +    */
                     +#ifdef LTM_LAST
                     +   #undef  BN_MP_TOOM_MUL_C
                     +   #undef  BN_MP_TOOM_SQR_C
                     +   #undef  BN_MP_KARATSUBA_MUL_C
                     +   #undef  BN_MP_KARATSUBA_SQR_C
                     +   #undef  BN_MP_REDUCE_C
                     +   #undef  BN_MP_REDUCE_SETUP_C
                     +   #undef  BN_MP_DR_IS_MODULUS_C
                     +   #undef  BN_MP_DR_SETUP_C
                     +   #undef  BN_MP_DR_REDUCE_C
                     +   #undef  BN_MP_REDUCE_IS_2K_C
                     +   #undef  BN_MP_REDUCE_2K_SETUP_C
                     +   #undef  BN_MP_REDUCE_2K_C
                     +   #undef  BN_S_MP_EXPTMOD_C
                     +   #undef  BN_MP_DIV_3_C
                     +   #undef  BN_S_MP_MUL_HIGH_DIGS_C
                     +   #undef  BN_FAST_S_MP_MUL_HIGH_DIGS_C
                     +   #undef  BN_FAST_MP_INVMOD_C
+                    +
                     +   /* To safely undefine these you have to make sure your RSA key won't exceed the Comba threshold
                     +    * which is roughly 255 digits [7140 bits for 32-bit machines, 15300 bits for 64-bit machines]
                     +    * which means roughly speaking you can handle upto 2536-bit RSA keys with these defined without
                     +    * trouble.
                     +    */
                     +   #undef  BN_S_MP_MUL_DIGS_C
                     +   #undef  BN_S_MP_SQR_C
                     +   #undef  BN_MP_MONTGOMERY_REDUCE_C
                     +#endif
+                    +
                     +#endif
+                    +
                     +/* $Source$ */
                     +/* $Revision: 0.36 $ */
                     +/* $Date: 2005-08-01 16:37:28 +0000 $ */

libclamav/fp_mul_comba.c

History View file @ 9ac4fb1

                     new file mode 100644
@@ -0,0 +1,368 @@
                     +/* TomsFastMath, a fast ISO C bignum library.
                     + *
                     + * This project is meant to fill in where LibTomMath
                     + * falls short.  That is speed ;-)
                     + *
                     + * This project is public domain and free for all purposes.
                     + *
                     + * Tom St Denis, tomstdenis@gmail.com
                     + */
+                    +
                     +/* About this file...
+                    +
                     +*/
+                    +
                     +#include <tfm.h>
+                    +
                     +#if defined(TFM_PRESCOTT) && defined(TFM_SSE2)
                     +   #undef TFM_SSE2
                     +   #define TFM_X86
                     +#endif
+                    +
                     +/* these are the combas.  Worship them. */
                     +#if defined(TFM_X86)
                     +/* Generic x86 optimized code */
+                    +
                     +/* anything you need at the start */
                     +#define COMBA_START
+                    +
                     +/* clear the chaining variables */
                     +#define COMBA_CLEAR \
                     +   c0 = c1 = c2 = 0;
+                    +
                     +/* forward the carry to the next digit */
                     +#define COMBA_FORWARD \
                     +   do { c0 = c1; c1 = c2; c2 = 0; } while (0);
+                    +
                     +/* store the first sum */
                     +#define COMBA_STORE(x) \
                     +   x = c0;
+                    +
                     +/* store the second sum [carry] */
                     +#define COMBA_STORE2(x) \
                     +   x = c1;
+                    +
                     +/* anything you need at the end */
                     +#define COMBA_FINI
+                    +
                     +/* this should multiply i and j  */
                     +#define MULADD(i, j)                                      \
                     +asm(                                                      \
                     +     "movl  %6,%%eax     \n\t"                            \
                     +     "mull  %7           \n\t"                            \
                     +     "addl  %%eax,%0     \n\t"                            \
                     +     "adcl  %%edx,%1     \n\t"                            \
                     +     "adcl  $0,%2        \n\t"                            \
                     +     :"=r"(c0), "=r"(c1), "=r"(c2): "0"(c0), "1"(c1), "2"(c2), "m"(i), "m"(j)  :"%eax","%edx","%cc");
+                    +
                     +#elif defined(TFM_X86_64)
                     +/* x86-64 optimized */
+                    +
                     +/* anything you need at the start */
                     +#define COMBA_START
+                    +
                     +/* clear the chaining variables */
                     +#define COMBA_CLEAR \
                     +   c0 = c1 = c2 = 0;
+                    +
                     +/* forward the carry to the next digit */
                     +#define COMBA_FORWARD \
                     +   do { c0 = c1; c1 = c2; c2 = 0; } while (0);
+                    +
                     +/* store the first sum */
                     +#define COMBA_STORE(x) \
                     +   x = c0;
+                    +
                     +/* store the second sum [carry] */
                     +#define COMBA_STORE2(x) \
                     +   x = c1;
+                    +
                     +/* anything you need at the end */
                     +#define COMBA_FINI
+                    +
                     +/* this should multiply i and j  */
                     +#define MULADD(i, j)                                      \
                     +asm  (                                                    \
                     +     "movq  %6,%%rax     \n\t"                            \
                     +     "mulq  %7           \n\t"                            \
                     +     "addq  %%rax,%0     \n\t"                            \
                     +     "adcq  %%rdx,%1     \n\t"                            \
                     +     "adcq  $0,%2        \n\t"                            \
                     +     :"=r"(c0), "=r"(c1), "=r"(c2): "0"(c0), "1"(c1), "2"(c2), "g"(i), "g"(j)  :"%rax","%rdx","%cc");
+                    +
                     +#elif defined(TFM_SSE2)
                     +/* use SSE2 optimizations */
+                    +
                     +/* anything you need at the start */
                     +#define COMBA_START
+                    +
                     +/* clear the chaining variables */
                     +#define COMBA_CLEAR \
                     +   c0 = c1 = c2 = 0;
+                    +
                     +/* forward the carry to the next digit */
                     +#define COMBA_FORWARD \
                     +   do { c0 = c1; c1 = c2; c2 = 0; } while (0);
+                    +
                     +/* store the first sum */
                     +#define COMBA_STORE(x) \
                     +   x = c0;
+                    +
                     +/* store the second sum [carry] */
                     +#define COMBA_STORE2(x) \
                     +   x = c1;
+                    +
                     +/* anything you need at the end */
                     +#define COMBA_FINI \
                     +   asm("emms");
+                    +
                     +/* this should multiply i and j  */
                     +#define MULADD(i, j)                                     \
                     +asm(                                                     \
                     +    "movd  %6,%%mm0     \n\t"                            \
                     +    "movd  %7,%%mm1     \n\t"                            \
                     +    "pmuludq %%mm1,%%mm0\n\t"                            \
                     +    "movd  %%mm0,%%eax  \n\t"                            \
                     +    "psrlq $32,%%mm0    \n\t"                            \
                     +    "addl  %%eax,%0     \n\t"                            \
                     +    "movd  %%mm0,%%eax  \n\t"                            \
                     +    "adcl  %%eax,%1     \n\t"                            \
                     +    "adcl  $0,%2        \n\t"                            \
                     +    :"=r"(c0), "=r"(c1), "=r"(c2): "0"(c0), "1"(c1), "2"(c2), "m"(i), "m"(j)  :"%eax","%cc");
+                    +
                     +#elif defined(TFM_ARM)
                     +/* ARM code */
+                    +
                     +#define COMBA_START
+                    +
                     +#define COMBA_CLEAR \
                     +   c0 = c1 = c2 = 0;
+                    +
                     +#define COMBA_FORWARD \
                     +   do { c0 = c1; c1 = c2; c2 = 0; } while (0);
+                    +
                     +#define COMBA_STORE(x) \
                     +   x = c0;
+                    +
                     +#define COMBA_STORE2(x) \
                     +   x = c1;
+                    +
                     +#define COMBA_FINI
+                    +
                     +#define MULADD(i, j)                                          \
                     +asm(                                                          \
                     +"  UMULL  r0,r1,%6,%7           \n\t"                         \
                     +"  ADDS   %0,%0,r0              \n\t"                         \
                     +"  ADCS   %1,%1,r1              \n\t"                         \
                     +"  ADC    %2,%2,#0              \n\t"                         \
                     +:"=r"(c0), "=r"(c1), "=r"(c2) : "0"(c0), "1"(c1), "2"(c2), "r"(i), "r"(j) : "r0", "r1", "%cc");
+                    +
                     +#elif defined(TFM_PPC32)
                     +/* For 32-bit PPC */
+                    +
                     +#define COMBA_START
+                    +
                     +#define COMBA_CLEAR \
                     +   c0 = c1 = c2 = 0;
+                    +
                     +#define COMBA_FORWARD \
                     +   do { c0 = c1; c1 = c2; c2 = 0; } while (0);
+                    +
                     +#define COMBA_STORE(x) \
                     +   x = c0;
+                    +
                     +#define COMBA_STORE2(x) \
                     +   x = c1;
+                    +
                     +#define COMBA_FINI
+                    +
                     +/* untested: will mulhwu change the flags?  Docs say no */
                     +#define MULADD(i, j)              \
                     +asm(                              \
                     +   " mullw  16,%6,%7       \n\t" \
                     +   " addc   %0,%0,16       \n\t" \
                     +   " mulhwu 16,%6,%7       \n\t" \
                     +   " adde   %1,%1,16       \n\t" \
                     +   " addze  %2,%2          \n\t" \
                     +:"=r"(c0), "=r"(c1), "=r"(c2):"0"(c0), "1"(c1), "2"(c2), "r"(i), "r"(j):"16");
+                    +
                     +#elif defined(TFM_PPC64)
                     +/* For 64-bit PPC */
+                    +
                     +#define COMBA_START
+                    +
                     +#define COMBA_CLEAR \
                     +   c0 = c1 = c2 = 0;
+                    +
                     +#define COMBA_FORWARD \
                     +   do { c0 = c1; c1 = c2; c2 = 0; } while (0);
+                    +
                     +#define COMBA_STORE(x) \
                     +   x = c0;
+                    +
                     +#define COMBA_STORE2(x) \
                     +   x = c1;
+                    +
                     +#define COMBA_FINI
+                    +
                     +/* untested: will mulhdu change the flags?  Docs say no */
                     +#define MULADD(i, j)              \
                     +asm(                              \
                     +   " mulld  r16,%6,%7       \n\t" \
                     +   " addc   %0,%0,16       \n\t" \
                     +   " mulhdu r16,%6,%7       \n\t" \
                     +   " adde   %1,%1,16       \n\t" \
                     +   " addze  %2,%2          \n\t" \
                     +:"=r"(c0), "=r"(c1), "=r"(c2):"0"(c0), "1"(c1), "2"(c2), "r"(i), "r"(j):"r16");
+                    +
                     +#elif defined(TFM_AVR32)
+                    +
                     +/* ISO C code */
+                    +
                     +#define COMBA_START
+                    +
                     +#define COMBA_CLEAR \
                     +   c0 = c1 = c2 = 0;
+                    +
                     +#define COMBA_FORWARD \
                     +   do { c0 = c1; c1 = c2; c2 = 0; } while (0);
+                    +
                     +#define COMBA_STORE(x) \
                     +   x = c0;
+                    +
                     +#define COMBA_STORE2(x) \
                     +   x = c1;
+                    +
                     +#define COMBA_FINI
+                    +
                     +#define MULADD(i, j)             \
                     +asm(                             \
                     +   " mulu.d r2,%6,%7        \n\t"\
                     +   " add    %0,r2           \n\t"\
                     +   " adc    %1,%1,r3        \n\t"\
                     +   " acr    %2              \n\t"\
                     +:"=r"(c0), "=r"(c1), "=r"(c2):"0"(c0), "1"(c1), "2"(c2), "r"(i), "r"(j):"r2","r3");
+                    +
                     +#elif defined(TFM_MIPS)
+                    +
                     +#define COMBA_START
+                    +
                     +#define COMBA_CLEAR \
                     +   c0 = c1 = c2 = 0;
+                    +
                     +#define COMBA_FORWARD \
                     +   do { c0 = c1; c1 = c2; c2 = 0; } while (0);
+                    +
                     +#define COMBA_STORE(x) \
                     +   x = c0;
+                    +
                     +#define COMBA_STORE2(x) \
                     +   x = c1;
+                    +
                     +#define COMBA_FINI
+                    +
                     +#define MULADD(i, j)              \
                     +asm(                              \
                     +   " multu  %6,%7          \n\t"  \
                     +   " mflo   $12            \n\t"  \
                     +   " mfhi   $13            \n\t"  \
                     +   " addu    %0,%0,$12     \n\t"  \
                     +   " sltu   $12,%0,$12     \n\t"  \
                     +   " addu    %1,%1,$13     \n\t"  \
                     +   " sltu   $13,%1,$13     \n\t"  \
                     +   " addu    %1,%1,$12     \n\t"  \
                     +   " sltu   $12,%1,$12     \n\t"  \
                     +   " addu    %2,%2,$13     \n\t"  \
                     +   " addu    %2,%2,$12     \n\t"  \
                     +:"=r"(c0), "=r"(c1), "=r"(c2):"0"(c0), "1"(c1), "2"(c2), "r"(i), "r"(j):"$12","$13");
+                    +
                     +#else
                     +/* ISO C code */
+                    +
                     +#define COMBA_START
+                    +
                     +#define COMBA_CLEAR \
                     +   c0 = c1 = c2 = 0;
+                    +
                     +#define COMBA_FORWARD \
                     +   do { c0 = c1; c1 = c2; c2 = 0; } while (0);
+                    +
                     +#define COMBA_STORE(x) \
                     +   x = c0;
+                    +
                     +#define COMBA_STORE2(x) \
                     +   x = c1;
+                    +
                     +#define COMBA_FINI
+                    +
                     +#define MULADD(i, j)                                                              \
                     +   do { fp_word t;                                                                \
                     +   t = (fp_word)c0 + ((fp_word)i) * ((fp_word)j); c0 = t;                         \
                     +   t = (fp_word)c1 + (t >> DIGIT_BIT);            c1 = t; c2 += t >> DIGIT_BIT;   \
                     +   } while (0);
+                    +
                     +#endif
+                    +
                     +#ifndef TFM_DEFINES
+                    +
                     +/* generic PxQ multiplier */
                     +void fp_mul_comba(fp_int *A, fp_int *B, fp_int *C)
                     +{
                     +   int       ix, iy, iz, tx, ty, pa;
                     +   fp_digit  c0, c1, c2, *tmpx, *tmpy;
                     +   fp_int    tmp, *dst;
+                    +
                     +   COMBA_START;
                     +   COMBA_CLEAR;
+                    +
                     +   /* get size of output and trim */
                     +   pa = A->used + B->used;
                     +   if (pa >= FP_SIZE) {
                     +      pa = FP_SIZE-1;
                     +   }
+                    +
                     +   if (A == C || B == C) {
                     +      fp_zero(&tmp);
                     +      dst = &tmp;
                     +   } else {
                     +      fp_zero(C);
                     +      dst = C;
                     +   }
+                    +
                     +   for (ix = 0; ix < pa; ix++) {
                     +      /* get offsets into the two bignums */
                     +      ty = MIN(ix, B->used-1);
                     +      tx = ix - ty;
+                    +
                     +      /* setup temp aliases */
                     +      tmpx = A->dp + tx;
                     +      tmpy = B->dp + ty;
+                    +
                     +      /* this is the number of times the loop will iterrate, essentially its
                     +         while (tx++ < a->used && ty-- >= 0) { ... }
                     +       */
                     +      iy = MIN(A->used-tx, ty+1);
+                    +
                     +      /* execute loop */
                     +      COMBA_FORWARD;
                     +      for (iz = 0; iz < iy; ++iz) {
                     +          MULADD(*tmpx++, *tmpy--);
                     +      }
+                    +
                     +      /* store term */
                     +      COMBA_STORE(dst->dp[ix]);
                     +  }
                     +  COMBA_FINI;
+                    +
                     +  dst->used = pa;
                     +  dst->sign = A->sign ^ B->sign;
                     +  fp_clamp(dst);
                     +  fp_copy(dst, C);
                     +}
+                    +
                     +#endif
+                    +
                     +/* $Source: /cvs/libtom/tomsfastmath/src/mul/fp_mul_comba.c,v $ */
                     +/* $Revision: 1.4 $ */
                     +/* $Date: 2007/03/14 23:47:42 $ */
+                    +

libclamav/fp_sqr_comba.c

History View file @ 9ac4fb1

                     new file mode 100644
@@ -0,0 +1,677 @@
                     +/*
                     + *
                     + * This project is meant to fill in where LibTomMath
                     + * falls short.  That is speed ;-)
                     + *
                     + * This project is public domain and free for all purposes.
                     + *
                     + * Tom St Denis, tomstdenis@gmail.com
                     + */
                     +#include "bignum_fast.h"
+                    +
                     +#if defined(TFM_PRESCOTT) && defined(TFM_SSE2)
                     +   #undef TFM_SSE2
                     +   #define TFM_X86
                     +#endif
+                    +
                     +#if defined(TFM_X86)
+                    +
                     +/* x86-32 optimized */
+                    +
                     +#define COMBA_START
+                    +
                     +#define CLEAR_CARRY \
                     +   c0 = c1 = c2 = 0;
+                    +
                     +#define COMBA_STORE(x) \
                     +   x = c0;
+                    +
                     +#define COMBA_STORE2(x) \
                     +   x = c1;
+                    +
                     +#define CARRY_FORWARD \
                     +   do { c0 = c1; c1 = c2; c2 = 0; } while (0);
+                    +
                     +#define COMBA_FINI
+                    +
                     +#define SQRADD(i, j)                                      \
                     +asm(                                            \
                     +     "movl  %6,%%eax     \n\t"                            \
                     +     "mull  %%eax        \n\t"                            \
                     +     "addl  %%eax,%0     \n\t"                            \
                     +     "adcl  %%edx,%1     \n\t"                            \
                     +     "adcl  $0,%2        \n\t"                            \
                     +     :"=r"(c0), "=r"(c1), "=r"(c2): "0"(c0), "1"(c1), "2"(c2), "m"(i) :"%eax","%edx","%cc");
+                    +
                     +#define SQRADD2(i, j)                                     \
                     +asm(                                            \
                     +     "movl  %6,%%eax     \n\t"                            \
                     +     "mull  %7           \n\t"                            \
                     +     "addl  %%eax,%0     \n\t"                            \
                     +     "adcl  %%edx,%1     \n\t"                            \
                     +     "adcl  $0,%2        \n\t"                            \
                     +     "addl  %%eax,%0     \n\t"                            \
                     +     "adcl  %%edx,%1     \n\t"                            \
                     +     "adcl  $0,%2        \n\t"                            \
                     +     :"=r"(c0), "=r"(c1), "=r"(c2): "0"(c0), "1"(c1), "2"(c2), "m"(i), "m"(j)  :"%eax","%edx","%cc");
+                    +
                     +#define SQRADDSC(i, j)                                    \
                     +asm(                                                     \
                     +     "movl  %6,%%eax     \n\t"                            \
                     +     "mull  %7           \n\t"                            \
                     +     "movl  %%eax,%0     \n\t"                            \
                     +     "movl  %%edx,%1     \n\t"                            \
                     +     "xorl  %2,%2        \n\t"                            \
                     +     :"=r"(sc0), "=r"(sc1), "=r"(sc2): "0"(sc0), "1"(sc1), "2"(sc2), "g"(i), "g"(j) :"%eax","%edx","%cc");
+                    +
                     +#define SQRADDAC(i, j)                                    \
                     +asm(                                                     \
                     +     "movl  %6,%%eax     \n\t"                            \
                     +     "mull  %7           \n\t"                            \
                     +     "addl  %%eax,%0     \n\t"                            \
                     +     "adcl  %%edx,%1     \n\t"                            \
                     +     "adcl  $0,%2        \n\t"                            \
                     +     :"=r"(sc0), "=r"(sc1), "=r"(sc2): "0"(sc0), "1"(sc1), "2"(sc2), "g"(i), "g"(j) :"%eax","%edx","%cc");
+                    +
                     +#define SQRADDDB                                          \
                     +asm(                                                     \
                     +     "addl %6,%0         \n\t"                            \
                     +     "adcl %7,%1         \n\t"                            \
                     +     "adcl %8,%2         \n\t"                            \
                     +     "addl %6,%0         \n\t"                            \
                     +     "adcl %7,%1         \n\t"                            \
                     +     "adcl %8,%2         \n\t"                            \
                     +     :"=r"(c0), "=r"(c1), "=r"(c2) : "0"(c0), "1"(c1), "2"(c2), "r"(sc0), "r"(sc1), "r"(sc2) : "%cc");
+                    +
                     +#elif defined(TFM_X86_64)
                     +/* x86-64 optimized */
+                    +
                     +#define COMBA_START
+                    +
                     +#define CLEAR_CARRY \
                     +   c0 = c1 = c2 = 0;
+                    +
                     +#define COMBA_STORE(x) \
                     +   x = c0;
+                    +
                     +#define COMBA_STORE2(x) \
                     +   x = c1;
+                    +
                     +#define CARRY_FORWARD \
                     +   do { c0 = c1; c1 = c2; c2 = 0; } while (0);
+                    +
                     +#define COMBA_FINI
+                    +
                     +#define SQRADD(i, j)                                      \
                     +asm(                                                     \
                     +     "movq  %6,%%rax     \n\t"                            \
                     +     "mulq  %%rax        \n\t"                            \
                     +     "addq  %%rax,%0     \n\t"                            \
                     +     "adcq  %%rdx,%1     \n\t"                            \
                     +     "adcq  $0,%2        \n\t"                            \
                     +     :"=r"(c0), "=r"(c1), "=r"(c2): "0"(c0), "1"(c1), "2"(c2), "g"(i) :"%rax","%rdx","%cc");
+                    +
                     +#define SQRADD2(i, j)                                     \
                     +asm(                                                     \
                     +     "movq  %6,%%rax     \n\t"                            \
                     +     "mulq  %7           \n\t"                            \
                     +     "addq  %%rax,%0     \n\t"                            \
                     +     "adcq  %%rdx,%1     \n\t"                            \
                     +     "adcq  $0,%2        \n\t"                            \
                     +     "addq  %%rax,%0     \n\t"                            \
                     +     "adcq  %%rdx,%1     \n\t"                            \
                     +     "adcq  $0,%2        \n\t"                            \
                     +     :"=r"(c0), "=r"(c1), "=r"(c2): "0"(c0), "1"(c1), "2"(c2), "g"(i), "g"(j)  :"%rax","%rdx","%cc");
+                    +
                     +#define SQRADDSC(i, j)                                    \
                     +asm(                                                     \
                     +     "movq  %6,%%rax     \n\t"                            \
                     +     "mulq  %7           \n\t"                            \
                     +     "movq  %%rax,%0     \n\t"                            \
                     +     "movq  %%rdx,%1     \n\t"                            \
                     +     "xorq  %2,%2        \n\t"                            \
                     +     :"=r"(sc0), "=r"(sc1), "=r"(sc2): "0"(sc0), "1"(sc1), "2"(sc2), "g"(i), "g"(j) :"%rax","%rdx","%cc");
+                    +
                     +#define SQRADDAC(i, j)                                                         \
                     +asm(                                                     \
                     +     "movq  %6,%%rax     \n\t"                            \
                     +     "mulq  %7           \n\t"                            \
                     +     "addq  %%rax,%0     \n\t"                            \
                     +     "adcq  %%rdx,%1     \n\t"                            \
                     +     "adcq  $0,%2        \n\t"                            \
                     +     :"=r"(sc0), "=r"(sc1), "=r"(sc2): "0"(sc0), "1"(sc1), "2"(sc2), "g"(i), "g"(j) :"%rax","%rdx","%cc");
+                    +
                     +#define SQRADDDB                                          \
                     +asm(                                                     \
                     +     "addq %6,%0         \n\t"                            \
                     +     "adcq %7,%1         \n\t"                            \
                     +     "adcq %8,%2         \n\t"                            \
                     +     "addq %6,%0         \n\t"                            \
                     +     "adcq %7,%1         \n\t"                            \
                     +     "adcq %8,%2         \n\t"                            \
                     +     :"=r"(c0), "=r"(c1), "=r"(c2) : "0"(c0), "1"(c1), "2"(c2), "r"(sc0), "r"(sc1), "r"(sc2) : "%cc");
+                    +
                     +#elif defined(TFM_SSE2)
+                    +
                     +/* SSE2 Optimized */
                     +#define COMBA_START
+                    +
                     +#define CLEAR_CARRY \
                     +   c0 = c1 = c2 = 0;
+                    +
                     +#define COMBA_STORE(x) \
                     +   x = c0;
+                    +
                     +#define COMBA_STORE2(x) \
                     +   x = c1;
+                    +
                     +#define CARRY_FORWARD \
                     +   do { c0 = c1; c1 = c2; c2 = 0; } while (0);
+                    +
                     +#define COMBA_FINI \
                     +   asm("emms");
+                    +
                     +#define SQRADD(i, j)                                      \
                     +asm(                                            \
                     +     "movd  %6,%%mm0     \n\t"                            \
                     +     "pmuludq %%mm0,%%mm0\n\t"                            \
                     +     "movd  %%mm0,%%eax  \n\t"                            \
                     +     "psrlq $32,%%mm0    \n\t"                            \
                     +     "addl  %%eax,%0     \n\t"                            \
                     +     "movd  %%mm0,%%eax  \n\t"                            \
                     +     "adcl  %%eax,%1     \n\t"                            \
                     +     "adcl  $0,%2        \n\t"                            \
                     +     :"=r"(c0), "=r"(c1), "=r"(c2): "0"(c0), "1"(c1), "2"(c2), "m"(i) :"%eax","%cc");
+                    +
                     +#define SQRADD2(i, j)                                     \
                     +asm(                                            \
                     +     "movd  %6,%%mm0     \n\t"                            \
                     +     "movd  %7,%%mm1     \n\t"                            \
                     +     "pmuludq %%mm1,%%mm0\n\t"                            \
                     +     "movd  %%mm0,%%eax  \n\t"                            \
                     +     "psrlq $32,%%mm0    \n\t"                            \
                     +     "movd  %%mm0,%%edx  \n\t"                            \
                     +     "addl  %%eax,%0     \n\t"                            \
                     +     "adcl  %%edx,%1     \n\t"                            \
                     +     "adcl  $0,%2        \n\t"                            \
                     +     "addl  %%eax,%0     \n\t"                            \
                     +     "adcl  %%edx,%1     \n\t"                            \
                     +     "adcl  $0,%2        \n\t"                            \
                     +     :"=r"(c0), "=r"(c1), "=r"(c2): "0"(c0), "1"(c1), "2"(c2), "m"(i), "m"(j)  :"%eax","%edx","%cc");
+                    +
                     +#define SQRADDSC(i, j)                                                         \
                     +asm(                                            \
                     +     "movd  %6,%%mm0     \n\t"                            \
                     +     "movd  %7,%%mm1     \n\t"                            \
                     +     "pmuludq %%mm1,%%mm0\n\t"                            \
                     +     "movd  %%mm0,%0     \n\t"                            \
                     +     "psrlq $32,%%mm0    \n\t"                            \
                     +     "movd  %%mm0,%1     \n\t"                            \
                     +     "xorl  %2,%2        \n\t"                            \
                     +     :"=r"(sc0), "=r"(sc1), "=r"(sc2): "0"(sc0), "1"(sc1), "2"(sc2), "m"(i), "m"(j));
+                    +
                     +#define SQRADDAC(i, j)                                                         \
                     +asm(                                            \
                     +     "movd  %6,%%mm0     \n\t"                            \
                     +     "movd  %7,%%mm1     \n\t"                            \
                     +     "pmuludq %%mm1,%%mm0\n\t"                            \
                     +     "movd  %%mm0,%%eax  \n\t"                            \
                     +     "psrlq $32,%%mm0    \n\t"                            \
                     +     "movd  %%mm0,%%edx  \n\t"                            \
                     +     "addl  %%eax,%0     \n\t"                            \
                     +     "adcl  %%edx,%1     \n\t"                            \
                     +     "adcl  $0,%2        \n\t"                            \
                     +     :"=r"(sc0), "=r"(sc1), "=r"(sc2): "0"(sc0), "1"(sc1), "2"(sc2), "m"(i), "m"(j)  :"%eax","%edx","%cc");
+                    +
                     +#define SQRADDDB                                          \
                     +asm(                                                     \
                     +     "addl %6,%0         \n\t"                            \
                     +     "adcl %7,%1         \n\t"                            \
                     +     "adcl %8,%2         \n\t"                            \
                     +     "addl %6,%0         \n\t"                            \
                     +     "adcl %7,%1         \n\t"                            \
                     +     "adcl %8,%2         \n\t"                            \
                     +     :"=r"(c0), "=r"(c1), "=r"(c2) : "0"(c0), "1"(c1), "2"(c2), "r"(sc0), "r"(sc1), "r"(sc2) : "%cc");
+                    +
                     +#elif defined(TFM_ARM)
+                    +
                     +/* ARM code */
+                    +
                     +#define COMBA_START
+                    +
                     +#define CLEAR_CARRY \
                     +   c0 = c1 = c2 = 0;
+                    +
                     +#define COMBA_STORE(x) \
                     +   x = c0;
+                    +
                     +#define COMBA_STORE2(x) \
                     +   x = c1;
+                    +
                     +#define CARRY_FORWARD \
                     +   do { c0 = c1; c1 = c2; c2 = 0; } while (0);
+                    +
                     +#define COMBA_FINI
+                    +
                     +/* multiplies point i and j, updates carry "c1" and digit c2 */
                     +#define SQRADD(i, j)                                             \
                     +asm(                                                             \
                     +"  UMULL  r0,r1,%6,%6              \n\t"                         \
                     +"  ADDS   %0,%0,r0                 \n\t"                         \
                     +"  ADCS   %1,%1,r1                 \n\t"                         \
                     +"  ADC    %2,%2,#0                 \n\t"                         \
                     +:"=r"(c0), "=r"(c1), "=r"(c2) : "0"(c0), "1"(c1), "2"(c2), "r"(i) : "r0", "r1", "%cc");
+                    +
                     +/* for squaring some of the terms are doubled... */
                     +#define SQRADD2(i, j)                                            \
                     +asm(                                                             \
                     +"  UMULL  r0,r1,%6,%7              \n\t"                         \
                     +"  ADDS   %0,%0,r0                 \n\t"                         \
                     +"  ADCS   %1,%1,r1                 \n\t"                         \
                     +"  ADC    %2,%2,#0                 \n\t"                         \
                     +"  ADDS   %0,%0,r0                 \n\t"                         \
                     +"  ADCS   %1,%1,r1                 \n\t"                         \
                     +"  ADC    %2,%2,#0                 \n\t"                         \
                     +:"=r"(c0), "=r"(c1), "=r"(c2) : "0"(c0), "1"(c1), "2"(c2), "r"(i), "r"(j) : "r0", "r1", "%cc");
+                    +
                     +#define SQRADDSC(i, j)                                           \
                     +asm(                                                             \
                     +"  UMULL  %0,%1,%6,%7              \n\t"                         \
                     +"  SUB    %2,%2,%2                 \n\t"                         \
                     +:"=r"(sc0), "=r"(sc1), "=r"(sc2) : "0"(sc0), "1"(sc1), "2"(sc2), "r"(i), "r"(j) : "%cc");
+                    +
                     +#define SQRADDAC(i, j)                                           \
                     +asm(                                                             \
                     +"  UMULL  r0,r1,%6,%7              \n\t"                         \
                     +"  ADDS   %0,%0,r0                 \n\t"                         \
                     +"  ADCS   %1,%1,r1                 \n\t"                         \
                     +"  ADC    %2,%2,#0                 \n\t"                         \
                     +:"=r"(sc0), "=r"(sc1), "=r"(sc2) : "0"(sc0), "1"(sc1), "2"(sc2), "r"(i), "r"(j) : "r0", "r1", "%cc");
+                    +
                     +#define SQRADDDB                                                 \
                     +asm(                                                             \
                     +"  ADDS  %0,%0,%3                     \n\t"                      \
                     +"  ADCS  %1,%1,%4                     \n\t"                      \
                     +"  ADC   %2,%2,%5                     \n\t"                      \
                     +"  ADDS  %0,%0,%3                     \n\t"                      \
                     +"  ADCS  %1,%1,%4                     \n\t"                      \
                     +"  ADC   %2,%2,%5                     \n\t"                      \
                     +:"=r"(c0), "=r"(c1), "=r"(c2) : "r"(sc0), "r"(sc1), "r"(sc2), "0"(c0), "1"(c1), "2"(c2) : "%cc");
+                    +
                     +#elif defined(TFM_PPC32)
+                    +
                     +/* PPC32 */
+                    +
                     +#define COMBA_START
+                    +
                     +#define CLEAR_CARRY \
                     +   c0 = c1 = c2 = 0;
+                    +
                     +#define COMBA_STORE(x) \
                     +   x = c0;
+                    +
                     +#define COMBA_STORE2(x) \
                     +   x = c1;
+                    +
                     +#define CARRY_FORWARD \
                     +   do { c0 = c1; c1 = c2; c2 = 0; } while (0);
+                    +
                     +#define COMBA_FINI
+                    +
                     +/* multiplies point i and j, updates carry "c1" and digit c2 */
                     +#define SQRADD(i, j)             \
                     +asm(                             \
                     +   " mullw  16,%6,%6       \n\t" \
                     +   " addc   %0,%0,16       \n\t" \
                     +   " mulhwu 16,%6,%6       \n\t" \
                     +   " adde   %1,%1,16       \n\t" \
                     +   " addze  %2,%2          \n\t" \
                     +:"=r"(c0), "=r"(c1), "=r"(c2):"0"(c0), "1"(c1), "2"(c2), "r"(i):"16","%cc");
+                    +
                     +/* for squaring some of the terms are doubled... */
                     +#define SQRADD2(i, j)            \
                     +asm(                             \
                     +   " mullw  16,%6,%7       \n\t" \
                     +   " mulhwu 17,%6,%7       \n\t" \
                     +   " addc   %0,%0,16       \n\t" \
                     +   " adde   %1,%1,17       \n\t" \
                     +   " addze  %2,%2          \n\t" \
                     +   " addc   %0,%0,16       \n\t" \
                     +   " adde   %1,%1,17       \n\t" \
                     +   " addze  %2,%2          \n\t" \
                     +:"=r"(c0), "=r"(c1), "=r"(c2):"0"(c0), "1"(c1), "2"(c2), "r"(i), "r"(j):"16", "17","%cc");
+                    +
                     +#define SQRADDSC(i, j)            \
                     +asm(                              \
                     +   " mullw  %0,%6,%7        \n\t" \
                     +   " mulhwu %1,%6,%7        \n\t" \
                     +   " xor    %2,%2,%2        \n\t" \
                     +:"=r"(sc0), "=r"(sc1), "=r"(sc2):"0"(sc0), "1"(sc1), "2"(sc2), "r"(i),"r"(j) : "%cc");
+                    +
                     +#define SQRADDAC(i, j)           \
                     +asm(                             \
                     +   " mullw  16,%6,%7       \n\t" \
                     +   " addc   %0,%0,16       \n\t" \
                     +   " mulhwu 16,%6,%7       \n\t" \
                     +   " adde   %1,%1,16       \n\t" \
                     +   " addze  %2,%2          \n\t" \
                     +:"=r"(sc0), "=r"(sc1), "=r"(sc2):"0"(sc0), "1"(sc1), "2"(sc2), "r"(i), "r"(j):"16", "%cc");
+                    +
                     +#define SQRADDDB                  \
                     +asm(                              \
                     +   " addc   %0,%0,%3        \n\t" \
                     +   " adde   %1,%1,%4        \n\t" \
                     +   " adde   %2,%2,%5        \n\t" \
                     +   " addc   %0,%0,%3        \n\t" \
                     +   " adde   %1,%1,%4        \n\t" \
                     +   " adde   %2,%2,%5        \n\t" \
                     +:"=r"(c0), "=r"(c1), "=r"(c2) : "r"(sc0), "r"(sc1), "r"(sc2), "0"(c0), "1"(c1), "2"(c2) : "%cc");
+                    +
                     +#elif defined(TFM_PPC64)
                     +/* PPC64 */
+                    +
                     +#define COMBA_START
+                    +
                     +#define CLEAR_CARRY \
                     +   c0 = c1 = c2 = 0;
+                    +
                     +#define COMBA_STORE(x) \
                     +   x = c0;
+                    +
                     +#define COMBA_STORE2(x) \
                     +   x = c1;
+                    +
                     +#define CARRY_FORWARD \
                     +   do { c0 = c1; c1 = c2; c2 = 0; } while (0);
+                    +
                     +#define COMBA_FINI
+                    +
                     +/* multiplies point i and j, updates carry "c1" and digit c2 */
                     +#define SQRADD(i, j)             \
                     +asm(                             \
                     +   " mulld  r16,%6,%6       \n\t" \
                     +   " addc   %0,%0,r16       \n\t" \
                     +   " mulhdu r16,%6,%6       \n\t" \
                     +   " adde   %1,%1,r16       \n\t" \
                     +   " addze  %2,%2          \n\t" \
                     +:"=r"(c0), "=r"(c1), "=r"(c2):"0"(c0), "1"(c1), "2"(c2), "r"(i):"r16","%cc");
+                    +
                     +/* for squaring some of the terms are doubled... */
                     +#define SQRADD2(i, j)            \
                     +asm(                             \
                     +   " mulld  r16,%6,%7       \n\t" \
                     +   " mulhdu r17,%6,%7       \n\t" \
                     +   " addc   %0,%0,r16       \n\t" \
                     +   " adde   %1,%1,r17       \n\t" \
                     +   " addze  %2,%2          \n\t" \
                     +   " addc   %0,%0,r16       \n\t" \
                     +   " adde   %1,%1,r17       \n\t" \
                     +   " addze  %2,%2          \n\t" \
                     +:"=r"(c0), "=r"(c1), "=r"(c2):"0"(c0), "1"(c1), "2"(c2), "r"(i), "r"(j):"r16", "r17","%cc");
+                    +
                     +#define SQRADDSC(i, j)            \
                     +asm(                              \
                     +   " mulld  %0,%6,%7        \n\t" \
                     +   " mulhdu %1,%6,%7        \n\t" \
                     +   " xor    %2,%2,%2        \n\t" \
                     +:"=r"(sc0), "=r"(sc1), "=r"(sc2):"0"(sc0), "1"(sc1), "2"(sc2), "r"(i),"r"(j) : "%cc");
+                    +
                     +#define SQRADDAC(i, j)           \
                     +asm(                             \
                     +   " mulld  r16,%6,%7       \n\t" \
                     +   " addc   %0,%0,r16       \n\t" \
                     +   " mulhdu r16,%6,%7       \n\t" \
                     +   " adde   %1,%1,r16       \n\t" \
                     +   " addze  %2,%2          \n\t" \
                     +:"=r"(sc0), "=r"(sc1), "=r"(sc2):"0"(sc0), "1"(sc1), "2"(sc2), "r"(i), "r"(j):"r16", "%cc");
+                    +
                     +#define SQRADDDB                  \
                     +asm(                              \
                     +   " addc   %0,%0,%3        \n\t" \
                     +   " adde   %1,%1,%4        \n\t" \
                     +   " adde   %2,%2,%5        \n\t" \
                     +   " addc   %0,%0,%3        \n\t" \
                     +   " adde   %1,%1,%4        \n\t" \
                     +   " adde   %2,%2,%5        \n\t" \
                     +:"=r"(c0), "=r"(c1), "=r"(c2) : "r"(sc0), "r"(sc1), "r"(sc2), "0"(c0), "1"(c1), "2"(c2) : "%cc");
+                    +
+                    +
                     +#elif defined(TFM_AVR32)
+                    +
                     +/* AVR32 */
+                    +
                     +#define COMBA_START
+                    +
                     +#define CLEAR_CARRY \
                     +   c0 = c1 = c2 = 0;
+                    +
                     +#define COMBA_STORE(x) \
                     +   x = c0;
+                    +
                     +#define COMBA_STORE2(x) \
                     +   x = c1;
+                    +
                     +#define CARRY_FORWARD \
                     +   do { c0 = c1; c1 = c2; c2 = 0; } while (0);
+                    +
                     +#define COMBA_FINI
+                    +
                     +/* multiplies point i and j, updates carry "c1" and digit c2 */
                     +#define SQRADD(i, j)             \
                     +asm(                             \
                     +   " mulu.d r2,%6,%6       \n\t" \
                     +   " add    %0,%0,r2       \n\t" \
                     +   " adc    %1,%1,r3       \n\t" \
                     +   " acr    %2             \n\t" \
                     +:"=r"(c0), "=r"(c1), "=r"(c2):"0"(c0), "1"(c1), "2"(c2), "r"(i):"r2","r3");
+                    +
                     +/* for squaring some of the terms are doubled... */
                     +#define SQRADD2(i, j)            \
                     +asm(                             \
                     +   " mulu.d r2,%6,%7       \n\t" \
                     +   " add    %0,%0,r2       \n\t" \
                     +   " adc    %1,%1,r3       \n\t" \
                     +   " acr    %2,            \n\t" \
                     +   " add    %0,%0,r2       \n\t" \
                     +   " adc    %1,%1,r3       \n\t" \
                     +   " acr    %2,            \n\t" \
                     +:"=r"(c0), "=r"(c1), "=r"(c2):"0"(c0), "1"(c1), "2"(c2), "r"(i), "r"(j):"r2", "r3");
+                    +
                     +#define SQRADDSC(i, j)            \
                     +asm(                              \
                     +   " mulu.d r2,%6,%7        \n\t" \
                     +   " mov    %0,r2           \n\t" \
                     +   " mov    %1,r3           \n\t" \
                     +   " eor    %2,%2           \n\t" \
                     +:"=r"(sc0), "=r"(sc1), "=r"(sc2):"0"(sc0), "1"(sc1), "2"(sc2), "r"(i),"r"(j) : "r2", "r3");
+                    +
                     +#define SQRADDAC(i, j)           \
                     +asm(                             \
                     +   " mulu.d r2,%6,%7       \n\t" \
                     +   " add    %0,%0,r2       \n\t" \
                     +   " adc    %1,%1,r3       \n\t" \
                     +   " acr    %2             \n\t" \
                     +:"=r"(sc0), "=r"(sc1), "=r"(sc2):"0"(sc0), "1"(sc1), "2"(sc2), "r"(i), "r"(j):"r2", "r3");
+                    +
                     +#define SQRADDDB                  \
                     +asm(                              \
                     +   " add    %0,%0,%3        \n\t" \
                     +   " adc    %1,%1,%4        \n\t" \
                     +   " adc    %2,%2,%5        \n\t" \
                     +   " add    %0,%0,%3        \n\t" \
                     +   " adc    %1,%1,%4        \n\t" \
                     +   " adc    %2,%2,%5        \n\t" \
                     +:"=r"(c0), "=r"(c1), "=r"(c2) : "r"(sc0), "r"(sc1), "r"(sc2), "0"(c0), "1"(c1), "2"(c2) : "%cc");
+                    +
                     +#elif defined(TFM_MIPS)
+                    +
                     +/* MIPS */
+                    +
                     +#define COMBA_START
+                    +
                     +#define CLEAR_CARRY \
                     +   c0 = c1 = c2 = 0;
+                    +
                     +#define COMBA_STORE(x) \
                     +   x = c0;
+                    +
                     +#define COMBA_STORE2(x) \
                     +   x = c1;
+                    +
                     +#define CARRY_FORWARD \
                     +   do { c0 = c1; c1 = c2; c2 = 0; } while (0);
+                    +
                     +#define COMBA_FINI
+                    +
                     +/* multiplies point i and j, updates carry "c1" and digit c2 */
                     +#define SQRADD(i, j)              \
                     +asm(                              \
                     +   " multu  %6,%6          \n\t"  \
                     +   " mflo   $12            \n\t"  \
                     +   " mfhi   $13            \n\t"  \
                     +   " addu    %0,%0,$12     \n\t"  \
                     +   " sltu   $12,%0,$12     \n\t"  \
                     +   " addu    %1,%1,$13     \n\t"  \
                     +   " sltu   $13,%1,$13     \n\t"  \
                     +   " addu    %1,%1,$12     \n\t"  \
                     +   " sltu   $12,%1,$12     \n\t"  \
                     +   " addu    %2,%2,$13     \n\t"  \
                     +   " addu    %2,%2,$12     \n\t"  \
                     +:"=r"(c0), "=r"(c1), "=r"(c2):"0"(c0), "1"(c1), "2"(c2), "r"(i):"$12","$13");
+                    +
                     +/* for squaring some of the terms are doubled... */
                     +#define SQRADD2(i, j)            \
                     +asm(                             \
                     +   " multu  %6,%7          \n\t" \
                     +   " mflo   $12            \n\t" \
                     +   " mfhi   $13            \n\t" \
                     +                                 \
                     +   " addu    %0,%0,$12     \n\t" \
                     +   " sltu   $14,%0,$12     \n\t" \
                     +   " addu    %1,%1,$13     \n\t" \
                     +   " sltu   $15,%1,$13     \n\t" \
                     +   " addu    %1,%1,$14     \n\t" \
                     +   " sltu   $14,%1,$14     \n\t" \
                     +   " addu    %2,%2,$15     \n\t" \
                     +   " addu    %2,%2,$14     \n\t" \
                     +                                 \
                     +   " addu    %0,%0,$12     \n\t" \
                     +   " sltu   $14,%0,$12     \n\t" \
                     +   " addu    %1,%1,$13     \n\t" \
                     +   " sltu   $15,%1,$13     \n\t" \
                     +   " addu    %1,%1,$14     \n\t" \
                     +   " sltu   $14,%1,$14     \n\t" \
                     +   " addu    %2,%2,$15     \n\t" \
                     +   " addu    %2,%2,$14     \n\t" \
                     +:"=r"(c0), "=r"(c1), "=r"(c2):"0"(c0), "1"(c1), "2"(c2), "r"(i), "r"(j):"$12", "$13", "$14", "$15");
+                    +
                     +#define SQRADDSC(i, j)            \
                     +asm(                              \
                     +   " multu  %6,%7          \n\t"  \
                     +   " mflo   %0             \n\t"  \
                     +   " mfhi   %1             \n\t"  \
                     +   " xor    %2,%2,%2       \n\t"  \
                     +:"=r"(sc0), "=r"(sc1), "=r"(sc2):"0"(sc0), "1"(sc1), "2"(sc2), "r"(i),"r"(j) : "%cc");
+                    +
                     +#define SQRADDAC(i, j)           \
                     +asm(                             \
                     +   " multu  %6,%7          \n\t" \
                     +   " mflo   $12            \n\t" \
                     +   " mfhi   $13            \n\t" \
                     +   " addu    %0,%0,$12     \n\t" \
                     +   " sltu   $12,%0,$12     \n\t" \
                     +   " addu    %1,%1,$13     \n\t" \
                     +   " sltu   $13,%1,$13     \n\t" \
                     +   " addu    %1,%1,$12     \n\t" \
                     +   " sltu   $12,%1,$12     \n\t" \
                     +   " addu    %2,%2,$13     \n\t" \
                     +   " addu    %2,%2,$12     \n\t" \
                     +:"=r"(sc0), "=r"(sc1), "=r"(sc2):"0"(sc0), "1"(sc1), "2"(sc2), "r"(i), "r"(j):"$12", "$13", "$14");
+                    +
                     +#define SQRADDDB                  \
                     +asm(                              \
                     +   " addu    %0,%0,%3       \n\t" \
                     +   " sltu   $10,%0,%3       \n\t" \
                     +   " addu    %1,%1,$10      \n\t" \
                     +   " sltu   $10,%1,$10      \n\t" \
                     +   " addu    %1,%1,%4       \n\t" \
                     +   " sltu   $11,%1,%4       \n\t" \
                     +   " addu    %2,%2,$10      \n\t" \
                     +   " addu    %2,%2,$11      \n\t" \
                     +   " addu    %2,%2,%5       \n\t" \
                     +                                  \
                     +   " addu    %0,%0,%3       \n\t" \
                     +   " sltu   $10,%0,%3       \n\t" \
                     +   " addu    %1,%1,$10      \n\t" \
                     +   " sltu   $10,%1,$10      \n\t" \
                     +   " addu    %1,%1,%4       \n\t" \
                     +   " sltu   $11,%1,%4       \n\t" \
                     +   " addu    %2,%2,$10      \n\t" \
                     +   " addu    %2,%2,$11      \n\t" \
                     +   " addu    %2,%2,%5       \n\t" \
                     +:"=r"(c0), "=r"(c1), "=r"(c2) : "r"(sc0), "r"(sc1), "r"(sc2), "0"(c0), "1"(c1), "2"(c2) : "$10", "$11");
+                    +
                     +#else
+                    +
                     +#define TFM_ISO
+                    +
                     +/* ISO C portable code */
+                    +
                     +#define COMBA_START
+                    +
                     +#define CLEAR_CARRY \
                     +   c0 = c1 = c2 = 0;
+                    +
                     +#define COMBA_STORE(x) \
                     +   x = c0;
+                    +
                     +#define COMBA_STORE2(x) \
                     +   x = c1;
+                    +
                     +#define CARRY_FORWARD \
                     +   do { c0 = c1; c1 = c2; c2 = 0; } while (0);
+                    +
                     +#define COMBA_FINI
+                    +
                     +/* multiplies point i and j, updates carry "c1" and digit c2 */
                     +#define SQRADD(i, j)                                 \
                     +   do { fp_word t;                                   \
                     +   t = c0 + ((fp_word)i) * ((fp_word)j);  c0 = t;    \
                     +   t = c1 + (t >> DIGIT_BIT);             c1 = t; c2 += t >> DIGIT_BIT; \
                     +   } while (0);
+                    +
+                    +
                     +/* for squaring some of the terms are doubled... */
                     +#define SQRADD2(i, j)                                                 \
                     +   do { fp_word t;                                                    \
                     +   t  = ((fp_word)i) * ((fp_word)j);                                  \
                     +   tt = (fp_word)c0 + t;                 c0 = tt;                              \
                     +   tt = (fp_word)c1 + (tt >> DIGIT_BIT); c1 = tt; c2 += tt >> DIGIT_BIT;       \
                     +   tt = (fp_word)c0 + t;                 c0 = tt;                              \
                     +   tt = (fp_word)c1 + (tt >> DIGIT_BIT); c1 = tt; c2 += tt >> DIGIT_BIT;       \
                     +   } while (0);
+                    +
                     +#define SQRADDSC(i, j)                                                         \
                     +   do { fp_word t;                                                             \
                     +      t =  ((fp_word)i) * ((fp_word)j);                                        \
                     +      sc0 = (fp_digit)t; sc1 = (t >> DIGIT_BIT); sc2 = 0;                      \
                     +   } while (0);
+                    +
                     +#define SQRADDAC(i, j)                                                         \
                     +   do { fp_word t;                                                             \
                     +   t = sc0 + ((fp_word)i) * ((fp_word)j);  sc0 = t;                            \
                     +   t = sc1 + (t >> DIGIT_BIT);             sc1 = t; sc2 += t >> DIGIT_BIT;     \
                     +   } while (0);
+                    +
                     +#define SQRADDDB                                                               \
                     +   do { fp_word t;                                                             \
                     +   t = ((fp_word)sc0) + ((fp_word)sc0) + c0; c0 = t;                                                 \
                     +   t = ((fp_word)sc1) + ((fp_word)sc1) + c1 + (t >> DIGIT_BIT); c1 = t;                              \
                     +   c2 = c2 + ((fp_word)sc2) + ((fp_word)sc2) + (t >> DIGIT_BIT);                                     \
                     +   } while (0);
+                    +
                     +#endif
+                    +
                     +/* $Source: /cvs/libtom/tomsfastmath/src/sqr/fp_sqr_comba.c,v $ */
                     +/* $Revision: 1.4 $ */
                     +/* $Date: 2007/03/14 23:47:42 $ */