x86/crypto/sha1_ssse3_asm.S

*4882a593Smuzhiyun/* SPDX-License-Identifier: GPL-2.0-or-later */
*4882a593Smuzhiyun/*
*4882a593Smuzhiyun * This is a SIMD SHA-1 implementation. It requires the Intel(R) Supplemental
*4882a593Smuzhiyun * SSE3 instruction set extensions introduced in Intel Core Microarchitecture
*4882a593Smuzhiyun * processors. CPUs supporting Intel(R) AVX extensions will get an additional
*4882a593Smuzhiyun * boost.
*4882a593Smuzhiyun *
*4882a593Smuzhiyun * This work was inspired by the vectorized implementation of Dean Gaudet.
*4882a593Smuzhiyun * Additional information on it can be found at:
*4882a593Smuzhiyun *    http://www.arctic.org/~dean/crypto/sha1.html
*4882a593Smuzhiyun *
*4882a593Smuzhiyun * It was improved upon with more efficient vectorization of the message
*4882a593Smuzhiyun * scheduling. This implementation has also been optimized for all current and
*4882a593Smuzhiyun * several future generations of Intel CPUs.
*4882a593Smuzhiyun *
*4882a593Smuzhiyun * See this article for more information about the implementation details:
*4882a593Smuzhiyun *   http://software.intel.com/en-us/articles/improving-the-performance-of-the-secure-hash-algorithm-1/
*4882a593Smuzhiyun *
*4882a593Smuzhiyun * Copyright (C) 2010, Intel Corp.
*4882a593Smuzhiyun *   Authors: Maxim Locktyukhin <maxim.locktyukhin@intel.com>
*4882a593Smuzhiyun *            Ronen Zohar <ronen.zohar@intel.com>
*4882a593Smuzhiyun *
*4882a593Smuzhiyun * Converted to AT&T syntax and adapted for inclusion in the Linux kernel:
*4882a593Smuzhiyun *   Author: Mathias Krause <minipli@googlemail.com>
*4882a593Smuzhiyun */
*4882a593Smuzhiyun
*4882a593Smuzhiyun#include <linux/linkage.h>
*4882a593Smuzhiyun
*4882a593Smuzhiyun#define CTX	%rdi	// arg1
*4882a593Smuzhiyun#define BUF	%rsi	// arg2
*4882a593Smuzhiyun#define CNT	%rdx	// arg3
*4882a593Smuzhiyun
*4882a593Smuzhiyun#define REG_A	%ecx
*4882a593Smuzhiyun#define REG_B	%esi
*4882a593Smuzhiyun#define REG_C	%edi
*4882a593Smuzhiyun#define REG_D	%r12d
*4882a593Smuzhiyun#define REG_E	%edx
*4882a593Smuzhiyun
*4882a593Smuzhiyun#define REG_T1	%eax
*4882a593Smuzhiyun#define REG_T2	%ebx
*4882a593Smuzhiyun
*4882a593Smuzhiyun#define K_BASE		%r8
*4882a593Smuzhiyun#define HASH_PTR	%r9
*4882a593Smuzhiyun#define BUFFER_PTR	%r10
*4882a593Smuzhiyun#define BUFFER_END	%r11
*4882a593Smuzhiyun
*4882a593Smuzhiyun#define W_TMP1	%xmm0
*4882a593Smuzhiyun#define W_TMP2	%xmm9
*4882a593Smuzhiyun
*4882a593Smuzhiyun#define W0	%xmm1
*4882a593Smuzhiyun#define W4	%xmm2
*4882a593Smuzhiyun#define W8	%xmm3
*4882a593Smuzhiyun#define W12	%xmm4
*4882a593Smuzhiyun#define W16	%xmm5
*4882a593Smuzhiyun#define W20	%xmm6
*4882a593Smuzhiyun#define W24	%xmm7
*4882a593Smuzhiyun#define W28	%xmm8
*4882a593Smuzhiyun
*4882a593Smuzhiyun#define XMM_SHUFB_BSWAP	%xmm10
*4882a593Smuzhiyun
*4882a593Smuzhiyun/* we keep window of 64 w[i]+K pre-calculated values in a circular buffer */
*4882a593Smuzhiyun#define WK(t)	(((t) & 15) * 4)(%rsp)
*4882a593Smuzhiyun#define W_PRECALC_AHEAD	16
*4882a593Smuzhiyun
*4882a593Smuzhiyun/*
*4882a593Smuzhiyun * This macro implements the SHA-1 function's body for single 64-byte block
*4882a593Smuzhiyun * param: function's name
*4882a593Smuzhiyun */
*4882a593Smuzhiyun.macro SHA1_VECTOR_ASM  name
*4882a593Smuzhiyun	SYM_FUNC_START(\name)
*4882a593Smuzhiyun
*4882a593Smuzhiyun	push	%rbx
*4882a593Smuzhiyun	push	%r12
*4882a593Smuzhiyun	push	%rbp
*4882a593Smuzhiyun	mov	%rsp, %rbp
*4882a593Smuzhiyun
*4882a593Smuzhiyun	sub	$64, %rsp		# allocate workspace
*4882a593Smuzhiyun	and	$~15, %rsp		# align stack
*4882a593Smuzhiyun
*4882a593Smuzhiyun	mov	CTX, HASH_PTR
*4882a593Smuzhiyun	mov	BUF, BUFFER_PTR
*4882a593Smuzhiyun
*4882a593Smuzhiyun	shl	$6, CNT			# multiply by 64
*4882a593Smuzhiyun	add	BUF, CNT
*4882a593Smuzhiyun	mov	CNT, BUFFER_END
*4882a593Smuzhiyun
*4882a593Smuzhiyun	lea	K_XMM_AR(%rip), K_BASE
*4882a593Smuzhiyun	xmm_mov	BSWAP_SHUFB_CTL(%rip), XMM_SHUFB_BSWAP
*4882a593Smuzhiyun
*4882a593Smuzhiyun	SHA1_PIPELINED_MAIN_BODY
*4882a593Smuzhiyun
*4882a593Smuzhiyun	# cleanup workspace
*4882a593Smuzhiyun	mov	$8, %ecx
*4882a593Smuzhiyun	mov	%rsp, %rdi
*4882a593Smuzhiyun	xor	%eax, %eax
*4882a593Smuzhiyun	rep stosq
*4882a593Smuzhiyun
*4882a593Smuzhiyun	mov	%rbp, %rsp		# deallocate workspace
*4882a593Smuzhiyun	pop	%rbp
*4882a593Smuzhiyun	pop	%r12
*4882a593Smuzhiyun	pop	%rbx
*4882a593Smuzhiyun	RET
*4882a593Smuzhiyun
*4882a593Smuzhiyun	SYM_FUNC_END(\name)
*4882a593Smuzhiyun.endm
*4882a593Smuzhiyun
*4882a593Smuzhiyun/*
*4882a593Smuzhiyun * This macro implements 80 rounds of SHA-1 for one 64-byte block
*4882a593Smuzhiyun */
*4882a593Smuzhiyun.macro SHA1_PIPELINED_MAIN_BODY
*4882a593Smuzhiyun	INIT_REGALLOC
*4882a593Smuzhiyun
*4882a593Smuzhiyun	mov	  (HASH_PTR), A
*4882a593Smuzhiyun	mov	 4(HASH_PTR), B
*4882a593Smuzhiyun	mov	 8(HASH_PTR), C
*4882a593Smuzhiyun	mov	12(HASH_PTR), D
*4882a593Smuzhiyun	mov	16(HASH_PTR), E
*4882a593Smuzhiyun
*4882a593Smuzhiyun  .set i, 0
*4882a593Smuzhiyun  .rept W_PRECALC_AHEAD
*4882a593Smuzhiyun	W_PRECALC i
*4882a593Smuzhiyun    .set i, (i+1)
*4882a593Smuzhiyun  .endr
*4882a593Smuzhiyun
*4882a593Smuzhiyun.align 4
*4882a593Smuzhiyun1:
*4882a593Smuzhiyun	RR F1,A,B,C,D,E,0
*4882a593Smuzhiyun	RR F1,D,E,A,B,C,2
*4882a593Smuzhiyun	RR F1,B,C,D,E,A,4
*4882a593Smuzhiyun	RR F1,E,A,B,C,D,6
*4882a593Smuzhiyun	RR F1,C,D,E,A,B,8
*4882a593Smuzhiyun
*4882a593Smuzhiyun	RR F1,A,B,C,D,E,10
*4882a593Smuzhiyun	RR F1,D,E,A,B,C,12
*4882a593Smuzhiyun	RR F1,B,C,D,E,A,14
*4882a593Smuzhiyun	RR F1,E,A,B,C,D,16
*4882a593Smuzhiyun	RR F1,C,D,E,A,B,18
*4882a593Smuzhiyun
*4882a593Smuzhiyun	RR F2,A,B,C,D,E,20
*4882a593Smuzhiyun	RR F2,D,E,A,B,C,22
*4882a593Smuzhiyun	RR F2,B,C,D,E,A,24
*4882a593Smuzhiyun	RR F2,E,A,B,C,D,26
*4882a593Smuzhiyun	RR F2,C,D,E,A,B,28
*4882a593Smuzhiyun
*4882a593Smuzhiyun	RR F2,A,B,C,D,E,30
*4882a593Smuzhiyun	RR F2,D,E,A,B,C,32
*4882a593Smuzhiyun	RR F2,B,C,D,E,A,34
*4882a593Smuzhiyun	RR F2,E,A,B,C,D,36
*4882a593Smuzhiyun	RR F2,C,D,E,A,B,38
*4882a593Smuzhiyun
*4882a593Smuzhiyun	RR F3,A,B,C,D,E,40
*4882a593Smuzhiyun	RR F3,D,E,A,B,C,42
*4882a593Smuzhiyun	RR F3,B,C,D,E,A,44
*4882a593Smuzhiyun	RR F3,E,A,B,C,D,46
*4882a593Smuzhiyun	RR F3,C,D,E,A,B,48
*4882a593Smuzhiyun
*4882a593Smuzhiyun	RR F3,A,B,C,D,E,50
*4882a593Smuzhiyun	RR F3,D,E,A,B,C,52
*4882a593Smuzhiyun	RR F3,B,C,D,E,A,54
*4882a593Smuzhiyun	RR F3,E,A,B,C,D,56
*4882a593Smuzhiyun	RR F3,C,D,E,A,B,58
*4882a593Smuzhiyun
*4882a593Smuzhiyun	add	$64, BUFFER_PTR		# move to the next 64-byte block
*4882a593Smuzhiyun	cmp	BUFFER_END, BUFFER_PTR	# if the current is the last one use
*4882a593Smuzhiyun	cmovae	K_BASE, BUFFER_PTR	# dummy source to avoid buffer overrun
*4882a593Smuzhiyun
*4882a593Smuzhiyun	RR F4,A,B,C,D,E,60
*4882a593Smuzhiyun	RR F4,D,E,A,B,C,62
*4882a593Smuzhiyun	RR F4,B,C,D,E,A,64
*4882a593Smuzhiyun	RR F4,E,A,B,C,D,66
*4882a593Smuzhiyun	RR F4,C,D,E,A,B,68
*4882a593Smuzhiyun
*4882a593Smuzhiyun	RR F4,A,B,C,D,E,70
*4882a593Smuzhiyun	RR F4,D,E,A,B,C,72
*4882a593Smuzhiyun	RR F4,B,C,D,E,A,74
*4882a593Smuzhiyun	RR F4,E,A,B,C,D,76
*4882a593Smuzhiyun	RR F4,C,D,E,A,B,78
*4882a593Smuzhiyun
*4882a593Smuzhiyun	UPDATE_HASH   (HASH_PTR), A
*4882a593Smuzhiyun	UPDATE_HASH  4(HASH_PTR), B
*4882a593Smuzhiyun	UPDATE_HASH  8(HASH_PTR), C
*4882a593Smuzhiyun	UPDATE_HASH 12(HASH_PTR), D
*4882a593Smuzhiyun	UPDATE_HASH 16(HASH_PTR), E
*4882a593Smuzhiyun
*4882a593Smuzhiyun	RESTORE_RENAMED_REGS
*4882a593Smuzhiyun	cmp	K_BASE, BUFFER_PTR	# K_BASE means, we reached the end
*4882a593Smuzhiyun	jne	1b
*4882a593Smuzhiyun.endm
*4882a593Smuzhiyun
*4882a593Smuzhiyun.macro INIT_REGALLOC
*4882a593Smuzhiyun  .set A, REG_A
*4882a593Smuzhiyun  .set B, REG_B
*4882a593Smuzhiyun  .set C, REG_C
*4882a593Smuzhiyun  .set D, REG_D
*4882a593Smuzhiyun  .set E, REG_E
*4882a593Smuzhiyun  .set T1, REG_T1
*4882a593Smuzhiyun  .set T2, REG_T2
*4882a593Smuzhiyun.endm
*4882a593Smuzhiyun
*4882a593Smuzhiyun.macro RESTORE_RENAMED_REGS
*4882a593Smuzhiyun	# order is important (REG_C is where it should be)
*4882a593Smuzhiyun	mov	B, REG_B
*4882a593Smuzhiyun	mov	D, REG_D
*4882a593Smuzhiyun	mov	A, REG_A
*4882a593Smuzhiyun	mov	E, REG_E
*4882a593Smuzhiyun.endm
*4882a593Smuzhiyun
*4882a593Smuzhiyun.macro SWAP_REG_NAMES  a, b
*4882a593Smuzhiyun  .set _T, \a
*4882a593Smuzhiyun  .set \a, \b
*4882a593Smuzhiyun  .set \b, _T
*4882a593Smuzhiyun.endm
*4882a593Smuzhiyun
*4882a593Smuzhiyun.macro F1  b, c, d
*4882a593Smuzhiyun	mov	\c, T1
*4882a593Smuzhiyun	SWAP_REG_NAMES \c, T1
*4882a593Smuzhiyun	xor	\d, T1
*4882a593Smuzhiyun	and	\b, T1
*4882a593Smuzhiyun	xor	\d, T1
*4882a593Smuzhiyun.endm
*4882a593Smuzhiyun
*4882a593Smuzhiyun.macro F2  b, c, d
*4882a593Smuzhiyun	mov	\d, T1
*4882a593Smuzhiyun	SWAP_REG_NAMES \d, T1
*4882a593Smuzhiyun	xor	\c, T1
*4882a593Smuzhiyun	xor	\b, T1
*4882a593Smuzhiyun.endm
*4882a593Smuzhiyun
*4882a593Smuzhiyun.macro F3  b, c ,d
*4882a593Smuzhiyun	mov	\c, T1
*4882a593Smuzhiyun	SWAP_REG_NAMES \c, T1
*4882a593Smuzhiyun	mov	\b, T2
*4882a593Smuzhiyun	or	\b, T1
*4882a593Smuzhiyun	and	\c, T2
*4882a593Smuzhiyun	and	\d, T1
*4882a593Smuzhiyun	or	T2, T1
*4882a593Smuzhiyun.endm
*4882a593Smuzhiyun
*4882a593Smuzhiyun.macro F4  b, c, d
*4882a593Smuzhiyun	F2 \b, \c, \d
*4882a593Smuzhiyun.endm
*4882a593Smuzhiyun
*4882a593Smuzhiyun.macro UPDATE_HASH  hash, val
*4882a593Smuzhiyun	add	\hash, \val
*4882a593Smuzhiyun	mov	\val, \hash
*4882a593Smuzhiyun.endm
*4882a593Smuzhiyun
*4882a593Smuzhiyun/*
*4882a593Smuzhiyun * RR does two rounds of SHA-1 back to back with W[] pre-calc
*4882a593Smuzhiyun *   t1 = F(b, c, d);   e += w(i)
*4882a593Smuzhiyun *   e += t1;           b <<= 30;   d  += w(i+1);
*4882a593Smuzhiyun *   t1 = F(a, b, c);
*4882a593Smuzhiyun *   d += t1;           a <<= 5;
*4882a593Smuzhiyun *   e += a;
*4882a593Smuzhiyun *   t1 = e;            a >>= 7;
*4882a593Smuzhiyun *   t1 <<= 5;
*4882a593Smuzhiyun *   d += t1;
*4882a593Smuzhiyun */
*4882a593Smuzhiyun.macro RR  F, a, b, c, d, e, round
*4882a593Smuzhiyun	add	WK(\round), \e
*4882a593Smuzhiyun	\F   \b, \c, \d		# t1 = F(b, c, d);
*4882a593Smuzhiyun	W_PRECALC (\round + W_PRECALC_AHEAD)
*4882a593Smuzhiyun	rol	$30, \b
*4882a593Smuzhiyun	add	T1, \e
*4882a593Smuzhiyun	add	WK(\round + 1), \d
*4882a593Smuzhiyun
*4882a593Smuzhiyun	\F   \a, \b, \c
*4882a593Smuzhiyun	W_PRECALC (\round + W_PRECALC_AHEAD + 1)
*4882a593Smuzhiyun	rol	$5, \a
*4882a593Smuzhiyun	add	\a, \e
*4882a593Smuzhiyun	add	T1, \d
*4882a593Smuzhiyun	ror	$7, \a		# (a <<r 5) >>r 7) => a <<r 30)
*4882a593Smuzhiyun
*4882a593Smuzhiyun	mov	\e, T1
*4882a593Smuzhiyun	SWAP_REG_NAMES \e, T1
*4882a593Smuzhiyun
*4882a593Smuzhiyun	rol	$5, T1
*4882a593Smuzhiyun	add	T1, \d
*4882a593Smuzhiyun
*4882a593Smuzhiyun	# write:  \a, \b
*4882a593Smuzhiyun	# rotate: \a<=\d, \b<=\e, \c<=\a, \d<=\b, \e<=\c
*4882a593Smuzhiyun.endm
*4882a593Smuzhiyun
*4882a593Smuzhiyun.macro W_PRECALC  r
*4882a593Smuzhiyun  .set i, \r
*4882a593Smuzhiyun
*4882a593Smuzhiyun  .if (i < 20)
*4882a593Smuzhiyun    .set K_XMM, 0
*4882a593Smuzhiyun  .elseif (i < 40)
*4882a593Smuzhiyun    .set K_XMM, 16
*4882a593Smuzhiyun  .elseif (i < 60)
*4882a593Smuzhiyun    .set K_XMM, 32
*4882a593Smuzhiyun  .elseif (i < 80)
*4882a593Smuzhiyun    .set K_XMM, 48
*4882a593Smuzhiyun  .endif
*4882a593Smuzhiyun
*4882a593Smuzhiyun  .if ((i < 16) || ((i >= 80) && (i < (80 + W_PRECALC_AHEAD))))
*4882a593Smuzhiyun    .set i, ((\r) % 80)	    # pre-compute for the next iteration
*4882a593Smuzhiyun    .if (i == 0)
*4882a593Smuzhiyun	W_PRECALC_RESET
*4882a593Smuzhiyun    .endif
*4882a593Smuzhiyun	W_PRECALC_00_15
*4882a593Smuzhiyun  .elseif (i<32)
*4882a593Smuzhiyun	W_PRECALC_16_31
*4882a593Smuzhiyun  .elseif (i < 80)   // rounds 32-79
*4882a593Smuzhiyun	W_PRECALC_32_79
*4882a593Smuzhiyun  .endif
*4882a593Smuzhiyun.endm
*4882a593Smuzhiyun
*4882a593Smuzhiyun.macro W_PRECALC_RESET
*4882a593Smuzhiyun  .set W,          W0
*4882a593Smuzhiyun  .set W_minus_04, W4
*4882a593Smuzhiyun  .set W_minus_08, W8
*4882a593Smuzhiyun  .set W_minus_12, W12
*4882a593Smuzhiyun  .set W_minus_16, W16
*4882a593Smuzhiyun  .set W_minus_20, W20
*4882a593Smuzhiyun  .set W_minus_24, W24
*4882a593Smuzhiyun  .set W_minus_28, W28
*4882a593Smuzhiyun  .set W_minus_32, W
*4882a593Smuzhiyun.endm
*4882a593Smuzhiyun
*4882a593Smuzhiyun.macro W_PRECALC_ROTATE
*4882a593Smuzhiyun  .set W_minus_32, W_minus_28
*4882a593Smuzhiyun  .set W_minus_28, W_minus_24
*4882a593Smuzhiyun  .set W_minus_24, W_minus_20
*4882a593Smuzhiyun  .set W_minus_20, W_minus_16
*4882a593Smuzhiyun  .set W_minus_16, W_minus_12
*4882a593Smuzhiyun  .set W_minus_12, W_minus_08
*4882a593Smuzhiyun  .set W_minus_08, W_minus_04
*4882a593Smuzhiyun  .set W_minus_04, W
*4882a593Smuzhiyun  .set W,          W_minus_32
*4882a593Smuzhiyun.endm
*4882a593Smuzhiyun
*4882a593Smuzhiyun.macro W_PRECALC_SSSE3
*4882a593Smuzhiyun
*4882a593Smuzhiyun.macro W_PRECALC_00_15
*4882a593Smuzhiyun	W_PRECALC_00_15_SSSE3
*4882a593Smuzhiyun.endm
*4882a593Smuzhiyun.macro W_PRECALC_16_31
*4882a593Smuzhiyun	W_PRECALC_16_31_SSSE3
*4882a593Smuzhiyun.endm
*4882a593Smuzhiyun.macro W_PRECALC_32_79
*4882a593Smuzhiyun	W_PRECALC_32_79_SSSE3
*4882a593Smuzhiyun.endm
*4882a593Smuzhiyun
*4882a593Smuzhiyun/* message scheduling pre-compute for rounds 0-15 */
*4882a593Smuzhiyun.macro W_PRECALC_00_15_SSSE3
*4882a593Smuzhiyun  .if ((i & 3) == 0)
*4882a593Smuzhiyun	movdqu	(i*4)(BUFFER_PTR), W_TMP1
*4882a593Smuzhiyun  .elseif ((i & 3) == 1)
*4882a593Smuzhiyun	pshufb	XMM_SHUFB_BSWAP, W_TMP1
*4882a593Smuzhiyun	movdqa	W_TMP1, W
*4882a593Smuzhiyun  .elseif ((i & 3) == 2)
*4882a593Smuzhiyun	paddd	(K_BASE), W_TMP1
*4882a593Smuzhiyun  .elseif ((i & 3) == 3)
*4882a593Smuzhiyun	movdqa  W_TMP1, WK(i&~3)
*4882a593Smuzhiyun	W_PRECALC_ROTATE
*4882a593Smuzhiyun  .endif
*4882a593Smuzhiyun.endm
*4882a593Smuzhiyun
*4882a593Smuzhiyun/* message scheduling pre-compute for rounds 16-31
*4882a593Smuzhiyun *
*4882a593Smuzhiyun * - calculating last 32 w[i] values in 8 XMM registers
*4882a593Smuzhiyun * - pre-calculate K+w[i] values and store to mem, for later load by ALU add
*4882a593Smuzhiyun *   instruction
*4882a593Smuzhiyun *
*4882a593Smuzhiyun * some "heavy-lifting" vectorization for rounds 16-31 due to w[i]->w[i-3]
*4882a593Smuzhiyun * dependency, but improves for 32-79
*4882a593Smuzhiyun */
*4882a593Smuzhiyun.macro W_PRECALC_16_31_SSSE3
*4882a593Smuzhiyun  # blended scheduling of vector and scalar instruction streams, one 4-wide
*4882a593Smuzhiyun  # vector iteration / 4 scalar rounds
*4882a593Smuzhiyun  .if ((i & 3) == 0)
*4882a593Smuzhiyun	movdqa	W_minus_12, W
*4882a593Smuzhiyun	palignr	$8, W_minus_16, W	# w[i-14]
*4882a593Smuzhiyun	movdqa	W_minus_04, W_TMP1
*4882a593Smuzhiyun	psrldq	$4, W_TMP1		# w[i-3]
*4882a593Smuzhiyun	pxor	W_minus_08, W
*4882a593Smuzhiyun  .elseif ((i & 3) == 1)
*4882a593Smuzhiyun	pxor	W_minus_16, W_TMP1
*4882a593Smuzhiyun	pxor	W_TMP1, W
*4882a593Smuzhiyun	movdqa	W, W_TMP2
*4882a593Smuzhiyun	movdqa	W, W_TMP1
*4882a593Smuzhiyun	pslldq	$12, W_TMP2
*4882a593Smuzhiyun  .elseif ((i & 3) == 2)
*4882a593Smuzhiyun	psrld	$31, W
*4882a593Smuzhiyun	pslld	$1, W_TMP1
*4882a593Smuzhiyun	por	W, W_TMP1
*4882a593Smuzhiyun	movdqa	W_TMP2, W
*4882a593Smuzhiyun	psrld	$30, W_TMP2
*4882a593Smuzhiyun	pslld	$2, W
*4882a593Smuzhiyun  .elseif ((i & 3) == 3)
*4882a593Smuzhiyun	pxor	W, W_TMP1
*4882a593Smuzhiyun	pxor	W_TMP2, W_TMP1
*4882a593Smuzhiyun	movdqa	W_TMP1, W
*4882a593Smuzhiyun	paddd	K_XMM(K_BASE), W_TMP1
*4882a593Smuzhiyun	movdqa	W_TMP1, WK(i&~3)
*4882a593Smuzhiyun	W_PRECALC_ROTATE
*4882a593Smuzhiyun  .endif
*4882a593Smuzhiyun.endm
*4882a593Smuzhiyun
*4882a593Smuzhiyun/* message scheduling pre-compute for rounds 32-79
*4882a593Smuzhiyun *
*4882a593Smuzhiyun * in SHA-1 specification: w[i] = (w[i-3] ^ w[i-8]  ^ w[i-14] ^ w[i-16]) rol 1
*4882a593Smuzhiyun * instead we do equal:    w[i] = (w[i-6] ^ w[i-16] ^ w[i-28] ^ w[i-32]) rol 2
*4882a593Smuzhiyun * allows more efficient vectorization since w[i]=>w[i-3] dependency is broken
*4882a593Smuzhiyun */
*4882a593Smuzhiyun.macro W_PRECALC_32_79_SSSE3
*4882a593Smuzhiyun  .if ((i & 3) == 0)
*4882a593Smuzhiyun	movdqa	W_minus_04, W_TMP1
*4882a593Smuzhiyun	pxor	W_minus_28, W		# W is W_minus_32 before xor
*4882a593Smuzhiyun	palignr	$8, W_minus_08, W_TMP1
*4882a593Smuzhiyun  .elseif ((i & 3) == 1)
*4882a593Smuzhiyun	pxor	W_minus_16, W
*4882a593Smuzhiyun	pxor	W_TMP1, W
*4882a593Smuzhiyun	movdqa	W, W_TMP1
*4882a593Smuzhiyun  .elseif ((i & 3) == 2)
*4882a593Smuzhiyun	psrld	$30, W
*4882a593Smuzhiyun	pslld	$2, W_TMP1
*4882a593Smuzhiyun	por	W, W_TMP1
*4882a593Smuzhiyun  .elseif ((i & 3) == 3)
*4882a593Smuzhiyun	movdqa	W_TMP1, W
*4882a593Smuzhiyun	paddd	K_XMM(K_BASE), W_TMP1
*4882a593Smuzhiyun	movdqa	W_TMP1, WK(i&~3)
*4882a593Smuzhiyun	W_PRECALC_ROTATE
*4882a593Smuzhiyun  .endif
*4882a593Smuzhiyun.endm
*4882a593Smuzhiyun
*4882a593Smuzhiyun.endm		// W_PRECALC_SSSE3
*4882a593Smuzhiyun
*4882a593Smuzhiyun
*4882a593Smuzhiyun#define K1	0x5a827999
*4882a593Smuzhiyun#define K2	0x6ed9eba1
*4882a593Smuzhiyun#define K3	0x8f1bbcdc
*4882a593Smuzhiyun#define K4	0xca62c1d6
*4882a593Smuzhiyun
*4882a593Smuzhiyun.section .rodata
*4882a593Smuzhiyun.align 16
*4882a593Smuzhiyun
*4882a593SmuzhiyunK_XMM_AR:
*4882a593Smuzhiyun	.long K1, K1, K1, K1
*4882a593Smuzhiyun	.long K2, K2, K2, K2
*4882a593Smuzhiyun	.long K3, K3, K3, K3
*4882a593Smuzhiyun	.long K4, K4, K4, K4
*4882a593Smuzhiyun
*4882a593SmuzhiyunBSWAP_SHUFB_CTL:
*4882a593Smuzhiyun	.long 0x00010203
*4882a593Smuzhiyun	.long 0x04050607
*4882a593Smuzhiyun	.long 0x08090a0b
*4882a593Smuzhiyun	.long 0x0c0d0e0f
*4882a593Smuzhiyun
*4882a593Smuzhiyun
*4882a593Smuzhiyun.section .text
*4882a593Smuzhiyun
*4882a593SmuzhiyunW_PRECALC_SSSE3
*4882a593Smuzhiyun.macro xmm_mov a, b
*4882a593Smuzhiyun	movdqu	\a,\b
*4882a593Smuzhiyun.endm
*4882a593Smuzhiyun
*4882a593Smuzhiyun/*
*4882a593Smuzhiyun * SSSE3 optimized implementation:
*4882a593Smuzhiyun *
*4882a593Smuzhiyun * extern "C" void sha1_transform_ssse3(struct sha1_state *state,
*4882a593Smuzhiyun *					const u8 *data, int blocks);
*4882a593Smuzhiyun *
*4882a593Smuzhiyun * Note that struct sha1_state is assumed to begin with u32 state[5].
*4882a593Smuzhiyun */
*4882a593SmuzhiyunSHA1_VECTOR_ASM     sha1_transform_ssse3
*4882a593Smuzhiyun
*4882a593Smuzhiyun.macro W_PRECALC_AVX
*4882a593Smuzhiyun
*4882a593Smuzhiyun.purgem W_PRECALC_00_15
*4882a593Smuzhiyun.macro  W_PRECALC_00_15
*4882a593Smuzhiyun    W_PRECALC_00_15_AVX
*4882a593Smuzhiyun.endm
*4882a593Smuzhiyun.purgem W_PRECALC_16_31
*4882a593Smuzhiyun.macro  W_PRECALC_16_31
*4882a593Smuzhiyun    W_PRECALC_16_31_AVX
*4882a593Smuzhiyun.endm
*4882a593Smuzhiyun.purgem W_PRECALC_32_79
*4882a593Smuzhiyun.macro  W_PRECALC_32_79
*4882a593Smuzhiyun    W_PRECALC_32_79_AVX
*4882a593Smuzhiyun.endm
*4882a593Smuzhiyun
*4882a593Smuzhiyun.macro W_PRECALC_00_15_AVX
*4882a593Smuzhiyun  .if ((i & 3) == 0)
*4882a593Smuzhiyun	vmovdqu	(i*4)(BUFFER_PTR), W_TMP1
*4882a593Smuzhiyun  .elseif ((i & 3) == 1)
*4882a593Smuzhiyun	vpshufb	XMM_SHUFB_BSWAP, W_TMP1, W
*4882a593Smuzhiyun  .elseif ((i & 3) == 2)
*4882a593Smuzhiyun	vpaddd	(K_BASE), W, W_TMP1
*4882a593Smuzhiyun  .elseif ((i & 3) == 3)
*4882a593Smuzhiyun	vmovdqa	W_TMP1, WK(i&~3)
*4882a593Smuzhiyun	W_PRECALC_ROTATE
*4882a593Smuzhiyun  .endif
*4882a593Smuzhiyun.endm
*4882a593Smuzhiyun
*4882a593Smuzhiyun.macro W_PRECALC_16_31_AVX
*4882a593Smuzhiyun  .if ((i & 3) == 0)
*4882a593Smuzhiyun	vpalignr $8, W_minus_16, W_minus_12, W	# w[i-14]
*4882a593Smuzhiyun	vpsrldq	$4, W_minus_04, W_TMP1		# w[i-3]
*4882a593Smuzhiyun	vpxor	W_minus_08, W, W
*4882a593Smuzhiyun	vpxor	W_minus_16, W_TMP1, W_TMP1
*4882a593Smuzhiyun  .elseif ((i & 3) == 1)
*4882a593Smuzhiyun	vpxor	W_TMP1, W, W
*4882a593Smuzhiyun	vpslldq	$12, W, W_TMP2
*4882a593Smuzhiyun	vpslld	$1, W, W_TMP1
*4882a593Smuzhiyun  .elseif ((i & 3) == 2)
*4882a593Smuzhiyun	vpsrld	$31, W, W
*4882a593Smuzhiyun	vpor	W, W_TMP1, W_TMP1
*4882a593Smuzhiyun	vpslld	$2, W_TMP2, W
*4882a593Smuzhiyun	vpsrld	$30, W_TMP2, W_TMP2
*4882a593Smuzhiyun  .elseif ((i & 3) == 3)
*4882a593Smuzhiyun	vpxor	W, W_TMP1, W_TMP1
*4882a593Smuzhiyun	vpxor	W_TMP2, W_TMP1, W
*4882a593Smuzhiyun	vpaddd	K_XMM(K_BASE), W, W_TMP1
*4882a593Smuzhiyun	vmovdqu	W_TMP1, WK(i&~3)
*4882a593Smuzhiyun	W_PRECALC_ROTATE
*4882a593Smuzhiyun  .endif
*4882a593Smuzhiyun.endm
*4882a593Smuzhiyun
*4882a593Smuzhiyun.macro W_PRECALC_32_79_AVX
*4882a593Smuzhiyun  .if ((i & 3) == 0)
*4882a593Smuzhiyun	vpalignr $8, W_minus_08, W_minus_04, W_TMP1
*4882a593Smuzhiyun	vpxor	W_minus_28, W, W		# W is W_minus_32 before xor
*4882a593Smuzhiyun  .elseif ((i & 3) == 1)
*4882a593Smuzhiyun	vpxor	W_minus_16, W_TMP1, W_TMP1
*4882a593Smuzhiyun	vpxor	W_TMP1, W, W
*4882a593Smuzhiyun  .elseif ((i & 3) == 2)
*4882a593Smuzhiyun	vpslld	$2, W, W_TMP1
*4882a593Smuzhiyun	vpsrld	$30, W, W
*4882a593Smuzhiyun	vpor	W, W_TMP1, W
*4882a593Smuzhiyun  .elseif ((i & 3) == 3)
*4882a593Smuzhiyun	vpaddd	K_XMM(K_BASE), W, W_TMP1
*4882a593Smuzhiyun	vmovdqu	W_TMP1, WK(i&~3)
*4882a593Smuzhiyun	W_PRECALC_ROTATE
*4882a593Smuzhiyun  .endif
*4882a593Smuzhiyun.endm
*4882a593Smuzhiyun
*4882a593Smuzhiyun.endm    // W_PRECALC_AVX
*4882a593Smuzhiyun
*4882a593SmuzhiyunW_PRECALC_AVX
*4882a593Smuzhiyun.purgem xmm_mov
*4882a593Smuzhiyun.macro xmm_mov a, b
*4882a593Smuzhiyun	vmovdqu	\a,\b
*4882a593Smuzhiyun.endm
*4882a593Smuzhiyun
*4882a593Smuzhiyun
*4882a593Smuzhiyun/* AVX optimized implementation:
*4882a593Smuzhiyun *  extern "C" void sha1_transform_avx(struct sha1_state *state,
*4882a593Smuzhiyun *				       const u8 *data, int blocks);
*4882a593Smuzhiyun */
*4882a593SmuzhiyunSHA1_VECTOR_ASM     sha1_transform_avx