powerpc/lib/memcmp_64.S

*4882a593Smuzhiyun/* SPDX-License-Identifier: GPL-2.0-or-later */
*4882a593Smuzhiyun/*
*4882a593Smuzhiyun * Author: Anton Blanchard <anton@au.ibm.com>
*4882a593Smuzhiyun * Copyright 2015 IBM Corporation.
*4882a593Smuzhiyun */
*4882a593Smuzhiyun#include <asm/ppc_asm.h>
*4882a593Smuzhiyun#include <asm/export.h>
*4882a593Smuzhiyun#include <asm/ppc-opcode.h>
*4882a593Smuzhiyun
*4882a593Smuzhiyun#define off8	r6
*4882a593Smuzhiyun#define off16	r7
*4882a593Smuzhiyun#define off24	r8
*4882a593Smuzhiyun
*4882a593Smuzhiyun#define rA	r9
*4882a593Smuzhiyun#define rB	r10
*4882a593Smuzhiyun#define rC	r11
*4882a593Smuzhiyun#define rD	r27
*4882a593Smuzhiyun#define rE	r28
*4882a593Smuzhiyun#define rF	r29
*4882a593Smuzhiyun#define rG	r30
*4882a593Smuzhiyun#define rH	r31
*4882a593Smuzhiyun
*4882a593Smuzhiyun#ifdef __LITTLE_ENDIAN__
*4882a593Smuzhiyun#define LH	lhbrx
*4882a593Smuzhiyun#define LW	lwbrx
*4882a593Smuzhiyun#define LD	ldbrx
*4882a593Smuzhiyun#define LVS	lvsr
*4882a593Smuzhiyun#define VPERM(_VRT,_VRA,_VRB,_VRC) \
*4882a593Smuzhiyun	vperm _VRT,_VRB,_VRA,_VRC
*4882a593Smuzhiyun#else
*4882a593Smuzhiyun#define LH	lhzx
*4882a593Smuzhiyun#define LW	lwzx
*4882a593Smuzhiyun#define LD	ldx
*4882a593Smuzhiyun#define LVS	lvsl
*4882a593Smuzhiyun#define VPERM(_VRT,_VRA,_VRB,_VRC) \
*4882a593Smuzhiyun	vperm _VRT,_VRA,_VRB,_VRC
*4882a593Smuzhiyun#endif
*4882a593Smuzhiyun
*4882a593Smuzhiyun#define VMX_THRESH 4096
*4882a593Smuzhiyun#define ENTER_VMX_OPS	\
*4882a593Smuzhiyun	mflr    r0;	\
*4882a593Smuzhiyun	std     r3,-STACKFRAMESIZE+STK_REG(R31)(r1); \
*4882a593Smuzhiyun	std     r4,-STACKFRAMESIZE+STK_REG(R30)(r1); \
*4882a593Smuzhiyun	std     r5,-STACKFRAMESIZE+STK_REG(R29)(r1); \
*4882a593Smuzhiyun	std     r0,16(r1); \
*4882a593Smuzhiyun	stdu    r1,-STACKFRAMESIZE(r1); \
*4882a593Smuzhiyun	bl      enter_vmx_ops; \
*4882a593Smuzhiyun	cmpwi   cr1,r3,0; \
*4882a593Smuzhiyun	ld      r0,STACKFRAMESIZE+16(r1); \
*4882a593Smuzhiyun	ld      r3,STK_REG(R31)(r1); \
*4882a593Smuzhiyun	ld      r4,STK_REG(R30)(r1); \
*4882a593Smuzhiyun	ld      r5,STK_REG(R29)(r1); \
*4882a593Smuzhiyun	addi	r1,r1,STACKFRAMESIZE; \
*4882a593Smuzhiyun	mtlr    r0
*4882a593Smuzhiyun
*4882a593Smuzhiyun#define EXIT_VMX_OPS \
*4882a593Smuzhiyun	mflr    r0; \
*4882a593Smuzhiyun	std     r3,-STACKFRAMESIZE+STK_REG(R31)(r1); \
*4882a593Smuzhiyun	std     r4,-STACKFRAMESIZE+STK_REG(R30)(r1); \
*4882a593Smuzhiyun	std     r5,-STACKFRAMESIZE+STK_REG(R29)(r1); \
*4882a593Smuzhiyun	std     r0,16(r1); \
*4882a593Smuzhiyun	stdu    r1,-STACKFRAMESIZE(r1); \
*4882a593Smuzhiyun	bl      exit_vmx_ops; \
*4882a593Smuzhiyun	ld      r0,STACKFRAMESIZE+16(r1); \
*4882a593Smuzhiyun	ld      r3,STK_REG(R31)(r1); \
*4882a593Smuzhiyun	ld      r4,STK_REG(R30)(r1); \
*4882a593Smuzhiyun	ld      r5,STK_REG(R29)(r1); \
*4882a593Smuzhiyun	addi	r1,r1,STACKFRAMESIZE; \
*4882a593Smuzhiyun	mtlr    r0
*4882a593Smuzhiyun
*4882a593Smuzhiyun/*
*4882a593Smuzhiyun * LD_VSR_CROSS16B load the 2nd 16 bytes for _vaddr which is unaligned with
*4882a593Smuzhiyun * 16 bytes boundary and permute the result with the 1st 16 bytes.
*4882a593Smuzhiyun
*4882a593Smuzhiyun *    |  y y y y y y y y y y y y y 0 1 2 | 3 4 5 6 7 8 9 a b c d e f z z z |
*4882a593Smuzhiyun *    ^                                  ^                                 ^
*4882a593Smuzhiyun * 0xbbbb10                          0xbbbb20                          0xbbb30
*4882a593Smuzhiyun *                                 ^
*4882a593Smuzhiyun *                                _vaddr
*4882a593Smuzhiyun *
*4882a593Smuzhiyun *
*4882a593Smuzhiyun * _vmask is the mask generated by LVS
*4882a593Smuzhiyun * _v1st_qw is the 1st aligned QW of current addr which is already loaded.
*4882a593Smuzhiyun *   for example: 0xyyyyyyyyyyyyy012 for big endian
*4882a593Smuzhiyun * _v2nd_qw is the 2nd aligned QW of cur _vaddr to be loaded.
*4882a593Smuzhiyun *   for example: 0x3456789abcdefzzz for big endian
*4882a593Smuzhiyun * The permute result is saved in _v_res.
*4882a593Smuzhiyun *   for example: 0x0123456789abcdef for big endian.
*4882a593Smuzhiyun */
*4882a593Smuzhiyun#define LD_VSR_CROSS16B(_vaddr,_vmask,_v1st_qw,_v2nd_qw,_v_res) \
*4882a593Smuzhiyun        lvx     _v2nd_qw,_vaddr,off16; \
*4882a593Smuzhiyun        VPERM(_v_res,_v1st_qw,_v2nd_qw,_vmask)
*4882a593Smuzhiyun
*4882a593Smuzhiyun/*
*4882a593Smuzhiyun * There are 2 categories for memcmp:
*4882a593Smuzhiyun * 1) src/dst has the same offset to the 8 bytes boundary. The handlers
*4882a593Smuzhiyun * are named like .Lsameoffset_xxxx
*4882a593Smuzhiyun * 2) src/dst has different offset to the 8 bytes boundary. The handlers
*4882a593Smuzhiyun * are named like .Ldiffoffset_xxxx
*4882a593Smuzhiyun */
*4882a593Smuzhiyun_GLOBAL_TOC(memcmp)
*4882a593Smuzhiyun	cmpdi	cr1,r5,0
*4882a593Smuzhiyun
*4882a593Smuzhiyun	/* Use the short loop if the src/dst addresses are not
*4882a593Smuzhiyun	 * with the same offset of 8 bytes align boundary.
*4882a593Smuzhiyun	 */
*4882a593Smuzhiyun	xor	r6,r3,r4
*4882a593Smuzhiyun	andi.	r6,r6,7
*4882a593Smuzhiyun
*4882a593Smuzhiyun	/* Fall back to short loop if compare at aligned addrs
*4882a593Smuzhiyun	 * with less than 8 bytes.
*4882a593Smuzhiyun	 */
*4882a593Smuzhiyun	cmpdi   cr6,r5,7
*4882a593Smuzhiyun
*4882a593Smuzhiyun	beq	cr1,.Lzero
*4882a593Smuzhiyun	bgt	cr6,.Lno_short
*4882a593Smuzhiyun
*4882a593Smuzhiyun.Lshort:
*4882a593Smuzhiyun	mtctr	r5
*4882a593Smuzhiyun1:	lbz	rA,0(r3)
*4882a593Smuzhiyun	lbz	rB,0(r4)
*4882a593Smuzhiyun	subf.	rC,rB,rA
*4882a593Smuzhiyun	bne	.Lnon_zero
*4882a593Smuzhiyun	bdz	.Lzero
*4882a593Smuzhiyun
*4882a593Smuzhiyun	lbz	rA,1(r3)
*4882a593Smuzhiyun	lbz	rB,1(r4)
*4882a593Smuzhiyun	subf.	rC,rB,rA
*4882a593Smuzhiyun	bne	.Lnon_zero
*4882a593Smuzhiyun	bdz	.Lzero
*4882a593Smuzhiyun
*4882a593Smuzhiyun	lbz	rA,2(r3)
*4882a593Smuzhiyun	lbz	rB,2(r4)
*4882a593Smuzhiyun	subf.	rC,rB,rA
*4882a593Smuzhiyun	bne	.Lnon_zero
*4882a593Smuzhiyun	bdz	.Lzero
*4882a593Smuzhiyun
*4882a593Smuzhiyun	lbz	rA,3(r3)
*4882a593Smuzhiyun	lbz	rB,3(r4)
*4882a593Smuzhiyun	subf.	rC,rB,rA
*4882a593Smuzhiyun	bne	.Lnon_zero
*4882a593Smuzhiyun
*4882a593Smuzhiyun	addi	r3,r3,4
*4882a593Smuzhiyun	addi	r4,r4,4
*4882a593Smuzhiyun
*4882a593Smuzhiyun	bdnz	1b
*4882a593Smuzhiyun
*4882a593Smuzhiyun.Lzero:
*4882a593Smuzhiyun	li	r3,0
*4882a593Smuzhiyun	blr
*4882a593Smuzhiyun
*4882a593Smuzhiyun.Lno_short:
*4882a593Smuzhiyun	dcbt	0,r3
*4882a593Smuzhiyun	dcbt	0,r4
*4882a593Smuzhiyun	bne	.Ldiffoffset_8bytes_make_align_start
*4882a593Smuzhiyun
*4882a593Smuzhiyun
*4882a593Smuzhiyun.Lsameoffset_8bytes_make_align_start:
*4882a593Smuzhiyun	/* attempt to compare bytes not aligned with 8 bytes so that
*4882a593Smuzhiyun	 * rest comparison can run based on 8 bytes alignment.
*4882a593Smuzhiyun	 */
*4882a593Smuzhiyun	andi.   r6,r3,7
*4882a593Smuzhiyun
*4882a593Smuzhiyun	/* Try to compare the first double word which is not 8 bytes aligned:
*4882a593Smuzhiyun	 * load the first double word at (src & ~7UL) and shift left appropriate
*4882a593Smuzhiyun	 * bits before comparision.
*4882a593Smuzhiyun	 */
*4882a593Smuzhiyun	rlwinm  r6,r3,3,26,28
*4882a593Smuzhiyun	beq     .Lsameoffset_8bytes_aligned
*4882a593Smuzhiyun	clrrdi	r3,r3,3
*4882a593Smuzhiyun	clrrdi	r4,r4,3
*4882a593Smuzhiyun	LD	rA,0,r3
*4882a593Smuzhiyun	LD	rB,0,r4
*4882a593Smuzhiyun	sld	rA,rA,r6
*4882a593Smuzhiyun	sld	rB,rB,r6
*4882a593Smuzhiyun	cmpld	cr0,rA,rB
*4882a593Smuzhiyun	srwi	r6,r6,3
*4882a593Smuzhiyun	bne	cr0,.LcmpAB_lightweight
*4882a593Smuzhiyun	subfic  r6,r6,8
*4882a593Smuzhiyun	subf.	r5,r6,r5
*4882a593Smuzhiyun	addi	r3,r3,8
*4882a593Smuzhiyun	addi	r4,r4,8
*4882a593Smuzhiyun	beq	.Lzero
*4882a593Smuzhiyun
*4882a593Smuzhiyun.Lsameoffset_8bytes_aligned:
*4882a593Smuzhiyun	/* now we are aligned with 8 bytes.
*4882a593Smuzhiyun	 * Use .Llong loop if left cmp bytes are equal or greater than 32B.
*4882a593Smuzhiyun	 */
*4882a593Smuzhiyun	cmpdi   cr6,r5,31
*4882a593Smuzhiyun	bgt	cr6,.Llong
*4882a593Smuzhiyun
*4882a593Smuzhiyun.Lcmp_lt32bytes:
*4882a593Smuzhiyun	/* compare 1 ~ 31 bytes, at least r3 addr is 8 bytes aligned now */
*4882a593Smuzhiyun	cmpdi   cr5,r5,7
*4882a593Smuzhiyun	srdi    r0,r5,3
*4882a593Smuzhiyun	ble	cr5,.Lcmp_rest_lt8bytes
*4882a593Smuzhiyun
*4882a593Smuzhiyun	/* handle 8 ~ 31 bytes */
*4882a593Smuzhiyun	clrldi  r5,r5,61
*4882a593Smuzhiyun	mtctr   r0
*4882a593Smuzhiyun2:
*4882a593Smuzhiyun	LD	rA,0,r3
*4882a593Smuzhiyun	LD	rB,0,r4
*4882a593Smuzhiyun	cmpld	cr0,rA,rB
*4882a593Smuzhiyun	addi	r3,r3,8
*4882a593Smuzhiyun	addi	r4,r4,8
*4882a593Smuzhiyun	bne	cr0,.LcmpAB_lightweight
*4882a593Smuzhiyun	bdnz	2b
*4882a593Smuzhiyun
*4882a593Smuzhiyun	cmpwi   r5,0
*4882a593Smuzhiyun	beq	.Lzero
*4882a593Smuzhiyun
*4882a593Smuzhiyun.Lcmp_rest_lt8bytes:
*4882a593Smuzhiyun	/*
*4882a593Smuzhiyun	 * Here we have less than 8 bytes to compare. At least s1 is aligned to
*4882a593Smuzhiyun	 * 8 bytes, but s2 may not be. We must make sure s2 + 7 doesn't cross a
*4882a593Smuzhiyun	 * page boundary, otherwise we might read past the end of the buffer and
*4882a593Smuzhiyun	 * trigger a page fault. We use 4K as the conservative minimum page
*4882a593Smuzhiyun	 * size. If we detect that case we go to the byte-by-byte loop.
*4882a593Smuzhiyun	 *
*4882a593Smuzhiyun	 * Otherwise the next double word is loaded from s1 and s2, and shifted
*4882a593Smuzhiyun	 * right to compare the appropriate bits.
*4882a593Smuzhiyun	 */
*4882a593Smuzhiyun	clrldi	r6,r4,(64-12)	// r6 = r4 & 0xfff
*4882a593Smuzhiyun	cmpdi	r6,0xff8
*4882a593Smuzhiyun	bgt	.Lshort
*4882a593Smuzhiyun
*4882a593Smuzhiyun	subfic  r6,r5,8
*4882a593Smuzhiyun	slwi	r6,r6,3
*4882a593Smuzhiyun	LD	rA,0,r3
*4882a593Smuzhiyun	LD	rB,0,r4
*4882a593Smuzhiyun	srd	rA,rA,r6
*4882a593Smuzhiyun	srd	rB,rB,r6
*4882a593Smuzhiyun	cmpld	cr0,rA,rB
*4882a593Smuzhiyun	bne	cr0,.LcmpAB_lightweight
*4882a593Smuzhiyun	b	.Lzero
*4882a593Smuzhiyun
*4882a593Smuzhiyun.Lnon_zero:
*4882a593Smuzhiyun	mr	r3,rC
*4882a593Smuzhiyun	blr
*4882a593Smuzhiyun
*4882a593Smuzhiyun.Llong:
*4882a593Smuzhiyun#ifdef CONFIG_ALTIVEC
*4882a593SmuzhiyunBEGIN_FTR_SECTION
*4882a593Smuzhiyun	/* Try to use vmx loop if length is equal or greater than 4K */
*4882a593Smuzhiyun	cmpldi  cr6,r5,VMX_THRESH
*4882a593Smuzhiyun	bge	cr6,.Lsameoffset_vmx_cmp
*4882a593SmuzhiyunEND_FTR_SECTION_IFSET(CPU_FTR_ARCH_207S)
*4882a593Smuzhiyun
*4882a593Smuzhiyun.Llong_novmx_cmp:
*4882a593Smuzhiyun#endif
*4882a593Smuzhiyun	/* At least s1 addr is aligned with 8 bytes */
*4882a593Smuzhiyun	li	off8,8
*4882a593Smuzhiyun	li	off16,16
*4882a593Smuzhiyun	li	off24,24
*4882a593Smuzhiyun
*4882a593Smuzhiyun	std	r31,-8(r1)
*4882a593Smuzhiyun	std	r30,-16(r1)
*4882a593Smuzhiyun	std	r29,-24(r1)
*4882a593Smuzhiyun	std	r28,-32(r1)
*4882a593Smuzhiyun	std	r27,-40(r1)
*4882a593Smuzhiyun
*4882a593Smuzhiyun	srdi	r0,r5,5
*4882a593Smuzhiyun	mtctr	r0
*4882a593Smuzhiyun	andi.	r5,r5,31
*4882a593Smuzhiyun
*4882a593Smuzhiyun	LD	rA,0,r3
*4882a593Smuzhiyun	LD	rB,0,r4
*4882a593Smuzhiyun
*4882a593Smuzhiyun	LD	rC,off8,r3
*4882a593Smuzhiyun	LD	rD,off8,r4
*4882a593Smuzhiyun
*4882a593Smuzhiyun	LD	rE,off16,r3
*4882a593Smuzhiyun	LD	rF,off16,r4
*4882a593Smuzhiyun
*4882a593Smuzhiyun	LD	rG,off24,r3
*4882a593Smuzhiyun	LD	rH,off24,r4
*4882a593Smuzhiyun	cmpld	cr0,rA,rB
*4882a593Smuzhiyun
*4882a593Smuzhiyun	addi	r3,r3,32
*4882a593Smuzhiyun	addi	r4,r4,32
*4882a593Smuzhiyun
*4882a593Smuzhiyun	bdz	.Lfirst32
*4882a593Smuzhiyun
*4882a593Smuzhiyun	LD	rA,0,r3
*4882a593Smuzhiyun	LD	rB,0,r4
*4882a593Smuzhiyun	cmpld	cr1,rC,rD
*4882a593Smuzhiyun
*4882a593Smuzhiyun	LD	rC,off8,r3
*4882a593Smuzhiyun	LD	rD,off8,r4
*4882a593Smuzhiyun	cmpld	cr6,rE,rF
*4882a593Smuzhiyun
*4882a593Smuzhiyun	LD	rE,off16,r3
*4882a593Smuzhiyun	LD	rF,off16,r4
*4882a593Smuzhiyun	cmpld	cr7,rG,rH
*4882a593Smuzhiyun	bne	cr0,.LcmpAB
*4882a593Smuzhiyun
*4882a593Smuzhiyun	LD	rG,off24,r3
*4882a593Smuzhiyun	LD	rH,off24,r4
*4882a593Smuzhiyun	cmpld	cr0,rA,rB
*4882a593Smuzhiyun	bne	cr1,.LcmpCD
*4882a593Smuzhiyun
*4882a593Smuzhiyun	addi	r3,r3,32
*4882a593Smuzhiyun	addi	r4,r4,32
*4882a593Smuzhiyun
*4882a593Smuzhiyun	bdz	.Lsecond32
*4882a593Smuzhiyun
*4882a593Smuzhiyun	.balign	16
*4882a593Smuzhiyun
*4882a593Smuzhiyun1:	LD	rA,0,r3
*4882a593Smuzhiyun	LD	rB,0,r4
*4882a593Smuzhiyun	cmpld	cr1,rC,rD
*4882a593Smuzhiyun	bne	cr6,.LcmpEF
*4882a593Smuzhiyun
*4882a593Smuzhiyun	LD	rC,off8,r3
*4882a593Smuzhiyun	LD	rD,off8,r4
*4882a593Smuzhiyun	cmpld	cr6,rE,rF
*4882a593Smuzhiyun	bne	cr7,.LcmpGH
*4882a593Smuzhiyun
*4882a593Smuzhiyun	LD	rE,off16,r3
*4882a593Smuzhiyun	LD	rF,off16,r4
*4882a593Smuzhiyun	cmpld	cr7,rG,rH
*4882a593Smuzhiyun	bne	cr0,.LcmpAB
*4882a593Smuzhiyun
*4882a593Smuzhiyun	LD	rG,off24,r3
*4882a593Smuzhiyun	LD	rH,off24,r4
*4882a593Smuzhiyun	cmpld	cr0,rA,rB
*4882a593Smuzhiyun	bne	cr1,.LcmpCD
*4882a593Smuzhiyun
*4882a593Smuzhiyun	addi	r3,r3,32
*4882a593Smuzhiyun	addi	r4,r4,32
*4882a593Smuzhiyun
*4882a593Smuzhiyun	bdnz	1b
*4882a593Smuzhiyun
*4882a593Smuzhiyun.Lsecond32:
*4882a593Smuzhiyun	cmpld	cr1,rC,rD
*4882a593Smuzhiyun	bne	cr6,.LcmpEF
*4882a593Smuzhiyun
*4882a593Smuzhiyun	cmpld	cr6,rE,rF
*4882a593Smuzhiyun	bne	cr7,.LcmpGH
*4882a593Smuzhiyun
*4882a593Smuzhiyun	cmpld	cr7,rG,rH
*4882a593Smuzhiyun	bne	cr0,.LcmpAB
*4882a593Smuzhiyun
*4882a593Smuzhiyun	bne	cr1,.LcmpCD
*4882a593Smuzhiyun	bne	cr6,.LcmpEF
*4882a593Smuzhiyun	bne	cr7,.LcmpGH
*4882a593Smuzhiyun
*4882a593Smuzhiyun.Ltail:
*4882a593Smuzhiyun	ld	r31,-8(r1)
*4882a593Smuzhiyun	ld	r30,-16(r1)
*4882a593Smuzhiyun	ld	r29,-24(r1)
*4882a593Smuzhiyun	ld	r28,-32(r1)
*4882a593Smuzhiyun	ld	r27,-40(r1)
*4882a593Smuzhiyun
*4882a593Smuzhiyun	cmpdi	r5,0
*4882a593Smuzhiyun	beq	.Lzero
*4882a593Smuzhiyun	b	.Lshort
*4882a593Smuzhiyun
*4882a593Smuzhiyun.Lfirst32:
*4882a593Smuzhiyun	cmpld	cr1,rC,rD
*4882a593Smuzhiyun	cmpld	cr6,rE,rF
*4882a593Smuzhiyun	cmpld	cr7,rG,rH
*4882a593Smuzhiyun
*4882a593Smuzhiyun	bne	cr0,.LcmpAB
*4882a593Smuzhiyun	bne	cr1,.LcmpCD
*4882a593Smuzhiyun	bne	cr6,.LcmpEF
*4882a593Smuzhiyun	bne	cr7,.LcmpGH
*4882a593Smuzhiyun
*4882a593Smuzhiyun	b	.Ltail
*4882a593Smuzhiyun
*4882a593Smuzhiyun.LcmpAB:
*4882a593Smuzhiyun	li	r3,1
*4882a593Smuzhiyun	bgt	cr0,.Lout
*4882a593Smuzhiyun	li	r3,-1
*4882a593Smuzhiyun	b	.Lout
*4882a593Smuzhiyun
*4882a593Smuzhiyun.LcmpCD:
*4882a593Smuzhiyun	li	r3,1
*4882a593Smuzhiyun	bgt	cr1,.Lout
*4882a593Smuzhiyun	li	r3,-1
*4882a593Smuzhiyun	b	.Lout
*4882a593Smuzhiyun
*4882a593Smuzhiyun.LcmpEF:
*4882a593Smuzhiyun	li	r3,1
*4882a593Smuzhiyun	bgt	cr6,.Lout
*4882a593Smuzhiyun	li	r3,-1
*4882a593Smuzhiyun	b	.Lout
*4882a593Smuzhiyun
*4882a593Smuzhiyun.LcmpGH:
*4882a593Smuzhiyun	li	r3,1
*4882a593Smuzhiyun	bgt	cr7,.Lout
*4882a593Smuzhiyun	li	r3,-1
*4882a593Smuzhiyun
*4882a593Smuzhiyun.Lout:
*4882a593Smuzhiyun	ld	r31,-8(r1)
*4882a593Smuzhiyun	ld	r30,-16(r1)
*4882a593Smuzhiyun	ld	r29,-24(r1)
*4882a593Smuzhiyun	ld	r28,-32(r1)
*4882a593Smuzhiyun	ld	r27,-40(r1)
*4882a593Smuzhiyun	blr
*4882a593Smuzhiyun
*4882a593Smuzhiyun.LcmpAB_lightweight:   /* skip NV GPRS restore */
*4882a593Smuzhiyun	li	r3,1
*4882a593Smuzhiyun	bgtlr
*4882a593Smuzhiyun	li	r3,-1
*4882a593Smuzhiyun	blr
*4882a593Smuzhiyun
*4882a593Smuzhiyun#ifdef CONFIG_ALTIVEC
*4882a593Smuzhiyun.Lsameoffset_vmx_cmp:
*4882a593Smuzhiyun	/* Enter with src/dst addrs has the same offset with 8 bytes
*4882a593Smuzhiyun	 * align boundary.
*4882a593Smuzhiyun	 *
*4882a593Smuzhiyun	 * There is an optimization based on following fact: memcmp()
*4882a593Smuzhiyun	 * prones to fail early at the first 32 bytes.
*4882a593Smuzhiyun	 * Before applying VMX instructions which will lead to 32x128bits
*4882a593Smuzhiyun	 * VMX regs load/restore penalty, we compare the first 32 bytes
*4882a593Smuzhiyun	 * so that we can catch the ~80% fail cases.
*4882a593Smuzhiyun	 */
*4882a593Smuzhiyun
*4882a593Smuzhiyun	li	r0,4
*4882a593Smuzhiyun	mtctr	r0
*4882a593Smuzhiyun.Lsameoffset_prechk_32B_loop:
*4882a593Smuzhiyun	LD	rA,0,r3
*4882a593Smuzhiyun	LD	rB,0,r4
*4882a593Smuzhiyun	cmpld	cr0,rA,rB
*4882a593Smuzhiyun	addi	r3,r3,8
*4882a593Smuzhiyun	addi	r4,r4,8
*4882a593Smuzhiyun	bne     cr0,.LcmpAB_lightweight
*4882a593Smuzhiyun	addi	r5,r5,-8
*4882a593Smuzhiyun	bdnz	.Lsameoffset_prechk_32B_loop
*4882a593Smuzhiyun
*4882a593Smuzhiyun	ENTER_VMX_OPS
*4882a593Smuzhiyun	beq     cr1,.Llong_novmx_cmp
*4882a593Smuzhiyun
*4882a593Smuzhiyun3:
*4882a593Smuzhiyun	/* need to check whether r4 has the same offset with r3
*4882a593Smuzhiyun	 * for 16 bytes boundary.
*4882a593Smuzhiyun	 */
*4882a593Smuzhiyun	xor	r0,r3,r4
*4882a593Smuzhiyun	andi.	r0,r0,0xf
*4882a593Smuzhiyun	bne	.Ldiffoffset_vmx_cmp_start
*4882a593Smuzhiyun
*4882a593Smuzhiyun	/* len is no less than 4KB. Need to align with 16 bytes further.
*4882a593Smuzhiyun	 */
*4882a593Smuzhiyun	andi.	rA,r3,8
*4882a593Smuzhiyun	LD	rA,0,r3
*4882a593Smuzhiyun	beq	4f
*4882a593Smuzhiyun	LD	rB,0,r4
*4882a593Smuzhiyun	cmpld	cr0,rA,rB
*4882a593Smuzhiyun	addi	r3,r3,8
*4882a593Smuzhiyun	addi	r4,r4,8
*4882a593Smuzhiyun	addi	r5,r5,-8
*4882a593Smuzhiyun
*4882a593Smuzhiyun	beq	cr0,4f
*4882a593Smuzhiyun	/* save and restore cr0 */
*4882a593Smuzhiyun	mfocrf  r5,128
*4882a593Smuzhiyun	EXIT_VMX_OPS
*4882a593Smuzhiyun	mtocrf  128,r5
*4882a593Smuzhiyun	b	.LcmpAB_lightweight
*4882a593Smuzhiyun
*4882a593Smuzhiyun4:
*4882a593Smuzhiyun	/* compare 32 bytes for each loop */
*4882a593Smuzhiyun	srdi	r0,r5,5
*4882a593Smuzhiyun	mtctr	r0
*4882a593Smuzhiyun	clrldi  r5,r5,59
*4882a593Smuzhiyun	li	off16,16
*4882a593Smuzhiyun
*4882a593Smuzhiyun.balign 16
*4882a593Smuzhiyun5:
*4882a593Smuzhiyun	lvx 	v0,0,r3
*4882a593Smuzhiyun	lvx 	v1,0,r4
*4882a593Smuzhiyun	VCMPEQUD_RC(v0,v0,v1)
*4882a593Smuzhiyun	bnl	cr6,7f
*4882a593Smuzhiyun	lvx 	v0,off16,r3
*4882a593Smuzhiyun	lvx 	v1,off16,r4
*4882a593Smuzhiyun	VCMPEQUD_RC(v0,v0,v1)
*4882a593Smuzhiyun	bnl	cr6,6f
*4882a593Smuzhiyun	addi	r3,r3,32
*4882a593Smuzhiyun	addi	r4,r4,32
*4882a593Smuzhiyun	bdnz	5b
*4882a593Smuzhiyun
*4882a593Smuzhiyun	EXIT_VMX_OPS
*4882a593Smuzhiyun	cmpdi	r5,0
*4882a593Smuzhiyun	beq	.Lzero
*4882a593Smuzhiyun	b	.Lcmp_lt32bytes
*4882a593Smuzhiyun
*4882a593Smuzhiyun6:
*4882a593Smuzhiyun	addi	r3,r3,16
*4882a593Smuzhiyun	addi	r4,r4,16
*4882a593Smuzhiyun
*4882a593Smuzhiyun7:
*4882a593Smuzhiyun	/* diff the last 16 bytes */
*4882a593Smuzhiyun	EXIT_VMX_OPS
*4882a593Smuzhiyun	LD	rA,0,r3
*4882a593Smuzhiyun	LD	rB,0,r4
*4882a593Smuzhiyun	cmpld	cr0,rA,rB
*4882a593Smuzhiyun	li	off8,8
*4882a593Smuzhiyun	bne	cr0,.LcmpAB_lightweight
*4882a593Smuzhiyun
*4882a593Smuzhiyun	LD	rA,off8,r3
*4882a593Smuzhiyun	LD	rB,off8,r4
*4882a593Smuzhiyun	cmpld	cr0,rA,rB
*4882a593Smuzhiyun	bne	cr0,.LcmpAB_lightweight
*4882a593Smuzhiyun	b	.Lzero
*4882a593Smuzhiyun#endif
*4882a593Smuzhiyun
*4882a593Smuzhiyun.Ldiffoffset_8bytes_make_align_start:
*4882a593Smuzhiyun	/* now try to align s1 with 8 bytes */
*4882a593Smuzhiyun	rlwinm  r6,r3,3,26,28
*4882a593Smuzhiyun	beq     .Ldiffoffset_align_s1_8bytes
*4882a593Smuzhiyun
*4882a593Smuzhiyun	clrrdi	r3,r3,3
*4882a593Smuzhiyun	LD	rA,0,r3
*4882a593Smuzhiyun	LD	rB,0,r4  /* unaligned load */
*4882a593Smuzhiyun	sld	rA,rA,r6
*4882a593Smuzhiyun	srd	rA,rA,r6
*4882a593Smuzhiyun	srd	rB,rB,r6
*4882a593Smuzhiyun	cmpld	cr0,rA,rB
*4882a593Smuzhiyun	srwi	r6,r6,3
*4882a593Smuzhiyun	bne	cr0,.LcmpAB_lightweight
*4882a593Smuzhiyun
*4882a593Smuzhiyun	subfic  r6,r6,8
*4882a593Smuzhiyun	subf.	r5,r6,r5
*4882a593Smuzhiyun	addi	r3,r3,8
*4882a593Smuzhiyun	add	r4,r4,r6
*4882a593Smuzhiyun
*4882a593Smuzhiyun	beq	.Lzero
*4882a593Smuzhiyun
*4882a593Smuzhiyun.Ldiffoffset_align_s1_8bytes:
*4882a593Smuzhiyun	/* now s1 is aligned with 8 bytes. */
*4882a593Smuzhiyun#ifdef CONFIG_ALTIVEC
*4882a593SmuzhiyunBEGIN_FTR_SECTION
*4882a593Smuzhiyun	/* only do vmx ops when the size equal or greater than 4K bytes */
*4882a593Smuzhiyun	cmpdi	cr5,r5,VMX_THRESH
*4882a593Smuzhiyun	bge	cr5,.Ldiffoffset_vmx_cmp
*4882a593SmuzhiyunEND_FTR_SECTION_IFSET(CPU_FTR_ARCH_207S)
*4882a593Smuzhiyun
*4882a593Smuzhiyun.Ldiffoffset_novmx_cmp:
*4882a593Smuzhiyun#endif
*4882a593Smuzhiyun
*4882a593Smuzhiyun
*4882a593Smuzhiyun	cmpdi   cr5,r5,31
*4882a593Smuzhiyun	ble	cr5,.Lcmp_lt32bytes
*4882a593Smuzhiyun
*4882a593Smuzhiyun#ifdef CONFIG_ALTIVEC
*4882a593Smuzhiyun	b	.Llong_novmx_cmp
*4882a593Smuzhiyun#else
*4882a593Smuzhiyun	b	.Llong
*4882a593Smuzhiyun#endif
*4882a593Smuzhiyun
*4882a593Smuzhiyun#ifdef CONFIG_ALTIVEC
*4882a593Smuzhiyun.Ldiffoffset_vmx_cmp:
*4882a593Smuzhiyun	/* perform a 32 bytes pre-checking before
*4882a593Smuzhiyun	 * enable VMX operations.
*4882a593Smuzhiyun	 */
*4882a593Smuzhiyun	li	r0,4
*4882a593Smuzhiyun	mtctr	r0
*4882a593Smuzhiyun.Ldiffoffset_prechk_32B_loop:
*4882a593Smuzhiyun	LD	rA,0,r3
*4882a593Smuzhiyun	LD	rB,0,r4
*4882a593Smuzhiyun	cmpld	cr0,rA,rB
*4882a593Smuzhiyun	addi	r3,r3,8
*4882a593Smuzhiyun	addi	r4,r4,8
*4882a593Smuzhiyun	bne     cr0,.LcmpAB_lightweight
*4882a593Smuzhiyun	addi	r5,r5,-8
*4882a593Smuzhiyun	bdnz	.Ldiffoffset_prechk_32B_loop
*4882a593Smuzhiyun
*4882a593Smuzhiyun	ENTER_VMX_OPS
*4882a593Smuzhiyun	beq     cr1,.Ldiffoffset_novmx_cmp
*4882a593Smuzhiyun
*4882a593Smuzhiyun.Ldiffoffset_vmx_cmp_start:
*4882a593Smuzhiyun	/* Firstly try to align r3 with 16 bytes */
*4882a593Smuzhiyun	andi.   r6,r3,0xf
*4882a593Smuzhiyun	li	off16,16
*4882a593Smuzhiyun	beq     .Ldiffoffset_vmx_s1_16bytes_align
*4882a593Smuzhiyun
*4882a593Smuzhiyun	LVS	v3,0,r3
*4882a593Smuzhiyun	LVS	v4,0,r4
*4882a593Smuzhiyun
*4882a593Smuzhiyun	lvx     v5,0,r3
*4882a593Smuzhiyun	lvx     v6,0,r4
*4882a593Smuzhiyun	LD_VSR_CROSS16B(r3,v3,v5,v7,v9)
*4882a593Smuzhiyun	LD_VSR_CROSS16B(r4,v4,v6,v8,v10)
*4882a593Smuzhiyun
*4882a593Smuzhiyun	VCMPEQUB_RC(v7,v9,v10)
*4882a593Smuzhiyun	bnl	cr6,.Ldiffoffset_vmx_diff_found
*4882a593Smuzhiyun
*4882a593Smuzhiyun	subfic  r6,r6,16
*4882a593Smuzhiyun	subf    r5,r6,r5
*4882a593Smuzhiyun	add     r3,r3,r6
*4882a593Smuzhiyun	add     r4,r4,r6
*4882a593Smuzhiyun
*4882a593Smuzhiyun.Ldiffoffset_vmx_s1_16bytes_align:
*4882a593Smuzhiyun	/* now s1 is aligned with 16 bytes */
*4882a593Smuzhiyun	lvx     v6,0,r4
*4882a593Smuzhiyun	LVS	v4,0,r4
*4882a593Smuzhiyun	srdi	r6,r5,5  /* loop for 32 bytes each */
*4882a593Smuzhiyun	clrldi  r5,r5,59
*4882a593Smuzhiyun	mtctr	r6
*4882a593Smuzhiyun
*4882a593Smuzhiyun.balign	16
*4882a593Smuzhiyun.Ldiffoffset_vmx_32bytesloop:
*4882a593Smuzhiyun	/* the first qw of r4 was saved in v6 */
*4882a593Smuzhiyun	lvx	v9,0,r3
*4882a593Smuzhiyun	LD_VSR_CROSS16B(r4,v4,v6,v8,v10)
*4882a593Smuzhiyun	VCMPEQUB_RC(v7,v9,v10)
*4882a593Smuzhiyun	vor	v6,v8,v8
*4882a593Smuzhiyun	bnl	cr6,.Ldiffoffset_vmx_diff_found
*4882a593Smuzhiyun
*4882a593Smuzhiyun	addi	r3,r3,16
*4882a593Smuzhiyun	addi	r4,r4,16
*4882a593Smuzhiyun
*4882a593Smuzhiyun	lvx	v9,0,r3
*4882a593Smuzhiyun	LD_VSR_CROSS16B(r4,v4,v6,v8,v10)
*4882a593Smuzhiyun	VCMPEQUB_RC(v7,v9,v10)
*4882a593Smuzhiyun	vor	v6,v8,v8
*4882a593Smuzhiyun	bnl	cr6,.Ldiffoffset_vmx_diff_found
*4882a593Smuzhiyun
*4882a593Smuzhiyun	addi	r3,r3,16
*4882a593Smuzhiyun	addi	r4,r4,16
*4882a593Smuzhiyun
*4882a593Smuzhiyun	bdnz	.Ldiffoffset_vmx_32bytesloop
*4882a593Smuzhiyun
*4882a593Smuzhiyun	EXIT_VMX_OPS
*4882a593Smuzhiyun
*4882a593Smuzhiyun	cmpdi	r5,0
*4882a593Smuzhiyun	beq	.Lzero
*4882a593Smuzhiyun	b	.Lcmp_lt32bytes
*4882a593Smuzhiyun
*4882a593Smuzhiyun.Ldiffoffset_vmx_diff_found:
*4882a593Smuzhiyun	EXIT_VMX_OPS
*4882a593Smuzhiyun	/* anyway, the diff will appear in next 16 bytes */
*4882a593Smuzhiyun	li	r5,16
*4882a593Smuzhiyun	b	.Lcmp_lt32bytes
*4882a593Smuzhiyun
*4882a593Smuzhiyun#endif
*4882a593SmuzhiyunEXPORT_SYMBOL(memcmp)