powerpc/lib/checksum_64.S

*4882a593Smuzhiyun/* SPDX-License-Identifier: GPL-2.0-or-later */
*4882a593Smuzhiyun/*
*4882a593Smuzhiyun * This file contains assembly-language implementations
*4882a593Smuzhiyun * of IP-style 1's complement checksum routines.
*4882a593Smuzhiyun *
*4882a593Smuzhiyun *    Copyright (C) 1995-1996 Gary Thomas (gdt@linuxppc.org)
*4882a593Smuzhiyun *
*4882a593Smuzhiyun * Severely hacked about by Paul Mackerras (paulus@cs.anu.edu.au).
*4882a593Smuzhiyun */
*4882a593Smuzhiyun
*4882a593Smuzhiyun#include <linux/sys.h>
*4882a593Smuzhiyun#include <asm/processor.h>
*4882a593Smuzhiyun#include <asm/errno.h>
*4882a593Smuzhiyun#include <asm/ppc_asm.h>
*4882a593Smuzhiyun#include <asm/export.h>
*4882a593Smuzhiyun
*4882a593Smuzhiyun/*
*4882a593Smuzhiyun * Computes the checksum of a memory block at buff, length len,
*4882a593Smuzhiyun * and adds in "sum" (32-bit).
*4882a593Smuzhiyun *
*4882a593Smuzhiyun * __csum_partial(r3=buff, r4=len, r5=sum)
*4882a593Smuzhiyun */
*4882a593Smuzhiyun_GLOBAL(__csum_partial)
*4882a593Smuzhiyun	addic	r0,r5,0			/* clear carry */
*4882a593Smuzhiyun
*4882a593Smuzhiyun	srdi.	r6,r4,3			/* less than 8 bytes? */
*4882a593Smuzhiyun	beq	.Lcsum_tail_word
*4882a593Smuzhiyun
*4882a593Smuzhiyun	/*
*4882a593Smuzhiyun	 * If only halfword aligned, align to a double word. Since odd
*4882a593Smuzhiyun	 * aligned addresses should be rare and they would require more
*4882a593Smuzhiyun	 * work to calculate the correct checksum, we ignore that case
*4882a593Smuzhiyun	 * and take the potential slowdown of unaligned loads.
*4882a593Smuzhiyun	 */
*4882a593Smuzhiyun	rldicl. r6,r3,64-1,64-2		/* r6 = (r3 >> 1) & 0x3 */
*4882a593Smuzhiyun	beq	.Lcsum_aligned
*4882a593Smuzhiyun
*4882a593Smuzhiyun	li	r7,4
*4882a593Smuzhiyun	sub	r6,r7,r6
*4882a593Smuzhiyun	mtctr	r6
*4882a593Smuzhiyun
*4882a593Smuzhiyun1:
*4882a593Smuzhiyun	lhz	r6,0(r3)		/* align to doubleword */
*4882a593Smuzhiyun	subi	r4,r4,2
*4882a593Smuzhiyun	addi	r3,r3,2
*4882a593Smuzhiyun	adde	r0,r0,r6
*4882a593Smuzhiyun	bdnz	1b
*4882a593Smuzhiyun
*4882a593Smuzhiyun.Lcsum_aligned:
*4882a593Smuzhiyun	/*
*4882a593Smuzhiyun	 * We unroll the loop such that each iteration is 64 bytes with an
*4882a593Smuzhiyun	 * entry and exit limb of 64 bytes, meaning a minimum size of
*4882a593Smuzhiyun	 * 128 bytes.
*4882a593Smuzhiyun	 */
*4882a593Smuzhiyun	srdi.	r6,r4,7
*4882a593Smuzhiyun	beq	.Lcsum_tail_doublewords		/* len < 128 */
*4882a593Smuzhiyun
*4882a593Smuzhiyun	srdi	r6,r4,6
*4882a593Smuzhiyun	subi	r6,r6,1
*4882a593Smuzhiyun	mtctr	r6
*4882a593Smuzhiyun
*4882a593Smuzhiyun	stdu	r1,-STACKFRAMESIZE(r1)
*4882a593Smuzhiyun	std	r14,STK_REG(R14)(r1)
*4882a593Smuzhiyun	std	r15,STK_REG(R15)(r1)
*4882a593Smuzhiyun	std	r16,STK_REG(R16)(r1)
*4882a593Smuzhiyun
*4882a593Smuzhiyun	ld	r6,0(r3)
*4882a593Smuzhiyun	ld	r9,8(r3)
*4882a593Smuzhiyun
*4882a593Smuzhiyun	ld	r10,16(r3)
*4882a593Smuzhiyun	ld	r11,24(r3)
*4882a593Smuzhiyun
*4882a593Smuzhiyun	/*
*4882a593Smuzhiyun	 * On POWER6 and POWER7 back to back adde instructions take 2 cycles
*4882a593Smuzhiyun	 * because of the XER dependency. This means the fastest this loop can
*4882a593Smuzhiyun	 * go is 16 cycles per iteration. The scheduling of the loop below has
*4882a593Smuzhiyun	 * been shown to hit this on both POWER6 and POWER7.
*4882a593Smuzhiyun	 */
*4882a593Smuzhiyun	.align 5
*4882a593Smuzhiyun2:
*4882a593Smuzhiyun	adde	r0,r0,r6
*4882a593Smuzhiyun	ld	r12,32(r3)
*4882a593Smuzhiyun	ld	r14,40(r3)
*4882a593Smuzhiyun
*4882a593Smuzhiyun	adde	r0,r0,r9
*4882a593Smuzhiyun	ld	r15,48(r3)
*4882a593Smuzhiyun	ld	r16,56(r3)
*4882a593Smuzhiyun	addi	r3,r3,64
*4882a593Smuzhiyun
*4882a593Smuzhiyun	adde	r0,r0,r10
*4882a593Smuzhiyun
*4882a593Smuzhiyun	adde	r0,r0,r11
*4882a593Smuzhiyun
*4882a593Smuzhiyun	adde	r0,r0,r12
*4882a593Smuzhiyun
*4882a593Smuzhiyun	adde	r0,r0,r14
*4882a593Smuzhiyun
*4882a593Smuzhiyun	adde	r0,r0,r15
*4882a593Smuzhiyun	ld	r6,0(r3)
*4882a593Smuzhiyun	ld	r9,8(r3)
*4882a593Smuzhiyun
*4882a593Smuzhiyun	adde	r0,r0,r16
*4882a593Smuzhiyun	ld	r10,16(r3)
*4882a593Smuzhiyun	ld	r11,24(r3)
*4882a593Smuzhiyun	bdnz	2b
*4882a593Smuzhiyun
*4882a593Smuzhiyun
*4882a593Smuzhiyun	adde	r0,r0,r6
*4882a593Smuzhiyun	ld	r12,32(r3)
*4882a593Smuzhiyun	ld	r14,40(r3)
*4882a593Smuzhiyun
*4882a593Smuzhiyun	adde	r0,r0,r9
*4882a593Smuzhiyun	ld	r15,48(r3)
*4882a593Smuzhiyun	ld	r16,56(r3)
*4882a593Smuzhiyun	addi	r3,r3,64
*4882a593Smuzhiyun
*4882a593Smuzhiyun	adde	r0,r0,r10
*4882a593Smuzhiyun	adde	r0,r0,r11
*4882a593Smuzhiyun	adde	r0,r0,r12
*4882a593Smuzhiyun	adde	r0,r0,r14
*4882a593Smuzhiyun	adde	r0,r0,r15
*4882a593Smuzhiyun	adde	r0,r0,r16
*4882a593Smuzhiyun
*4882a593Smuzhiyun	ld	r14,STK_REG(R14)(r1)
*4882a593Smuzhiyun	ld	r15,STK_REG(R15)(r1)
*4882a593Smuzhiyun	ld	r16,STK_REG(R16)(r1)
*4882a593Smuzhiyun	addi	r1,r1,STACKFRAMESIZE
*4882a593Smuzhiyun
*4882a593Smuzhiyun	andi.	r4,r4,63
*4882a593Smuzhiyun
*4882a593Smuzhiyun.Lcsum_tail_doublewords:		/* Up to 127 bytes to go */
*4882a593Smuzhiyun	srdi.	r6,r4,3
*4882a593Smuzhiyun	beq	.Lcsum_tail_word
*4882a593Smuzhiyun
*4882a593Smuzhiyun	mtctr	r6
*4882a593Smuzhiyun3:
*4882a593Smuzhiyun	ld	r6,0(r3)
*4882a593Smuzhiyun	addi	r3,r3,8
*4882a593Smuzhiyun	adde	r0,r0,r6
*4882a593Smuzhiyun	bdnz	3b
*4882a593Smuzhiyun
*4882a593Smuzhiyun	andi.	r4,r4,7
*4882a593Smuzhiyun
*4882a593Smuzhiyun.Lcsum_tail_word:			/* Up to 7 bytes to go */
*4882a593Smuzhiyun	srdi.	r6,r4,2
*4882a593Smuzhiyun	beq	.Lcsum_tail_halfword
*4882a593Smuzhiyun
*4882a593Smuzhiyun	lwz	r6,0(r3)
*4882a593Smuzhiyun	addi	r3,r3,4
*4882a593Smuzhiyun	adde	r0,r0,r6
*4882a593Smuzhiyun	subi	r4,r4,4
*4882a593Smuzhiyun
*4882a593Smuzhiyun.Lcsum_tail_halfword:			/* Up to 3 bytes to go */
*4882a593Smuzhiyun	srdi.	r6,r4,1
*4882a593Smuzhiyun	beq	.Lcsum_tail_byte
*4882a593Smuzhiyun
*4882a593Smuzhiyun	lhz	r6,0(r3)
*4882a593Smuzhiyun	addi	r3,r3,2
*4882a593Smuzhiyun	adde	r0,r0,r6
*4882a593Smuzhiyun	subi	r4,r4,2
*4882a593Smuzhiyun
*4882a593Smuzhiyun.Lcsum_tail_byte:			/* Up to 1 byte to go */
*4882a593Smuzhiyun	andi.	r6,r4,1
*4882a593Smuzhiyun	beq	.Lcsum_finish
*4882a593Smuzhiyun
*4882a593Smuzhiyun	lbz	r6,0(r3)
*4882a593Smuzhiyun#ifdef __BIG_ENDIAN__
*4882a593Smuzhiyun	sldi	r9,r6,8			/* Pad the byte out to 16 bits */
*4882a593Smuzhiyun	adde	r0,r0,r9
*4882a593Smuzhiyun#else
*4882a593Smuzhiyun	adde	r0,r0,r6
*4882a593Smuzhiyun#endif
*4882a593Smuzhiyun
*4882a593Smuzhiyun.Lcsum_finish:
*4882a593Smuzhiyun	addze	r0,r0			/* add in final carry */
*4882a593Smuzhiyun	rldicl	r4,r0,32,0		/* fold two 32 bit halves together */
*4882a593Smuzhiyun	add	r3,r4,r0
*4882a593Smuzhiyun	srdi	r3,r3,32
*4882a593Smuzhiyun	blr
*4882a593SmuzhiyunEXPORT_SYMBOL(__csum_partial)
*4882a593Smuzhiyun
*4882a593Smuzhiyun
*4882a593Smuzhiyun	.macro srcnr
*4882a593Smuzhiyun100:
*4882a593Smuzhiyun	EX_TABLE(100b,.Lerror_nr)
*4882a593Smuzhiyun	.endm
*4882a593Smuzhiyun
*4882a593Smuzhiyun	.macro source
*4882a593Smuzhiyun150:
*4882a593Smuzhiyun	EX_TABLE(150b,.Lerror)
*4882a593Smuzhiyun	.endm
*4882a593Smuzhiyun
*4882a593Smuzhiyun	.macro dstnr
*4882a593Smuzhiyun200:
*4882a593Smuzhiyun	EX_TABLE(200b,.Lerror_nr)
*4882a593Smuzhiyun	.endm
*4882a593Smuzhiyun
*4882a593Smuzhiyun	.macro dest
*4882a593Smuzhiyun250:
*4882a593Smuzhiyun	EX_TABLE(250b,.Lerror)
*4882a593Smuzhiyun	.endm
*4882a593Smuzhiyun
*4882a593Smuzhiyun/*
*4882a593Smuzhiyun * Computes the checksum of a memory block at src, length len,
*4882a593Smuzhiyun * and adds in 0xffffffff (32-bit), while copying the block to dst.
*4882a593Smuzhiyun * If an access exception occurs, it returns 0.
*4882a593Smuzhiyun *
*4882a593Smuzhiyun * csum_partial_copy_generic(r3=src, r4=dst, r5=len)
*4882a593Smuzhiyun */
*4882a593Smuzhiyun_GLOBAL(csum_partial_copy_generic)
*4882a593Smuzhiyun	li	r6,-1
*4882a593Smuzhiyun	addic	r0,r6,0			/* clear carry */
*4882a593Smuzhiyun
*4882a593Smuzhiyun	srdi.	r6,r5,3			/* less than 8 bytes? */
*4882a593Smuzhiyun	beq	.Lcopy_tail_word
*4882a593Smuzhiyun
*4882a593Smuzhiyun	/*
*4882a593Smuzhiyun	 * If only halfword aligned, align to a double word. Since odd
*4882a593Smuzhiyun	 * aligned addresses should be rare and they would require more
*4882a593Smuzhiyun	 * work to calculate the correct checksum, we ignore that case
*4882a593Smuzhiyun	 * and take the potential slowdown of unaligned loads.
*4882a593Smuzhiyun	 *
*4882a593Smuzhiyun	 * If the source and destination are relatively unaligned we only
*4882a593Smuzhiyun	 * align the source. This keeps things simple.
*4882a593Smuzhiyun	 */
*4882a593Smuzhiyun	rldicl. r6,r3,64-1,64-2		/* r6 = (r3 >> 1) & 0x3 */
*4882a593Smuzhiyun	beq	.Lcopy_aligned
*4882a593Smuzhiyun
*4882a593Smuzhiyun	li	r9,4
*4882a593Smuzhiyun	sub	r6,r9,r6
*4882a593Smuzhiyun	mtctr	r6
*4882a593Smuzhiyun
*4882a593Smuzhiyun1:
*4882a593Smuzhiyunsrcnr;	lhz	r6,0(r3)		/* align to doubleword */
*4882a593Smuzhiyun	subi	r5,r5,2
*4882a593Smuzhiyun	addi	r3,r3,2
*4882a593Smuzhiyun	adde	r0,r0,r6
*4882a593Smuzhiyundstnr;	sth	r6,0(r4)
*4882a593Smuzhiyun	addi	r4,r4,2
*4882a593Smuzhiyun	bdnz	1b
*4882a593Smuzhiyun
*4882a593Smuzhiyun.Lcopy_aligned:
*4882a593Smuzhiyun	/*
*4882a593Smuzhiyun	 * We unroll the loop such that each iteration is 64 bytes with an
*4882a593Smuzhiyun	 * entry and exit limb of 64 bytes, meaning a minimum size of
*4882a593Smuzhiyun	 * 128 bytes.
*4882a593Smuzhiyun	 */
*4882a593Smuzhiyun	srdi.	r6,r5,7
*4882a593Smuzhiyun	beq	.Lcopy_tail_doublewords		/* len < 128 */
*4882a593Smuzhiyun
*4882a593Smuzhiyun	srdi	r6,r5,6
*4882a593Smuzhiyun	subi	r6,r6,1
*4882a593Smuzhiyun	mtctr	r6
*4882a593Smuzhiyun
*4882a593Smuzhiyun	stdu	r1,-STACKFRAMESIZE(r1)
*4882a593Smuzhiyun	std	r14,STK_REG(R14)(r1)
*4882a593Smuzhiyun	std	r15,STK_REG(R15)(r1)
*4882a593Smuzhiyun	std	r16,STK_REG(R16)(r1)
*4882a593Smuzhiyun
*4882a593Smuzhiyunsource;	ld	r6,0(r3)
*4882a593Smuzhiyunsource;	ld	r9,8(r3)
*4882a593Smuzhiyun
*4882a593Smuzhiyunsource;	ld	r10,16(r3)
*4882a593Smuzhiyunsource;	ld	r11,24(r3)
*4882a593Smuzhiyun
*4882a593Smuzhiyun	/*
*4882a593Smuzhiyun	 * On POWER6 and POWER7 back to back adde instructions take 2 cycles
*4882a593Smuzhiyun	 * because of the XER dependency. This means the fastest this loop can
*4882a593Smuzhiyun	 * go is 16 cycles per iteration. The scheduling of the loop below has
*4882a593Smuzhiyun	 * been shown to hit this on both POWER6 and POWER7.
*4882a593Smuzhiyun	 */
*4882a593Smuzhiyun	.align 5
*4882a593Smuzhiyun2:
*4882a593Smuzhiyun	adde	r0,r0,r6
*4882a593Smuzhiyunsource;	ld	r12,32(r3)
*4882a593Smuzhiyunsource;	ld	r14,40(r3)
*4882a593Smuzhiyun
*4882a593Smuzhiyun	adde	r0,r0,r9
*4882a593Smuzhiyunsource;	ld	r15,48(r3)
*4882a593Smuzhiyunsource;	ld	r16,56(r3)
*4882a593Smuzhiyun	addi	r3,r3,64
*4882a593Smuzhiyun
*4882a593Smuzhiyun	adde	r0,r0,r10
*4882a593Smuzhiyundest;	std	r6,0(r4)
*4882a593Smuzhiyundest;	std	r9,8(r4)
*4882a593Smuzhiyun
*4882a593Smuzhiyun	adde	r0,r0,r11
*4882a593Smuzhiyundest;	std	r10,16(r4)
*4882a593Smuzhiyundest;	std	r11,24(r4)
*4882a593Smuzhiyun
*4882a593Smuzhiyun	adde	r0,r0,r12
*4882a593Smuzhiyundest;	std	r12,32(r4)
*4882a593Smuzhiyundest;	std	r14,40(r4)
*4882a593Smuzhiyun
*4882a593Smuzhiyun	adde	r0,r0,r14
*4882a593Smuzhiyundest;	std	r15,48(r4)
*4882a593Smuzhiyundest;	std	r16,56(r4)
*4882a593Smuzhiyun	addi	r4,r4,64
*4882a593Smuzhiyun
*4882a593Smuzhiyun	adde	r0,r0,r15
*4882a593Smuzhiyunsource;	ld	r6,0(r3)
*4882a593Smuzhiyunsource;	ld	r9,8(r3)
*4882a593Smuzhiyun
*4882a593Smuzhiyun	adde	r0,r0,r16
*4882a593Smuzhiyunsource;	ld	r10,16(r3)
*4882a593Smuzhiyunsource;	ld	r11,24(r3)
*4882a593Smuzhiyun	bdnz	2b
*4882a593Smuzhiyun
*4882a593Smuzhiyun
*4882a593Smuzhiyun	adde	r0,r0,r6
*4882a593Smuzhiyunsource;	ld	r12,32(r3)
*4882a593Smuzhiyunsource;	ld	r14,40(r3)
*4882a593Smuzhiyun
*4882a593Smuzhiyun	adde	r0,r0,r9
*4882a593Smuzhiyunsource;	ld	r15,48(r3)
*4882a593Smuzhiyunsource;	ld	r16,56(r3)
*4882a593Smuzhiyun	addi	r3,r3,64
*4882a593Smuzhiyun
*4882a593Smuzhiyun	adde	r0,r0,r10
*4882a593Smuzhiyundest;	std	r6,0(r4)
*4882a593Smuzhiyundest;	std	r9,8(r4)
*4882a593Smuzhiyun
*4882a593Smuzhiyun	adde	r0,r0,r11
*4882a593Smuzhiyundest;	std	r10,16(r4)
*4882a593Smuzhiyundest;	std	r11,24(r4)
*4882a593Smuzhiyun
*4882a593Smuzhiyun	adde	r0,r0,r12
*4882a593Smuzhiyundest;	std	r12,32(r4)
*4882a593Smuzhiyundest;	std	r14,40(r4)
*4882a593Smuzhiyun
*4882a593Smuzhiyun	adde	r0,r0,r14
*4882a593Smuzhiyundest;	std	r15,48(r4)
*4882a593Smuzhiyundest;	std	r16,56(r4)
*4882a593Smuzhiyun	addi	r4,r4,64
*4882a593Smuzhiyun
*4882a593Smuzhiyun	adde	r0,r0,r15
*4882a593Smuzhiyun	adde	r0,r0,r16
*4882a593Smuzhiyun
*4882a593Smuzhiyun	ld	r14,STK_REG(R14)(r1)
*4882a593Smuzhiyun	ld	r15,STK_REG(R15)(r1)
*4882a593Smuzhiyun	ld	r16,STK_REG(R16)(r1)
*4882a593Smuzhiyun	addi	r1,r1,STACKFRAMESIZE
*4882a593Smuzhiyun
*4882a593Smuzhiyun	andi.	r5,r5,63
*4882a593Smuzhiyun
*4882a593Smuzhiyun.Lcopy_tail_doublewords:		/* Up to 127 bytes to go */
*4882a593Smuzhiyun	srdi.	r6,r5,3
*4882a593Smuzhiyun	beq	.Lcopy_tail_word
*4882a593Smuzhiyun
*4882a593Smuzhiyun	mtctr	r6
*4882a593Smuzhiyun3:
*4882a593Smuzhiyunsrcnr;	ld	r6,0(r3)
*4882a593Smuzhiyun	addi	r3,r3,8
*4882a593Smuzhiyun	adde	r0,r0,r6
*4882a593Smuzhiyundstnr;	std	r6,0(r4)
*4882a593Smuzhiyun	addi	r4,r4,8
*4882a593Smuzhiyun	bdnz	3b
*4882a593Smuzhiyun
*4882a593Smuzhiyun	andi.	r5,r5,7
*4882a593Smuzhiyun
*4882a593Smuzhiyun.Lcopy_tail_word:			/* Up to 7 bytes to go */
*4882a593Smuzhiyun	srdi.	r6,r5,2
*4882a593Smuzhiyun	beq	.Lcopy_tail_halfword
*4882a593Smuzhiyun
*4882a593Smuzhiyunsrcnr;	lwz	r6,0(r3)
*4882a593Smuzhiyun	addi	r3,r3,4
*4882a593Smuzhiyun	adde	r0,r0,r6
*4882a593Smuzhiyundstnr;	stw	r6,0(r4)
*4882a593Smuzhiyun	addi	r4,r4,4
*4882a593Smuzhiyun	subi	r5,r5,4
*4882a593Smuzhiyun
*4882a593Smuzhiyun.Lcopy_tail_halfword:			/* Up to 3 bytes to go */
*4882a593Smuzhiyun	srdi.	r6,r5,1
*4882a593Smuzhiyun	beq	.Lcopy_tail_byte
*4882a593Smuzhiyun
*4882a593Smuzhiyunsrcnr;	lhz	r6,0(r3)
*4882a593Smuzhiyun	addi	r3,r3,2
*4882a593Smuzhiyun	adde	r0,r0,r6
*4882a593Smuzhiyundstnr;	sth	r6,0(r4)
*4882a593Smuzhiyun	addi	r4,r4,2
*4882a593Smuzhiyun	subi	r5,r5,2
*4882a593Smuzhiyun
*4882a593Smuzhiyun.Lcopy_tail_byte:			/* Up to 1 byte to go */
*4882a593Smuzhiyun	andi.	r6,r5,1
*4882a593Smuzhiyun	beq	.Lcopy_finish
*4882a593Smuzhiyun
*4882a593Smuzhiyunsrcnr;	lbz	r6,0(r3)
*4882a593Smuzhiyun#ifdef __BIG_ENDIAN__
*4882a593Smuzhiyun	sldi	r9,r6,8			/* Pad the byte out to 16 bits */
*4882a593Smuzhiyun	adde	r0,r0,r9
*4882a593Smuzhiyun#else
*4882a593Smuzhiyun	adde	r0,r0,r6
*4882a593Smuzhiyun#endif
*4882a593Smuzhiyundstnr;	stb	r6,0(r4)
*4882a593Smuzhiyun
*4882a593Smuzhiyun.Lcopy_finish:
*4882a593Smuzhiyun	addze	r0,r0			/* add in final carry */
*4882a593Smuzhiyun	rldicl	r4,r0,32,0		/* fold two 32 bit halves together */
*4882a593Smuzhiyun	add	r3,r4,r0
*4882a593Smuzhiyun	srdi	r3,r3,32
*4882a593Smuzhiyun	blr
*4882a593Smuzhiyun
*4882a593Smuzhiyun.Lerror:
*4882a593Smuzhiyun	ld	r14,STK_REG(R14)(r1)
*4882a593Smuzhiyun	ld	r15,STK_REG(R15)(r1)
*4882a593Smuzhiyun	ld	r16,STK_REG(R16)(r1)
*4882a593Smuzhiyun	addi	r1,r1,STACKFRAMESIZE
*4882a593Smuzhiyun.Lerror_nr:
*4882a593Smuzhiyun	li	r3,0
*4882a593Smuzhiyun	blr
*4882a593Smuzhiyun
*4882a593SmuzhiyunEXPORT_SYMBOL(csum_partial_copy_generic)
*4882a593Smuzhiyun
*4882a593Smuzhiyun/*
*4882a593Smuzhiyun * __sum16 csum_ipv6_magic(const struct in6_addr *saddr,
*4882a593Smuzhiyun *			   const struct in6_addr *daddr,
*4882a593Smuzhiyun *			   __u32 len, __u8 proto, __wsum sum)
*4882a593Smuzhiyun */
*4882a593Smuzhiyun
*4882a593Smuzhiyun_GLOBAL(csum_ipv6_magic)
*4882a593Smuzhiyun	ld	r8, 0(r3)
*4882a593Smuzhiyun	ld	r9, 8(r3)
*4882a593Smuzhiyun	add	r5, r5, r6
*4882a593Smuzhiyun	addc	r0, r8, r9
*4882a593Smuzhiyun	ld	r10, 0(r4)
*4882a593Smuzhiyun	ld	r11, 8(r4)
*4882a593Smuzhiyun#ifdef CONFIG_CPU_LITTLE_ENDIAN
*4882a593Smuzhiyun	rotldi	r5, r5, 8
*4882a593Smuzhiyun#endif
*4882a593Smuzhiyun	adde	r0, r0, r10
*4882a593Smuzhiyun	add	r5, r5, r7
*4882a593Smuzhiyun	adde	r0, r0, r11
*4882a593Smuzhiyun	adde	r0, r0, r5
*4882a593Smuzhiyun	addze	r0, r0
*4882a593Smuzhiyun	rotldi  r3, r0, 32		/* fold two 32 bit halves together */
*4882a593Smuzhiyun	add	r3, r0, r3
*4882a593Smuzhiyun	srdi	r0, r3, 32
*4882a593Smuzhiyun	rotlwi	r3, r0, 16		/* fold two 16 bit halves together */
*4882a593Smuzhiyun	add	r3, r0, r3
*4882a593Smuzhiyun	not	r3, r3
*4882a593Smuzhiyun	rlwinm	r3, r3, 16, 16, 31
*4882a593Smuzhiyun	blr
*4882a593SmuzhiyunEXPORT_SYMBOL(csum_ipv6_magic)