x86/um/checksum_32.S

*4882a593Smuzhiyun/* SPDX-License-Identifier: GPL-2.0-or-later */
*4882a593Smuzhiyun/*
*4882a593Smuzhiyun * INET		An implementation of the TCP/IP protocol suite for the LINUX
*4882a593Smuzhiyun *		operating system.  INET is implemented using the  BSD Socket
*4882a593Smuzhiyun *		interface as the means of communication with the user level.
*4882a593Smuzhiyun *
*4882a593Smuzhiyun *		IP/TCP/UDP checksumming routines
*4882a593Smuzhiyun *
*4882a593Smuzhiyun * Authors:	Jorge Cwik, <jorge@laser.satlink.net>
*4882a593Smuzhiyun *		Arnt Gulbrandsen, <agulbra@nvg.unit.no>
*4882a593Smuzhiyun *		Tom May, <ftom@netcom.com>
*4882a593Smuzhiyun *              Pentium Pro/II routines:
*4882a593Smuzhiyun *              Alexander Kjeldaas <astor@guardian.no>
*4882a593Smuzhiyun *              Finn Arne Gangstad <finnag@guardian.no>
*4882a593Smuzhiyun *		Lots of code moved from tcp.c and ip.c; see those files
*4882a593Smuzhiyun *		for more names.
*4882a593Smuzhiyun *
*4882a593Smuzhiyun * Changes:     Ingo Molnar, converted csum_partial_copy() to 2.1 exception
*4882a593Smuzhiyun *			     handling.
*4882a593Smuzhiyun *		Andi Kleen,  add zeroing on error
*4882a593Smuzhiyun *                   converted to pure assembler
*4882a593Smuzhiyun */
*4882a593Smuzhiyun
*4882a593Smuzhiyun#include <asm/errno.h>
*4882a593Smuzhiyun#include <asm/asm.h>
*4882a593Smuzhiyun#include <asm/export.h>
*4882a593Smuzhiyun
*4882a593Smuzhiyun/*
*4882a593Smuzhiyun * computes a partial checksum, e.g. for TCP/UDP fragments
*4882a593Smuzhiyun */
*4882a593Smuzhiyun
*4882a593Smuzhiyun/*
*4882a593Smuzhiyununsigned int csum_partial(const unsigned char * buff, int len, unsigned int sum)
*4882a593Smuzhiyun */
*4882a593Smuzhiyun
*4882a593Smuzhiyun.text
*4882a593Smuzhiyun.align 4
*4882a593Smuzhiyun.globl csum_partial
*4882a593Smuzhiyun
*4882a593Smuzhiyun#ifndef CONFIG_X86_USE_PPRO_CHECKSUM
*4882a593Smuzhiyun
*4882a593Smuzhiyun	  /*
*4882a593Smuzhiyun	   * Experiments with Ethernet and SLIP connections show that buff
*4882a593Smuzhiyun	   * is aligned on either a 2-byte or 4-byte boundary.  We get at
*4882a593Smuzhiyun	   * least a twofold speedup on 486 and Pentium if it is 4-byte aligned.
*4882a593Smuzhiyun	   * Fortunately, it is easy to convert 2-byte alignment to 4-byte
*4882a593Smuzhiyun	   * alignment for the unrolled loop.
*4882a593Smuzhiyun	   */
*4882a593Smuzhiyuncsum_partial:
*4882a593Smuzhiyun	pushl %esi
*4882a593Smuzhiyun	pushl %ebx
*4882a593Smuzhiyun	movl 20(%esp),%eax	# Function arg: unsigned int sum
*4882a593Smuzhiyun	movl 16(%esp),%ecx	# Function arg: int len
*4882a593Smuzhiyun	movl 12(%esp),%esi	# Function arg: unsigned char *buff
*4882a593Smuzhiyun	testl $2, %esi		# Check alignment.
*4882a593Smuzhiyun	jz 2f			# Jump if alignment is ok.
*4882a593Smuzhiyun	subl $2, %ecx		# Alignment uses up two bytes.
*4882a593Smuzhiyun	jae 1f			# Jump if we had at least two bytes.
*4882a593Smuzhiyun	addl $2, %ecx		# ecx was < 2.  Deal with it.
*4882a593Smuzhiyun	jmp 4f
*4882a593Smuzhiyun1:	movw (%esi), %bx
*4882a593Smuzhiyun	addl $2, %esi
*4882a593Smuzhiyun	addw %bx, %ax
*4882a593Smuzhiyun	adcl $0, %eax
*4882a593Smuzhiyun2:
*4882a593Smuzhiyun	movl %ecx, %edx
*4882a593Smuzhiyun	shrl $5, %ecx
*4882a593Smuzhiyun	jz 2f
*4882a593Smuzhiyun	testl %esi, %esi
*4882a593Smuzhiyun1:	movl (%esi), %ebx
*4882a593Smuzhiyun	adcl %ebx, %eax
*4882a593Smuzhiyun	movl 4(%esi), %ebx
*4882a593Smuzhiyun	adcl %ebx, %eax
*4882a593Smuzhiyun	movl 8(%esi), %ebx
*4882a593Smuzhiyun	adcl %ebx, %eax
*4882a593Smuzhiyun	movl 12(%esi), %ebx
*4882a593Smuzhiyun	adcl %ebx, %eax
*4882a593Smuzhiyun	movl 16(%esi), %ebx
*4882a593Smuzhiyun	adcl %ebx, %eax
*4882a593Smuzhiyun	movl 20(%esi), %ebx
*4882a593Smuzhiyun	adcl %ebx, %eax
*4882a593Smuzhiyun	movl 24(%esi), %ebx
*4882a593Smuzhiyun	adcl %ebx, %eax
*4882a593Smuzhiyun	movl 28(%esi), %ebx
*4882a593Smuzhiyun	adcl %ebx, %eax
*4882a593Smuzhiyun	lea 32(%esi), %esi
*4882a593Smuzhiyun	dec %ecx
*4882a593Smuzhiyun	jne 1b
*4882a593Smuzhiyun	adcl $0, %eax
*4882a593Smuzhiyun2:	movl %edx, %ecx
*4882a593Smuzhiyun	andl $0x1c, %edx
*4882a593Smuzhiyun	je 4f
*4882a593Smuzhiyun	shrl $2, %edx		# This clears CF
*4882a593Smuzhiyun3:	adcl (%esi), %eax
*4882a593Smuzhiyun	lea 4(%esi), %esi
*4882a593Smuzhiyun	dec %edx
*4882a593Smuzhiyun	jne 3b
*4882a593Smuzhiyun	adcl $0, %eax
*4882a593Smuzhiyun4:	andl $3, %ecx
*4882a593Smuzhiyun	jz 7f
*4882a593Smuzhiyun	cmpl $2, %ecx
*4882a593Smuzhiyun	jb 5f
*4882a593Smuzhiyun	movw (%esi),%cx
*4882a593Smuzhiyun	leal 2(%esi),%esi
*4882a593Smuzhiyun	je 6f
*4882a593Smuzhiyun	shll $16,%ecx
*4882a593Smuzhiyun5:	movb (%esi),%cl
*4882a593Smuzhiyun6:	addl %ecx,%eax
*4882a593Smuzhiyun	adcl $0, %eax
*4882a593Smuzhiyun7:
*4882a593Smuzhiyun	popl %ebx
*4882a593Smuzhiyun	popl %esi
*4882a593Smuzhiyun	RET
*4882a593Smuzhiyun
*4882a593Smuzhiyun#else
*4882a593Smuzhiyun
*4882a593Smuzhiyun/* Version for PentiumII/PPro */
*4882a593Smuzhiyun
*4882a593Smuzhiyuncsum_partial:
*4882a593Smuzhiyun	pushl %esi
*4882a593Smuzhiyun	pushl %ebx
*4882a593Smuzhiyun	movl 20(%esp),%eax	# Function arg: unsigned int sum
*4882a593Smuzhiyun	movl 16(%esp),%ecx	# Function arg: int len
*4882a593Smuzhiyun	movl 12(%esp),%esi	# Function arg:	const unsigned char *buf
*4882a593Smuzhiyun
*4882a593Smuzhiyun	testl $2, %esi
*4882a593Smuzhiyun	jnz 30f
*4882a593Smuzhiyun10:
*4882a593Smuzhiyun	movl %ecx, %edx
*4882a593Smuzhiyun	movl %ecx, %ebx
*4882a593Smuzhiyun	andl $0x7c, %ebx
*4882a593Smuzhiyun	shrl $7, %ecx
*4882a593Smuzhiyun	addl %ebx,%esi
*4882a593Smuzhiyun	shrl $2, %ebx
*4882a593Smuzhiyun	negl %ebx
*4882a593Smuzhiyun	lea 45f(%ebx,%ebx,2), %ebx
*4882a593Smuzhiyun	testl %esi, %esi
*4882a593Smuzhiyun	jmp *%ebx
*4882a593Smuzhiyun
*4882a593Smuzhiyun	# Handle 2-byte-aligned regions
*4882a593Smuzhiyun20:	addw (%esi), %ax
*4882a593Smuzhiyun	lea 2(%esi), %esi
*4882a593Smuzhiyun	adcl $0, %eax
*4882a593Smuzhiyun	jmp 10b
*4882a593Smuzhiyun
*4882a593Smuzhiyun30:	subl $2, %ecx
*4882a593Smuzhiyun	ja 20b
*4882a593Smuzhiyun	je 32f
*4882a593Smuzhiyun	movzbl (%esi),%ebx	# csumming 1 byte, 2-aligned
*4882a593Smuzhiyun	addl %ebx, %eax
*4882a593Smuzhiyun	adcl $0, %eax
*4882a593Smuzhiyun	jmp 80f
*4882a593Smuzhiyun32:
*4882a593Smuzhiyun	addw (%esi), %ax	# csumming 2 bytes, 2-aligned
*4882a593Smuzhiyun	adcl $0, %eax
*4882a593Smuzhiyun	jmp 80f
*4882a593Smuzhiyun
*4882a593Smuzhiyun40:
*4882a593Smuzhiyun	addl -128(%esi), %eax
*4882a593Smuzhiyun	adcl -124(%esi), %eax
*4882a593Smuzhiyun	adcl -120(%esi), %eax
*4882a593Smuzhiyun	adcl -116(%esi), %eax
*4882a593Smuzhiyun	adcl -112(%esi), %eax
*4882a593Smuzhiyun	adcl -108(%esi), %eax
*4882a593Smuzhiyun	adcl -104(%esi), %eax
*4882a593Smuzhiyun	adcl -100(%esi), %eax
*4882a593Smuzhiyun	adcl -96(%esi), %eax
*4882a593Smuzhiyun	adcl -92(%esi), %eax
*4882a593Smuzhiyun	adcl -88(%esi), %eax
*4882a593Smuzhiyun	adcl -84(%esi), %eax
*4882a593Smuzhiyun	adcl -80(%esi), %eax
*4882a593Smuzhiyun	adcl -76(%esi), %eax
*4882a593Smuzhiyun	adcl -72(%esi), %eax
*4882a593Smuzhiyun	adcl -68(%esi), %eax
*4882a593Smuzhiyun	adcl -64(%esi), %eax
*4882a593Smuzhiyun	adcl -60(%esi), %eax
*4882a593Smuzhiyun	adcl -56(%esi), %eax
*4882a593Smuzhiyun	adcl -52(%esi), %eax
*4882a593Smuzhiyun	adcl -48(%esi), %eax
*4882a593Smuzhiyun	adcl -44(%esi), %eax
*4882a593Smuzhiyun	adcl -40(%esi), %eax
*4882a593Smuzhiyun	adcl -36(%esi), %eax
*4882a593Smuzhiyun	adcl -32(%esi), %eax
*4882a593Smuzhiyun	adcl -28(%esi), %eax
*4882a593Smuzhiyun	adcl -24(%esi), %eax
*4882a593Smuzhiyun	adcl -20(%esi), %eax
*4882a593Smuzhiyun	adcl -16(%esi), %eax
*4882a593Smuzhiyun	adcl -12(%esi), %eax
*4882a593Smuzhiyun	adcl -8(%esi), %eax
*4882a593Smuzhiyun	adcl -4(%esi), %eax
*4882a593Smuzhiyun45:
*4882a593Smuzhiyun	lea 128(%esi), %esi
*4882a593Smuzhiyun	adcl $0, %eax
*4882a593Smuzhiyun	dec %ecx
*4882a593Smuzhiyun	jge 40b
*4882a593Smuzhiyun	movl %edx, %ecx
*4882a593Smuzhiyun50:	andl $3, %ecx
*4882a593Smuzhiyun	jz 80f
*4882a593Smuzhiyun
*4882a593Smuzhiyun	# Handle the last 1-3 bytes without jumping
*4882a593Smuzhiyun	notl %ecx		# 1->2, 2->1, 3->0, higher bits are masked
*4882a593Smuzhiyun	movl $0xffffff,%ebx	# by the shll and shrl instructions
*4882a593Smuzhiyun	shll $3,%ecx
*4882a593Smuzhiyun	shrl %cl,%ebx
*4882a593Smuzhiyun	andl -128(%esi),%ebx	# esi is 4-aligned so should be ok
*4882a593Smuzhiyun	addl %ebx,%eax
*4882a593Smuzhiyun	adcl $0,%eax
*4882a593Smuzhiyun80:
*4882a593Smuzhiyun	popl %ebx
*4882a593Smuzhiyun	popl %esi
*4882a593Smuzhiyun	RET
*4882a593Smuzhiyun
*4882a593Smuzhiyun#endif
*4882a593Smuzhiyun	EXPORT_SYMBOL(csum_partial)