x86/lib/memmove_64.S

*4882a593Smuzhiyun/* SPDX-License-Identifier: GPL-2.0 */
*4882a593Smuzhiyun/*
*4882a593Smuzhiyun * Normally compiler builtins are used, but sometimes the compiler calls out
*4882a593Smuzhiyun * of line code. Based on asm-i386/string.h.
*4882a593Smuzhiyun *
*4882a593Smuzhiyun * This assembly file is re-written from memmove_64.c file.
*4882a593Smuzhiyun *	- Copyright 2011 Fenghua Yu <fenghua.yu@intel.com>
*4882a593Smuzhiyun */
*4882a593Smuzhiyun#include <linux/linkage.h>
*4882a593Smuzhiyun#include <asm/cpufeatures.h>
*4882a593Smuzhiyun#include <asm/alternative.h>
*4882a593Smuzhiyun#include <asm/export.h>
*4882a593Smuzhiyun
*4882a593Smuzhiyun#undef memmove
*4882a593Smuzhiyun
*4882a593Smuzhiyun/*
*4882a593Smuzhiyun * Implement memmove(). This can handle overlap between src and dst.
*4882a593Smuzhiyun *
*4882a593Smuzhiyun * Input:
*4882a593Smuzhiyun * rdi: dest
*4882a593Smuzhiyun * rsi: src
*4882a593Smuzhiyun * rdx: count
*4882a593Smuzhiyun *
*4882a593Smuzhiyun * Output:
*4882a593Smuzhiyun * rax: dest
*4882a593Smuzhiyun */
*4882a593SmuzhiyunSYM_FUNC_START_WEAK(memmove)
*4882a593SmuzhiyunSYM_FUNC_START(__memmove)
*4882a593Smuzhiyun
*4882a593Smuzhiyun	mov %rdi, %rax
*4882a593Smuzhiyun
*4882a593Smuzhiyun	/* Decide forward/backward copy mode */
*4882a593Smuzhiyun	cmp %rdi, %rsi
*4882a593Smuzhiyun	jge .Lmemmove_begin_forward
*4882a593Smuzhiyun	mov %rsi, %r8
*4882a593Smuzhiyun	add %rdx, %r8
*4882a593Smuzhiyun	cmp %rdi, %r8
*4882a593Smuzhiyun	jg 2f
*4882a593Smuzhiyun
*4882a593Smuzhiyun	/* FSRM implies ERMS => no length checks, do the copy directly */
*4882a593Smuzhiyun.Lmemmove_begin_forward:
*4882a593Smuzhiyun	ALTERNATIVE "cmp $0x20, %rdx; jb 1f", "", X86_FEATURE_FSRM
*4882a593Smuzhiyun	ALTERNATIVE "", "jmp .Lmemmove_erms", X86_FEATURE_ERMS
*4882a593Smuzhiyun
*4882a593Smuzhiyun	/*
*4882a593Smuzhiyun	 * movsq instruction have many startup latency
*4882a593Smuzhiyun	 * so we handle small size by general register.
*4882a593Smuzhiyun	 */
*4882a593Smuzhiyun	cmp  $680, %rdx
*4882a593Smuzhiyun	jb	3f
*4882a593Smuzhiyun	/*
*4882a593Smuzhiyun	 * movsq instruction is only good for aligned case.
*4882a593Smuzhiyun	 */
*4882a593Smuzhiyun
*4882a593Smuzhiyun	cmpb %dil, %sil
*4882a593Smuzhiyun	je 4f
*4882a593Smuzhiyun3:
*4882a593Smuzhiyun	sub $0x20, %rdx
*4882a593Smuzhiyun	/*
*4882a593Smuzhiyun	 * We gobble 32 bytes forward in each loop.
*4882a593Smuzhiyun	 */
*4882a593Smuzhiyun5:
*4882a593Smuzhiyun	sub $0x20, %rdx
*4882a593Smuzhiyun	movq 0*8(%rsi), %r11
*4882a593Smuzhiyun	movq 1*8(%rsi), %r10
*4882a593Smuzhiyun	movq 2*8(%rsi), %r9
*4882a593Smuzhiyun	movq 3*8(%rsi), %r8
*4882a593Smuzhiyun	leaq 4*8(%rsi), %rsi
*4882a593Smuzhiyun
*4882a593Smuzhiyun	movq %r11, 0*8(%rdi)
*4882a593Smuzhiyun	movq %r10, 1*8(%rdi)
*4882a593Smuzhiyun	movq %r9, 2*8(%rdi)
*4882a593Smuzhiyun	movq %r8, 3*8(%rdi)
*4882a593Smuzhiyun	leaq 4*8(%rdi), %rdi
*4882a593Smuzhiyun	jae 5b
*4882a593Smuzhiyun	addq $0x20, %rdx
*4882a593Smuzhiyun	jmp 1f
*4882a593Smuzhiyun	/*
*4882a593Smuzhiyun	 * Handle data forward by movsq.
*4882a593Smuzhiyun	 */
*4882a593Smuzhiyun	.p2align 4
*4882a593Smuzhiyun4:
*4882a593Smuzhiyun	movq %rdx, %rcx
*4882a593Smuzhiyun	movq -8(%rsi, %rdx), %r11
*4882a593Smuzhiyun	lea -8(%rdi, %rdx), %r10
*4882a593Smuzhiyun	shrq $3, %rcx
*4882a593Smuzhiyun	rep movsq
*4882a593Smuzhiyun	movq %r11, (%r10)
*4882a593Smuzhiyun	jmp 13f
*4882a593Smuzhiyun.Lmemmove_end_forward:
*4882a593Smuzhiyun
*4882a593Smuzhiyun	/*
*4882a593Smuzhiyun	 * Handle data backward by movsq.
*4882a593Smuzhiyun	 */
*4882a593Smuzhiyun	.p2align 4
*4882a593Smuzhiyun7:
*4882a593Smuzhiyun	movq %rdx, %rcx
*4882a593Smuzhiyun	movq (%rsi), %r11
*4882a593Smuzhiyun	movq %rdi, %r10
*4882a593Smuzhiyun	leaq -8(%rsi, %rdx), %rsi
*4882a593Smuzhiyun	leaq -8(%rdi, %rdx), %rdi
*4882a593Smuzhiyun	shrq $3, %rcx
*4882a593Smuzhiyun	std
*4882a593Smuzhiyun	rep movsq
*4882a593Smuzhiyun	cld
*4882a593Smuzhiyun	movq %r11, (%r10)
*4882a593Smuzhiyun	jmp 13f
*4882a593Smuzhiyun
*4882a593Smuzhiyun	/*
*4882a593Smuzhiyun	 * Start to prepare for backward copy.
*4882a593Smuzhiyun	 */
*4882a593Smuzhiyun	.p2align 4
*4882a593Smuzhiyun2:
*4882a593Smuzhiyun	cmp $0x20, %rdx
*4882a593Smuzhiyun	jb 1f
*4882a593Smuzhiyun	cmp $680, %rdx
*4882a593Smuzhiyun	jb 6f
*4882a593Smuzhiyun	cmp %dil, %sil
*4882a593Smuzhiyun	je 7b
*4882a593Smuzhiyun6:
*4882a593Smuzhiyun	/*
*4882a593Smuzhiyun	 * Calculate copy position to tail.
*4882a593Smuzhiyun	 */
*4882a593Smuzhiyun	addq %rdx, %rsi
*4882a593Smuzhiyun	addq %rdx, %rdi
*4882a593Smuzhiyun	subq $0x20, %rdx
*4882a593Smuzhiyun	/*
*4882a593Smuzhiyun	 * We gobble 32 bytes backward in each loop.
*4882a593Smuzhiyun	 */
*4882a593Smuzhiyun8:
*4882a593Smuzhiyun	subq $0x20, %rdx
*4882a593Smuzhiyun	movq -1*8(%rsi), %r11
*4882a593Smuzhiyun	movq -2*8(%rsi), %r10
*4882a593Smuzhiyun	movq -3*8(%rsi), %r9
*4882a593Smuzhiyun	movq -4*8(%rsi), %r8
*4882a593Smuzhiyun	leaq -4*8(%rsi), %rsi
*4882a593Smuzhiyun
*4882a593Smuzhiyun	movq %r11, -1*8(%rdi)
*4882a593Smuzhiyun	movq %r10, -2*8(%rdi)
*4882a593Smuzhiyun	movq %r9, -3*8(%rdi)
*4882a593Smuzhiyun	movq %r8, -4*8(%rdi)
*4882a593Smuzhiyun	leaq -4*8(%rdi), %rdi
*4882a593Smuzhiyun	jae 8b
*4882a593Smuzhiyun	/*
*4882a593Smuzhiyun	 * Calculate copy position to head.
*4882a593Smuzhiyun	 */
*4882a593Smuzhiyun	addq $0x20, %rdx
*4882a593Smuzhiyun	subq %rdx, %rsi
*4882a593Smuzhiyun	subq %rdx, %rdi
*4882a593Smuzhiyun1:
*4882a593Smuzhiyun	cmpq $16, %rdx
*4882a593Smuzhiyun	jb 9f
*4882a593Smuzhiyun	/*
*4882a593Smuzhiyun	 * Move data from 16 bytes to 31 bytes.
*4882a593Smuzhiyun	 */
*4882a593Smuzhiyun	movq 0*8(%rsi), %r11
*4882a593Smuzhiyun	movq 1*8(%rsi), %r10
*4882a593Smuzhiyun	movq -2*8(%rsi, %rdx), %r9
*4882a593Smuzhiyun	movq -1*8(%rsi, %rdx), %r8
*4882a593Smuzhiyun	movq %r11, 0*8(%rdi)
*4882a593Smuzhiyun	movq %r10, 1*8(%rdi)
*4882a593Smuzhiyun	movq %r9, -2*8(%rdi, %rdx)
*4882a593Smuzhiyun	movq %r8, -1*8(%rdi, %rdx)
*4882a593Smuzhiyun	jmp 13f
*4882a593Smuzhiyun	.p2align 4
*4882a593Smuzhiyun9:
*4882a593Smuzhiyun	cmpq $8, %rdx
*4882a593Smuzhiyun	jb 10f
*4882a593Smuzhiyun	/*
*4882a593Smuzhiyun	 * Move data from 8 bytes to 15 bytes.
*4882a593Smuzhiyun	 */
*4882a593Smuzhiyun	movq 0*8(%rsi), %r11
*4882a593Smuzhiyun	movq -1*8(%rsi, %rdx), %r10
*4882a593Smuzhiyun	movq %r11, 0*8(%rdi)
*4882a593Smuzhiyun	movq %r10, -1*8(%rdi, %rdx)
*4882a593Smuzhiyun	jmp 13f
*4882a593Smuzhiyun10:
*4882a593Smuzhiyun	cmpq $4, %rdx
*4882a593Smuzhiyun	jb 11f
*4882a593Smuzhiyun	/*
*4882a593Smuzhiyun	 * Move data from 4 bytes to 7 bytes.
*4882a593Smuzhiyun	 */
*4882a593Smuzhiyun	movl (%rsi), %r11d
*4882a593Smuzhiyun	movl -4(%rsi, %rdx), %r10d
*4882a593Smuzhiyun	movl %r11d, (%rdi)
*4882a593Smuzhiyun	movl %r10d, -4(%rdi, %rdx)
*4882a593Smuzhiyun	jmp 13f
*4882a593Smuzhiyun11:
*4882a593Smuzhiyun	cmp $2, %rdx
*4882a593Smuzhiyun	jb 12f
*4882a593Smuzhiyun	/*
*4882a593Smuzhiyun	 * Move data from 2 bytes to 3 bytes.
*4882a593Smuzhiyun	 */
*4882a593Smuzhiyun	movw (%rsi), %r11w
*4882a593Smuzhiyun	movw -2(%rsi, %rdx), %r10w
*4882a593Smuzhiyun	movw %r11w, (%rdi)
*4882a593Smuzhiyun	movw %r10w, -2(%rdi, %rdx)
*4882a593Smuzhiyun	jmp 13f
*4882a593Smuzhiyun12:
*4882a593Smuzhiyun	cmp $1, %rdx
*4882a593Smuzhiyun	jb 13f
*4882a593Smuzhiyun	/*
*4882a593Smuzhiyun	 * Move data for 1 byte.
*4882a593Smuzhiyun	 */
*4882a593Smuzhiyun	movb (%rsi), %r11b
*4882a593Smuzhiyun	movb %r11b, (%rdi)
*4882a593Smuzhiyun13:
*4882a593Smuzhiyun	RET
*4882a593Smuzhiyun
*4882a593Smuzhiyun.Lmemmove_erms:
*4882a593Smuzhiyun	movq %rdx, %rcx
*4882a593Smuzhiyun	rep movsb
*4882a593Smuzhiyun	RET
*4882a593SmuzhiyunSYM_FUNC_END(__memmove)
*4882a593SmuzhiyunSYM_FUNC_END_ALIAS(memmove)
*4882a593SmuzhiyunEXPORT_SYMBOL(__memmove)
*4882a593SmuzhiyunEXPORT_SYMBOL(memmove)