arm64/lib/memmove.S

*4882a593Smuzhiyun/* SPDX-License-Identifier: GPL-2.0-only */
*4882a593Smuzhiyun/*
*4882a593Smuzhiyun * Copyright (C) 2013 ARM Ltd.
*4882a593Smuzhiyun * Copyright (C) 2013 Linaro.
*4882a593Smuzhiyun *
*4882a593Smuzhiyun * This code is based on glibc cortex strings work originally authored by Linaro
*4882a593Smuzhiyun * be found @
*4882a593Smuzhiyun *
*4882a593Smuzhiyun * http://bazaar.launchpad.net/~linaro-toolchain-dev/cortex-strings/trunk/
*4882a593Smuzhiyun * files/head:/src/aarch64/
*4882a593Smuzhiyun */
*4882a593Smuzhiyun
*4882a593Smuzhiyun#include <linux/linkage.h>
*4882a593Smuzhiyun#include <asm/assembler.h>
*4882a593Smuzhiyun#include <asm/cache.h>
*4882a593Smuzhiyun
*4882a593Smuzhiyun/*
*4882a593Smuzhiyun * Move a buffer from src to test (alignment handled by the hardware).
*4882a593Smuzhiyun * If dest <= src, call memcpy, otherwise copy in reverse order.
*4882a593Smuzhiyun *
*4882a593Smuzhiyun * Parameters:
*4882a593Smuzhiyun *	x0 - dest
*4882a593Smuzhiyun *	x1 - src
*4882a593Smuzhiyun *	x2 - n
*4882a593Smuzhiyun * Returns:
*4882a593Smuzhiyun *	x0 - dest
*4882a593Smuzhiyun */
*4882a593Smuzhiyundstin	.req	x0
*4882a593Smuzhiyunsrc	.req	x1
*4882a593Smuzhiyuncount	.req	x2
*4882a593Smuzhiyuntmp1	.req	x3
*4882a593Smuzhiyuntmp1w	.req	w3
*4882a593Smuzhiyuntmp2	.req	x4
*4882a593Smuzhiyuntmp2w	.req	w4
*4882a593Smuzhiyuntmp3	.req	x5
*4882a593Smuzhiyuntmp3w	.req	w5
*4882a593Smuzhiyundst	.req	x6
*4882a593Smuzhiyun
*4882a593SmuzhiyunA_l	.req	x7
*4882a593SmuzhiyunA_h	.req	x8
*4882a593SmuzhiyunB_l	.req	x9
*4882a593SmuzhiyunB_h	.req	x10
*4882a593SmuzhiyunC_l	.req	x11
*4882a593SmuzhiyunC_h	.req	x12
*4882a593SmuzhiyunD_l	.req	x13
*4882a593SmuzhiyunD_h	.req	x14
*4882a593Smuzhiyun
*4882a593SmuzhiyunSYM_FUNC_START_ALIAS(__memmove)
*4882a593SmuzhiyunSYM_FUNC_START_WEAK_PI(memmove)
*4882a593Smuzhiyun	cmp	dstin, src
*4882a593Smuzhiyun	b.lo	__memcpy
*4882a593Smuzhiyun	add	tmp1, src, count
*4882a593Smuzhiyun	cmp	dstin, tmp1
*4882a593Smuzhiyun	b.hs	__memcpy		/* No overlap.  */
*4882a593Smuzhiyun
*4882a593Smuzhiyun	add	dst, dstin, count
*4882a593Smuzhiyun	add	src, src, count
*4882a593Smuzhiyun	cmp	count, #16
*4882a593Smuzhiyun	b.lo	.Ltail15  /*probably non-alignment accesses.*/
*4882a593Smuzhiyun
*4882a593Smuzhiyun	ands	tmp2, src, #15     /* Bytes to reach alignment.  */
*4882a593Smuzhiyun	b.eq	.LSrcAligned
*4882a593Smuzhiyun	sub	count, count, tmp2
*4882a593Smuzhiyun	/*
*4882a593Smuzhiyun	* process the aligned offset length to make the src aligned firstly.
*4882a593Smuzhiyun	* those extra instructions' cost is acceptable. It also make the
*4882a593Smuzhiyun	* coming accesses are based on aligned address.
*4882a593Smuzhiyun	*/
*4882a593Smuzhiyun	tbz	tmp2, #0, 1f
*4882a593Smuzhiyun	ldrb	tmp1w, [src, #-1]!
*4882a593Smuzhiyun	strb	tmp1w, [dst, #-1]!
*4882a593Smuzhiyun1:
*4882a593Smuzhiyun	tbz	tmp2, #1, 2f
*4882a593Smuzhiyun	ldrh	tmp1w, [src, #-2]!
*4882a593Smuzhiyun	strh	tmp1w, [dst, #-2]!
*4882a593Smuzhiyun2:
*4882a593Smuzhiyun	tbz	tmp2, #2, 3f
*4882a593Smuzhiyun	ldr	tmp1w, [src, #-4]!
*4882a593Smuzhiyun	str	tmp1w, [dst, #-4]!
*4882a593Smuzhiyun3:
*4882a593Smuzhiyun	tbz	tmp2, #3, .LSrcAligned
*4882a593Smuzhiyun	ldr	tmp1, [src, #-8]!
*4882a593Smuzhiyun	str	tmp1, [dst, #-8]!
*4882a593Smuzhiyun
*4882a593Smuzhiyun.LSrcAligned:
*4882a593Smuzhiyun	cmp	count, #64
*4882a593Smuzhiyun	b.ge	.Lcpy_over64
*4882a593Smuzhiyun
*4882a593Smuzhiyun	/*
*4882a593Smuzhiyun	* Deal with small copies quickly by dropping straight into the
*4882a593Smuzhiyun	* exit block.
*4882a593Smuzhiyun	*/
*4882a593Smuzhiyun.Ltail63:
*4882a593Smuzhiyun	/*
*4882a593Smuzhiyun	* Copy up to 48 bytes of data. At this point we only need the
*4882a593Smuzhiyun	* bottom 6 bits of count to be accurate.
*4882a593Smuzhiyun	*/
*4882a593Smuzhiyun	ands	tmp1, count, #0x30
*4882a593Smuzhiyun	b.eq	.Ltail15
*4882a593Smuzhiyun	cmp	tmp1w, #0x20
*4882a593Smuzhiyun	b.eq	1f
*4882a593Smuzhiyun	b.lt	2f
*4882a593Smuzhiyun	ldp	A_l, A_h, [src, #-16]!
*4882a593Smuzhiyun	stp	A_l, A_h, [dst, #-16]!
*4882a593Smuzhiyun1:
*4882a593Smuzhiyun	ldp	A_l, A_h, [src, #-16]!
*4882a593Smuzhiyun	stp	A_l, A_h, [dst, #-16]!
*4882a593Smuzhiyun2:
*4882a593Smuzhiyun	ldp	A_l, A_h, [src, #-16]!
*4882a593Smuzhiyun	stp	A_l, A_h, [dst, #-16]!
*4882a593Smuzhiyun
*4882a593Smuzhiyun.Ltail15:
*4882a593Smuzhiyun	tbz	count, #3, 1f
*4882a593Smuzhiyun	ldr	tmp1, [src, #-8]!
*4882a593Smuzhiyun	str	tmp1, [dst, #-8]!
*4882a593Smuzhiyun1:
*4882a593Smuzhiyun	tbz	count, #2, 2f
*4882a593Smuzhiyun	ldr	tmp1w, [src, #-4]!
*4882a593Smuzhiyun	str	tmp1w, [dst, #-4]!
*4882a593Smuzhiyun2:
*4882a593Smuzhiyun	tbz	count, #1, 3f
*4882a593Smuzhiyun	ldrh	tmp1w, [src, #-2]!
*4882a593Smuzhiyun	strh	tmp1w, [dst, #-2]!
*4882a593Smuzhiyun3:
*4882a593Smuzhiyun	tbz	count, #0, .Lexitfunc
*4882a593Smuzhiyun	ldrb	tmp1w, [src, #-1]
*4882a593Smuzhiyun	strb	tmp1w, [dst, #-1]
*4882a593Smuzhiyun
*4882a593Smuzhiyun.Lexitfunc:
*4882a593Smuzhiyun	ret
*4882a593Smuzhiyun
*4882a593Smuzhiyun.Lcpy_over64:
*4882a593Smuzhiyun	subs	count, count, #128
*4882a593Smuzhiyun	b.ge	.Lcpy_body_large
*4882a593Smuzhiyun	/*
*4882a593Smuzhiyun	* Less than 128 bytes to copy, so handle 64 bytes here and then jump
*4882a593Smuzhiyun	* to the tail.
*4882a593Smuzhiyun	*/
*4882a593Smuzhiyun	ldp	A_l, A_h, [src, #-16]
*4882a593Smuzhiyun	stp	A_l, A_h, [dst, #-16]
*4882a593Smuzhiyun	ldp	B_l, B_h, [src, #-32]
*4882a593Smuzhiyun	ldp	C_l, C_h, [src, #-48]
*4882a593Smuzhiyun	stp	B_l, B_h, [dst, #-32]
*4882a593Smuzhiyun	stp	C_l, C_h, [dst, #-48]
*4882a593Smuzhiyun	ldp	D_l, D_h, [src, #-64]!
*4882a593Smuzhiyun	stp	D_l, D_h, [dst, #-64]!
*4882a593Smuzhiyun
*4882a593Smuzhiyun	tst	count, #0x3f
*4882a593Smuzhiyun	b.ne	.Ltail63
*4882a593Smuzhiyun	ret
*4882a593Smuzhiyun
*4882a593Smuzhiyun	/*
*4882a593Smuzhiyun	* Critical loop. Start at a new cache line boundary. Assuming
*4882a593Smuzhiyun	* 64 bytes per line this ensures the entire loop is in one line.
*4882a593Smuzhiyun	*/
*4882a593Smuzhiyun	.p2align	L1_CACHE_SHIFT
*4882a593Smuzhiyun.Lcpy_body_large:
*4882a593Smuzhiyun	/* pre-load 64 bytes data. */
*4882a593Smuzhiyun	ldp	A_l, A_h, [src, #-16]
*4882a593Smuzhiyun	ldp	B_l, B_h, [src, #-32]
*4882a593Smuzhiyun	ldp	C_l, C_h, [src, #-48]
*4882a593Smuzhiyun	ldp	D_l, D_h, [src, #-64]!
*4882a593Smuzhiyun1:
*4882a593Smuzhiyun	/*
*4882a593Smuzhiyun	* interlace the load of next 64 bytes data block with store of the last
*4882a593Smuzhiyun	* loaded 64 bytes data.
*4882a593Smuzhiyun	*/
*4882a593Smuzhiyun	stp	A_l, A_h, [dst, #-16]
*4882a593Smuzhiyun	ldp	A_l, A_h, [src, #-16]
*4882a593Smuzhiyun	stp	B_l, B_h, [dst, #-32]
*4882a593Smuzhiyun	ldp	B_l, B_h, [src, #-32]
*4882a593Smuzhiyun	stp	C_l, C_h, [dst, #-48]
*4882a593Smuzhiyun	ldp	C_l, C_h, [src, #-48]
*4882a593Smuzhiyun	stp	D_l, D_h, [dst, #-64]!
*4882a593Smuzhiyun	ldp	D_l, D_h, [src, #-64]!
*4882a593Smuzhiyun	subs	count, count, #64
*4882a593Smuzhiyun	b.ge	1b
*4882a593Smuzhiyun	stp	A_l, A_h, [dst, #-16]
*4882a593Smuzhiyun	stp	B_l, B_h, [dst, #-32]
*4882a593Smuzhiyun	stp	C_l, C_h, [dst, #-48]
*4882a593Smuzhiyun	stp	D_l, D_h, [dst, #-64]!
*4882a593Smuzhiyun
*4882a593Smuzhiyun	tst	count, #0x3f
*4882a593Smuzhiyun	b.ne	.Ltail63
*4882a593Smuzhiyun	ret
*4882a593SmuzhiyunSYM_FUNC_END_PI(memmove)
*4882a593SmuzhiyunEXPORT_SYMBOL(memmove)
*4882a593SmuzhiyunSYM_FUNC_END_ALIAS(__memmove)
*4882a593SmuzhiyunEXPORT_SYMBOL(__memmove)