arm64/lib/copy_template.S

*4882a593Smuzhiyun/* SPDX-License-Identifier: GPL-2.0-only */
*4882a593Smuzhiyun/*
*4882a593Smuzhiyun * Copyright (C) 2013 ARM Ltd.
*4882a593Smuzhiyun * Copyright (C) 2013 Linaro.
*4882a593Smuzhiyun *
*4882a593Smuzhiyun * This code is based on glibc cortex strings work originally authored by Linaro
*4882a593Smuzhiyun * be found @
*4882a593Smuzhiyun *
*4882a593Smuzhiyun * http://bazaar.launchpad.net/~linaro-toolchain-dev/cortex-strings/trunk/
*4882a593Smuzhiyun * files/head:/src/aarch64/
*4882a593Smuzhiyun */
*4882a593Smuzhiyun
*4882a593Smuzhiyun
*4882a593Smuzhiyun/*
*4882a593Smuzhiyun * Copy a buffer from src to dest (alignment handled by the hardware)
*4882a593Smuzhiyun *
*4882a593Smuzhiyun * Parameters:
*4882a593Smuzhiyun *	x0 - dest
*4882a593Smuzhiyun *	x1 - src
*4882a593Smuzhiyun *	x2 - n
*4882a593Smuzhiyun * Returns:
*4882a593Smuzhiyun *	x0 - dest
*4882a593Smuzhiyun */
*4882a593Smuzhiyundstin	.req	x0
*4882a593Smuzhiyunsrc	.req	x1
*4882a593Smuzhiyuncount	.req	x2
*4882a593Smuzhiyuntmp1	.req	x3
*4882a593Smuzhiyuntmp1w	.req	w3
*4882a593Smuzhiyuntmp2	.req	x4
*4882a593Smuzhiyuntmp2w	.req	w4
*4882a593Smuzhiyundst	.req	x6
*4882a593Smuzhiyun
*4882a593SmuzhiyunA_l	.req	x7
*4882a593SmuzhiyunA_h	.req	x8
*4882a593SmuzhiyunB_l	.req	x9
*4882a593SmuzhiyunB_h	.req	x10
*4882a593SmuzhiyunC_l	.req	x11
*4882a593SmuzhiyunC_h	.req	x12
*4882a593SmuzhiyunD_l	.req	x13
*4882a593SmuzhiyunD_h	.req	x14
*4882a593Smuzhiyun
*4882a593Smuzhiyun	mov	dst, dstin
*4882a593Smuzhiyun	cmp	count, #16
*4882a593Smuzhiyun	/*When memory length is less than 16, the accessed are not aligned.*/
*4882a593Smuzhiyun	b.lo	.Ltiny15
*4882a593Smuzhiyun
*4882a593Smuzhiyun	neg	tmp2, src
*4882a593Smuzhiyun	ands	tmp2, tmp2, #15/* Bytes to reach alignment. */
*4882a593Smuzhiyun	b.eq	.LSrcAligned
*4882a593Smuzhiyun	sub	count, count, tmp2
*4882a593Smuzhiyun	/*
*4882a593Smuzhiyun	* Copy the leading memory data from src to dst in an increasing
*4882a593Smuzhiyun	* address order.By this way,the risk of overwriting the source
*4882a593Smuzhiyun	* memory data is eliminated when the distance between src and
*4882a593Smuzhiyun	* dst is less than 16. The memory accesses here are alignment.
*4882a593Smuzhiyun	*/
*4882a593Smuzhiyun	tbz	tmp2, #0, 1f
*4882a593Smuzhiyun	ldrb1	tmp1w, src, #1
*4882a593Smuzhiyun	strb1	tmp1w, dst, #1
*4882a593Smuzhiyun1:
*4882a593Smuzhiyun	tbz	tmp2, #1, 2f
*4882a593Smuzhiyun	ldrh1	tmp1w, src, #2
*4882a593Smuzhiyun	strh1	tmp1w, dst, #2
*4882a593Smuzhiyun2:
*4882a593Smuzhiyun	tbz	tmp2, #2, 3f
*4882a593Smuzhiyun	ldr1	tmp1w, src, #4
*4882a593Smuzhiyun	str1	tmp1w, dst, #4
*4882a593Smuzhiyun3:
*4882a593Smuzhiyun	tbz	tmp2, #3, .LSrcAligned
*4882a593Smuzhiyun	ldr1	tmp1, src, #8
*4882a593Smuzhiyun	str1	tmp1, dst, #8
*4882a593Smuzhiyun
*4882a593Smuzhiyun.LSrcAligned:
*4882a593Smuzhiyun	cmp	count, #64
*4882a593Smuzhiyun	b.ge	.Lcpy_over64
*4882a593Smuzhiyun	/*
*4882a593Smuzhiyun	* Deal with small copies quickly by dropping straight into the
*4882a593Smuzhiyun	* exit block.
*4882a593Smuzhiyun	*/
*4882a593Smuzhiyun.Ltail63:
*4882a593Smuzhiyun	/*
*4882a593Smuzhiyun	* Copy up to 48 bytes of data. At this point we only need the
*4882a593Smuzhiyun	* bottom 6 bits of count to be accurate.
*4882a593Smuzhiyun	*/
*4882a593Smuzhiyun	ands	tmp1, count, #0x30
*4882a593Smuzhiyun	b.eq	.Ltiny15
*4882a593Smuzhiyun	cmp	tmp1w, #0x20
*4882a593Smuzhiyun	b.eq	1f
*4882a593Smuzhiyun	b.lt	2f
*4882a593Smuzhiyun	ldp1	A_l, A_h, src, #16
*4882a593Smuzhiyun	stp1	A_l, A_h, dst, #16
*4882a593Smuzhiyun1:
*4882a593Smuzhiyun	ldp1	A_l, A_h, src, #16
*4882a593Smuzhiyun	stp1	A_l, A_h, dst, #16
*4882a593Smuzhiyun2:
*4882a593Smuzhiyun	ldp1	A_l, A_h, src, #16
*4882a593Smuzhiyun	stp1	A_l, A_h, dst, #16
*4882a593Smuzhiyun.Ltiny15:
*4882a593Smuzhiyun	/*
*4882a593Smuzhiyun	* Prefer to break one ldp/stp into several load/store to access
*4882a593Smuzhiyun	* memory in an increasing address order,rather than to load/store 16
*4882a593Smuzhiyun	* bytes from (src-16) to (dst-16) and to backward the src to aligned
*4882a593Smuzhiyun	* address,which way is used in original cortex memcpy. If keeping
*4882a593Smuzhiyun	* the original memcpy process here, memmove need to satisfy the
*4882a593Smuzhiyun	* precondition that src address is at least 16 bytes bigger than dst
*4882a593Smuzhiyun	* address,otherwise some source data will be overwritten when memove
*4882a593Smuzhiyun	* call memcpy directly. To make memmove simpler and decouple the
*4882a593Smuzhiyun	* memcpy's dependency on memmove, withdrew the original process.
*4882a593Smuzhiyun	*/
*4882a593Smuzhiyun	tbz	count, #3, 1f
*4882a593Smuzhiyun	ldr1	tmp1, src, #8
*4882a593Smuzhiyun	str1	tmp1, dst, #8
*4882a593Smuzhiyun1:
*4882a593Smuzhiyun	tbz	count, #2, 2f
*4882a593Smuzhiyun	ldr1	tmp1w, src, #4
*4882a593Smuzhiyun	str1	tmp1w, dst, #4
*4882a593Smuzhiyun2:
*4882a593Smuzhiyun	tbz	count, #1, 3f
*4882a593Smuzhiyun	ldrh1	tmp1w, src, #2
*4882a593Smuzhiyun	strh1	tmp1w, dst, #2
*4882a593Smuzhiyun3:
*4882a593Smuzhiyun	tbz	count, #0, .Lexitfunc
*4882a593Smuzhiyun	ldrb1	tmp1w, src, #1
*4882a593Smuzhiyun	strb1	tmp1w, dst, #1
*4882a593Smuzhiyun
*4882a593Smuzhiyun	b	.Lexitfunc
*4882a593Smuzhiyun
*4882a593Smuzhiyun.Lcpy_over64:
*4882a593Smuzhiyun	subs	count, count, #128
*4882a593Smuzhiyun	b.ge	.Lcpy_body_large
*4882a593Smuzhiyun	/*
*4882a593Smuzhiyun	* Less than 128 bytes to copy, so handle 64 here and then jump
*4882a593Smuzhiyun	* to the tail.
*4882a593Smuzhiyun	*/
*4882a593Smuzhiyun	ldp1	A_l, A_h, src, #16
*4882a593Smuzhiyun	stp1	A_l, A_h, dst, #16
*4882a593Smuzhiyun	ldp1	B_l, B_h, src, #16
*4882a593Smuzhiyun	ldp1	C_l, C_h, src, #16
*4882a593Smuzhiyun	stp1	B_l, B_h, dst, #16
*4882a593Smuzhiyun	stp1	C_l, C_h, dst, #16
*4882a593Smuzhiyun	ldp1	D_l, D_h, src, #16
*4882a593Smuzhiyun	stp1	D_l, D_h, dst, #16
*4882a593Smuzhiyun
*4882a593Smuzhiyun	tst	count, #0x3f
*4882a593Smuzhiyun	b.ne	.Ltail63
*4882a593Smuzhiyun	b	.Lexitfunc
*4882a593Smuzhiyun
*4882a593Smuzhiyun	/*
*4882a593Smuzhiyun	* Critical loop.  Start at a new cache line boundary.  Assuming
*4882a593Smuzhiyun	* 64 bytes per line this ensures the entire loop is in one line.
*4882a593Smuzhiyun	*/
*4882a593Smuzhiyun	.p2align	L1_CACHE_SHIFT
*4882a593Smuzhiyun.Lcpy_body_large:
*4882a593Smuzhiyun	/* pre-get 64 bytes data. */
*4882a593Smuzhiyun	ldp1	A_l, A_h, src, #16
*4882a593Smuzhiyun	ldp1	B_l, B_h, src, #16
*4882a593Smuzhiyun	ldp1	C_l, C_h, src, #16
*4882a593Smuzhiyun	ldp1	D_l, D_h, src, #16
*4882a593Smuzhiyun1:
*4882a593Smuzhiyun	/*
*4882a593Smuzhiyun	* interlace the load of next 64 bytes data block with store of the last
*4882a593Smuzhiyun	* loaded 64 bytes data.
*4882a593Smuzhiyun	*/
*4882a593Smuzhiyun	stp1	A_l, A_h, dst, #16
*4882a593Smuzhiyun	ldp1	A_l, A_h, src, #16
*4882a593Smuzhiyun	stp1	B_l, B_h, dst, #16
*4882a593Smuzhiyun	ldp1	B_l, B_h, src, #16
*4882a593Smuzhiyun	stp1	C_l, C_h, dst, #16
*4882a593Smuzhiyun	ldp1	C_l, C_h, src, #16
*4882a593Smuzhiyun	stp1	D_l, D_h, dst, #16
*4882a593Smuzhiyun	ldp1	D_l, D_h, src, #16
*4882a593Smuzhiyun	subs	count, count, #64
*4882a593Smuzhiyun	b.ge	1b
*4882a593Smuzhiyun	stp1	A_l, A_h, dst, #16
*4882a593Smuzhiyun	stp1	B_l, B_h, dst, #16
*4882a593Smuzhiyun	stp1	C_l, C_h, dst, #16
*4882a593Smuzhiyun	stp1	D_l, D_h, dst, #16
*4882a593Smuzhiyun
*4882a593Smuzhiyun	tst	count, #0x3f
*4882a593Smuzhiyun	b.ne	.Ltail63
*4882a593Smuzhiyun.Lexitfunc: