sh/lib/memset-sh4.S

*4882a593Smuzhiyun/* SPDX-License-Identifier: GPL-2.0 */
*4882a593Smuzhiyun/*
*4882a593Smuzhiyun * "memset" implementation for SH4
*4882a593Smuzhiyun *
*4882a593Smuzhiyun * Copyright (C) 1999  Niibe Yutaka
*4882a593Smuzhiyun * Copyright (c) 2009  STMicroelectronics Limited
*4882a593Smuzhiyun * Author: Stuart Menefy <stuart.menefy:st.com>
*4882a593Smuzhiyun */
*4882a593Smuzhiyun
*4882a593Smuzhiyun/*
*4882a593Smuzhiyun *            void *memset(void *s, int c, size_t n);
*4882a593Smuzhiyun */
*4882a593Smuzhiyun
*4882a593Smuzhiyun#include <linux/linkage.h>
*4882a593Smuzhiyun
*4882a593SmuzhiyunENTRY(memset)
*4882a593Smuzhiyun	mov	#12,r0
*4882a593Smuzhiyun	add	r6,r4
*4882a593Smuzhiyun	cmp/gt	r6,r0
*4882a593Smuzhiyun	bt/s	40f		! if it's too small, set a byte at once
*4882a593Smuzhiyun	 mov	r4,r0
*4882a593Smuzhiyun	and	#3,r0
*4882a593Smuzhiyun	cmp/eq	#0,r0
*4882a593Smuzhiyun	bt/s	2f		! It's aligned
*4882a593Smuzhiyun	 sub	r0,r6
*4882a593Smuzhiyun1:
*4882a593Smuzhiyun	dt	r0
*4882a593Smuzhiyun	bf/s	1b
*4882a593Smuzhiyun	 mov.b	r5,@-r4
*4882a593Smuzhiyun2:				! make VVVV
*4882a593Smuzhiyun	extu.b	r5,r5
*4882a593Smuzhiyun	swap.b	r5,r0		!   V0
*4882a593Smuzhiyun	or	r0,r5		!   VV
*4882a593Smuzhiyun	swap.w	r5,r0		! VV00
*4882a593Smuzhiyun	or	r0,r5		! VVVV
*4882a593Smuzhiyun
*4882a593Smuzhiyun	! Check if enough bytes need to be copied to be worth the big loop
*4882a593Smuzhiyun	mov	#0x40, r0	! (MT)
*4882a593Smuzhiyun	cmp/gt	r6,r0		! (MT)  64 > len => slow loop
*4882a593Smuzhiyun
*4882a593Smuzhiyun	bt/s	22f
*4882a593Smuzhiyun	 mov	r6,r0
*4882a593Smuzhiyun
*4882a593Smuzhiyun	! align the dst to the cache block size if necessary
*4882a593Smuzhiyun	mov	r4, r3
*4882a593Smuzhiyun	mov	#~(0x1f), r1
*4882a593Smuzhiyun
*4882a593Smuzhiyun	and	r3, r1
*4882a593Smuzhiyun	cmp/eq	r3, r1
*4882a593Smuzhiyun
*4882a593Smuzhiyun	bt/s	11f		! dst is already aligned
*4882a593Smuzhiyun	 sub	r1, r3		! r3-r1 -> r3
*4882a593Smuzhiyun	shlr2	r3		! number of loops
*4882a593Smuzhiyun
*4882a593Smuzhiyun10:	mov.l	r5,@-r4
*4882a593Smuzhiyun	dt	r3
*4882a593Smuzhiyun	bf/s	10b
*4882a593Smuzhiyun	 add	#-4, r6
*4882a593Smuzhiyun
*4882a593Smuzhiyun11:	! dst is 32byte aligned
*4882a593Smuzhiyun	mov	r6,r2
*4882a593Smuzhiyun	mov	#-5,r0
*4882a593Smuzhiyun	shld	r0,r2		! number of loops
*4882a593Smuzhiyun
*4882a593Smuzhiyun	add	#-32, r4
*4882a593Smuzhiyun	mov	r5, r0
*4882a593Smuzhiyun12:
*4882a593Smuzhiyun	movca.l	r0,@r4
*4882a593Smuzhiyun	mov.l	r5,@(4, r4)
*4882a593Smuzhiyun	mov.l	r5,@(8, r4)
*4882a593Smuzhiyun	mov.l	r5,@(12,r4)
*4882a593Smuzhiyun	mov.l	r5,@(16,r4)
*4882a593Smuzhiyun	mov.l	r5,@(20,r4)
*4882a593Smuzhiyun	add	#-0x20, r6
*4882a593Smuzhiyun	mov.l	r5,@(24,r4)
*4882a593Smuzhiyun	dt	r2
*4882a593Smuzhiyun	mov.l	r5,@(28,r4)
*4882a593Smuzhiyun	bf/s	12b
*4882a593Smuzhiyun	 add	#-32, r4
*4882a593Smuzhiyun
*4882a593Smuzhiyun	add	#32, r4
*4882a593Smuzhiyun	mov	#8, r0
*4882a593Smuzhiyun	cmp/ge	r0, r6
*4882a593Smuzhiyun	bf	40f
*4882a593Smuzhiyun
*4882a593Smuzhiyun	mov	r6,r0
*4882a593Smuzhiyun22:
*4882a593Smuzhiyun	shlr2	r0
*4882a593Smuzhiyun	shlr	r0		! r0 = r6 >> 3
*4882a593Smuzhiyun3:
*4882a593Smuzhiyun	dt	r0
*4882a593Smuzhiyun	mov.l	r5,@-r4		! set 8-byte at once
*4882a593Smuzhiyun	bf/s	3b
*4882a593Smuzhiyun	 mov.l	r5,@-r4
*4882a593Smuzhiyun	!
*4882a593Smuzhiyun	mov	#7,r0
*4882a593Smuzhiyun	and	r0,r6
*4882a593Smuzhiyun
*4882a593Smuzhiyun	! fill bytes (length may be zero)
*4882a593Smuzhiyun40:	tst	r6,r6
*4882a593Smuzhiyun	bt	5f
*4882a593Smuzhiyun4:
*4882a593Smuzhiyun	dt	r6
*4882a593Smuzhiyun	bf/s	4b
*4882a593Smuzhiyun	 mov.b	r5,@-r4
*4882a593Smuzhiyun5:
*4882a593Smuzhiyun	rts
*4882a593Smuzhiyun	 mov	r4,r0