perf/Documentation/perf-bench.txt

*4882a593Smuzhiyunperf-bench(1)
*4882a593Smuzhiyun=============
*4882a593Smuzhiyun
*4882a593SmuzhiyunNAME
*4882a593Smuzhiyun----
*4882a593Smuzhiyunperf-bench - General framework for benchmark suites
*4882a593Smuzhiyun
*4882a593SmuzhiyunSYNOPSIS
*4882a593Smuzhiyun--------
*4882a593Smuzhiyun[verse]
*4882a593Smuzhiyun'perf bench' [<common options>] <subsystem> <suite> [<options>]
*4882a593Smuzhiyun
*4882a593SmuzhiyunDESCRIPTION
*4882a593Smuzhiyun-----------
*4882a593SmuzhiyunThis 'perf bench' command is a general framework for benchmark suites.
*4882a593Smuzhiyun
*4882a593SmuzhiyunCOMMON OPTIONS
*4882a593Smuzhiyun--------------
*4882a593Smuzhiyun-r::
*4882a593Smuzhiyun--repeat=::
*4882a593SmuzhiyunSpecify amount of times to repeat the run (default 10).
*4882a593Smuzhiyun
*4882a593Smuzhiyun-f::
*4882a593Smuzhiyun--format=::
*4882a593SmuzhiyunSpecify format style.
*4882a593SmuzhiyunCurrent available format styles are:
*4882a593Smuzhiyun
*4882a593Smuzhiyun'default'::
*4882a593SmuzhiyunDefault style. This is mainly for human reading.
*4882a593Smuzhiyun---------------------
*4882a593Smuzhiyun% perf bench sched pipe                      # with no style specified
*4882a593Smuzhiyun(executing 1000000 pipe operations between two tasks)
*4882a593Smuzhiyun        Total time:5.855 sec
*4882a593Smuzhiyun                5.855061 usecs/op
*4882a593Smuzhiyun		170792 ops/sec
*4882a593Smuzhiyun---------------------
*4882a593Smuzhiyun
*4882a593Smuzhiyun'simple'::
*4882a593SmuzhiyunThis simple style is friendly for automated
*4882a593Smuzhiyunprocessing by scripts.
*4882a593Smuzhiyun---------------------
*4882a593Smuzhiyun% perf bench --format=simple sched pipe      # specified simple
*4882a593Smuzhiyun5.988
*4882a593Smuzhiyun---------------------
*4882a593Smuzhiyun
*4882a593SmuzhiyunSUBSYSTEM
*4882a593Smuzhiyun---------
*4882a593Smuzhiyun
*4882a593Smuzhiyun'sched'::
*4882a593Smuzhiyun	Scheduler and IPC mechanisms.
*4882a593Smuzhiyun
*4882a593Smuzhiyun'syscall'::
*4882a593Smuzhiyun	System call performance (throughput).
*4882a593Smuzhiyun
*4882a593Smuzhiyun'mem'::
*4882a593Smuzhiyun	Memory access performance.
*4882a593Smuzhiyun
*4882a593Smuzhiyun'numa'::
*4882a593Smuzhiyun	NUMA scheduling and MM benchmarks.
*4882a593Smuzhiyun
*4882a593Smuzhiyun'futex'::
*4882a593Smuzhiyun	Futex stressing benchmarks.
*4882a593Smuzhiyun
*4882a593Smuzhiyun'epoll'::
*4882a593Smuzhiyun	Eventpoll (epoll) stressing benchmarks.
*4882a593Smuzhiyun
*4882a593Smuzhiyun'internals'::
*4882a593Smuzhiyun	Benchmark internal perf functionality.
*4882a593Smuzhiyun
*4882a593Smuzhiyun'all'::
*4882a593Smuzhiyun	All benchmark subsystems.
*4882a593Smuzhiyun
*4882a593SmuzhiyunSUITES FOR 'sched'
*4882a593Smuzhiyun~~~~~~~~~~~~~~~~~~
*4882a593Smuzhiyun*messaging*::
*4882a593SmuzhiyunSuite for evaluating performance of scheduler and IPC mechanisms.
*4882a593SmuzhiyunBased on hackbench by Rusty Russell.
*4882a593Smuzhiyun
*4882a593SmuzhiyunOptions of *messaging*
*4882a593Smuzhiyun^^^^^^^^^^^^^^^^^^^^^^
*4882a593Smuzhiyun-p::
*4882a593Smuzhiyun--pipe::
*4882a593SmuzhiyunUse pipe() instead of socketpair()
*4882a593Smuzhiyun
*4882a593Smuzhiyun-t::
*4882a593Smuzhiyun--thread::
*4882a593SmuzhiyunBe multi thread instead of multi process
*4882a593Smuzhiyun
*4882a593Smuzhiyun-g::
*4882a593Smuzhiyun--group=::
*4882a593SmuzhiyunSpecify number of groups
*4882a593Smuzhiyun
*4882a593Smuzhiyun-l::
*4882a593Smuzhiyun--nr_loops=::
*4882a593SmuzhiyunSpecify number of loops
*4882a593Smuzhiyun
*4882a593SmuzhiyunExample of *messaging*
*4882a593Smuzhiyun^^^^^^^^^^^^^^^^^^^^^^
*4882a593Smuzhiyun
*4882a593Smuzhiyun---------------------
*4882a593Smuzhiyun% perf bench sched messaging                 # run with default
*4882a593Smuzhiyunoptions (20 sender and receiver processes per group)
*4882a593Smuzhiyun(10 groups == 400 processes run)
*4882a593Smuzhiyun
*4882a593Smuzhiyun      Total time:0.308 sec
*4882a593Smuzhiyun
*4882a593Smuzhiyun% perf bench sched messaging -t -g 20        # be multi-thread, with 20 groups
*4882a593Smuzhiyun(20 sender and receiver threads per group)
*4882a593Smuzhiyun(20 groups == 800 threads run)
*4882a593Smuzhiyun
*4882a593Smuzhiyun      Total time:0.582 sec
*4882a593Smuzhiyun---------------------
*4882a593Smuzhiyun
*4882a593Smuzhiyun*pipe*::
*4882a593SmuzhiyunSuite for pipe() system call.
*4882a593SmuzhiyunBased on pipe-test-1m.c by Ingo Molnar.
*4882a593Smuzhiyun
*4882a593SmuzhiyunOptions of *pipe*
*4882a593Smuzhiyun^^^^^^^^^^^^^^^^^
*4882a593Smuzhiyun-l::
*4882a593Smuzhiyun--loop=::
*4882a593SmuzhiyunSpecify number of loops.
*4882a593Smuzhiyun
*4882a593SmuzhiyunExample of *pipe*
*4882a593Smuzhiyun^^^^^^^^^^^^^^^^^
*4882a593Smuzhiyun
*4882a593Smuzhiyun---------------------
*4882a593Smuzhiyun% perf bench sched pipe
*4882a593Smuzhiyun(executing 1000000 pipe operations between two tasks)
*4882a593Smuzhiyun
*4882a593Smuzhiyun        Total time:8.091 sec
*4882a593Smuzhiyun                8.091833 usecs/op
*4882a593Smuzhiyun                123581 ops/sec
*4882a593Smuzhiyun
*4882a593Smuzhiyun% perf bench sched pipe -l 1000              # loop 1000
*4882a593Smuzhiyun(executing 1000 pipe operations between two tasks)
*4882a593Smuzhiyun
*4882a593Smuzhiyun        Total time:0.016 sec
*4882a593Smuzhiyun                16.948000 usecs/op
*4882a593Smuzhiyun                59004 ops/sec
*4882a593Smuzhiyun---------------------
*4882a593Smuzhiyun
*4882a593SmuzhiyunSUITES FOR 'syscall'
*4882a593Smuzhiyun~~~~~~~~~~~~~~~~~~
*4882a593Smuzhiyun*basic*::
*4882a593SmuzhiyunSuite for evaluating performance of core system call throughput (both usecs/op and ops/sec metrics).
*4882a593SmuzhiyunThis uses a single thread simply doing getppid(2), which is a simple syscall where the result is not
*4882a593Smuzhiyuncached by glibc.
*4882a593Smuzhiyun
*4882a593Smuzhiyun
*4882a593SmuzhiyunSUITES FOR 'mem'
*4882a593Smuzhiyun~~~~~~~~~~~~~~~~
*4882a593Smuzhiyun*memcpy*::
*4882a593SmuzhiyunSuite for evaluating performance of simple memory copy in various ways.
*4882a593Smuzhiyun
*4882a593SmuzhiyunOptions of *memcpy*
*4882a593Smuzhiyun^^^^^^^^^^^^^^^^^^^
*4882a593Smuzhiyun-l::
*4882a593Smuzhiyun--size::
*4882a593SmuzhiyunSpecify size of memory to copy (default: 1MB).
*4882a593SmuzhiyunAvailable units are B, KB, MB, GB and TB (case insensitive).
*4882a593Smuzhiyun
*4882a593Smuzhiyun-f::
*4882a593Smuzhiyun--function::
*4882a593SmuzhiyunSpecify function to copy (default: default).
*4882a593SmuzhiyunAvailable functions are depend on the architecture.
*4882a593SmuzhiyunOn x86-64, x86-64-unrolled, x86-64-movsq and x86-64-movsb are supported.
*4882a593Smuzhiyun
*4882a593Smuzhiyun-l::
*4882a593Smuzhiyun--nr_loops::
*4882a593SmuzhiyunRepeat memcpy invocation this number of times.
*4882a593Smuzhiyun
*4882a593Smuzhiyun-c::
*4882a593Smuzhiyun--cycles::
*4882a593SmuzhiyunUse perf's cpu-cycles event instead of gettimeofday syscall.
*4882a593Smuzhiyun
*4882a593Smuzhiyun*memset*::
*4882a593SmuzhiyunSuite for evaluating performance of simple memory set in various ways.
*4882a593Smuzhiyun
*4882a593SmuzhiyunOptions of *memset*
*4882a593Smuzhiyun^^^^^^^^^^^^^^^^^^^
*4882a593Smuzhiyun-l::
*4882a593Smuzhiyun--size::
*4882a593SmuzhiyunSpecify size of memory to set (default: 1MB).
*4882a593SmuzhiyunAvailable units are B, KB, MB, GB and TB (case insensitive).
*4882a593Smuzhiyun
*4882a593Smuzhiyun-f::
*4882a593Smuzhiyun--function::
*4882a593SmuzhiyunSpecify function to set (default: default).
*4882a593SmuzhiyunAvailable functions are depend on the architecture.
*4882a593SmuzhiyunOn x86-64, x86-64-unrolled, x86-64-stosq and x86-64-stosb are supported.
*4882a593Smuzhiyun
*4882a593Smuzhiyun-l::
*4882a593Smuzhiyun--nr_loops::
*4882a593SmuzhiyunRepeat memset invocation this number of times.
*4882a593Smuzhiyun
*4882a593Smuzhiyun-c::
*4882a593Smuzhiyun--cycles::
*4882a593SmuzhiyunUse perf's cpu-cycles event instead of gettimeofday syscall.
*4882a593Smuzhiyun
*4882a593SmuzhiyunSUITES FOR 'numa'
*4882a593Smuzhiyun~~~~~~~~~~~~~~~~~
*4882a593Smuzhiyun*mem*::
*4882a593SmuzhiyunSuite for evaluating NUMA workloads.
*4882a593Smuzhiyun
*4882a593SmuzhiyunSUITES FOR 'futex'
*4882a593Smuzhiyun~~~~~~~~~~~~~~~~~~
*4882a593Smuzhiyun*hash*::
*4882a593SmuzhiyunSuite for evaluating hash tables.
*4882a593Smuzhiyun
*4882a593Smuzhiyun*wake*::
*4882a593SmuzhiyunSuite for evaluating wake calls.
*4882a593Smuzhiyun
*4882a593Smuzhiyun*wake-parallel*::
*4882a593SmuzhiyunSuite for evaluating parallel wake calls.
*4882a593Smuzhiyun
*4882a593Smuzhiyun*requeue*::
*4882a593SmuzhiyunSuite for evaluating requeue calls.
*4882a593Smuzhiyun
*4882a593Smuzhiyun*lock-pi*::
*4882a593SmuzhiyunSuite for evaluating futex lock_pi calls.
*4882a593Smuzhiyun
*4882a593SmuzhiyunSUITES FOR 'epoll'
*4882a593Smuzhiyun~~~~~~~~~~~~~~~~~~
*4882a593Smuzhiyun*wait*::
*4882a593SmuzhiyunSuite for evaluating concurrent epoll_wait calls.
*4882a593Smuzhiyun
*4882a593Smuzhiyun*ctl*::
*4882a593SmuzhiyunSuite for evaluating multiple epoll_ctl calls.
*4882a593Smuzhiyun
*4882a593SmuzhiyunSUITES FOR 'internals'
*4882a593Smuzhiyun~~~~~~~~~~~~~~~~~~~~~~
*4882a593Smuzhiyun*synthesize*::
*4882a593SmuzhiyunSuite for evaluating perf's event synthesis performance.
*4882a593Smuzhiyun
*4882a593SmuzhiyunSEE ALSO
*4882a593Smuzhiyun--------
*4882a593Smuzhiyunlinkperf:perf[1]