softfloat/doc/SoftFloat.html

*9403c583SJens Wiklander
*9403c583SJens Wiklander<HTML>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<HEAD>
*9403c583SJens Wiklander<TITLE>Berkeley SoftFloat Library Interface</TITLE>
*9403c583SJens Wiklander</HEAD>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<BODY>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<H1>Berkeley SoftFloat Release 3a: Library Interface</H1>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<P>
*9403c583SJens WiklanderJohn R. Hauser<BR>
*9403c583SJens Wiklander2015 October 23<BR>
*9403c583SJens Wiklander</P>
*9403c583SJens Wiklander
*9403c583SJens Wiklander
*9403c583SJens Wiklander<H2>Contents</H2>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<BLOCKQUOTE>
*9403c583SJens Wiklander<TABLE BORDER=0 CELLSPACING=0 CELLPADDING=0>
*9403c583SJens Wiklander<COL WIDTH=25>
*9403c583SJens Wiklander<COL WIDTH=*>
*9403c583SJens Wiklander<TR><TD COLSPAN=2>1. Introduction</TD></TR>
*9403c583SJens Wiklander<TR><TD COLSPAN=2>2. Limitations</TD></TR>
*9403c583SJens Wiklander<TR><TD COLSPAN=2>3. Acknowledgments and License</TD></TR>
*9403c583SJens Wiklander<TR><TD COLSPAN=2>4. Types and Functions</TD></TR>
*9403c583SJens Wiklander<TR><TD></TD><TD>4.1. Boolean and Integer Types</TD></TR>
*9403c583SJens Wiklander<TR><TD></TD><TD>4.2. Floating-Point Types</TD></TR>
*9403c583SJens Wiklander<TR><TD></TD><TD>4.3. Supported Floating-Point Functions</TD></TR>
*9403c583SJens Wiklander<TR>
*9403c583SJens Wiklander  <TD></TD>
*9403c583SJens Wiklander  <TD>4.4. Non-canonical Representations in <CODE>extFloat80_t</CODE></TD>
*9403c583SJens Wiklander</TR>
*9403c583SJens Wiklander<TR><TD></TD><TD>4.5. Conventions for Passing Arguments and Results</TD></TR>
*9403c583SJens Wiklander<TR><TD COLSPAN=2>5. Reserved Names</TD></TR>
*9403c583SJens Wiklander<TR><TD COLSPAN=2>6. Mode Variables</TD></TR>
*9403c583SJens Wiklander<TR><TD></TD><TD>6.1. Rounding Mode</TD></TR>
*9403c583SJens Wiklander<TR><TD></TD><TD>6.2. Underflow Detection</TD></TR>
*9403c583SJens Wiklander<TR>
*9403c583SJens Wiklander  <TD></TD>
*9403c583SJens Wiklander  <TD>6.3. Rounding Precision for the <NOBR>80-Bit</NOBR> Extended Format</TD>
*9403c583SJens Wiklander</TR>
*9403c583SJens Wiklander<TR><TD COLSPAN=2>7. Exceptions and Exception Flags</TD></TR>
*9403c583SJens Wiklander<TR><TD COLSPAN=2>8. Function Details</TD></TR>
*9403c583SJens Wiklander<TR><TD></TD><TD>8.1. Conversions from Integer to Floating-Point</TD></TR>
*9403c583SJens Wiklander<TR><TD></TD><TD>8.2. Conversions from Floating-Point to Integer</TD></TR>
*9403c583SJens Wiklander<TR><TD></TD><TD>8.3. Conversions Among Floating-Point Types</TD></TR>
*9403c583SJens Wiklander<TR><TD></TD><TD>8.4. Basic Arithmetic Functions</TD></TR>
*9403c583SJens Wiklander<TR><TD></TD><TD>8.5. Fused Multiply-Add Functions</TD></TR>
*9403c583SJens Wiklander<TR><TD></TD><TD>8.6. Remainder Functions</TD></TR>
*9403c583SJens Wiklander<TR><TD></TD><TD>8.7. Round-to-Integer Functions</TD></TR>
*9403c583SJens Wiklander<TR><TD></TD><TD>8.8. Comparison Functions</TD></TR>
*9403c583SJens Wiklander<TR><TD></TD><TD>8.9. Signaling NaN Test Functions</TD></TR>
*9403c583SJens Wiklander<TR><TD></TD><TD>8.10. Raise-Exception Function</TD></TR>
*9403c583SJens Wiklander<TR><TD COLSPAN=2>9. Changes from SoftFloat <NOBR>Release 2</NOBR></TD></TR>
*9403c583SJens Wiklander<TR><TD></TD><TD>9.1. Name Changes</TD></TR>
*9403c583SJens Wiklander<TR><TD></TD><TD>9.2. Changes to Function Arguments</TD></TR>
*9403c583SJens Wiklander<TR><TD></TD><TD>9.3. Added Capabilities</TD></TR>
*9403c583SJens Wiklander<TR><TD></TD><TD>9.4. Better Compatibility with the C Language</TD></TR>
*9403c583SJens Wiklander<TR><TD></TD><TD>9.5. New Organization as a Library</TD></TR>
*9403c583SJens Wiklander<TR><TD></TD><TD>9.6. Optimization Gains (and Losses)</TD></TR>
*9403c583SJens Wiklander<TR><TD COLSPAN=2>10. Future Directions</TD></TR>
*9403c583SJens Wiklander<TR><TD COLSPAN=2>11. Contact Information</TD></TR>
*9403c583SJens Wiklander</TABLE>
*9403c583SJens Wiklander</BLOCKQUOTE>
*9403c583SJens Wiklander
*9403c583SJens Wiklander
*9403c583SJens Wiklander<H2>1. Introduction</H2>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<P>
*9403c583SJens WiklanderBerkeley SoftFloat is a software implementation of binary floating-point that
*9403c583SJens Wiklanderconforms to the IEEE Standard for Floating-Point Arithmetic.
*9403c583SJens WiklanderThe current release supports four binary formats:  <NOBR>32-bit</NOBR>
*9403c583SJens Wiklandersingle-precision, <NOBR>64-bit</NOBR> double-precision, <NOBR>80-bit</NOBR>
*9403c583SJens Wiklanderdouble-extended-precision, and <NOBR>128-bit</NOBR> quadruple-precision.
*9403c583SJens WiklanderThe following functions are supported for each format:
*9403c583SJens Wiklander<UL>
*9403c583SJens Wiklander<LI>
*9403c583SJens Wiklanderaddition, subtraction, multiplication, division, and square root;
*9403c583SJens Wiklander<LI>
*9403c583SJens Wiklanderfused multiply-add as defined by the IEEE Standard, except for
*9403c583SJens Wiklander<NOBR>80-bit</NOBR> double-extended-precision;
*9403c583SJens Wiklander<LI>
*9403c583SJens Wiklanderremainder as defined by the IEEE Standard;
*9403c583SJens Wiklander<LI>
*9403c583SJens Wiklanderround to integral value;
*9403c583SJens Wiklander<LI>
*9403c583SJens Wiklandercomparisons;
*9403c583SJens Wiklander<LI>
*9403c583SJens Wiklanderconversions to/from other supported formats; and
*9403c583SJens Wiklander<LI>
*9403c583SJens Wiklanderconversions to/from <NOBR>32-bit</NOBR> and <NOBR>64-bit</NOBR> integers,
*9403c583SJens Wiklandersigned and unsigned.
*9403c583SJens Wiklander</UL>
*9403c583SJens WiklanderAll operations required by the original 1985 version of the IEEE Floating-Point
*9403c583SJens WiklanderStandard are implemented, except for conversions to and from decimal.
*9403c583SJens Wiklander</P>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<P>
*9403c583SJens WiklanderThis document gives information about the types defined and the routines
*9403c583SJens Wiklanderimplemented by SoftFloat.
*9403c583SJens WiklanderIt does not attempt to define or explain the IEEE Floating-Point Standard.
*9403c583SJens WiklanderInformation about the standard is available elsewhere.
*9403c583SJens Wiklander</P>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<P>
*9403c583SJens WiklanderThe current version of SoftFloat is <NOBR>Release 3a</NOBR>.
*9403c583SJens WiklanderThe only difference between this version and the previous
*9403c583SJens Wiklander<NOBR>Release 3</NOBR> is the replacement of the license text supplied by the
*9403c583SJens WiklanderUniversity of California.
*9403c583SJens Wiklander</P>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<P>
*9403c583SJens WiklanderThe functional interface of SoftFloat <NOBR>Release 3</NOBR> and afterward
*9403c583SJens Wiklanderdiffers in many details from that of earlier releases.
*9403c583SJens WiklanderFor specifics of these differences, see <NOBR>section 9</NOBR> below,
*9403c583SJens Wiklander<I>Changes from SoftFloat <NOBR>Release 2</NOBR></I>.
*9403c583SJens Wiklander</P>
*9403c583SJens Wiklander
*9403c583SJens Wiklander
*9403c583SJens Wiklander<H2>2. Limitations</H2>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<P>
*9403c583SJens WiklanderSoftFloat assumes the computer has an addressable byte size of 8 or
*9403c583SJens Wiklander<NOBR>16 bits</NOBR>.
*9403c583SJens Wiklander(Nearly all computers in use today have <NOBR>8-bit</NOBR> bytes.)
*9403c583SJens Wiklander</P>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<P>
*9403c583SJens WiklanderSoftFloat is written in C and is designed to work with other C code.
*9403c583SJens WiklanderThe C compiler used must conform at a minimum to the 1989 ANSI standard for the
*9403c583SJens WiklanderC language (same as the 1990 ISO standard) and must in addition support basic
*9403c583SJens Wiklanderarithmetic on <NOBR>64-bit</NOBR> integers.
*9403c583SJens WiklanderEarlier releases of SoftFloat included implementations of <NOBR>32-bit</NOBR>
*9403c583SJens Wiklandersingle-precision and <NOBR>64-bit</NOBR> double-precision floating-point that
*9403c583SJens Wiklanderdid not require <NOBR>64-bit</NOBR> integers, but this option is not supported
*9403c583SJens Wiklanderstarting with <NOBR>Release 3</NOBR>.
*9403c583SJens WiklanderSince 1999, ISO standards for C have mandated compiler support for
*9403c583SJens Wiklander<NOBR>64-bit</NOBR> integers.
*9403c583SJens WiklanderA compiler conforming to the 1999 C Standard or later is recommended but not
*9403c583SJens Wiklanderstrictly required.
*9403c583SJens Wiklander</P>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<P>
*9403c583SJens WiklanderMost operations not required by the original 1985 version of the IEEE
*9403c583SJens WiklanderFloating-Point Standard but added in the 2008 version are not yet supported in
*9403c583SJens WiklanderSoftFloat <NOBR>Release 3a</NOBR>.
*9403c583SJens Wiklander</P>
*9403c583SJens Wiklander
*9403c583SJens Wiklander
*9403c583SJens Wiklander<H2>3. Acknowledgments and License</H2>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<P>
*9403c583SJens WiklanderThe SoftFloat package was written by me, <NOBR>John R.</NOBR> Hauser.
*9403c583SJens Wiklander<NOBR>Release 3</NOBR> of SoftFloat was a completely new implementation
*9403c583SJens Wiklandersupplanting earlier releases.
*9403c583SJens WiklanderThe project to create <NOBR>Release 3</NOBR> (and <NOBR>now 3a</NOBR>) was done
*9403c583SJens Wiklanderin the employ of the University of California, Berkeley, within the Department
*9403c583SJens Wiklanderof Electrical Engineering and Computer Sciences, first for the Parallel
*9403c583SJens WiklanderComputing Laboratory (Par Lab) and then for the ASPIRE Lab.
*9403c583SJens WiklanderThe work was officially overseen by Prof. Krste Asanovic, with funding provided
*9403c583SJens Wiklanderby these sources:
*9403c583SJens Wiklander<BLOCKQUOTE>
*9403c583SJens Wiklander<TABLE>
*9403c583SJens Wiklander<COL>
*9403c583SJens Wiklander<COL WIDTH=10>
*9403c583SJens Wiklander<COL>
*9403c583SJens Wiklander<TR>
*9403c583SJens Wiklander<TD VALIGN=TOP><NOBR>Par Lab:</NOBR></TD>
*9403c583SJens Wiklander<TD></TD>
*9403c583SJens Wiklander<TD>
*9403c583SJens WiklanderMicrosoft (Award #024263), Intel (Award #024894), and U.C. Discovery
*9403c583SJens Wiklander(Award #DIG07-10227), with additional support from Par Lab affiliates Nokia,
*9403c583SJens WiklanderNVIDIA, Oracle, and Samsung.
*9403c583SJens Wiklander</TD>
*9403c583SJens Wiklander</TR>
*9403c583SJens Wiklander<TR>
*9403c583SJens Wiklander<TD VALIGN=TOP><NOBR>ASPIRE Lab:</NOBR></TD>
*9403c583SJens Wiklander<TD></TD>
*9403c583SJens Wiklander<TD>
*9403c583SJens WiklanderDARPA PERFECT program (Award #HR0011-12-2-0016), with additional support from
*9403c583SJens WiklanderASPIRE industrial sponsor Intel and ASPIRE affiliates Google, Nokia, NVIDIA,
*9403c583SJens WiklanderOracle, and Samsung.
*9403c583SJens Wiklander</TD>
*9403c583SJens Wiklander</TR>
*9403c583SJens Wiklander</TABLE>
*9403c583SJens Wiklander</BLOCKQUOTE>
*9403c583SJens Wiklander</P>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<P>
*9403c583SJens WiklanderThe following applies to the whole of SoftFloat <NOBR>Release 3a</NOBR> as well
*9403c583SJens Wiklanderas to each source file individually.
*9403c583SJens Wiklander</P>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<P>
*9403c583SJens WiklanderCopyright 2011, 2012, 2013, 2014, 2015 The Regents of the University of
*9403c583SJens WiklanderCalifornia.
*9403c583SJens WiklanderAll rights reserved.
*9403c583SJens Wiklander</P>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<P>
*9403c583SJens WiklanderRedistribution and use in source and binary forms, with or without
*9403c583SJens Wiklandermodification, are permitted provided that the following conditions are met:
*9403c583SJens Wiklander<OL>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<LI>
*9403c583SJens Wiklander<P>
*9403c583SJens WiklanderRedistributions of source code must retain the above copyright notice, this
*9403c583SJens Wiklanderlist of conditions, and the following disclaimer.
*9403c583SJens Wiklander</P>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<LI>
*9403c583SJens Wiklander<P>
*9403c583SJens WiklanderRedistributions in binary form must reproduce the above copyright notice, this
*9403c583SJens Wiklanderlist of conditions, and the following disclaimer in the documentation and/or
*9403c583SJens Wiklanderother materials provided with the distribution.
*9403c583SJens Wiklander</P>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<LI>
*9403c583SJens Wiklander<P>
*9403c583SJens WiklanderNeither the name of the University nor the names of its contributors may be
*9403c583SJens Wiklanderused to endorse or promote products derived from this software without specific
*9403c583SJens Wiklanderprior written permission.
*9403c583SJens Wiklander</P>
*9403c583SJens Wiklander
*9403c583SJens Wiklander</OL>
*9403c583SJens Wiklander</P>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<P>
*9403c583SJens WiklanderTHIS SOFTWARE IS PROVIDED BY THE REGENTS AND CONTRIBUTORS &ldquo;AS IS&rdquo;,
*9403c583SJens WiklanderAND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
*9403c583SJens WiklanderIMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE, ARE
*9403c583SJens WiklanderDISCLAIMED.
*9403c583SJens WiklanderIN NO EVENT SHALL THE REGENTS OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT,
*9403c583SJens WiklanderINDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
*9403c583SJens WiklanderBUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE,
*9403c583SJens WiklanderDATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF
*9403c583SJens WiklanderLIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT (INCLUDING NEGLIGENCE
*9403c583SJens WiklanderOR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF THIS SOFTWARE, EVEN IF
*9403c583SJens WiklanderADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
*9403c583SJens Wiklander</P>
*9403c583SJens Wiklander
*9403c583SJens Wiklander
*9403c583SJens Wiklander<H2>4. Types and Functions</H2>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<P>
*9403c583SJens WiklanderThe types and functions of SoftFloat are declared in header file
*9403c583SJens Wiklander<CODE>softfloat.h</CODE>.
*9403c583SJens Wiklander</P>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<H3>4.1. Boolean and Integer Types</H3>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<P>
*9403c583SJens WiklanderHeader file <CODE>softfloat.h</CODE> depends on standard headers
*9403c583SJens Wiklander<CODE>&lt;stdbool.h&gt;</CODE> and <CODE>&lt;stdint.h&gt;</CODE> to define type
*9403c583SJens Wiklander<CODE>bool</CODE> and several integer types.
*9403c583SJens WiklanderThese standard headers have been part of the ISO C Standard Library since 1999.
*9403c583SJens WiklanderWith any recent compiler, they are likely to be supported, even if the compiler
*9403c583SJens Wiklanderdoes not claim complete conformance to the ISO C Standard.
*9403c583SJens WiklanderFor older or nonstandard compilers, a port of SoftFloat may have substitutes
*9403c583SJens Wiklanderfor these headers.
*9403c583SJens WiklanderHeader <CODE>softfloat.h</CODE> depends only on the name <CODE>bool</CODE> from
*9403c583SJens Wiklander<CODE>&lt;stdbool.h&gt;</CODE> and on these type names from
*9403c583SJens Wiklander<CODE>&lt;stdint.h&gt;</CODE>:
*9403c583SJens Wiklander<BLOCKQUOTE>
*9403c583SJens Wiklander<PRE>
*9403c583SJens Wiklanderuint16_t
*9403c583SJens Wiklanderuint32_t
*9403c583SJens Wiklanderuint64_t
*9403c583SJens Wiklanderint32_t
*9403c583SJens Wiklanderint64_t
*9403c583SJens Wiklanderuint_fast8_t
*9403c583SJens Wiklanderuint_fast32_t
*9403c583SJens Wiklanderuint_fast64_t
*9403c583SJens Wiklander</PRE>
*9403c583SJens Wiklander</BLOCKQUOTE>
*9403c583SJens Wiklander</P>
*9403c583SJens Wiklander
*9403c583SJens Wiklander
*9403c583SJens Wiklander<H3>4.2. Floating-Point Types</H3>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<P>
*9403c583SJens WiklanderThe <CODE>softfloat.h</CODE> header defines four floating-point types:
*9403c583SJens Wiklander<BLOCKQUOTE>
*9403c583SJens Wiklander<TABLE CELLSPACING=0 CELLPADDING=0>
*9403c583SJens Wiklander<TR>
*9403c583SJens Wiklander<TD><CODE>float32_t</CODE></TD>
*9403c583SJens Wiklander<TD><NOBR>32-bit</NOBR> single-precision binary format</TD>
*9403c583SJens Wiklander</TR>
*9403c583SJens Wiklander<TR>
*9403c583SJens Wiklander<TD><CODE>float64_t</CODE></TD>
*9403c583SJens Wiklander<TD><NOBR>64-bit</NOBR> double-precision binary format</TD>
*9403c583SJens Wiklander</TR>
*9403c583SJens Wiklander<TR>
*9403c583SJens Wiklander<TD><CODE>extFloat80_t&nbsp;&nbsp;&nbsp;</CODE></TD>
*9403c583SJens Wiklander<TD><NOBR>80-bit</NOBR> double-extended-precision binary format (old Intel or
*9403c583SJens WiklanderMotorola format)</TD>
*9403c583SJens Wiklander</TR>
*9403c583SJens Wiklander<TR>
*9403c583SJens Wiklander<TD><CODE>float128_t</CODE></TD>
*9403c583SJens Wiklander<TD><NOBR>128-bit</NOBR> quadruple-precision binary format</TD>
*9403c583SJens Wiklander</TR>
*9403c583SJens Wiklander</TABLE>
*9403c583SJens Wiklander</BLOCKQUOTE>
*9403c583SJens WiklanderThe non-extended types are each exactly the size specified:
*9403c583SJens Wiklander<NOBR>32 bits</NOBR> for <CODE>float32_t</CODE>, <NOBR>64 bits</NOBR> for
*9403c583SJens Wiklander<CODE>float64_t</CODE>, and <NOBR>128 bits</NOBR> for <CODE>float128_t</CODE>.
*9403c583SJens WiklanderAside from these size requirements, the definitions of all these types may
*9403c583SJens Wiklanderdiffer for different ports of SoftFloat to specific systems.
*9403c583SJens WiklanderA given port of SoftFloat may or may not define some of the floating-point
*9403c583SJens Wiklandertypes as aliases for the C standard types <CODE>float</CODE>,
*9403c583SJens Wiklander<CODE>double</CODE>, and <CODE>long</CODE> <CODE>double</CODE>.
*9403c583SJens Wiklander</P>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<P>
*9403c583SJens WiklanderHeader file <CODE>softfloat.h</CODE> also defines a structure,
*9403c583SJens Wiklander<CODE>struct</CODE> <CODE>extFloat80M</CODE>, for the representation of
*9403c583SJens Wiklander<NOBR>80-bit</NOBR> double-extended-precision floating-point values in memory.
*9403c583SJens WiklanderThis structure is the same size as type <CODE>extFloat80_t</CODE> and contains
*9403c583SJens Wiklanderat least these two fields (not necessarily in this order):
*9403c583SJens Wiklander<BLOCKQUOTE>
*9403c583SJens Wiklander<PRE>
*9403c583SJens Wiklanderuint16_t signExp;
*9403c583SJens Wiklanderuint64_t signif;
*9403c583SJens Wiklander</PRE>
*9403c583SJens Wiklander</BLOCKQUOTE>
*9403c583SJens WiklanderField <CODE>signExp</CODE> contains the sign and exponent of the floating-point
*9403c583SJens Wiklandervalue, with the sign in the most significant bit (<NOBR>bit 15</NOBR>) and the
*9403c583SJens Wiklanderencoded exponent in the other <NOBR>15 bits</NOBR>.
*9403c583SJens WiklanderField <CODE>signif</CODE> is the complete <NOBR>64-bit</NOBR> significand of
*9403c583SJens Wiklanderthe floating-point value.
*9403c583SJens Wiklander(In the usual encoding for <NOBR>80-bit</NOBR> extended floating-point, the
*9403c583SJens Wiklanderleading <NOBR>1 bit</NOBR> of normalized numbers is not implicit but is stored
*9403c583SJens Wiklanderin the most significant bit of the significand.)
*9403c583SJens Wiklander</P>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<H3>4.3. Supported Floating-Point Functions</H3>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<P>
*9403c583SJens WiklanderSoftFloat implements these arithmetic operations for its floating-point types:
*9403c583SJens Wiklander<UL>
*9403c583SJens Wiklander<LI>
*9403c583SJens Wiklanderconversions between any two floating-point formats;
*9403c583SJens Wiklander<LI>
*9403c583SJens Wiklanderfor each floating-point format, conversions to and from signed and unsigned
*9403c583SJens Wiklander<NOBR>32-bit</NOBR> and <NOBR>64-bit</NOBR> integers;
*9403c583SJens Wiklander<LI>
*9403c583SJens Wiklanderfor each format, the usual addition, subtraction, multiplication, division, and
*9403c583SJens Wiklandersquare root operations;
*9403c583SJens Wiklander<LI>
*9403c583SJens Wiklanderfor each format except <CODE>extFloat80_t</CODE>, the fused multiply-add
*9403c583SJens Wiklanderoperation defined by the IEEE Standard;
*9403c583SJens Wiklander<LI>
*9403c583SJens Wiklanderfor each format, the floating-point remainder operation defined by the IEEE
*9403c583SJens WiklanderStandard;
*9403c583SJens Wiklander<LI>
*9403c583SJens Wiklanderfor each format, a &ldquo;round to integer&rdquo; operation that rounds to the
*9403c583SJens Wiklandernearest integer value in the same format; and
*9403c583SJens Wiklander<LI>
*9403c583SJens Wiklandercomparisons between two values in the same floating-point format.
*9403c583SJens Wiklander</UL>
*9403c583SJens Wiklander</P>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<P>
*9403c583SJens WiklanderThe following operations required by the 2008 IEEE Floating-Point Standard are
*9403c583SJens Wiklandernot supported in SoftFloat <NOBR>Release 3a</NOBR>:
*9403c583SJens Wiklander<UL>
*9403c583SJens Wiklander<LI>
*9403c583SJens Wiklander<B>nextUp</B>, <B>nextDown</B>, <B>minNum</B>, <B>maxNum</B>, <B>minNumMag</B>,
*9403c583SJens Wiklander<B>maxNumMag</B>, <B>scaleB</B>, and <B>logB</B>;
*9403c583SJens Wiklander<LI>
*9403c583SJens Wiklanderconversions between floating-point formats and decimal or hexadecimal character
*9403c583SJens Wiklandersequences;
*9403c583SJens Wiklander<LI>
*9403c583SJens Wiklanderall &ldquo;quiet-computation&rdquo; operations (<B>copy</B>, <B>negate</B>,
*9403c583SJens Wiklander<B>abs</B>, and <B>copySign</B>, which all involve only simple copying and/or
*9403c583SJens Wiklandermanipulation of the floating-point sign bit); and
*9403c583SJens Wiklander<LI>
*9403c583SJens Wiklanderall &ldquo;non-computational&rdquo; operations other than <B>isSignaling</B>
*9403c583SJens Wiklander(which is supported).
*9403c583SJens Wiklander</UL>
*9403c583SJens Wiklander</P>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<H3>4.4. Non-canonical Representations in <CODE>extFloat80_t</CODE></H3>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<P>
*9403c583SJens WiklanderBecause the <NOBR>80-bit</NOBR> double-extended-precision format,
*9403c583SJens Wiklander<CODE>extFloat80_t</CODE>, stores an explicit leading significand bit, many
*9403c583SJens Wiklanderfloating-point numbers are encodable in this type in equivalent normalized and
*9403c583SJens Wiklanderdenormalized forms.
*9403c583SJens WiklanderZeros and values in the subnormal range have each only a single possible
*9403c583SJens Wiklanderencoding, for which the leading significand bit must <NOBR>be 0</NOBR>.
*9403c583SJens WiklanderFor other finite values (outside the subnormal range), a unique normalized
*9403c583SJens Wiklanderrepresentation, with leading significand bit set <NOBR>to 1</NOBR>, always
*9403c583SJens Wiklanderexists, and is considered the <I>canonical</I> representation of the value.
*9403c583SJens WiklanderAny equivalent denormalized representations (having leading significand bit
*9403c583SJens Wiklander<NOBR>of 0</NOBR>) are <I>non-canonical</I>.
*9403c583SJens WiklanderSimilarly, the leading significand bit is expected to <NOBR>be 1</NOBR> for
*9403c583SJens Wiklanderinfinities and NaNs as well;
*9403c583SJens Wiklanderany infinity or NaN with a leading significand bit <NOBR>of 0</NOBR> is again
*9403c583SJens Wiklanderconsidered non-canonical.
*9403c583SJens WiklanderIn short, for an <CODE>extFloat80_t</CODE> representation to be canonical, the
*9403c583SJens Wiklanderleading significand bit must <NOBR>be 1</NOBR> unless it is required to
*9403c583SJens Wiklander<NOBR>be 0</NOBR> because the encoded value is zero or a subnormal.
*9403c583SJens Wiklander</P>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<P>
*9403c583SJens WiklanderFunctions are not guaranteed to operate as expected when inputs of type
*9403c583SJens Wiklander<CODE>extFloat80_t</CODE> are non-canonical.
*9403c583SJens WiklanderAssuming all of a function&rsquo;s <CODE>extFloat80_t</CODE> inputs (if any)
*9403c583SJens Wiklanderare canonical, function outputs of type <CODE>extFloat80_t</CODE> will always
*9403c583SJens Wiklanderbe canonical.
*9403c583SJens Wiklander</P>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<H3>4.5. Conventions for Passing Arguments and Results</H3>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<P>
*9403c583SJens WiklanderValues that are at most <NOBR>64 bits</NOBR> in size (i.e., not the
*9403c583SJens Wiklander<NOBR>80-bit</NOBR> or <NOBR>128-bit</NOBR> floating-point formats) are in all
*9403c583SJens Wiklandercases passed as function arguments by value.
*9403c583SJens WiklanderLikewise, when an output of a function is no more than <NOBR>64 bits</NOBR>, it
*9403c583SJens Wiklanderis always returned directly as the function result.
*9403c583SJens WiklanderThus, for example, the SoftFloat function for adding two <NOBR>64-bit</NOBR>
*9403c583SJens Wiklanderfloating-point values has this simple signature:
*9403c583SJens Wiklander<BLOCKQUOTE>
*9403c583SJens Wiklander<CODE>float64_t f64_add( float64_t, float64_t );</CODE>
*9403c583SJens Wiklander</BLOCKQUOTE>
*9403c583SJens Wiklander</P>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<P>
*9403c583SJens WiklanderThe story is more complex when function inputs and outputs are
*9403c583SJens Wiklander<NOBR>80-bit</NOBR> and <NOBR>128-bit</NOBR> floating-point.
*9403c583SJens WiklanderFor these types, SoftFloat always provides a function that passes these larger
*9403c583SJens Wiklandervalues into or out of the function indirectly, via pointers.
*9403c583SJens WiklanderFor example, for adding two <NOBR>128-bit</NOBR> floating-point values,
*9403c583SJens WiklanderSoftFloat supplies this function:
*9403c583SJens Wiklander<BLOCKQUOTE>
*9403c583SJens Wiklander<CODE>void f128M_add( const float128_t *, const float128_t *, float128_t * );</CODE>
*9403c583SJens Wiklander</BLOCKQUOTE>
*9403c583SJens WiklanderThe first two arguments point to the values to be added, and the last argument
*9403c583SJens Wiklanderpoints to the location where the sum will be stored.
*9403c583SJens WiklanderThe <CODE>M</CODE> in the name <CODE>f128M_add</CODE> is mnemonic for the fact
*9403c583SJens Wiklanderthat the <NOBR>128-bit</NOBR> inputs and outputs are &ldquo;in memory&rdquo;,
*9403c583SJens Wiklanderpointed to by pointer arguments.
*9403c583SJens Wiklander</P>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<P>
*9403c583SJens WiklanderAll ports of SoftFloat implement these <I>pass-by-pointer</I> functions for
*9403c583SJens Wiklandertypes <CODE>extFloat80_t</CODE> and <CODE>float128_t</CODE>.
*9403c583SJens WiklanderAt the same time, SoftFloat ports may also implement alternate versions of
*9403c583SJens Wiklanderthese same functions that pass <CODE>extFloat80_t</CODE> and
*9403c583SJens Wiklander<CODE>float128_t</CODE> by value, like the smaller formats.
*9403c583SJens WiklanderThus, besides the function with name <CODE>f128M_add</CODE> shown above, a
*9403c583SJens WiklanderSoftFloat port may also supply an equivalent function with this signature:
*9403c583SJens Wiklander<BLOCKQUOTE>
*9403c583SJens Wiklander<CODE>float128_t f128_add( float128_t, float128_t );</CODE>
*9403c583SJens Wiklander</BLOCKQUOTE>
*9403c583SJens Wiklander</P>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<P>
*9403c583SJens WiklanderAs a general rule, on computers where the machine word size is
*9403c583SJens Wiklander<NOBR>32 bits</NOBR> or smaller, only the pass-by-pointer versions of functions
*9403c583SJens Wiklander(e.g., <CODE>f128M_add</CODE>) are provided for types <CODE>extFloat80_t</CODE>
*9403c583SJens Wiklanderand <CODE>float128_t</CODE>, because passing such large types directly can have
*9403c583SJens Wiklandersignificant extra cost.
*9403c583SJens WiklanderOn computers where the word size is <NOBR>64 bits</NOBR> or larger, both
*9403c583SJens Wiklanderfunction versions (<CODE>f128M_add</CODE> and <CODE>f128_add</CODE>) are
*9403c583SJens Wiklanderprovided, because the cost of passing by value is then more reasonable.
*9403c583SJens WiklanderApplications that must be portable accross both classes of computers must use
*9403c583SJens Wiklanderthe pointer-based functions, as these are always implemented.
*9403c583SJens WiklanderHowever, if it is known that SoftFloat includes the by-value functions for all
*9403c583SJens Wiklanderplatforms of interest, programmers can use whichever version they prefer.
*9403c583SJens Wiklander</P>
*9403c583SJens Wiklander
*9403c583SJens Wiklander
*9403c583SJens Wiklander<H2>5. Reserved Names</H2>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<P>
*9403c583SJens WiklanderIn addition to the variables and functions documented here, SoftFloat defines
*9403c583SJens Wiklandersome symbol names for its own private use.
*9403c583SJens WiklanderThese private names always begin with the prefix
*9403c583SJens Wiklander&lsquo;<CODE>softfloat_</CODE>&rsquo;.
*9403c583SJens WiklanderWhen a program includes header <CODE>softfloat.h</CODE> or links with the
*9403c583SJens WiklanderSoftFloat library, all names with prefix &lsquo;<CODE>softfloat_</CODE>&rsquo;
*9403c583SJens Wiklanderare reserved for possible use by SoftFloat.
*9403c583SJens WiklanderApplications that use SoftFloat should not define their own names with this
*9403c583SJens Wiklanderprefix, and should reference only such names as are documented.
*9403c583SJens Wiklander</P>
*9403c583SJens Wiklander
*9403c583SJens Wiklander
*9403c583SJens Wiklander<H2>6. Mode Variables</H2>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<P>
*9403c583SJens WiklanderThe following variables control rounding mode, underflow detection, and the
*9403c583SJens Wiklander<NOBR>80-bit</NOBR> extended format&rsquo;s rounding precision:
*9403c583SJens Wiklander<BLOCKQUOTE>
*9403c583SJens Wiklander<CODE>softfloat_roundingMode</CODE><BR>
*9403c583SJens Wiklander<CODE>softfloat_detectTininess</CODE><BR>
*9403c583SJens Wiklander<CODE>extF80_roundingPrecision</CODE>
*9403c583SJens Wiklander</BLOCKQUOTE>
*9403c583SJens WiklanderThese mode variables are covered in the next several subsections.
*9403c583SJens Wiklander</P>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<H3>6.1. Rounding Mode</H3>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<P>
*9403c583SJens WiklanderAll five rounding modes defined by the 2008 IEEE Floating-Point Standard are
*9403c583SJens Wiklanderimplemented for all operations that require rounding.
*9403c583SJens WiklanderThe rounding mode is selected by the global variable
*9403c583SJens Wiklander<BLOCKQUOTE>
*9403c583SJens Wiklander<CODE>uint_fast8_t softfloat_roundingMode;</CODE>
*9403c583SJens Wiklander</BLOCKQUOTE>
*9403c583SJens WiklanderThis variable may be set to one of the values
*9403c583SJens Wiklander<BLOCKQUOTE>
*9403c583SJens Wiklander<TABLE CELLSPACING=0 CELLPADDING=0>
*9403c583SJens Wiklander<TR>
*9403c583SJens Wiklander<TD><CODE>softfloat_round_near_even</CODE></TD>
*9403c583SJens Wiklander<TD>round to nearest, with ties to even</TD>
*9403c583SJens Wiklander</TR>
*9403c583SJens Wiklander<TR>
*9403c583SJens Wiklander<TD><CODE>softfloat_round_near_maxMag&nbsp;&nbsp;</CODE></TD>
*9403c583SJens Wiklander<TD>round to nearest, with ties to maximum magnitude (away from zero)</TD>
*9403c583SJens Wiklander</TR>
*9403c583SJens Wiklander<TR>
*9403c583SJens Wiklander<TD><CODE>softfloat_round_minMag</CODE></TD>
*9403c583SJens Wiklander<TD>round to minimum magnitude (toward zero)</TD>
*9403c583SJens Wiklander</TR>
*9403c583SJens Wiklander<TR>
*9403c583SJens Wiklander<TD><CODE>softfloat_round_min</CODE></TD>
*9403c583SJens Wiklander<TD>round to minimum (down)</TD>
*9403c583SJens Wiklander</TR>
*9403c583SJens Wiklander<TR>
*9403c583SJens Wiklander<TD><CODE>softfloat_round_max</CODE></TD>
*9403c583SJens Wiklander<TD>round to maximum (up)</TD>
*9403c583SJens Wiklander</TR>
*9403c583SJens Wiklander</TABLE>
*9403c583SJens Wiklander</BLOCKQUOTE>
*9403c583SJens WiklanderVariable <CODE>softfloat_roundingMode</CODE> is initialized to
*9403c583SJens Wiklander<CODE>softfloat_round_near_even</CODE>.
*9403c583SJens Wiklander</P>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<H3>6.2. Underflow Detection</H3>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<P>
*9403c583SJens WiklanderIn the terminology of the IEEE Standard, SoftFloat can detect tininess for
*9403c583SJens Wiklanderunderflow either before or after rounding.
*9403c583SJens WiklanderThe choice is made by the global variable
*9403c583SJens Wiklander<BLOCKQUOTE>
*9403c583SJens Wiklander<CODE>uint_fast8_t softfloat_detectTininess;</CODE>
*9403c583SJens Wiklander</BLOCKQUOTE>
*9403c583SJens Wiklanderwhich can be set to either
*9403c583SJens Wiklander<BLOCKQUOTE>
*9403c583SJens Wiklander<CODE>softfloat_tininess_beforeRounding</CODE><BR>
*9403c583SJens Wiklander<CODE>softfloat_tininess_afterRounding</CODE>
*9403c583SJens Wiklander</BLOCKQUOTE>
*9403c583SJens WiklanderDetecting tininess after rounding is better because it results in fewer
*9403c583SJens Wiklanderspurious underflow signals.
*9403c583SJens WiklanderThe other option is provided for compatibility with some systems.
*9403c583SJens WiklanderLike most systems (and as required by the newer 2008 IEEE Standard), SoftFloat
*9403c583SJens Wiklanderalways detects loss of accuracy for underflow as an inexact result.
*9403c583SJens Wiklander</P>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<H3>6.3. Rounding Precision for the <NOBR>80-Bit</NOBR> Extended Format</H3>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<P>
*9403c583SJens WiklanderFor <CODE>extFloat80_t</CODE> only, the rounding precision of the basic
*9403c583SJens Wiklanderarithmetic operations is controlled by the global variable
*9403c583SJens Wiklander<BLOCKQUOTE>
*9403c583SJens Wiklander<CODE>uint_fast8_t extF80_roundingPrecision;</CODE>
*9403c583SJens Wiklander</BLOCKQUOTE>
*9403c583SJens WiklanderThe operations affected are:
*9403c583SJens Wiklander<BLOCKQUOTE>
*9403c583SJens Wiklander<CODE>extF80_add</CODE><BR>
*9403c583SJens Wiklander<CODE>extF80_sub</CODE><BR>
*9403c583SJens Wiklander<CODE>extF80_mul</CODE><BR>
*9403c583SJens Wiklander<CODE>extF80_div</CODE><BR>
*9403c583SJens Wiklander<CODE>extF80_sqrt</CODE>
*9403c583SJens Wiklander</BLOCKQUOTE>
*9403c583SJens WiklanderWhen <CODE>extF80_roundingPrecision</CODE> is set to its default value of 80,
*9403c583SJens Wiklanderthese operations are rounded to the full precision of the <NOBR>80-bit</NOBR>
*9403c583SJens Wiklanderdouble-extended-precision format, like occurs for other formats.
*9403c583SJens WiklanderSetting <CODE>extF80_roundingPrecision</CODE> to 32 or to 64 causes the
*9403c583SJens Wiklanderoperations listed to be rounded to <NOBR>32-bit</NOBR> precision (equivalent to
*9403c583SJens Wiklander<CODE>float32_t</CODE>) or to <NOBR>64-bit</NOBR> precision (equivalent to
*9403c583SJens Wiklander<CODE>float64_t</CODE>), respectively.
*9403c583SJens WiklanderWhen rounding to reduced precision, additional bits in the result significand
*9403c583SJens Wiklanderbeyond the rounding point are set to zero.
*9403c583SJens WiklanderThe consequences of setting <CODE>extF80_roundingPrecision</CODE> to a value
*9403c583SJens Wiklanderother than 32, 64, or 80 is not specified.
*9403c583SJens WiklanderOperations other than the ones listed above are not affected by
*9403c583SJens Wiklander<CODE>extF80_roundingPrecision</CODE>.
*9403c583SJens Wiklander</P>
*9403c583SJens Wiklander
*9403c583SJens Wiklander
*9403c583SJens Wiklander<H2>7. Exceptions and Exception Flags</H2>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<P>
*9403c583SJens WiklanderAll five exception flags required by the IEEE Floating-Point Standard are
*9403c583SJens Wiklanderimplemented.
*9403c583SJens WiklanderEach flag is stored as a separate bit in the global variable
*9403c583SJens Wiklander<BLOCKQUOTE>
*9403c583SJens Wiklander<CODE>uint_fast8_t softfloat_exceptionFlags;</CODE>
*9403c583SJens Wiklander</BLOCKQUOTE>
*9403c583SJens WiklanderThe positions of the exception flag bits within this variable are determined by
*9403c583SJens Wiklanderthe bit masks
*9403c583SJens Wiklander<BLOCKQUOTE>
*9403c583SJens Wiklander<CODE>softfloat_flag_inexact</CODE><BR>
*9403c583SJens Wiklander<CODE>softfloat_flag_underflow</CODE><BR>
*9403c583SJens Wiklander<CODE>softfloat_flag_overflow</CODE><BR>
*9403c583SJens Wiklander<CODE>softfloat_flag_infinite</CODE><BR>
*9403c583SJens Wiklander<CODE>softfloat_flag_invalid</CODE>
*9403c583SJens Wiklander</BLOCKQUOTE>
*9403c583SJens WiklanderVariable <CODE>softfloat_exceptionFlags</CODE> is initialized to all zeros,
*9403c583SJens Wiklandermeaning no exceptions.
*9403c583SJens Wiklander</P>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<P>
*9403c583SJens WiklanderAn individual exception flag can be cleared with the statement
*9403c583SJens Wiklander<BLOCKQUOTE>
*9403c583SJens Wiklander<CODE>softfloat_exceptionFlags &= ~softfloat_flag_&lt;<I>exception</I>&gt;;</CODE>
*9403c583SJens Wiklander</BLOCKQUOTE>
*9403c583SJens Wiklanderwhere <CODE>&lt;<I>exception</I>&gt;</CODE> is the appropriate name.
*9403c583SJens WiklanderTo raise a floating-point exception, function <CODE>softfloat_raise</CODE>
*9403c583SJens Wiklandershould normally be used.
*9403c583SJens Wiklander</P>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<P>
*9403c583SJens WiklanderWhen SoftFloat detects an exception other than <I>inexact</I>, it calls
*9403c583SJens Wiklander<CODE>softfloat_raise</CODE>.
*9403c583SJens WiklanderThe default version of this function simply raises the corresponding exception
*9403c583SJens Wiklanderflags.
*9403c583SJens WiklanderParticular ports of SoftFloat may support alternate behavior, such as exception
*9403c583SJens Wiklandertraps, by modifying the default <CODE>softfloat_raise</CODE>.
*9403c583SJens WiklanderA program may also supply its own <CODE>softfloat_raise</CODE> function to
*9403c583SJens Wiklanderoverride the one from the SoftFloat library.
*9403c583SJens Wiklander</P>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<P>
*9403c583SJens WiklanderBecause inexact results occur frequently under most circumstances (and thus are
*9403c583SJens Wiklanderhardly exceptional), SoftFloat does not ordinarily call
*9403c583SJens Wiklander<CODE>softfloat_raise</CODE> for <I>inexact</I> exceptions.
*9403c583SJens WiklanderIt does always raise the <I>inexact</I> exception flag as required.
*9403c583SJens Wiklander</P>
*9403c583SJens Wiklander
*9403c583SJens Wiklander
*9403c583SJens Wiklander<H2>8. Function Details</H2>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<P>
*9403c583SJens WiklanderIn this section, <CODE>&lt;<I>float</I>&gt;</CODE> appears in function names as
*9403c583SJens Wiklandera substitute for one of these abbreviations:
*9403c583SJens Wiklander<BLOCKQUOTE>
*9403c583SJens Wiklander<TABLE CELLSPACING=0 CELLPADDING=0>
*9403c583SJens Wiklander<TR>
*9403c583SJens Wiklander<TD><CODE>f32</CODE></TD>
*9403c583SJens Wiklander<TD>indicates <CODE>float32_t</CODE>, passed by value</TD>
*9403c583SJens Wiklander</TR>
*9403c583SJens Wiklander<TR>
*9403c583SJens Wiklander<TD><CODE>f64</CODE></TD>
*9403c583SJens Wiklander<TD>indicates <CODE>float64_t</CODE>, passed by value</TD>
*9403c583SJens Wiklander</TR>
*9403c583SJens Wiklander<TR>
*9403c583SJens Wiklander<TD><CODE>extF80M&nbsp;&nbsp;&nbsp;</CODE></TD>
*9403c583SJens Wiklander<TD>indicates <CODE>extFloat80_t</CODE>, passed indirectly via pointers</TD>
*9403c583SJens Wiklander</TR>
*9403c583SJens Wiklander<TR>
*9403c583SJens Wiklander<TD><CODE>extF80</CODE></TD>
*9403c583SJens Wiklander<TD>indicates <CODE>extFloat80_t</CODE>, passed by value</TD>
*9403c583SJens Wiklander</TR>
*9403c583SJens Wiklander<TR>
*9403c583SJens Wiklander<TD><CODE>f128M</CODE></TD>
*9403c583SJens Wiklander<TD>indicates <CODE>float128_t</CODE>, passed indirectly via pointers</TD>
*9403c583SJens Wiklander</TR>
*9403c583SJens Wiklander<TR>
*9403c583SJens Wiklander<TD><CODE>f128</CODE></TD>
*9403c583SJens Wiklander<TD>indicates <CODE>float128_t</CODE>, passed by value</TD>
*9403c583SJens Wiklander</TR>
*9403c583SJens Wiklander</TABLE>
*9403c583SJens Wiklander</BLOCKQUOTE>
*9403c583SJens WiklanderThe circumstances under which values of floating-point types
*9403c583SJens Wiklander<CODE>extFloat80_t</CODE> and <CODE>float128_t</CODE> may be passed either by
*9403c583SJens Wiklandervalue or indirectly via pointers was discussed earlier in
*9403c583SJens Wiklander<NOBR>section 4.5</NOBR>, <I>Conventions for Passing Arguments and Results</I>.
*9403c583SJens Wiklander</P>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<H3>8.1. Conversions from Integer to Floating-Point</H3>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<P>
*9403c583SJens WiklanderAll conversions from a <NOBR>32-bit</NOBR> or <NOBR>64-bit</NOBR> integer,
*9403c583SJens Wiklandersigned or unsigned, to a floating-point format are supported.
*9403c583SJens WiklanderFunctions performing these conversions have these names:
*9403c583SJens Wiklander<BLOCKQUOTE>
*9403c583SJens Wiklander<CODE>ui32_to_&lt;<I>float</I>&gt;</CODE><BR>
*9403c583SJens Wiklander<CODE>ui64_to_&lt;<I>float</I>&gt;</CODE><BR>
*9403c583SJens Wiklander<CODE>i32_to_&lt;<I>float</I>&gt;</CODE><BR>
*9403c583SJens Wiklander<CODE>i64_to_&lt;<I>float</I>&gt;</CODE>
*9403c583SJens Wiklander</BLOCKQUOTE>
*9403c583SJens WiklanderConversions from <NOBR>32-bit</NOBR> integers to <NOBR>64-bit</NOBR>
*9403c583SJens Wiklanderdouble-precision and larger formats are always exact, and likewise conversions
*9403c583SJens Wiklanderfrom <NOBR>64-bit</NOBR> integers to <NOBR>80-bit</NOBR>
*9403c583SJens Wiklanderdouble-extended-precision and <NOBR>128-bit</NOBR> quadruple-precision are also
*9403c583SJens Wiklanderalways exact.
*9403c583SJens Wiklander</P>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<P>
*9403c583SJens WiklanderEach conversion function takes one input of the appropriate type and generates
*9403c583SJens Wiklanderone output.
*9403c583SJens WiklanderThe following illustrates the signatures of these functions in cases when the
*9403c583SJens Wiklanderfloating-point result is passed either by value or via pointers:
*9403c583SJens Wiklander<BLOCKQUOTE>
*9403c583SJens Wiklander<PRE>
*9403c583SJens Wiklanderfloat64_t i32_to_f64( int32_t <I>a</I> );
*9403c583SJens Wiklander</PRE>
*9403c583SJens Wiklander<PRE>
*9403c583SJens Wiklandervoid i32_to_f128M( int32_t <I>a</I>, float128_t *<I>destPtr</I> );
*9403c583SJens Wiklander</PRE>
*9403c583SJens Wiklander</BLOCKQUOTE>
*9403c583SJens Wiklander</P>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<H3>8.2. Conversions from Floating-Point to Integer</H3>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<P>
*9403c583SJens WiklanderConversions from a floating-point format to a <NOBR>32-bit</NOBR> or
*9403c583SJens Wiklander<NOBR>64-bit</NOBR> integer, signed or unsigned, are supported with these
*9403c583SJens Wiklanderfunctions:
*9403c583SJens Wiklander<BLOCKQUOTE>
*9403c583SJens Wiklander<CODE>&lt;<I>float</I>&gt;_to_ui32</CODE><BR>
*9403c583SJens Wiklander<CODE>&lt;<I>float</I>&gt;_to_ui64</CODE><BR>
*9403c583SJens Wiklander<CODE>&lt;<I>float</I>&gt;_to_i32</CODE><BR>
*9403c583SJens Wiklander<CODE>&lt;<I>float</I>&gt;_to_i64</CODE>
*9403c583SJens Wiklander</BLOCKQUOTE>
*9403c583SJens WiklanderThe functions have signatures as follows, depending on whether the
*9403c583SJens Wiklanderfloating-point input is passed by value or via pointers:
*9403c583SJens Wiklander<BLOCKQUOTE>
*9403c583SJens Wiklander<PRE>
*9403c583SJens Wiklanderint_fast32_t f64_to_i32( float64_t <I>a</I>, uint_fast8_t <I>roundingMode</I>, bool <I>exact</I> );
*9403c583SJens Wiklander</PRE>
*9403c583SJens Wiklander<PRE>
*9403c583SJens Wiklanderint_fast32_t
*9403c583SJens Wiklander f128M_to_i32( const float128_t *<I>aPtr</I>, uint_fast8_t <I>roundingMode</I>, bool <I>exact</I> );
*9403c583SJens Wiklander</PRE>
*9403c583SJens Wiklander</BLOCKQUOTE>
*9403c583SJens WiklanderThe <CODE><I>roundingMode</I></CODE> argument specifies the rounding mode for
*9403c583SJens Wiklanderthe conversion.
*9403c583SJens WiklanderThe variable that usually indicates rounding mode,
*9403c583SJens Wiklander<CODE>softfloat_roundingMode</CODE>, is ignored.
*9403c583SJens WiklanderArgument <CODE><I>exact</I></CODE> determines whether the <I>inexact</I>
*9403c583SJens Wiklanderexception flag is raised if the conversion is not exact.
*9403c583SJens WiklanderIf <CODE><I>exact</I></CODE> is <CODE>true</CODE>, the <I>inexact</I> flag may
*9403c583SJens Wiklanderbe raised;
*9403c583SJens Wiklanderotherwise, it will not be, even if the conversion is inexact.
*9403c583SJens Wiklander</P>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<P>
*9403c583SJens WiklanderConversions from floating-point to integer raise the <I>invalid</I> exception
*9403c583SJens Wiklanderif the source value cannot be rounded to a representable integer of the desired
*9403c583SJens Wiklandersize (32 or 64 bits).
*9403c583SJens WiklanderIn such a circumstance, if the floating-point input is a NaN or if the
*9403c583SJens Wiklanderconversion is to an unsigned integer type, the largest positive integer is
*9403c583SJens Wiklanderreturned;
*9403c583SJens Wiklanderotherwise, the largest integer with the same sign as the input is returned.
*9403c583SJens WiklanderThe functions that convert to integer types never raise the <I>overflow</I>
*9403c583SJens Wiklanderexception.
*9403c583SJens Wiklander</P>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<P>
*9403c583SJens WiklanderNote that, when converting to an unsigned integer type, if the <I>invalid</I>
*9403c583SJens Wiklanderexception is raised because the input floating-point value would round to a
*9403c583SJens Wiklandernegative integer, the value returned is the <EM>maximum positive unsigned
*9403c583SJens Wiklanderinteger</EM>.
*9403c583SJens WiklanderZero is not returned when the <I>invalid</I> exception is raised, even when
*9403c583SJens Wiklanderzero is the closest integer to the original floating-point value.
*9403c583SJens Wiklander</P>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<P>
*9403c583SJens WiklanderBecause languages such <NOBR>as C</NOBR> require that conversions to integers
*9403c583SJens Wiklanderbe rounded toward zero, the following functions are provided for improved speed
*9403c583SJens Wiklanderand convenience:
*9403c583SJens Wiklander<BLOCKQUOTE>
*9403c583SJens Wiklander<CODE>&lt;<I>float</I>&gt;_to_ui32_r_minMag</CODE><BR>
*9403c583SJens Wiklander<CODE>&lt;<I>float</I>&gt;_to_ui64_r_minMag</CODE><BR>
*9403c583SJens Wiklander<CODE>&lt;<I>float</I>&gt;_to_i32_r_minMag</CODE><BR>
*9403c583SJens Wiklander<CODE>&lt;<I>float</I>&gt;_to_i64_r_minMag</CODE>
*9403c583SJens Wiklander</BLOCKQUOTE>
*9403c583SJens WiklanderThese functions round only toward zero (to minimum magnitude).
*9403c583SJens WiklanderThe signatures for these functions are the same as above without the redundant
*9403c583SJens Wiklander<CODE><I>roundingMode</I></CODE> argument:
*9403c583SJens Wiklander<BLOCKQUOTE>
*9403c583SJens Wiklander<PRE>
*9403c583SJens Wiklanderint_fast32_t f64_to_i32_r_minMag( float64_t <I>a</I>, bool <I>exact</I> );
*9403c583SJens Wiklander</PRE>
*9403c583SJens Wiklander<PRE>
*9403c583SJens Wiklanderint_fast32_t f128M_to_i32_r_minMag( const float128_t *<I>aPtr</I>, bool <I>exact</I> );
*9403c583SJens Wiklander</PRE>
*9403c583SJens Wiklander</BLOCKQUOTE>
*9403c583SJens Wiklander</P>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<H3>8.3. Conversions Among Floating-Point Types</H3>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<P>
*9403c583SJens WiklanderConversions between floating-point formats are done by functions with these
*9403c583SJens Wiklandernames:
*9403c583SJens Wiklander<BLOCKQUOTE>
*9403c583SJens Wiklander<CODE>&lt;<I>float</I>&gt;_to_&lt;<I>float</I>&gt;</CODE>
*9403c583SJens Wiklander</BLOCKQUOTE>
*9403c583SJens WiklanderAll combinations of source and result type are supported where the source and
*9403c583SJens Wiklanderresult are different formats.
*9403c583SJens WiklanderThere are four different styles of signature for these functions, depending on
*9403c583SJens Wiklanderwhether the input and the output floating-point values are passed by value or
*9403c583SJens Wiklandervia pointers:
*9403c583SJens Wiklander<BLOCKQUOTE>
*9403c583SJens Wiklander<PRE>
*9403c583SJens Wiklanderfloat32_t f64_to_f32( float64_t <I>a</I> );
*9403c583SJens Wiklander</PRE>
*9403c583SJens Wiklander<PRE>
*9403c583SJens Wiklanderfloat32_t f128M_to_f32( const float128_t *<I>aPtr</I> );
*9403c583SJens Wiklander</PRE>
*9403c583SJens Wiklander<PRE>
*9403c583SJens Wiklandervoid f32_to_f128M( float32_t <I>a</I>, float128_t *<I>destPtr</I> );
*9403c583SJens Wiklander</PRE>
*9403c583SJens Wiklander<PRE>
*9403c583SJens Wiklandervoid extF80M_to_f128M( const extFloat80_t *<I>aPtr</I>, float128_t *<I>destPtr</I> );
*9403c583SJens Wiklander</PRE>
*9403c583SJens Wiklander</BLOCKQUOTE>
*9403c583SJens Wiklander</P>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<P>
*9403c583SJens WiklanderConversions from a smaller to a larger floating-point format are always exact
*9403c583SJens Wiklanderand so require no rounding.
*9403c583SJens Wiklander</P>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<H3>8.4. Basic Arithmetic Functions</H3>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<P>
*9403c583SJens WiklanderThe following basic arithmetic functions are provided:
*9403c583SJens Wiklander<BLOCKQUOTE>
*9403c583SJens Wiklander<CODE>&lt;<I>float</I>&gt;_add</CODE><BR>
*9403c583SJens Wiklander<CODE>&lt;<I>float</I>&gt;_sub</CODE><BR>
*9403c583SJens Wiklander<CODE>&lt;<I>float</I>&gt;_mul</CODE><BR>
*9403c583SJens Wiklander<CODE>&lt;<I>float</I>&gt;_div</CODE><BR>
*9403c583SJens Wiklander<CODE>&lt;<I>float</I>&gt;_sqrt</CODE>
*9403c583SJens Wiklander</BLOCKQUOTE>
*9403c583SJens WiklanderEach floating-point operation takes two operands, except for <CODE>sqrt</CODE>
*9403c583SJens Wiklander(square root) which takes only one.
*9403c583SJens WiklanderThe operands and result are all of the same floating-point format.
*9403c583SJens WiklanderSignatures for these functions take the following forms:
*9403c583SJens Wiklander<BLOCKQUOTE>
*9403c583SJens Wiklander<PRE>
*9403c583SJens Wiklanderfloat64_t f64_add( float64_t <I>a</I>, float64_t <I>b</I> );
*9403c583SJens Wiklander</PRE>
*9403c583SJens Wiklander<PRE>
*9403c583SJens Wiklandervoid
*9403c583SJens Wiklander f128M_add(
*9403c583SJens Wiklander     const float128_t *<I>aPtr</I>, const float128_t *<I>bPtr</I>, float128_t *<I>destPtr</I> );
*9403c583SJens Wiklander</PRE>
*9403c583SJens Wiklander<PRE>
*9403c583SJens Wiklanderfloat64_t f64_sqrt( float64_t <I>a</I> );
*9403c583SJens Wiklander</PRE>
*9403c583SJens Wiklander<PRE>
*9403c583SJens Wiklandervoid f128M_sqrt( const float128_t *<I>aPtr</I>, float128_t *<I>destPtr</I> );
*9403c583SJens Wiklander</PRE>
*9403c583SJens Wiklander</BLOCKQUOTE>
*9403c583SJens WiklanderWhen floating-point values are passed indirectly through pointers, arguments
*9403c583SJens Wiklander<CODE><I>aPtr</I></CODE> and <CODE><I>bPtr</I></CODE> point to the input
*9403c583SJens Wiklanderoperands, and the last argument, <CODE><I>destPtr</I></CODE>, points to the
*9403c583SJens Wiklanderlocation where the result is stored.
*9403c583SJens Wiklander</P>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<P>
*9403c583SJens WiklanderRounding of the <NOBR>80-bit</NOBR> double-extended-precision
*9403c583SJens Wiklander(<CODE>extFloat80_t</CODE>) functions is affected by variable
*9403c583SJens Wiklander<CODE>extF80_roundingPrecision</CODE>, as explained earlier in
*9403c583SJens Wiklander<NOBR>section 6.3</NOBR>,
*9403c583SJens Wiklander<I>Rounding Precision for the <NOBR>80-Bit</NOBR> Extended Format</I>.
*9403c583SJens Wiklander</P>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<H3>8.5. Fused Multiply-Add Functions</H3>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<P>
*9403c583SJens WiklanderThe 2008 version of the IEEE Floating-Point Standard defines a <I>fused
*9403c583SJens Wiklandermultiply-add</I> operation that does a combined multiplication and addition
*9403c583SJens Wiklanderwith only a single rounding.
*9403c583SJens WiklanderSoftFloat implements fused multiply-add with functions
*9403c583SJens Wiklander<BLOCKQUOTE>
*9403c583SJens Wiklander<CODE>&lt;<I>float</I>&gt;_mulAdd</CODE>
*9403c583SJens Wiklander</BLOCKQUOTE>
*9403c583SJens WiklanderUnlike other operations, fused multiple-add is supported only for the
*9403c583SJens Wiklandernon-extended formats, <CODE>float32_t</CODE>, <CODE>float64_t</CODE>, and
*9403c583SJens Wiklander<CODE>float128_t</CODE>.
*9403c583SJens WiklanderNo fused multiple-add function is currently provided for the
*9403c583SJens Wiklander<NOBR>80-bit</NOBR> double-extended-precision type, <CODE>extFloat80_t</CODE>.
*9403c583SJens Wiklander</P>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<P>
*9403c583SJens WiklanderDepending on whether floating-point values are passed by value or via pointers,
*9403c583SJens Wiklanderthe fused multiply-add functions have signatures of these forms:
*9403c583SJens Wiklander<BLOCKQUOTE>
*9403c583SJens Wiklander<PRE>
*9403c583SJens Wiklanderfloat64_t f64_mulAdd( float64_t <I>a</I>, float64_t <I>b</I>, float64_t <I>c</I> );
*9403c583SJens Wiklander</PRE>
*9403c583SJens Wiklander<PRE>
*9403c583SJens Wiklandervoid
*9403c583SJens Wiklander f128M_mulAdd(
*9403c583SJens Wiklander     const float128_t *<I>aPtr</I>,
*9403c583SJens Wiklander     const float128_t *<I>bPtr</I>,
*9403c583SJens Wiklander     const float128_t *<I>cPtr</I>,
*9403c583SJens Wiklander     float128_t *<I>destPtr</I>
*9403c583SJens Wiklander );
*9403c583SJens Wiklander</PRE>
*9403c583SJens Wiklander</BLOCKQUOTE>
*9403c583SJens WiklanderThe functions compute
*9403c583SJens Wiklander<NOBR>(<CODE><I>a</I></CODE> &times; <CODE><I>b</I></CODE>)
*9403c583SJens Wiklander + <CODE><I>c</I></CODE></NOBR>
*9403c583SJens Wiklanderwith a single rounding.
*9403c583SJens WiklanderWhen floating-point values are passed indirectly through pointers, arguments
*9403c583SJens Wiklander<CODE><I>aPtr</I></CODE>, <CODE><I>bPtr</I></CODE>, and
*9403c583SJens Wiklander<CODE><I>cPtr</I></CODE> point to operands <CODE><I>a</I></CODE>,
*9403c583SJens Wiklander<CODE><I>b</I></CODE>, and <CODE><I>c</I></CODE> respectively, and
*9403c583SJens Wiklander<CODE><I>destPtr</I></CODE> points to the location where the result is stored.
*9403c583SJens Wiklander</P>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<P>
*9403c583SJens WiklanderIf one of the multiplication operands <CODE><I>a</I></CODE> and
*9403c583SJens Wiklander<CODE><I>b</I></CODE> is infinite and the other is zero, these functions raise
*9403c583SJens Wiklanderthe invalid exception even if operand <CODE><I>c</I></CODE> is a quiet NaN.
*9403c583SJens Wiklander</P>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<H3>8.6. Remainder Functions</H3>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<P>
*9403c583SJens WiklanderFor each format, SoftFloat implements the remainder operation defined by the
*9403c583SJens WiklanderIEEE Floating-Point Standard.
*9403c583SJens WiklanderThe remainder functions have names
*9403c583SJens Wiklander<BLOCKQUOTE>
*9403c583SJens Wiklander<CODE>&lt;<I>float</I>&gt;_rem</CODE>
*9403c583SJens Wiklander</BLOCKQUOTE>
*9403c583SJens WiklanderEach remainder operation takes two floating-point operands of the same format
*9403c583SJens Wiklanderand returns a result in the same format.
*9403c583SJens WiklanderDepending on whether floating-point values are passed by value or via pointers,
*9403c583SJens Wiklanderthe remainder functions have signatures of these forms:
*9403c583SJens Wiklander<BLOCKQUOTE>
*9403c583SJens Wiklander<PRE>
*9403c583SJens Wiklanderfloat64_t f64_rem( float64_t <I>a</I>, float64_t <I>b</I> );
*9403c583SJens Wiklander</PRE>
*9403c583SJens Wiklander<PRE>
*9403c583SJens Wiklandervoid
*9403c583SJens Wiklander f128M_rem(
*9403c583SJens Wiklander     const float128_t *<I>aPtr</I>, const float128_t *<I>bPtr</I>, float128_t *<I>destPtr</I> );
*9403c583SJens Wiklander</PRE>
*9403c583SJens Wiklander</BLOCKQUOTE>
*9403c583SJens WiklanderWhen floating-point values are passed indirectly through pointers, arguments
*9403c583SJens Wiklander<CODE><I>aPtr</I></CODE> and <CODE><I>bPtr</I></CODE> point to operands
*9403c583SJens Wiklander<CODE><I>a</I></CODE> and <CODE><I>b</I></CODE> respectively, and
*9403c583SJens Wiklander<CODE><I>destPtr</I></CODE> points to the location where the result is stored.
*9403c583SJens Wiklander</P>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<P>
*9403c583SJens WiklanderThe IEEE Standard remainder operation computes the value
*9403c583SJens Wiklander<NOBR><CODE><I>a</I></CODE>
*9403c583SJens Wiklander &minus; <I>n</I> &times; <CODE><I>b</I></CODE></NOBR>,
*9403c583SJens Wiklanderwhere <I>n</I> is the integer closest to
*9403c583SJens Wiklander<NOBR><CODE><I>a</I></CODE> &divide; <CODE><I>b</I></CODE></NOBR>.
*9403c583SJens WiklanderIf <NOBR><CODE><I>a</I></CODE> &divide; <CODE><I>b</I></CODE></NOBR> is exactly
*9403c583SJens Wiklanderhalfway between two integers, <I>n</I> is the <EM>even</EM> integer closest to
*9403c583SJens Wiklander<NOBR><CODE><I>a</I></CODE> &divide; <CODE><I>b</I></CODE></NOBR>.
*9403c583SJens WiklanderThe IEEE Standard&rsquo;s remainder operation is always exact and so requires
*9403c583SJens Wiklanderno rounding.
*9403c583SJens Wiklander</P>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<P>
*9403c583SJens WiklanderDepending on the relative magnitudes of the operands, the remainder
*9403c583SJens Wiklanderfunctions can take considerably longer to execute than the other SoftFloat
*9403c583SJens Wiklanderfunctions.
*9403c583SJens WiklanderThis is inherent in the remainder operation itself and is not a flaw in the
*9403c583SJens WiklanderSoftFloat implementation.
*9403c583SJens Wiklander</P>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<H3>8.7. Round-to-Integer Functions</H3>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<P>
*9403c583SJens WiklanderFor each format, SoftFloat implements the round-to-integer operation specified
*9403c583SJens Wiklanderby the IEEE Floating-Point Standard.
*9403c583SJens WiklanderThese functions are named
*9403c583SJens Wiklander<BLOCKQUOTE>
*9403c583SJens Wiklander<CODE>&lt;<I>float</I>&gt;_roundToInt</CODE>
*9403c583SJens Wiklander</BLOCKQUOTE>
*9403c583SJens WiklanderEach round-to-integer operation takes a single floating-point operand.
*9403c583SJens WiklanderThis operand is rounded to an integer according to a specified rounding mode,
*9403c583SJens Wiklanderand the resulting integer value is returned in the same floating-point format.
*9403c583SJens Wiklander(Note that the result is not an integer type.)
*9403c583SJens Wiklander</P>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<P>
*9403c583SJens WiklanderThe signatures of the round-to-integer functions are similar to those for
*9403c583SJens Wiklanderconversions to an integer type:
*9403c583SJens Wiklander<BLOCKQUOTE>
*9403c583SJens Wiklander<PRE>
*9403c583SJens Wiklanderfloat64_t f64_roundToInt( float64_t <I>a</I>, uint_fast8_t <I>roundingMode</I>, bool <I>exact</I> );
*9403c583SJens Wiklander</PRE>
*9403c583SJens Wiklander<PRE>
*9403c583SJens Wiklandervoid
*9403c583SJens Wiklander f128M_roundToInt(
*9403c583SJens Wiklander     const float128_t *<I>aPtr</I>,
*9403c583SJens Wiklander     uint_fast8_t <I>roundingMode</I>,
*9403c583SJens Wiklander     bool <I>exact</I>,
*9403c583SJens Wiklander     float128_t *<I>destPtr</I>
*9403c583SJens Wiklander );
*9403c583SJens Wiklander</PRE>
*9403c583SJens Wiklander</BLOCKQUOTE>
*9403c583SJens WiklanderThe <CODE><I>roundingMode</I></CODE> argument specifies the rounding mode to
*9403c583SJens Wiklanderapply.
*9403c583SJens WiklanderThe variable that usually indicates rounding mode,
*9403c583SJens Wiklander<CODE>softfloat_roundingMode</CODE>, is ignored.
*9403c583SJens WiklanderArgument <CODE><I>exact</I></CODE> determines whether the <I>inexact</I>
*9403c583SJens Wiklanderexception flag is raised if the conversion is not exact.
*9403c583SJens WiklanderIf <CODE><I>exact</I></CODE> is <CODE>true</CODE>, the <I>inexact</I> flag may
*9403c583SJens Wiklanderbe raised;
*9403c583SJens Wiklanderotherwise, it will not be, even if the conversion is inexact.
*9403c583SJens WiklanderWhen floating-point values are passed indirectly through pointers,
*9403c583SJens Wiklander<CODE><I>aPtr</I></CODE> points to the input operand and
*9403c583SJens Wiklander<CODE><I>destPtr</I></CODE> points to the location where the result is stored.
*9403c583SJens Wiklander</P>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<H3>8.8. Comparison Functions</H3>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<P>
*9403c583SJens WiklanderFor each format, the following floating-point comparison functions are
*9403c583SJens Wiklanderprovided:
*9403c583SJens Wiklander<BLOCKQUOTE>
*9403c583SJens Wiklander<CODE>&lt;<I>float</I>&gt;_eq</CODE><BR>
*9403c583SJens Wiklander<CODE>&lt;<I>float</I>&gt;_le</CODE><BR>
*9403c583SJens Wiklander<CODE>&lt;<I>float</I>&gt;_lt</CODE>
*9403c583SJens Wiklander</BLOCKQUOTE>
*9403c583SJens WiklanderEach comparison takes two operands of the same type and returns a Boolean.
*9403c583SJens WiklanderThe abbreviation <CODE>eq</CODE> stands for &ldquo;equal&rdquo; (=);
*9403c583SJens Wiklander<CODE>le</CODE> stands for &ldquo;less than or equal&rdquo; (&le;);
*9403c583SJens Wiklanderand <CODE>lt</CODE> stands for &ldquo;less than&rdquo; (&lt;).
*9403c583SJens WiklanderDepending on whether the floating-point operands are passed by value or via
*9403c583SJens Wiklanderpointers, the comparison functions have signatures of these forms:
*9403c583SJens Wiklander<BLOCKQUOTE>
*9403c583SJens Wiklander<PRE>
*9403c583SJens Wiklanderbool f64_eq( float64_t <I>a</I>, float64_t <I>b</I> );
*9403c583SJens Wiklander</PRE>
*9403c583SJens Wiklander<PRE>
*9403c583SJens Wiklanderbool f128M_eq( const float128_t *<I>aPtr</I>, const float128_t *<I>bPtr</I> );
*9403c583SJens Wiklander</PRE>
*9403c583SJens Wiklander</BLOCKQUOTE>
*9403c583SJens Wiklander</P>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<P>
*9403c583SJens WiklanderThe usual greater-than (&gt;), greater-than-or-equal (&ge;), and not-equal
*9403c583SJens Wiklander(&ne;) comparisons are easily obtained from the functions provided.
*9403c583SJens WiklanderThe not-equal function is just the logical complement of the equal function.
*9403c583SJens WiklanderThe greater-than-or-equal function is identical to the less-than-or-equal
*9403c583SJens Wiklanderfunction with the arguments in reverse order, and likewise the greater-than
*9403c583SJens Wiklanderfunction is identical to the less-than function with the arguments reversed.
*9403c583SJens Wiklander</P>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<P>
*9403c583SJens WiklanderThe IEEE Floating-Point Standard specifies that the less-than-or-equal and
*9403c583SJens Wiklanderless-than comparisons by default raise the <I>invalid</I> exception if either
*9403c583SJens Wiklanderoperand is any kind of NaN.
*9403c583SJens WiklanderEquality comparisons, on the other hand, are defined by default to raise the
*9403c583SJens Wiklander<I>invalid</I> exception only for signaling NaNs, not quiet NaNs.
*9403c583SJens WiklanderFor completeness, SoftFloat provides these complementary functions:
*9403c583SJens Wiklander<BLOCKQUOTE>
*9403c583SJens Wiklander<CODE>&lt;<I>float</I>&gt;_eq_signaling</CODE><BR>
*9403c583SJens Wiklander<CODE>&lt;<I>float</I>&gt;_le_quiet</CODE><BR>
*9403c583SJens Wiklander<CODE>&lt;<I>float</I>&gt;_lt_quiet</CODE>
*9403c583SJens Wiklander</BLOCKQUOTE>
*9403c583SJens WiklanderThe <CODE>signaling</CODE> equality comparisons are identical to the default
*9403c583SJens Wiklanderequality comparisons except that the <I>invalid</I> exception is raised for any
*9403c583SJens WiklanderNaN input, not just for signaling NaNs.
*9403c583SJens WiklanderSimilarly, the <CODE>quiet</CODE> comparison functions are identical to their
*9403c583SJens Wiklanderdefault counterparts except that the <I>invalid</I> exception is not raised for
*9403c583SJens Wiklanderquiet NaNs.
*9403c583SJens Wiklander</P>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<H3>8.9. Signaling NaN Test Functions</H3>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<P>
*9403c583SJens WiklanderFunctions for testing whether a floating-point value is a signaling NaN are
*9403c583SJens Wiklanderprovided with these names:
*9403c583SJens Wiklander<BLOCKQUOTE>
*9403c583SJens Wiklander<CODE>&lt;<I>float</I>&gt;_isSignalingNaN</CODE>
*9403c583SJens Wiklander</BLOCKQUOTE>
*9403c583SJens WiklanderThe functions take one floating-point operand and return a Boolean indicating
*9403c583SJens Wiklanderwhether the operand is a signaling NaN.
*9403c583SJens WiklanderAccordingly, the functions have the forms
*9403c583SJens Wiklander<BLOCKQUOTE>
*9403c583SJens Wiklander<PRE>
*9403c583SJens Wiklanderbool f64_isSignalingNaN( float64_t <I>a</I> );
*9403c583SJens Wiklander</PRE>
*9403c583SJens Wiklander<PRE>
*9403c583SJens Wiklanderbool f128M_isSignalingNaN( const float128_t *<I>aPtr</I> );
*9403c583SJens Wiklander</PRE>
*9403c583SJens Wiklander</BLOCKQUOTE>
*9403c583SJens Wiklander</P>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<H3>8.10. Raise-Exception Function</H3>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<P>
*9403c583SJens WiklanderSoftFloat provides a single function for raising floating-point exceptions:
*9403c583SJens Wiklander<BLOCKQUOTE>
*9403c583SJens Wiklander<PRE>
*9403c583SJens Wiklandervoid softfloat_raise( uint_fast8_t <I>exceptions</I> );
*9403c583SJens Wiklander</PRE>
*9403c583SJens Wiklander</BLOCKQUOTE>
*9403c583SJens WiklanderThe <CODE><I>exceptions</I></CODE> argument is a mask indicating the set of
*9403c583SJens Wiklanderexceptions to raise.
*9403c583SJens Wiklander(See earlier section 7, <I>Exceptions and Exception Flags</I>.)
*9403c583SJens WiklanderIn addition to setting the specified exception flags in variable
*9403c583SJens Wiklander<CODE>softfloat_exceptionFlags</CODE>, the <CODE>softfloat_raise</CODE>
*9403c583SJens Wiklanderfunction may cause a trap or abort appropriate for the current system.
*9403c583SJens Wiklander</P>
*9403c583SJens Wiklander
*9403c583SJens Wiklander
*9403c583SJens Wiklander<H2>9. Changes from SoftFloat <NOBR>Release 2</NOBR></H2>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<P>
*9403c583SJens WiklanderApart from a change in the legal use license, <NOBR>Release 3</NOBR> of
*9403c583SJens WiklanderSoftFloat introduced numerous technical differences compared to earlier
*9403c583SJens Wiklanderreleases.
*9403c583SJens Wiklander</P>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<H3>9.1. Name Changes</H3>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<P>
*9403c583SJens WiklanderThe most obvious and pervasive difference compared to <NOBR>Release 2</NOBR>
*9403c583SJens Wiklanderis that the names of most functions and variables have changed, even when the
*9403c583SJens Wiklanderbehavior has not.
*9403c583SJens WiklanderFirst, the floating-point types, the mode variables, the exception flags
*9403c583SJens Wiklandervariable, the function to raise exceptions, and various associated constants
*9403c583SJens Wiklanderhave been renamed as follows:
*9403c583SJens Wiklander<BLOCKQUOTE>
*9403c583SJens Wiklander<TABLE>
*9403c583SJens Wiklander<TR>
*9403c583SJens Wiklander<TD>old name, Release 2:</TD>
*9403c583SJens Wiklander<TD>new name, Release 3:</TD>
*9403c583SJens Wiklander</TR>
*9403c583SJens Wiklander<TR>
*9403c583SJens Wiklander<TD><CODE>float32</CODE></TD>
*9403c583SJens Wiklander<TD><CODE>float32_t</CODE></TD>
*9403c583SJens Wiklander</TR>
*9403c583SJens Wiklander<TR>
*9403c583SJens Wiklander<TD><CODE>float64</CODE></TD>
*9403c583SJens Wiklander<TD><CODE>float64_t</CODE></TD>
*9403c583SJens Wiklander</TR>
*9403c583SJens Wiklander<TR>
*9403c583SJens Wiklander<TD><CODE>floatx80</CODE></TD>
*9403c583SJens Wiklander<TD><CODE>extFloat80_t</CODE></TD>
*9403c583SJens Wiklander</TR>
*9403c583SJens Wiklander<TR>
*9403c583SJens Wiklander<TD><CODE>float128</CODE></TD>
*9403c583SJens Wiklander<TD><CODE>float128_t</CODE></TD>
*9403c583SJens Wiklander</TR>
*9403c583SJens Wiklander<TR>
*9403c583SJens Wiklander<TD><CODE>float_rounding_mode</CODE></TD>
*9403c583SJens Wiklander<TD><CODE>softfloat_roundingMode</CODE></TD>
*9403c583SJens Wiklander</TR>
*9403c583SJens Wiklander<TR>
*9403c583SJens Wiklander<TD><CODE>float_round_nearest_even</CODE></TD>
*9403c583SJens Wiklander<TD><CODE>softfloat_round_near_even</CODE></TD>
*9403c583SJens Wiklander</TR>
*9403c583SJens Wiklander<TR>
*9403c583SJens Wiklander<TD><CODE>float_round_to_zero</CODE></TD>
*9403c583SJens Wiklander<TD><CODE>softfloat_round_minMag</CODE></TD>
*9403c583SJens Wiklander</TR>
*9403c583SJens Wiklander<TR>
*9403c583SJens Wiklander<TD><CODE>float_round_down</CODE></TD>
*9403c583SJens Wiklander<TD><CODE>softfloat_round_min</CODE></TD>
*9403c583SJens Wiklander</TR>
*9403c583SJens Wiklander<TR>
*9403c583SJens Wiklander<TD><CODE>float_round_up</CODE></TD>
*9403c583SJens Wiklander<TD><CODE>softfloat_round_max</CODE></TD>
*9403c583SJens Wiklander</TR>
*9403c583SJens Wiklander<TR>
*9403c583SJens Wiklander<TD><CODE>float_detect_tininess</CODE></TD>
*9403c583SJens Wiklander<TD><CODE>softfloat_detectTininess</CODE></TD>
*9403c583SJens Wiklander</TR>
*9403c583SJens Wiklander<TR>
*9403c583SJens Wiklander<TD><CODE>float_tininess_before_rounding&nbsp;&nbsp;&nbsp;&nbsp;</CODE></TD>
*9403c583SJens Wiklander<TD><CODE>softfloat_tininess_beforeRounding</CODE></TD>
*9403c583SJens Wiklander</TR>
*9403c583SJens Wiklander<TR>
*9403c583SJens Wiklander<TD><CODE>float_tininess_after_rounding</CODE></TD>
*9403c583SJens Wiklander<TD><CODE>softfloat_tininess_afterRounding</CODE></TD>
*9403c583SJens Wiklander</TR>
*9403c583SJens Wiklander<TR>
*9403c583SJens Wiklander<TD><CODE>floatx80_rounding_precision</CODE></TD>
*9403c583SJens Wiklander<TD><CODE>extF80_roundingPrecision</CODE></TD>
*9403c583SJens Wiklander</TR>
*9403c583SJens Wiklander<TR>
*9403c583SJens Wiklander<TD><CODE>float_exception_flags</CODE></TD>
*9403c583SJens Wiklander<TD><CODE>softfloat_exceptionFlags</CODE></TD>
*9403c583SJens Wiklander</TR>
*9403c583SJens Wiklander<TR>
*9403c583SJens Wiklander<TD><CODE>float_flag_inexact</CODE></TD>
*9403c583SJens Wiklander<TD><CODE>softfloat_flag_inexact</CODE></TD>
*9403c583SJens Wiklander</TR>
*9403c583SJens Wiklander<TR>
*9403c583SJens Wiklander<TD><CODE>float_flag_underflow</CODE></TD>
*9403c583SJens Wiklander<TD><CODE>softfloat_flag_underflow</CODE></TD>
*9403c583SJens Wiklander</TR>
*9403c583SJens Wiklander<TR>
*9403c583SJens Wiklander<TD><CODE>float_flag_overflow</CODE></TD>
*9403c583SJens Wiklander<TD><CODE>softfloat_flag_overflow</CODE></TD>
*9403c583SJens Wiklander</TR>
*9403c583SJens Wiklander<TR>
*9403c583SJens Wiklander<TD><CODE>float_flag_divbyzero</CODE></TD>
*9403c583SJens Wiklander<TD><CODE>softfloat_flag_infinite</CODE></TD>
*9403c583SJens Wiklander</TR>
*9403c583SJens Wiklander<TR>
*9403c583SJens Wiklander<TD><CODE>float_flag_invalid</CODE></TD>
*9403c583SJens Wiklander<TD><CODE>softfloat_flag_invalid</CODE></TD>
*9403c583SJens Wiklander</TR>
*9403c583SJens Wiklander<TR>
*9403c583SJens Wiklander<TD><CODE>float_raise</CODE></TD>
*9403c583SJens Wiklander<TD><CODE>softfloat_raise</CODE></TD>
*9403c583SJens Wiklander</TR>
*9403c583SJens Wiklander</TABLE>
*9403c583SJens Wiklander</BLOCKQUOTE>
*9403c583SJens Wiklander</P>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<P>
*9403c583SJens WiklanderFurthermore, <NOBR>Release 3</NOBR> adopted the following new abbreviations for
*9403c583SJens Wiklanderfunction names:
*9403c583SJens Wiklander<BLOCKQUOTE>
*9403c583SJens Wiklander<TABLE>
*9403c583SJens Wiklander<TR>
*9403c583SJens Wiklander<TD>used in names in Release 2:<CODE>&nbsp;&nbsp;&nbsp;&nbsp;</CODE></TD>
*9403c583SJens Wiklander<TD>used in names in Release 3:</TD>
*9403c583SJens Wiklander</TR>
*9403c583SJens Wiklander<TR> <TD><CODE>int32</CODE></TD>    <TD><CODE>i32</CODE></TD>    </TR>
*9403c583SJens Wiklander<TR> <TD><CODE>int64</CODE></TD>    <TD><CODE>i64</CODE></TD>    </TR>
*9403c583SJens Wiklander<TR> <TD><CODE>float32</CODE></TD>  <TD><CODE>f32</CODE></TD>    </TR>
*9403c583SJens Wiklander<TR> <TD><CODE>float64</CODE></TD>  <TD><CODE>f64</CODE></TD>    </TR>
*9403c583SJens Wiklander<TR> <TD><CODE>floatx80</CODE></TD> <TD><CODE>extF80</CODE></TD> </TR>
*9403c583SJens Wiklander<TR> <TD><CODE>float128</CODE></TD> <TD><CODE>f128</CODE></TD>   </TR>
*9403c583SJens Wiklander</TABLE>
*9403c583SJens Wiklander</BLOCKQUOTE>
*9403c583SJens WiklanderThus, for example, the function to add two <NOBR>32-bit</NOBR> floating-point
*9403c583SJens Wiklandernumbers, previously called <CODE>float32_add</CODE> in <NOBR>Release 2</NOBR>,
*9403c583SJens Wiklanderis now <CODE>f32_add</CODE>.
*9403c583SJens WiklanderLastly, there have been a few other changes to function names:
*9403c583SJens Wiklander<BLOCKQUOTE>
*9403c583SJens Wiklander<TABLE>
*9403c583SJens Wiklander<TR>
*9403c583SJens Wiklander<TD>used in names in Release 2:<CODE>&nbsp;&nbsp;&nbsp;</CODE></TD>
*9403c583SJens Wiklander<TD>used in names in Release 3:<CODE>&nbsp;&nbsp;&nbsp;</CODE></TD>
*9403c583SJens Wiklander<TD>relevant functions:</TD>
*9403c583SJens Wiklander</TR>
*9403c583SJens Wiklander<TR>
*9403c583SJens Wiklander<TD><CODE>_round_to_zero</CODE></TD>
*9403c583SJens Wiklander<TD><CODE>_r_minMag</CODE></TD>
*9403c583SJens Wiklander<TD>conversions from floating-point to integer (<NOBR>section 8.2</NOBR>)</TD>
*9403c583SJens Wiklander</TR>
*9403c583SJens Wiklander<TR>
*9403c583SJens Wiklander<TD><CODE>round_to_int</CODE></TD>
*9403c583SJens Wiklander<TD><CODE>roundToInt</CODE></TD>
*9403c583SJens Wiklander<TD>round-to-integer functions (<NOBR>section 8.7</NOBR>)</TD>
*9403c583SJens Wiklander</TR>
*9403c583SJens Wiklander<TR>
*9403c583SJens Wiklander<TD><CODE>is_signaling_nan&nbsp;&nbsp;&nbsp;&nbsp;</CODE></TD>
*9403c583SJens Wiklander<TD><CODE>isSignalingNaN</CODE></TD>
*9403c583SJens Wiklander<TD>signaling NaN test functions (<NOBR>section 8.9</NOBR>)</TD>
*9403c583SJens Wiklander</TR>
*9403c583SJens Wiklander</TABLE>
*9403c583SJens Wiklander</BLOCKQUOTE>
*9403c583SJens Wiklander</P>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<H3>9.2. Changes to Function Arguments</H3>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<P>
*9403c583SJens WiklanderBesides simple name changes, some operations were given a different interface
*9403c583SJens Wiklanderin <NOBR>Release 3</NOBR> than they had in <NOBR>Release 2</NOBR>:
*9403c583SJens Wiklander<UL>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<LI>
*9403c583SJens Wiklander<P>
*9403c583SJens WiklanderSince <NOBR>Release 3</NOBR>, integer arguments and results of functions have
*9403c583SJens Wiklanderstandard types from header <CODE>&lt;stdint.h&gt;</CODE>, such as
*9403c583SJens Wiklander<CODE>uint32_t</CODE>, whereas previously their types could be defined
*9403c583SJens Wiklanderdifferently for each port of SoftFloat, usually using traditional C types such
*9403c583SJens Wiklanderas <CODE>unsigned</CODE> <CODE>int</CODE>.
*9403c583SJens WiklanderLikewise, functions in <NOBR>Release 3</NOBR> and later pass Booleans as
*9403c583SJens Wiklanderstandard type <CODE>bool</CODE> from <CODE>&lt;stdbool.h&gt;</CODE>, whereas
*9403c583SJens Wiklanderpreviously these were again passed as a port-specific type (usually
*9403c583SJens Wiklander<CODE>int</CODE>).
*9403c583SJens Wiklander</P>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<LI>
*9403c583SJens Wiklander<P>
*9403c583SJens WiklanderAs explained earlier in <NOBR>section 4.5</NOBR>, <I>Conventions for Passing
*9403c583SJens WiklanderArguments and Results</I>, SoftFloat functions in <NOBR>Release 3</NOBR> and
*9403c583SJens Wiklanderlater may pass <NOBR>80-bit</NOBR> and <NOBR>128-bit</NOBR> floating-point
*9403c583SJens Wiklandervalues through pointers, meaning that functions take pointer arguments and then
*9403c583SJens Wiklanderread or write floating-point values at the locations indicated by the pointers.
*9403c583SJens WiklanderIn <NOBR>Release 2</NOBR>, floating-point arguments and results were always
*9403c583SJens Wiklanderpassed by value, regardless of their size.
*9403c583SJens Wiklander</P>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<LI>
*9403c583SJens Wiklander<P>
*9403c583SJens WiklanderFunctions that round to an integer have additional
*9403c583SJens Wiklander<CODE><I>roundingMode</I></CODE> and <CODE><I>exact</I></CODE> arguments that
*9403c583SJens Wiklanderthey did not have in <NOBR>Release 2</NOBR>.
*9403c583SJens WiklanderRefer to sections 8.2 <NOBR>and 8.7</NOBR> for descriptions of these functions
*9403c583SJens Wiklandersince <NOBR>Release 3</NOBR>.
*9403c583SJens WiklanderFor <NOBR>Release 2</NOBR>, the rounding mode, when needed, was taken from the
*9403c583SJens Wiklandersame global variable that affects the basic arithmetic operations (now called
*9403c583SJens Wiklander<CODE>softfloat_roundingMode</CODE> but previously known as
*9403c583SJens Wiklander<CODE>float_rounding_mode</CODE>).
*9403c583SJens WiklanderAlso, for <NOBR>Release 2</NOBR>, if the original floating-point input was not
*9403c583SJens Wiklanderan exact integer value, and if the <I>invalid</I> exception was not raised by
*9403c583SJens Wiklanderthe function, the <I>inexact</I> exception was always raised.
*9403c583SJens Wiklander<NOBR>Release 2</NOBR> had no option to suppress raising <I>inexact</I> in this
*9403c583SJens Wiklandercase.
*9403c583SJens WiklanderApplications using SoftFloat <NOBR>Release 3</NOBR> or later can get the same
*9403c583SJens Wiklandereffect as <NOBR>Release 2</NOBR> by passing variable
*9403c583SJens Wiklander<CODE>softfloat_roundingMode</CODE> for argument
*9403c583SJens Wiklander<CODE><I>roundingMode</I></CODE> and <CODE>true</CODE> for argument
*9403c583SJens Wiklander<CODE><I>exact</I></CODE>.
*9403c583SJens Wiklander</P>
*9403c583SJens Wiklander
*9403c583SJens Wiklander</UL>
*9403c583SJens Wiklander</P>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<H3>9.3. Added Capabilities</H3>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<P>
*9403c583SJens WiklanderWith <NOBR>Release 3</NOBR>, some new features have been added that were not
*9403c583SJens Wiklanderpresent in <NOBR>Release 2</NOBR>:
*9403c583SJens Wiklander<UL>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<LI>
*9403c583SJens Wiklander<P>
*9403c583SJens WiklanderA port of SoftFloat can now define any of the floating-point types
*9403c583SJens Wiklander<CODE>float32_t</CODE>, <CODE>float64_t</CODE>, <CODE>extFloat80_t</CODE>, and
*9403c583SJens Wiklander<CODE>float128_t</CODE> as aliases for C&rsquo;s standard floating-point types
*9403c583SJens Wiklander<CODE>float</CODE>, <CODE>double</CODE>, and <CODE>long</CODE>
*9403c583SJens Wiklander<CODE>double</CODE>, using either <CODE>#define</CODE> or <CODE>typedef</CODE>.
*9403c583SJens WiklanderThis potential convenience was not supported under <NOBR>Release 2</NOBR>.
*9403c583SJens Wiklander</P>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<P>
*9403c583SJens Wiklander(Note, however, that there may be a performance cost to defining
*9403c583SJens WiklanderSoftFloat&rsquo;s floating-point types this way, depending on the platform and
*9403c583SJens Wiklanderthe applications using SoftFloat.
*9403c583SJens WiklanderPorts of SoftFloat may choose to forgo the convenience in favor of better
*9403c583SJens Wiklanderspeed.)
*9403c583SJens Wiklander</P>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<P>
*9403c583SJens Wiklander<LI>
*9403c583SJens WiklanderFunctions have been added for converting between the floating-point types and
*9403c583SJens Wiklanderunsigned integers.
*9403c583SJens Wiklander<NOBR>Release 2</NOBR> supported only signed integers, not unsigned.
*9403c583SJens Wiklander</P>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<P>
*9403c583SJens Wiklander<LI>
*9403c583SJens WiklanderA new, fifth rounding mode, <CODE>softfloat_round_near_maxMag</CODE> (round to
*9403c583SJens Wiklandernearest, with ties to maximum magnitude, away from zero) is now supported for
*9403c583SJens Wiklanderall cases involving rounding.
*9403c583SJens Wiklander</P>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<P>
*9403c583SJens Wiklander<LI>
*9403c583SJens WiklanderFused multiply-add functions have been added for the non-extended formats,
*9403c583SJens Wiklander<CODE>float32_t</CODE>, <CODE>float64_t</CODE>, and <CODE>float128_t</CODE>.
*9403c583SJens Wiklander</P>
*9403c583SJens Wiklander
*9403c583SJens Wiklander</UL>
*9403c583SJens Wiklander</P>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<H3>9.4. Better Compatibility with the C Language</H3>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<P>
*9403c583SJens Wiklander<NOBR>Release 3</NOBR> of SoftFloat was written to conform better to the ISO C
*9403c583SJens WiklanderStandard&rsquo;s rules for portability.
*9403c583SJens WiklanderFor example, older releases of SoftFloat employed type conversions in ways
*9403c583SJens Wiklanderthat, while commonly practiced, are not fully defined by the C Standard.
*9403c583SJens WiklanderSuch problematic type conversions have generally been replaced by the use of
*9403c583SJens Wiklanderunions, the behavior around which is more strictly regulated these days.
*9403c583SJens Wiklander</P>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<H3>9.5. New Organization as a Library</H3>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<P>
*9403c583SJens WiklanderStarting with <NOBR>Release 3</NOBR>, SoftFloat now builds as a library.
*9403c583SJens WiklanderPreviously, SoftFloat compiled into a single, monolithic object file containing
*9403c583SJens Wiklanderall the SoftFloat functions, with the consequence that a program linking with
*9403c583SJens WiklanderSoftFloat would get every SoftFloat function in its binary file even if only a
*9403c583SJens Wiklanderfew functions were actually used.
*9403c583SJens WiklanderWith SoftFloat in the form of a library, a program that is linked by a standard
*9403c583SJens Wiklanderlinker will include only those functions of SoftFloat that it needs and no
*9403c583SJens Wiklanderothers.
*9403c583SJens Wiklander</P>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<H3>9.6. Optimization Gains (and Losses)</H3>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<P>
*9403c583SJens WiklanderIndividual SoftFloat functions have been variously improved in
*9403c583SJens Wiklander<NOBR>Release 3</NOBR> compared to earlier releases.
*9403c583SJens WiklanderIn particular, better, faster algorithms have been deployed for the operations
*9403c583SJens Wiklanderof division, square root, and remainder.
*9403c583SJens WiklanderFor functions operating on the larger <NOBR>80-bit</NOBR> and
*9403c583SJens Wiklander<NOBR>128-bit</NOBR> formats, <CODE>extFloat80_t</CODE> and
*9403c583SJens Wiklander<CODE>float128_t</CODE>, code size has also generally been reduced.
*9403c583SJens Wiklander</P>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<P>
*9403c583SJens WiklanderHowever, because <NOBR>Release 2</NOBR> compiled all of SoftFloat together as a
*9403c583SJens Wiklandersingle object file, compilers could make optimizations across function calls
*9403c583SJens Wiklanderwhen one SoftFloat function calls another.
*9403c583SJens WiklanderNow that the functions of SoftFloat are compiled separately and only afterward
*9403c583SJens Wiklanderlinked together into a program, there is not usually the same opportunity to
*9403c583SJens Wiklanderoptimize across function calls.
*9403c583SJens WiklanderSome loss of speed has been observed due to this change.
*9403c583SJens Wiklander</P>
*9403c583SJens Wiklander
*9403c583SJens Wiklander
*9403c583SJens Wiklander<H2>10. Future Directions</H2>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<P>
*9403c583SJens WiklanderThe following improvements are anticipated for future releases of SoftFloat:
*9403c583SJens Wiklander<UL>
*9403c583SJens Wiklander<LI>
*9403c583SJens Wiklandersupport for the common <NOBR>16-bit</NOBR> &ldquo;half-precision&rdquo;
*9403c583SJens Wiklanderfloating-point format;
*9403c583SJens Wiklander<LI>
*9403c583SJens Wiklandermore functions from the 2008 version of the IEEE Floating-Point Standard;
*9403c583SJens Wiklander<LI>
*9403c583SJens Wiklanderconsistent, defined behavior for non-canonical representations of extended
*9403c583SJens Wiklanderformat <CODE>extFloat80_t</CODE> (discussed in <NOBR>section 4.4</NOBR>,
*9403c583SJens Wiklander<I>Non-canonical Representations in <CODE>extFloat80_t</CODE></I>).
*9403c583SJens Wiklander
*9403c583SJens Wiklander</UL>
*9403c583SJens Wiklander</P>
*9403c583SJens Wiklander
*9403c583SJens Wiklander
*9403c583SJens Wiklander<H2>11. Contact Information</H2>
*9403c583SJens Wiklander
*9403c583SJens Wiklander<P>
*9403c583SJens WiklanderAt the time of this writing, the most up-to-date information about SoftFloat
*9403c583SJens Wiklanderand the latest release can be found at the Web page
*9403c583SJens Wiklander<A HREF="http://www.jhauser.us/arithmetic/SoftFloat.html"><CODE>http://www.jhauser.us/arithmetic/SoftFloat.html</CODE></A>.
*9403c583SJens Wiklander</P>
*9403c583SJens Wiklander
*9403c583SJens Wiklander
*9403c583SJens Wiklander</BODY>
*9403c583SJens Wiklander