qcbor/src/ieee754.h

*b586599bSYuichi Sugiyama// SPDX-License-Identifier: BSD-3-Clause
2e6f5bf1SYuichi Sugiyama/* ==========================================================================
2e6f5bf1SYuichi Sugiyama * ieee754.h -- Conversion between half, double & single-precision floats
2e6f5bf1SYuichi Sugiyama *
2e6f5bf1SYuichi Sugiyama * Copyright (c) 2018-2024, Laurence Lundblade. All rights reserved.
2e6f5bf1SYuichi Sugiyama *
2e6f5bf1SYuichi Sugiyama * SPDX-License-Identifier: BSD-3-Clause
2e6f5bf1SYuichi Sugiyama *
2e6f5bf1SYuichi Sugiyama * See BSD-3-Clause license in README.md
2e6f5bf1SYuichi Sugiyama *
2e6f5bf1SYuichi Sugiyama * Created on 7/23/18
2e6f5bf1SYuichi Sugiyama * ========================================================================== */
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama#ifndef QCBOR_DISABLE_PREFERRED_FLOAT
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama#ifndef ieee754_h
2e6f5bf1SYuichi Sugiyama#define ieee754_h
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama#include <stdint.h>
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama/** @file ieee754.h
2e6f5bf1SYuichi Sugiyama *
2e6f5bf1SYuichi Sugiyama * This implements floating-point conversion between half, single and
2e6f5bf1SYuichi Sugiyama * double precision floating-point numbers, in particular convesion to
2e6f5bf1SYuichi Sugiyama * smaller representation (e.g., double to single) that does not lose
2e6f5bf1SYuichi Sugiyama * precision for CBOR preferred serialization.
2e6f5bf1SYuichi Sugiyama *
2e6f5bf1SYuichi Sugiyama * This implementation works entirely with shifts and masks and does
2e6f5bf1SYuichi Sugiyama * not require any floating-point HW or library.
2e6f5bf1SYuichi Sugiyama *
2e6f5bf1SYuichi Sugiyama * This conforms to IEEE 754-2008, but note that it doesn't specify
2e6f5bf1SYuichi Sugiyama * conversions, just the encodings.
2e6f5bf1SYuichi Sugiyama *
2e6f5bf1SYuichi Sugiyama * This is complete, supporting +/- infinity, +/- zero, subnormals and
2e6f5bf1SYuichi Sugiyama * NaN payloads. NaN payloads are converted to smaller by dropping the
2e6f5bf1SYuichi Sugiyama * right most bits if they are zero and shifting to the right. If the
2e6f5bf1SYuichi Sugiyama * rightmost bits are not zero the conversion is not performed. When
2e6f5bf1SYuichi Sugiyama * converting from smaller to larger, the payload is shifted left and
2e6f5bf1SYuichi Sugiyama * zero-padded. This is what is specified by CBOR preferred
2e6f5bf1SYuichi Sugiyama * serialization and what modern HW conversion instructions do. CBOR
2e6f5bf1SYuichi Sugiyama * CDE handling for NaN is not clearly specified, but upcoming
2e6f5bf1SYuichi Sugiyama * documents may clarify this.
2e6f5bf1SYuichi Sugiyama *
2e6f5bf1SYuichi Sugiyama * There is no special handling of silent and quiet NaNs. It probably
2e6f5bf1SYuichi Sugiyama * isn't necessary to transmit these special NaNs as there purpose is
2e6f5bf1SYuichi Sugiyama * more for propgating errors up through some calculation. In many
2e6f5bf1SYuichi Sugiyama * cases the handlng of the NaN payload will work for silent and quiet
2e6f5bf1SYuichi Sugiyama * NaNs.
2e6f5bf1SYuichi Sugiyama *
2e6f5bf1SYuichi Sugiyama * A previous version of this was usable as a general library for
2e6f5bf1SYuichi Sugiyama * conversion. This version is reduced to what is needed for CBOR.
2e6f5bf1SYuichi Sugiyama */
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama/**
2e6f5bf1SYuichi Sugiyama * @brief Convert half-precision float to double-precision float.
2e6f5bf1SYuichi Sugiyama *
2e6f5bf1SYuichi Sugiyama * @param[in] uHalfPrecision   Half-prevision number to convert.
2e6f5bf1SYuichi Sugiyama *
2e6f5bf1SYuichi Sugiyama * @returns double-presion value.
2e6f5bf1SYuichi Sugiyama *
2e6f5bf1SYuichi Sugiyama * This is a lossless conversion because every half-precision value
2e6f5bf1SYuichi Sugiyama * can be represented as a double. There is no error condition.
2e6f5bf1SYuichi Sugiyama *
2e6f5bf1SYuichi Sugiyama * There is no half-precision type in C, so it is represented here as
2e6f5bf1SYuichi Sugiyama * a @c uint16_t. The bits of @c uHalfPrecision are as described for
2e6f5bf1SYuichi Sugiyama * half-precision by IEEE 754.
2e6f5bf1SYuichi Sugiyama */
2e6f5bf1SYuichi Sugiyamadouble
2e6f5bf1SYuichi SugiyamaIEEE754_HalfToDouble(uint16_t uHalfPrecision);
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama/** Holds a floating-point value that could be half, single or
2e6f5bf1SYuichi Sugiyama * double-precision.  The value is in a @c uint64_t that may be copied
2e6f5bf1SYuichi Sugiyama * to a float or double.  Simply casting uValue will usually work but
2e6f5bf1SYuichi Sugiyama * may generate compiler or static analyzer warnings. Using
2e6f5bf1SYuichi Sugiyama * UsefulBufUtil_CopyUint64ToDouble() or
2e6f5bf1SYuichi Sugiyama * UsefulBufUtil_CopyUint32ToFloat() will not (and will not generate
2e6f5bf1SYuichi Sugiyama * any extra code).
2e6f5bf1SYuichi Sugiyama */
2e6f5bf1SYuichi Sugiyamatypedef struct {
2e6f5bf1SYuichi Sugiyama   enum {IEEE754_UNION_IS_HALF   = 2,
2e6f5bf1SYuichi Sugiyama         IEEE754_UNION_IS_SINGLE = 4,
2e6f5bf1SYuichi Sugiyama         IEEE754_UNION_IS_DOUBLE = 8,
2e6f5bf1SYuichi Sugiyama   } uSize; /* Size of uValue */
2e6f5bf1SYuichi Sugiyama   uint64_t uValue;
2e6f5bf1SYuichi Sugiyama} IEEE754_union;
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama/**
2e6f5bf1SYuichi Sugiyama * @brief Convert a double to either single or half-precision.
2e6f5bf1SYuichi Sugiyama *
2e6f5bf1SYuichi Sugiyama * @param[in] d                    The value to convert.
2e6f5bf1SYuichi Sugiyama * @param[in] bAllowHalfPrecision  If true, convert to either half or
2e6f5bf1SYuichi Sugiyama *                                 single precision.
2e6f5bf1SYuichi Sugiyama *
2e6f5bf1SYuichi Sugiyama * @returns Unconverted value, or value converted to single or half-precision.
2e6f5bf1SYuichi Sugiyama *
2e6f5bf1SYuichi Sugiyama * This always succeeds. If the value cannot be converted without the
2e6f5bf1SYuichi Sugiyama * loss of precision, it is not converted.
2e6f5bf1SYuichi Sugiyama *
2e6f5bf1SYuichi Sugiyama * This handles all subnormals and NaN payloads.
2e6f5bf1SYuichi Sugiyama */
2e6f5bf1SYuichi SugiyamaIEEE754_union
2e6f5bf1SYuichi SugiyamaIEEE754_DoubleToSmaller(double d, int bAllowHalfPrecision);
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama/**
2e6f5bf1SYuichi Sugiyama * @brief Convert a single-precision float to half-precision.
2e6f5bf1SYuichi Sugiyama *
2e6f5bf1SYuichi Sugiyama * @param[in] f  The value to convert.
2e6f5bf1SYuichi Sugiyama *
2e6f5bf1SYuichi Sugiyama * @returns Either unconverted value or value converted to half-precision.
2e6f5bf1SYuichi Sugiyama *
2e6f5bf1SYuichi Sugiyama * This always succeeds. If the value cannot be converted without the
2e6f5bf1SYuichi Sugiyama * loss of precision, it is not converted.
2e6f5bf1SYuichi Sugiyama *
2e6f5bf1SYuichi Sugiyama * This handles all subnormals and NaN payloads.
2e6f5bf1SYuichi Sugiyama */
2e6f5bf1SYuichi SugiyamaIEEE754_union
2e6f5bf1SYuichi SugiyamaIEEE754_SingleToHalf(float f);
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama#endif /* ieee754_h */
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama#endif /* QCBOR_DISABLE_PREFERRED_FLOAT */