qcbor/src/ieee754.c

*b586599bSYuichi Sugiyama// SPDX-License-Identifier: BSD-3-Clause
2e6f5bf1SYuichi Sugiyama/* ==========================================================================
2e6f5bf1SYuichi Sugiyama * ieee754.c -- floating-point conversion between half, double & single-precision
2e6f5bf1SYuichi Sugiyama *
2e6f5bf1SYuichi Sugiyama * Copyright (c) 2018-2024, Laurence Lundblade. All rights reserved.
2e6f5bf1SYuichi Sugiyama * Copyright (c) 2021, Arm Limited. All rights reserved.
2e6f5bf1SYuichi Sugiyama *
2e6f5bf1SYuichi Sugiyama * SPDX-License-Identifier: BSD-3-Clause
2e6f5bf1SYuichi Sugiyama *
2e6f5bf1SYuichi Sugiyama * See BSD-3-Clause license in README.md
2e6f5bf1SYuichi Sugiyama *
2e6f5bf1SYuichi Sugiyama * Created on 7/23/18
2e6f5bf1SYuichi Sugiyama * ========================================================================== */
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama/*
2e6f5bf1SYuichi Sugiyama * Include before QCBOR_DISABLE_PREFERRED_FLOAT is checked as
2e6f5bf1SYuichi Sugiyama * QCBOR_DISABLE_PREFERRED_FLOAT might be defined in qcbor/qcbor_common.h
2e6f5bf1SYuichi Sugiyama */
2e6f5bf1SYuichi Sugiyama#include "qcbor/qcbor_common.h"
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama#ifndef QCBOR_DISABLE_PREFERRED_FLOAT
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama#include "ieee754.h"
2e6f5bf1SYuichi Sugiyama#include <string.h> /* For memcpy() */
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama/*
2e6f5bf1SYuichi Sugiyama * This code has long lines and is easier to read because of
2e6f5bf1SYuichi Sugiyama * them. Some coding guidelines prefer 80 column lines (can they not
2e6f5bf1SYuichi Sugiyama * afford big displays?).
2e6f5bf1SYuichi Sugiyama *
2e6f5bf1SYuichi Sugiyama * This code works solely using shifts and masks and thus has no
2e6f5bf1SYuichi Sugiyama * dependency on any math libraries. It can even work if the CPU
2e6f5bf1SYuichi Sugiyama * doesn't have any floating-point support, though that isn't the most
2e6f5bf1SYuichi Sugiyama * useful thing to do.
2e6f5bf1SYuichi Sugiyama *
2e6f5bf1SYuichi Sugiyama * The memcpy() dependency is only for CopyFloatToUint32() and friends
2e6f5bf1SYuichi Sugiyama * which only is needed to avoid type punning when converting the
2e6f5bf1SYuichi Sugiyama * actual float bits to an unsigned value so the bit shifts and masks
2e6f5bf1SYuichi Sugiyama * can work.
2e6f5bf1SYuichi Sugiyama *
2e6f5bf1SYuichi Sugiyama * The references used to write this code:
2e6f5bf1SYuichi Sugiyama *
2e6f5bf1SYuichi Sugiyama *  IEEE 754-2008, particularly section 3.6 and 6.2.1
2e6f5bf1SYuichi Sugiyama *
2e6f5bf1SYuichi Sugiyama *  https://en.wikipedia.org/wiki/IEEE_754 and subordinate pages
2e6f5bf1SYuichi Sugiyama *
2e6f5bf1SYuichi Sugiyama *  https://stackoverflow.com/questions/19800415/why-does-ieee-754-reserve-so-many-nan-values
2e6f5bf1SYuichi Sugiyama *
2e6f5bf1SYuichi Sugiyama *  https://stackoverflow.com/questions/46073295/implicit-type-promotion-rules
2e6f5bf1SYuichi Sugiyama *
2e6f5bf1SYuichi Sugiyama *  https://stackoverflow.com/questions/589575/what-does-the-c-standard-state-the-size-of-int-long-type-to-be
2e6f5bf1SYuichi Sugiyama *
2e6f5bf1SYuichi Sugiyama * IEEE754_FloatToDouble(uint32_t uFloat) was created but is not
2e6f5bf1SYuichi Sugiyama * needed. It can be retrieved from github history if needed.
2e6f5bf1SYuichi Sugiyama */
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama/* ----- Half Precsion ----------- */
2e6f5bf1SYuichi Sugiyama#define HALF_NUM_SIGNIFICAND_BITS (10)
2e6f5bf1SYuichi Sugiyama#define HALF_NUM_EXPONENT_BITS    (5)
2e6f5bf1SYuichi Sugiyama#define HALF_NUM_SIGN_BITS        (1)
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama#define HALF_SIGNIFICAND_SHIFT    (0)
2e6f5bf1SYuichi Sugiyama#define HALF_EXPONENT_SHIFT       (HALF_NUM_SIGNIFICAND_BITS)
2e6f5bf1SYuichi Sugiyama#define HALF_SIGN_SHIFT           (HALF_NUM_SIGNIFICAND_BITS + HALF_NUM_EXPONENT_BITS)
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama#define HALF_SIGNIFICAND_MASK     (0x3ffU) // The lower 10 bits
2e6f5bf1SYuichi Sugiyama#define HALF_EXPONENT_MASK        (0x1fU << HALF_EXPONENT_SHIFT) // 0x7c00 5 bits of exponent
2e6f5bf1SYuichi Sugiyama#define HALF_SIGN_MASK            (0x01U << HALF_SIGN_SHIFT) // 0x8000 1 bit of sign
2e6f5bf1SYuichi Sugiyama#define HALF_QUIET_NAN_BIT        (0x01U << (HALF_NUM_SIGNIFICAND_BITS-1)) // 0x0200
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama/* Biased    Biased    Unbiased   Use
2e6f5bf1SYuichi Sugiyama *  0x00       0        -15       0 and subnormal
2e6f5bf1SYuichi Sugiyama *  0x01       1        -14       Smallest normal exponent
2e6f5bf1SYuichi Sugiyama *  0x1e      30         15       Largest normal exponent
2e6f5bf1SYuichi Sugiyama *  0x1F      31         16       NaN and Infinity  */
2e6f5bf1SYuichi Sugiyama#define HALF_EXPONENT_BIAS        (15)
2e6f5bf1SYuichi Sugiyama#define HALF_EXPONENT_MAX         (HALF_EXPONENT_BIAS)    //  15 Unbiased
2e6f5bf1SYuichi Sugiyama#define HALF_EXPONENT_MIN         (-HALF_EXPONENT_BIAS+1) // -14 Unbiased
2e6f5bf1SYuichi Sugiyama#define HALF_EXPONENT_ZERO        (-HALF_EXPONENT_BIAS)   // -15 Unbiased
2e6f5bf1SYuichi Sugiyama#define HALF_EXPONENT_INF_OR_NAN  (HALF_EXPONENT_BIAS+1)  //  16 Unbiased
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama/* ------ Single-Precision -------- */
2e6f5bf1SYuichi Sugiyama#define SINGLE_NUM_SIGNIFICAND_BITS (23)
2e6f5bf1SYuichi Sugiyama#define SINGLE_NUM_EXPONENT_BITS    (8)
2e6f5bf1SYuichi Sugiyama#define SINGLE_NUM_SIGN_BITS        (1)
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama#define SINGLE_SIGNIFICAND_SHIFT    (0)
2e6f5bf1SYuichi Sugiyama#define SINGLE_EXPONENT_SHIFT       (SINGLE_NUM_SIGNIFICAND_BITS)
2e6f5bf1SYuichi Sugiyama#define SINGLE_SIGN_SHIFT           (SINGLE_NUM_SIGNIFICAND_BITS + SINGLE_NUM_EXPONENT_BITS)
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama#define SINGLE_SIGNIFICAND_MASK     (0x7fffffU) // The lower 23 bits
2e6f5bf1SYuichi Sugiyama#define SINGLE_EXPONENT_MASK        (0xffU << SINGLE_EXPONENT_SHIFT) // 8 bits of exponent
2e6f5bf1SYuichi Sugiyama#define SINGLE_SIGN_MASK            (0x01U << SINGLE_SIGN_SHIFT) // 1 bit of sign
2e6f5bf1SYuichi Sugiyama#define SINGLE_QUIET_NAN_BIT        (0x01U << (SINGLE_NUM_SIGNIFICAND_BITS-1))
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama/* Biased  Biased   Unbiased  Use
2e6f5bf1SYuichi Sugiyama *  0x0000     0     -127      0 and subnormal
2e6f5bf1SYuichi Sugiyama *  0x0001     1     -126      Smallest normal exponent
2e6f5bf1SYuichi Sugiyama *  0x7f     127        0      1
2e6f5bf1SYuichi Sugiyama *  0xfe     254      127      Largest normal exponent
2e6f5bf1SYuichi Sugiyama *  0xff     255      128      NaN and Infinity  */
2e6f5bf1SYuichi Sugiyama#define SINGLE_EXPONENT_BIAS        (127)
2e6f5bf1SYuichi Sugiyama#define SINGLE_EXPONENT_MAX         (SINGLE_EXPONENT_BIAS)
2e6f5bf1SYuichi Sugiyama#define SINGLE_EXPONENT_MIN         (-SINGLE_EXPONENT_BIAS+1)
2e6f5bf1SYuichi Sugiyama#define SINGLE_EXPONENT_ZERO        (-SINGLE_EXPONENT_BIAS)
2e6f5bf1SYuichi Sugiyama#define SINGLE_EXPONENT_INF_OR_NAN  (SINGLE_EXPONENT_BIAS+1)
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama/* --------- Double-Precision ---------- */
2e6f5bf1SYuichi Sugiyama#define DOUBLE_NUM_SIGNIFICAND_BITS (52)
2e6f5bf1SYuichi Sugiyama#define DOUBLE_NUM_EXPONENT_BITS    (11)
2e6f5bf1SYuichi Sugiyama#define DOUBLE_NUM_SIGN_BITS        (1)
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama#define DOUBLE_SIGNIFICAND_SHIFT    (0)
2e6f5bf1SYuichi Sugiyama#define DOUBLE_EXPONENT_SHIFT       (DOUBLE_NUM_SIGNIFICAND_BITS)
2e6f5bf1SYuichi Sugiyama#define DOUBLE_SIGN_SHIFT           (DOUBLE_NUM_SIGNIFICAND_BITS + DOUBLE_NUM_EXPONENT_BITS)
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama#define DOUBLE_SIGNIFICAND_MASK     (0xfffffffffffffULL) // The lower 52 bits
2e6f5bf1SYuichi Sugiyama#define DOUBLE_EXPONENT_MASK        (0x7ffULL << DOUBLE_EXPONENT_SHIFT) // 11 bits of exponent
2e6f5bf1SYuichi Sugiyama#define DOUBLE_SIGN_MASK            (0x01ULL << DOUBLE_SIGN_SHIFT) // 1 bit of sign
2e6f5bf1SYuichi Sugiyama#define DOUBLE_QUIET_NAN_BIT        (0x01ULL << (DOUBLE_NUM_SIGNIFICAND_BITS-1))
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama/* Biased      Biased   Unbiased  Use
2e6f5bf1SYuichi Sugiyama * 0x00000000     0     -1023     0 and subnormal
2e6f5bf1SYuichi Sugiyama * 0x00000001     1     -1022     Smallest normal exponent
2e6f5bf1SYuichi Sugiyama * 0x000007fe  2046      1023     Largest normal exponent
2e6f5bf1SYuichi Sugiyama * 0x000007ff  2047      1024     NaN and Infinity  */
2e6f5bf1SYuichi Sugiyama#define DOUBLE_EXPONENT_BIAS        (1023)
2e6f5bf1SYuichi Sugiyama#define DOUBLE_EXPONENT_MAX         (DOUBLE_EXPONENT_BIAS)
2e6f5bf1SYuichi Sugiyama#define DOUBLE_EXPONENT_MIN         (-DOUBLE_EXPONENT_BIAS+1)
2e6f5bf1SYuichi Sugiyama#define DOUBLE_EXPONENT_ZERO        (-DOUBLE_EXPONENT_BIAS)
2e6f5bf1SYuichi Sugiyama#define DOUBLE_EXPONENT_INF_OR_NAN  (DOUBLE_EXPONENT_BIAS+1)
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama/*
2e6f5bf1SYuichi Sugiyama * Convenient functions to avoid type punning, compiler warnings and
2e6f5bf1SYuichi Sugiyama * such. The optimizer reduces them to a simple assignment. This is a
2e6f5bf1SYuichi Sugiyama * crusty corner of C. It shouldn't be this hard.
2e6f5bf1SYuichi Sugiyama *
2e6f5bf1SYuichi Sugiyama * These are also in UsefulBuf.h under a different name. They are copied
2e6f5bf1SYuichi Sugiyama * here to avoid a dependency on UsefulBuf.h. There is no object code
2e6f5bf1SYuichi Sugiyama * size impact because these always optimze down to a simple assignment.
2e6f5bf1SYuichi Sugiyama */
2e6f5bf1SYuichi Sugiyamastatic inline uint32_t
2e6f5bf1SYuichi SugiyamaCopyFloatToUint32(float f)
2e6f5bf1SYuichi Sugiyama{
2e6f5bf1SYuichi Sugiyama   uint32_t u32;
2e6f5bf1SYuichi Sugiyama   memcpy(&u32, &f, sizeof(uint32_t));
2e6f5bf1SYuichi Sugiyama   return u32;
2e6f5bf1SYuichi Sugiyama}
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyamastatic inline uint64_t
2e6f5bf1SYuichi SugiyamaCopyDoubleToUint64(double d)
2e6f5bf1SYuichi Sugiyama{
2e6f5bf1SYuichi Sugiyama   uint64_t u64;
2e6f5bf1SYuichi Sugiyama   memcpy(&u64, &d, sizeof(uint64_t));
2e6f5bf1SYuichi Sugiyama   return u64;
2e6f5bf1SYuichi Sugiyama}
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyamastatic inline double
2e6f5bf1SYuichi SugiyamaCopyUint64ToDouble(uint64_t u64)
2e6f5bf1SYuichi Sugiyama{
2e6f5bf1SYuichi Sugiyama   double d;
2e6f5bf1SYuichi Sugiyama   memcpy(&d, &u64, sizeof(uint64_t));
2e6f5bf1SYuichi Sugiyama   return d;
2e6f5bf1SYuichi Sugiyama}
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyamastatic inline float
2e6f5bf1SYuichi SugiyamaCopyUint32ToSingle(uint32_t u32)
2e6f5bf1SYuichi Sugiyama{
2e6f5bf1SYuichi Sugiyama   float f;
2e6f5bf1SYuichi Sugiyama   memcpy(&f, &u32, sizeof(uint32_t));
2e6f5bf1SYuichi Sugiyama   return f;
2e6f5bf1SYuichi Sugiyama}
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama/**
2e6f5bf1SYuichi Sugiyama * @brief Assemble sign, significand and exponent into single precision float.
2e6f5bf1SYuichi Sugiyama *
2e6f5bf1SYuichi Sugiyama * @param[in] uDoubleSign              0 if positive, 1 if negative
2e6f5bf1SYuichi Sugiyama * @pararm[in] uDoubleSignificand      Bits of the significand
2e6f5bf1SYuichi Sugiyama * @param[in] nDoubleUnBiasedExponent  Exponent
2e6f5bf1SYuichi Sugiyama *
2e6f5bf1SYuichi Sugiyama * This returns the bits for a single-precision float, a binary64
2e6f5bf1SYuichi Sugiyama * as specified in IEEE754.
2e6f5bf1SYuichi Sugiyama */
2e6f5bf1SYuichi Sugiyamastatic double
2e6f5bf1SYuichi SugiyamaIEEE754_AssembleDouble(uint64_t uDoubleSign,
2e6f5bf1SYuichi Sugiyama                       uint64_t uDoubleSignificand,
2e6f5bf1SYuichi Sugiyama                       int64_t  nDoubleUnBiasedExponent)
2e6f5bf1SYuichi Sugiyama{
2e6f5bf1SYuichi Sugiyama   uint64_t uDoubleBiasedExponent;
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama   uDoubleBiasedExponent = (uint64_t)(nDoubleUnBiasedExponent + DOUBLE_EXPONENT_BIAS);
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama   return CopyUint64ToDouble(uDoubleSignificand |
2e6f5bf1SYuichi Sugiyama                             (uDoubleBiasedExponent << DOUBLE_EXPONENT_SHIFT) |
2e6f5bf1SYuichi Sugiyama                             (uDoubleSign << DOUBLE_SIGN_SHIFT));
2e6f5bf1SYuichi Sugiyama}
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyamadouble
2e6f5bf1SYuichi SugiyamaIEEE754_HalfToDouble(uint16_t uHalfPrecision)
2e6f5bf1SYuichi Sugiyama{
2e6f5bf1SYuichi Sugiyama   uint64_t uDoubleSignificand;
2e6f5bf1SYuichi Sugiyama   int64_t  nDoubleUnBiasedExponent;
2e6f5bf1SYuichi Sugiyama   double   dResult;
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama   /* Pull out the three parts of the half-precision float.  Do all
2e6f5bf1SYuichi Sugiyama    * the work in 64 bits because that is what the end result is.  It
2e6f5bf1SYuichi Sugiyama    * may give smaller code size and will keep static analyzers
2e6f5bf1SYuichi Sugiyama    * happier.
2e6f5bf1SYuichi Sugiyama    */
2e6f5bf1SYuichi Sugiyama   const uint64_t uHalfSignificand      = uHalfPrecision & HALF_SIGNIFICAND_MASK;
2e6f5bf1SYuichi Sugiyama   const uint64_t uHalfBiasedExponent   = (uHalfPrecision & HALF_EXPONENT_MASK) >> HALF_EXPONENT_SHIFT;
2e6f5bf1SYuichi Sugiyama   const int64_t  nHalfUnBiasedExponent = (int64_t)uHalfBiasedExponent - HALF_EXPONENT_BIAS;
2e6f5bf1SYuichi Sugiyama   const uint64_t uHalfSign             = (uHalfPrecision & HALF_SIGN_MASK) >> HALF_SIGN_SHIFT;
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama   if(nHalfUnBiasedExponent == HALF_EXPONENT_ZERO) {
2e6f5bf1SYuichi Sugiyama      /* 0 or subnormal */
2e6f5bf1SYuichi Sugiyama      if(uHalfSignificand) {
2e6f5bf1SYuichi Sugiyama         /* --- SUBNORMAL --- */
2e6f5bf1SYuichi Sugiyama         /* A half-precision subnormal can always be converted to a
2e6f5bf1SYuichi Sugiyama          * normal double-precision float because the ranges line up.
2e6f5bf1SYuichi Sugiyama          * The exponent of a subnormal starts out at the min exponent
2e6f5bf1SYuichi Sugiyama          * for a normal. As the sub normal significand bits are
2e6f5bf1SYuichi Sugiyama          * shifted, left to normalize, the exponent is
2e6f5bf1SYuichi Sugiyama          * decremented. Shifting continues until fully normalized.
2e6f5bf1SYuichi Sugiyama          */
2e6f5bf1SYuichi Sugiyama          nDoubleUnBiasedExponent = HALF_EXPONENT_MIN;
2e6f5bf1SYuichi Sugiyama          uDoubleSignificand      = uHalfSignificand;
2e6f5bf1SYuichi Sugiyama          do {
2e6f5bf1SYuichi Sugiyama             uDoubleSignificand <<= 1;
2e6f5bf1SYuichi Sugiyama             nDoubleUnBiasedExponent--;
2e6f5bf1SYuichi Sugiyama          } while ((uDoubleSignificand & (1ULL << HALF_NUM_SIGNIFICAND_BITS)) == 0);
2e6f5bf1SYuichi Sugiyama          /* A normal has an implied 1 in the most significant
2e6f5bf1SYuichi Sugiyama           * position that a subnormal doesn't. */
2e6f5bf1SYuichi Sugiyama          uDoubleSignificand -= 1ULL << HALF_NUM_SIGNIFICAND_BITS;
2e6f5bf1SYuichi Sugiyama          /* Must shift into place for a double significand */
2e6f5bf1SYuichi Sugiyama          uDoubleSignificand <<= DOUBLE_NUM_SIGNIFICAND_BITS - HALF_NUM_SIGNIFICAND_BITS;
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama          dResult = IEEE754_AssembleDouble(uHalfSign,
2e6f5bf1SYuichi Sugiyama                                           uDoubleSignificand,
2e6f5bf1SYuichi Sugiyama                                           nDoubleUnBiasedExponent);
2e6f5bf1SYuichi Sugiyama      } else {
2e6f5bf1SYuichi Sugiyama         /* --- ZERO --- */
2e6f5bf1SYuichi Sugiyama         dResult = IEEE754_AssembleDouble(uHalfSign,
2e6f5bf1SYuichi Sugiyama                                          0,
2e6f5bf1SYuichi Sugiyama                                          DOUBLE_EXPONENT_ZERO);
2e6f5bf1SYuichi Sugiyama      }
2e6f5bf1SYuichi Sugiyama   } else if(nHalfUnBiasedExponent == HALF_EXPONENT_INF_OR_NAN) {
2e6f5bf1SYuichi Sugiyama      /* NaN or Inifinity */
2e6f5bf1SYuichi Sugiyama      if(uHalfSignificand) {
2e6f5bf1SYuichi Sugiyama         /* --- NaN --- */
2e6f5bf1SYuichi Sugiyama         /* Half-precision payloads always fit into double precision
2e6f5bf1SYuichi Sugiyama          * payloads. They are shifted left the same as a normal
2e6f5bf1SYuichi Sugiyama          * number significand.
2e6f5bf1SYuichi Sugiyama          */
2e6f5bf1SYuichi Sugiyama         uDoubleSignificand = uHalfSignificand << (DOUBLE_NUM_SIGNIFICAND_BITS - HALF_NUM_SIGNIFICAND_BITS);
2e6f5bf1SYuichi Sugiyama         dResult = IEEE754_AssembleDouble(uHalfSign,
2e6f5bf1SYuichi Sugiyama                                          uDoubleSignificand,
2e6f5bf1SYuichi Sugiyama                                          DOUBLE_EXPONENT_INF_OR_NAN);
2e6f5bf1SYuichi Sugiyama      } else {
2e6f5bf1SYuichi Sugiyama         /* --- INFINITY --- */
2e6f5bf1SYuichi Sugiyama         dResult = IEEE754_AssembleDouble(uHalfSign,
2e6f5bf1SYuichi Sugiyama                                          0,
2e6f5bf1SYuichi Sugiyama                                          DOUBLE_EXPONENT_INF_OR_NAN);
2e6f5bf1SYuichi Sugiyama      }
2e6f5bf1SYuichi Sugiyama   } else {
2e6f5bf1SYuichi Sugiyama      /* --- NORMAL NUMBER --- */
2e6f5bf1SYuichi Sugiyama      uDoubleSignificand = uHalfSignificand << (DOUBLE_NUM_SIGNIFICAND_BITS - HALF_NUM_SIGNIFICAND_BITS);
2e6f5bf1SYuichi Sugiyama      dResult = IEEE754_AssembleDouble(uHalfSign,
2e6f5bf1SYuichi Sugiyama                                       uDoubleSignificand,
2e6f5bf1SYuichi Sugiyama                                       nHalfUnBiasedExponent);
2e6f5bf1SYuichi Sugiyama   }
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama   return dResult;
2e6f5bf1SYuichi Sugiyama}
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama/**
2e6f5bf1SYuichi Sugiyama * @brief Assemble sign, significand and exponent into single precision float.
2e6f5bf1SYuichi Sugiyama *
2e6f5bf1SYuichi Sugiyama * @param[in] uHalfSign              0 if positive, 1 if negative
2e6f5bf1SYuichi Sugiyama * @pararm[in] uHalfSignificand      Bits of the significand
2e6f5bf1SYuichi Sugiyama * @param[in] nHalfUnBiasedExponent  Exponent
2e6f5bf1SYuichi Sugiyama *
2e6f5bf1SYuichi Sugiyama * This returns the bits for a single-precision float, a binary32 as
2e6f5bf1SYuichi Sugiyama * specified in IEEE754. It is returned as a uint64_t rather than a
2e6f5bf1SYuichi Sugiyama * uint32_t or a float for convenience of usage.
2e6f5bf1SYuichi Sugiyama */
2e6f5bf1SYuichi Sugiyamastatic uint32_t
2e6f5bf1SYuichi SugiyamaIEEE754_AssembleHalf(uint32_t uHalfSign,
2e6f5bf1SYuichi Sugiyama                     uint32_t uHalfSignificand,
2e6f5bf1SYuichi Sugiyama                     int32_t nHalfUnBiasedExponent)
2e6f5bf1SYuichi Sugiyama{
2e6f5bf1SYuichi Sugiyama   uint32_t uHalfUnbiasedExponent;
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama   uHalfUnbiasedExponent = (uint32_t)(nHalfUnBiasedExponent + HALF_EXPONENT_BIAS);
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama   return uHalfSignificand |
2e6f5bf1SYuichi Sugiyama          (uHalfUnbiasedExponent << HALF_EXPONENT_SHIFT) |
2e6f5bf1SYuichi Sugiyama          (uHalfSign << HALF_SIGN_SHIFT);
2e6f5bf1SYuichi Sugiyama}
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama/*  Public function; see ieee754.h */
2e6f5bf1SYuichi SugiyamaIEEE754_union
2e6f5bf1SYuichi SugiyamaIEEE754_SingleToHalf(float f)
2e6f5bf1SYuichi Sugiyama{
2e6f5bf1SYuichi Sugiyama   IEEE754_union result;
2e6f5bf1SYuichi Sugiyama   uint32_t      uDroppedBits;
2e6f5bf1SYuichi Sugiyama   int32_t       nExponentDifference;
2e6f5bf1SYuichi Sugiyama   int32_t       nShiftAmount;
2e6f5bf1SYuichi Sugiyama   uint32_t      uHalfSignificand;
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama   /* Pull the three parts out of the double-precision float Most work
2e6f5bf1SYuichi Sugiyama    * is done with uint32_t which helps avoid integer promotions and
2e6f5bf1SYuichi Sugiyama    * static analyzer complaints.
2e6f5bf1SYuichi Sugiyama    */
2e6f5bf1SYuichi Sugiyama   const uint32_t uSingle                 = CopyFloatToUint32(f);
2e6f5bf1SYuichi Sugiyama   const uint32_t uSingleBiasedExponent   = (uSingle & SINGLE_EXPONENT_MASK) >> SINGLE_EXPONENT_SHIFT;
2e6f5bf1SYuichi Sugiyama   const int32_t  nSingleUnbiasedExponent = (int32_t)uSingleBiasedExponent - SINGLE_EXPONENT_BIAS;
2e6f5bf1SYuichi Sugiyama   const uint32_t uSingleSignificand      = uSingle & SINGLE_SIGNIFICAND_MASK;
2e6f5bf1SYuichi Sugiyama   const uint32_t uSingleSign             = (uSingle & SINGLE_SIGN_MASK) >> SINGLE_SIGN_SHIFT;
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama   if(nSingleUnbiasedExponent == SINGLE_EXPONENT_ZERO) {
2e6f5bf1SYuichi Sugiyama      if(uSingleSignificand == 0) {
2e6f5bf1SYuichi Sugiyama         /* --- IS ZERO --- */
2e6f5bf1SYuichi Sugiyama         result.uSize  = IEEE754_UNION_IS_HALF;
2e6f5bf1SYuichi Sugiyama         result.uValue = IEEE754_AssembleHalf(uSingleSign,
2e6f5bf1SYuichi Sugiyama                                              0,
2e6f5bf1SYuichi Sugiyama                                              HALF_EXPONENT_ZERO);
2e6f5bf1SYuichi Sugiyama      } else {
2e6f5bf1SYuichi Sugiyama         /* --- IS SINGLE SUBNORMAL --- */
2e6f5bf1SYuichi Sugiyama         /* The largest single subnormal is slightly less than the
2e6f5bf1SYuichi Sugiyama          * largest single normal which is 2^-149 or
2e6f5bf1SYuichi Sugiyama          * 2.2040517676619426e-38.  The smallest half subnormal is
2e6f5bf1SYuichi Sugiyama          * 2^-14 or 5.9604644775390625E-8.  There is no overlap so
2e6f5bf1SYuichi Sugiyama          * single subnormals can't be converted to halfs of any sort.
2e6f5bf1SYuichi Sugiyama          */
2e6f5bf1SYuichi Sugiyama         result.uSize   = IEEE754_UNION_IS_SINGLE;
2e6f5bf1SYuichi Sugiyama         result.uValue  = uSingle;
2e6f5bf1SYuichi Sugiyama      }
2e6f5bf1SYuichi Sugiyama   } else if(nSingleUnbiasedExponent == SINGLE_EXPONENT_INF_OR_NAN) {
2e6f5bf1SYuichi Sugiyama      if(uSingleSignificand == 0) {
2e6f5bf1SYuichi Sugiyama         /* ---- IS INFINITY ---- */
2e6f5bf1SYuichi Sugiyama         result.uSize  = IEEE754_UNION_IS_HALF;
2e6f5bf1SYuichi Sugiyama         result.uValue = IEEE754_AssembleHalf(uSingleSign, 0, HALF_EXPONENT_INF_OR_NAN);
2e6f5bf1SYuichi Sugiyama      } else {
2e6f5bf1SYuichi Sugiyama         /* The NaN can only be converted if no payload bits are lost
2e6f5bf1SYuichi Sugiyama          * per RFC 8949 section 4.1 that defines Preferred
2e6f5bf1SYuichi Sugiyama          * Serializaton. Note that Deterministically Encode CBOR in
2e6f5bf1SYuichi Sugiyama          * section 4.2 allows for some variation of this rule, but at
2e6f5bf1SYuichi Sugiyama          * the moment this implementation is of Preferred
2e6f5bf1SYuichi Sugiyama          * Serialization, not CDE. As of December 2023, we are also
2e6f5bf1SYuichi Sugiyama          * expecting an update to CDE. This code may need to be
2e6f5bf1SYuichi Sugiyama          * updated for CDE.
2e6f5bf1SYuichi Sugiyama          */
2e6f5bf1SYuichi Sugiyama         uDroppedBits = uSingleSignificand & (SINGLE_SIGNIFICAND_MASK >> HALF_NUM_SIGNIFICAND_BITS);
2e6f5bf1SYuichi Sugiyama         if(uDroppedBits == 0) {
2e6f5bf1SYuichi Sugiyama            /* --- IS CONVERTABLE NAN --- */
2e6f5bf1SYuichi Sugiyama            uHalfSignificand = uSingleSignificand >> (SINGLE_NUM_SIGNIFICAND_BITS - HALF_NUM_SIGNIFICAND_BITS);
2e6f5bf1SYuichi Sugiyama            result.uSize  = IEEE754_UNION_IS_HALF;
2e6f5bf1SYuichi Sugiyama            result.uValue = IEEE754_AssembleHalf(uSingleSign,
2e6f5bf1SYuichi Sugiyama                                                 uHalfSignificand,
2e6f5bf1SYuichi Sugiyama                                                 HALF_EXPONENT_INF_OR_NAN);
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama         } else {
2e6f5bf1SYuichi Sugiyama            /* --- IS UNCONVERTABLE NAN --- */
2e6f5bf1SYuichi Sugiyama            result.uSize   = IEEE754_UNION_IS_SINGLE;
2e6f5bf1SYuichi Sugiyama            result.uValue  = uSingle;
2e6f5bf1SYuichi Sugiyama         }
2e6f5bf1SYuichi Sugiyama      }
2e6f5bf1SYuichi Sugiyama   } else {
2e6f5bf1SYuichi Sugiyama      /* ---- REGULAR NUMBER ---- */
2e6f5bf1SYuichi Sugiyama      /* A regular single can be converted to a regular half if the
2e6f5bf1SYuichi Sugiyama       * single's exponent is in the smaller range of a half and if no
2e6f5bf1SYuichi Sugiyama       * precision is lost in the significand.
2e6f5bf1SYuichi Sugiyama       */
2e6f5bf1SYuichi Sugiyama      if(nSingleUnbiasedExponent >= HALF_EXPONENT_MIN &&
2e6f5bf1SYuichi Sugiyama         nSingleUnbiasedExponent <= HALF_EXPONENT_MAX &&
2e6f5bf1SYuichi Sugiyama        (uSingleSignificand & (SINGLE_SIGNIFICAND_MASK >> HALF_NUM_SIGNIFICAND_BITS)) == 0) {
2e6f5bf1SYuichi Sugiyama         uHalfSignificand = uSingleSignificand >> (SINGLE_NUM_SIGNIFICAND_BITS - HALF_NUM_SIGNIFICAND_BITS);
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama         /* --- CONVERT TO HALF NORMAL --- */
2e6f5bf1SYuichi Sugiyama         result.uSize  = IEEE754_UNION_IS_HALF;
2e6f5bf1SYuichi Sugiyama         result.uValue = IEEE754_AssembleHalf(uSingleSign,
2e6f5bf1SYuichi Sugiyama                                              uHalfSignificand,
2e6f5bf1SYuichi Sugiyama                                              nSingleUnbiasedExponent);
2e6f5bf1SYuichi Sugiyama      } else {
2e6f5bf1SYuichi Sugiyama         /* Unable to convert to a half normal. See if it can be
2e6f5bf1SYuichi Sugiyama          * converted to a half subnormal. To do that, the exponent
2e6f5bf1SYuichi Sugiyama          * must be in range and no precision can be lost in the
2e6f5bf1SYuichi Sugiyama          * signficand.
2e6f5bf1SYuichi Sugiyama          *
2e6f5bf1SYuichi Sugiyama          * This is more complicated because the number is not
2e6f5bf1SYuichi Sugiyama          * normalized.  The signficand must be shifted proprotionally
2e6f5bf1SYuichi Sugiyama          * to the exponent and 1 must be added in.  See
2e6f5bf1SYuichi Sugiyama          * https://en.wikipedia.org/wiki/Single-precision_floating-point_format#Exponent_encoding
2e6f5bf1SYuichi Sugiyama          *
2e6f5bf1SYuichi Sugiyama          * Exponents -14 to -24 map to a shift of 0 to 10 of the
2e6f5bf1SYuichi Sugiyama          * significand.  The largest value of a half subnormal has an
2e6f5bf1SYuichi Sugiyama          * exponent of -14. Subnormals are not normalized like
2e6f5bf1SYuichi Sugiyama          * normals meaning they lose precision as the numbers get
2e6f5bf1SYuichi Sugiyama          * smaller. Normals don't lose precision because the exponent
2e6f5bf1SYuichi Sugiyama          * allows all the bits of the significand to be significant.
2e6f5bf1SYuichi Sugiyama          */
2e6f5bf1SYuichi Sugiyama         /* The exponent of the largest possible half-precision
2e6f5bf1SYuichi Sugiyama          * subnormal is HALF_EXPONENT_MIN (-14).  Exponents larger
2e6f5bf1SYuichi Sugiyama          * than this are normal and handled above. We're going to
2e6f5bf1SYuichi Sugiyama          * shift the significand right by at least this amount.
2e6f5bf1SYuichi Sugiyama          */
2e6f5bf1SYuichi Sugiyama         nExponentDifference = -(nSingleUnbiasedExponent - HALF_EXPONENT_MIN);
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama         /* In addition to the shift based on the exponent's value,
2e6f5bf1SYuichi Sugiyama          * the single significand has to be shifted right to fit into
2e6f5bf1SYuichi Sugiyama          * a half-precision significand */
2e6f5bf1SYuichi Sugiyama         nShiftAmount = nExponentDifference + (SINGLE_NUM_SIGNIFICAND_BITS - HALF_NUM_SIGNIFICAND_BITS);
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama         /* Must add 1 in to the possible significand because there is
2e6f5bf1SYuichi Sugiyama          * an implied 1 for normal values and not for subnormal
2e6f5bf1SYuichi Sugiyama          * values. See equations here:
2e6f5bf1SYuichi Sugiyama          * https://en.wikipedia.org/wiki/Single-precision_floating-point_format#Exponent_encoding
2e6f5bf1SYuichi Sugiyama          */
2e6f5bf1SYuichi Sugiyama         uHalfSignificand = (uSingleSignificand + (1 << SINGLE_NUM_SIGNIFICAND_BITS)) >> nShiftAmount;
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama         /* If only zero bits get shifted out, this can be converted
2e6f5bf1SYuichi Sugiyama          * to subnormal */
2e6f5bf1SYuichi Sugiyama         if(nSingleUnbiasedExponent < HALF_EXPONENT_MIN &&
2e6f5bf1SYuichi Sugiyama            nSingleUnbiasedExponent >= HALF_EXPONENT_MIN - HALF_NUM_SIGNIFICAND_BITS &&
2e6f5bf1SYuichi Sugiyama            uHalfSignificand << nShiftAmount == uSingleSignificand + (1 << SINGLE_NUM_SIGNIFICAND_BITS)) {
2e6f5bf1SYuichi Sugiyama            /* --- CONVERTABLE TO HALF SUBNORMAL --- */
2e6f5bf1SYuichi Sugiyama            result.uSize  = IEEE754_UNION_IS_HALF;
2e6f5bf1SYuichi Sugiyama            result.uValue = IEEE754_AssembleHalf(uSingleSign,
2e6f5bf1SYuichi Sugiyama                                                 uHalfSignificand,
2e6f5bf1SYuichi Sugiyama                                                 HALF_EXPONENT_ZERO);
2e6f5bf1SYuichi Sugiyama         } else {
2e6f5bf1SYuichi Sugiyama            /* --- DO NOT CONVERT --- */
2e6f5bf1SYuichi Sugiyama            result.uSize   = IEEE754_UNION_IS_SINGLE;
2e6f5bf1SYuichi Sugiyama            result.uValue  = uSingle;
2e6f5bf1SYuichi Sugiyama         }
2e6f5bf1SYuichi Sugiyama      }
2e6f5bf1SYuichi Sugiyama   }
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama   return result;
2e6f5bf1SYuichi Sugiyama}
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama/**
2e6f5bf1SYuichi Sugiyama * @brief Assemble sign, significand and exponent into single precision float.
2e6f5bf1SYuichi Sugiyama *
2e6f5bf1SYuichi Sugiyama * @param[in] uSingleSign              0 if positive, 1 if negative
2e6f5bf1SYuichi Sugiyama * @pararm[in] uSingleSignificand      Bits of the significand
2e6f5bf1SYuichi Sugiyama * @param[in] nSingleUnBiasedExponent  Exponent
2e6f5bf1SYuichi Sugiyama *
2e6f5bf1SYuichi Sugiyama * This returns the bits for a single-precision float, a binary32 as
2e6f5bf1SYuichi Sugiyama * specified in IEEE754. It is returned as a uint64_t rather than a
2e6f5bf1SYuichi Sugiyama * uint32_t or a float for convenience of usage.
2e6f5bf1SYuichi Sugiyama */
2e6f5bf1SYuichi Sugiyamastatic uint64_t
2e6f5bf1SYuichi SugiyamaIEEE754_AssembleSingle(uint64_t uSingleSign,
2e6f5bf1SYuichi Sugiyama                       uint64_t uSingleSignificand,
2e6f5bf1SYuichi Sugiyama                       int64_t  nSingleUnBiasedExponent)
2e6f5bf1SYuichi Sugiyama{
2e6f5bf1SYuichi Sugiyama   uint64_t uSingleBiasedExponent;
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama   uSingleBiasedExponent = (uint64_t)(nSingleUnBiasedExponent + SINGLE_EXPONENT_BIAS);
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama   return uSingleSignificand |
2e6f5bf1SYuichi Sugiyama          (uSingleBiasedExponent << SINGLE_EXPONENT_SHIFT) |
2e6f5bf1SYuichi Sugiyama          (uSingleSign << SINGLE_SIGN_SHIFT);
2e6f5bf1SYuichi Sugiyama}
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama/**
2e6f5bf1SYuichi Sugiyama * @brief Convert a double-precision float to single-precision.
2e6f5bf1SYuichi Sugiyama *
2e6f5bf1SYuichi Sugiyama * @param[in] d  The value to convert.
2e6f5bf1SYuichi Sugiyama *
2e6f5bf1SYuichi Sugiyama * @returns Either unconverted value or value converted to single-precision.
2e6f5bf1SYuichi Sugiyama *
2e6f5bf1SYuichi Sugiyama * This always succeeds. If the value cannot be converted without the
2e6f5bf1SYuichi Sugiyama * loss of precision, it is not converted.
2e6f5bf1SYuichi Sugiyama *
2e6f5bf1SYuichi Sugiyama * This handles all subnormals and NaN payloads.
2e6f5bf1SYuichi Sugiyama */
2e6f5bf1SYuichi Sugiyamastatic IEEE754_union
2e6f5bf1SYuichi SugiyamaIEEE754_DoubleToSingle(double d)
2e6f5bf1SYuichi Sugiyama{
2e6f5bf1SYuichi Sugiyama   IEEE754_union Result;
2e6f5bf1SYuichi Sugiyama   int64_t       nExponentDifference;
2e6f5bf1SYuichi Sugiyama   int64_t       nShiftAmount;
2e6f5bf1SYuichi Sugiyama   uint64_t      uSingleSignificand;
2e6f5bf1SYuichi Sugiyama   uint64_t      uDroppedBits;
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama   /* Pull the three parts out of the double-precision float. Most
2e6f5bf1SYuichi Sugiyama    * work is done with uint64_t which helps avoid integer promotions
2e6f5bf1SYuichi Sugiyama    * and static analyzer complaints.
2e6f5bf1SYuichi Sugiyama    */
2e6f5bf1SYuichi Sugiyama   const uint64_t uDouble                 = CopyDoubleToUint64(d);
2e6f5bf1SYuichi Sugiyama   const uint64_t uDoubleBiasedExponent   = (uDouble & DOUBLE_EXPONENT_MASK) >> DOUBLE_EXPONENT_SHIFT;
2e6f5bf1SYuichi Sugiyama   const int64_t  nDoubleUnbiasedExponent = (int64_t)uDoubleBiasedExponent - DOUBLE_EXPONENT_BIAS;
2e6f5bf1SYuichi Sugiyama   const uint64_t uDoubleSign             = (uDouble & DOUBLE_SIGN_MASK) >> DOUBLE_SIGN_SHIFT;
2e6f5bf1SYuichi Sugiyama   const uint64_t uDoubleSignificand      = uDouble & DOUBLE_SIGNIFICAND_MASK;
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama    if(nDoubleUnbiasedExponent == DOUBLE_EXPONENT_ZERO) {
2e6f5bf1SYuichi Sugiyama        if(uDoubleSignificand == 0) {
2e6f5bf1SYuichi Sugiyama            /* --- IS ZERO --- */
2e6f5bf1SYuichi Sugiyama            Result.uSize  = IEEE754_UNION_IS_SINGLE;
2e6f5bf1SYuichi Sugiyama            Result.uValue = IEEE754_AssembleSingle(uDoubleSign,
2e6f5bf1SYuichi Sugiyama                                                   0,
2e6f5bf1SYuichi Sugiyama                                                   SINGLE_EXPONENT_ZERO);
2e6f5bf1SYuichi Sugiyama        } else {
2e6f5bf1SYuichi Sugiyama            /* --- IS DOUBLE SUBNORMAL --- */
2e6f5bf1SYuichi Sugiyama            /* The largest double subnormal is slightly less than the
2e6f5bf1SYuichi Sugiyama             * largest double normal which is 2^-1022 or
2e6f5bf1SYuichi Sugiyama             * 2.2250738585072014e-308.  The smallest single subnormal
2e6f5bf1SYuichi Sugiyama             * is 2^-149 or 1.401298464324817e-45.  There is no
2e6f5bf1SYuichi Sugiyama             * overlap so double subnormals can't be converted to
2e6f5bf1SYuichi Sugiyama             * singles of any sort.
2e6f5bf1SYuichi Sugiyama             */
2e6f5bf1SYuichi Sugiyama            Result.uSize   = IEEE754_UNION_IS_DOUBLE;
2e6f5bf1SYuichi Sugiyama            Result.uValue  = uDouble;
2e6f5bf1SYuichi Sugiyama         }
2e6f5bf1SYuichi Sugiyama    } else if(nDoubleUnbiasedExponent == DOUBLE_EXPONENT_INF_OR_NAN) {
2e6f5bf1SYuichi Sugiyama         if(uDoubleSignificand == 0) {
2e6f5bf1SYuichi Sugiyama             /* ---- IS INFINITY ---- */
2e6f5bf1SYuichi Sugiyama             Result.uSize  = IEEE754_UNION_IS_SINGLE;
2e6f5bf1SYuichi Sugiyama             Result.uValue = IEEE754_AssembleSingle(uDoubleSign,
2e6f5bf1SYuichi Sugiyama                                                    0,
2e6f5bf1SYuichi Sugiyama                                                    SINGLE_EXPONENT_INF_OR_NAN);
2e6f5bf1SYuichi Sugiyama         } else {
2e6f5bf1SYuichi Sugiyama             /* The NaN can only be converted if no payload bits are
2e6f5bf1SYuichi Sugiyama              * lost per RFC 8949 section 4.1 that defines Preferred
2e6f5bf1SYuichi Sugiyama              * Serializaton. Note that Deterministically Encode CBOR
2e6f5bf1SYuichi Sugiyama              * in section 4.2 allows for some variation of this rule,
2e6f5bf1SYuichi Sugiyama              * but at the moment this implementation is of Preferred
2e6f5bf1SYuichi Sugiyama              * Serialization, not CDE. As of December 2023, we are
2e6f5bf1SYuichi Sugiyama              * also expecting an update to CDE. This code may need to
2e6f5bf1SYuichi Sugiyama              * be updated for CDE.
2e6f5bf1SYuichi Sugiyama              */
2e6f5bf1SYuichi Sugiyama             uDroppedBits = uDoubleSignificand & (DOUBLE_SIGNIFICAND_MASK >> SINGLE_NUM_SIGNIFICAND_BITS);
2e6f5bf1SYuichi Sugiyama             if(uDroppedBits == 0) {
2e6f5bf1SYuichi Sugiyama                /* --- IS CONVERTABLE NAN --- */
2e6f5bf1SYuichi Sugiyama                uSingleSignificand = uDoubleSignificand >> (DOUBLE_NUM_SIGNIFICAND_BITS - SINGLE_NUM_SIGNIFICAND_BITS);
2e6f5bf1SYuichi Sugiyama                Result.uSize  = IEEE754_UNION_IS_SINGLE;
2e6f5bf1SYuichi Sugiyama                Result.uValue = IEEE754_AssembleSingle(uDoubleSign,
2e6f5bf1SYuichi Sugiyama                                                       uSingleSignificand,
2e6f5bf1SYuichi Sugiyama                                                       SINGLE_EXPONENT_INF_OR_NAN);
2e6f5bf1SYuichi Sugiyama            } else {
2e6f5bf1SYuichi Sugiyama               /* --- IS UNCONVERTABLE NAN --- */
2e6f5bf1SYuichi Sugiyama               Result.uSize   = IEEE754_UNION_IS_DOUBLE;
2e6f5bf1SYuichi Sugiyama               Result.uValue  = uDouble;
2e6f5bf1SYuichi Sugiyama            }
2e6f5bf1SYuichi Sugiyama         }
2e6f5bf1SYuichi Sugiyama    } else {
2e6f5bf1SYuichi Sugiyama        /* ---- REGULAR NUMBER ---- */
2e6f5bf1SYuichi Sugiyama        /* A regular double can be converted to a regular single if
2e6f5bf1SYuichi Sugiyama         * the double's exponent is in the smaller range of a single
2e6f5bf1SYuichi Sugiyama         * and if no precision is lost in the significand.
2e6f5bf1SYuichi Sugiyama         */
2e6f5bf1SYuichi Sugiyama        uDroppedBits = uDoubleSignificand & (DOUBLE_SIGNIFICAND_MASK >> SINGLE_NUM_SIGNIFICAND_BITS);
2e6f5bf1SYuichi Sugiyama        if(nDoubleUnbiasedExponent >= SINGLE_EXPONENT_MIN &&
2e6f5bf1SYuichi Sugiyama           nDoubleUnbiasedExponent <= SINGLE_EXPONENT_MAX &&
2e6f5bf1SYuichi Sugiyama           uDroppedBits == 0) {
2e6f5bf1SYuichi Sugiyama            /* --- IS CONVERTABLE TO SINGLE --- */
2e6f5bf1SYuichi Sugiyama            uSingleSignificand = uDoubleSignificand >> (DOUBLE_NUM_SIGNIFICAND_BITS - SINGLE_NUM_SIGNIFICAND_BITS);
2e6f5bf1SYuichi Sugiyama            Result.uSize  = IEEE754_UNION_IS_SINGLE;
2e6f5bf1SYuichi Sugiyama            Result.uValue = IEEE754_AssembleSingle(uDoubleSign,
2e6f5bf1SYuichi Sugiyama                                                   uSingleSignificand,
2e6f5bf1SYuichi Sugiyama                                                   nDoubleUnbiasedExponent);
2e6f5bf1SYuichi Sugiyama        } else {
2e6f5bf1SYuichi Sugiyama            /* Unable to convert to a single normal. See if it can be
2e6f5bf1SYuichi Sugiyama             * converted to a single subnormal. To do that, the
2e6f5bf1SYuichi Sugiyama             * exponent must be in range and no precision can be lost
2e6f5bf1SYuichi Sugiyama             * in the signficand.
2e6f5bf1SYuichi Sugiyama             *
2e6f5bf1SYuichi Sugiyama             * This is more complicated because the number is not
2e6f5bf1SYuichi Sugiyama             * normalized.  The signficand must be shifted
2e6f5bf1SYuichi Sugiyama             * proprotionally to the exponent and 1 must be added
2e6f5bf1SYuichi Sugiyama             * in. See
2e6f5bf1SYuichi Sugiyama             * https://en.wikipedia.org/wiki/Single-precision_floating-point_format#Exponent_encoding
2e6f5bf1SYuichi Sugiyama             */
2e6f5bf1SYuichi Sugiyama            nExponentDifference = -(nDoubleUnbiasedExponent - SINGLE_EXPONENT_MIN);
2e6f5bf1SYuichi Sugiyama            nShiftAmount        = nExponentDifference + (DOUBLE_NUM_SIGNIFICAND_BITS - SINGLE_NUM_SIGNIFICAND_BITS);
2e6f5bf1SYuichi Sugiyama            uSingleSignificand  = (uDoubleSignificand + (1ULL << DOUBLE_NUM_SIGNIFICAND_BITS)) >> nShiftAmount;
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama            if(nDoubleUnbiasedExponent < SINGLE_EXPONENT_MIN &&
2e6f5bf1SYuichi Sugiyama               nDoubleUnbiasedExponent >= SINGLE_EXPONENT_MIN - SINGLE_NUM_SIGNIFICAND_BITS &&
2e6f5bf1SYuichi Sugiyama               uSingleSignificand << nShiftAmount == uDoubleSignificand + (1ULL << DOUBLE_NUM_SIGNIFICAND_BITS)) {
2e6f5bf1SYuichi Sugiyama               /* --- IS CONVERTABLE TO SINGLE SUBNORMAL --- */
2e6f5bf1SYuichi Sugiyama               Result.uSize  = IEEE754_UNION_IS_SINGLE;
2e6f5bf1SYuichi Sugiyama               Result.uValue = IEEE754_AssembleSingle(uDoubleSign,
2e6f5bf1SYuichi Sugiyama                                                      uSingleSignificand,
2e6f5bf1SYuichi Sugiyama                                                      SINGLE_EXPONENT_ZERO);
2e6f5bf1SYuichi Sugiyama            } else {
2e6f5bf1SYuichi Sugiyama               /* --- CAN NOT BE CONVERTED --- */
2e6f5bf1SYuichi Sugiyama               Result.uSize   = IEEE754_UNION_IS_DOUBLE;
2e6f5bf1SYuichi Sugiyama               Result.uValue  = uDouble;
2e6f5bf1SYuichi Sugiyama            }
2e6f5bf1SYuichi Sugiyama        }
2e6f5bf1SYuichi Sugiyama    }
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama    return Result;
2e6f5bf1SYuichi Sugiyama}
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama/* Public function; see ieee754.h */
2e6f5bf1SYuichi SugiyamaIEEE754_union
2e6f5bf1SYuichi SugiyamaIEEE754_DoubleToSmaller(double d, int bAllowHalfPrecision)
2e6f5bf1SYuichi Sugiyama{
2e6f5bf1SYuichi Sugiyama   IEEE754_union result;
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama   result = IEEE754_DoubleToSingle(d);
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama   if(result.uSize == IEEE754_UNION_IS_SINGLE && bAllowHalfPrecision) {
2e6f5bf1SYuichi Sugiyama      /* Cast to uint32_t is OK, because value was just successfully
2e6f5bf1SYuichi Sugiyama       * converted to single. */
2e6f5bf1SYuichi Sugiyama      float uSingle = CopyUint32ToSingle((uint32_t)result.uValue);
2e6f5bf1SYuichi Sugiyama      result = IEEE754_SingleToHalf(uSingle);
2e6f5bf1SYuichi Sugiyama   }
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama   return result;
2e6f5bf1SYuichi Sugiyama}
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama#else /* QCBOR_DISABLE_PREFERRED_FLOAT */
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyamaint ieee754_dummy_place_holder;
2e6f5bf1SYuichi Sugiyama
2e6f5bf1SYuichi Sugiyama#endif /* QCBOR_DISABLE_PREFERRED_FLOAT */