java中float和double精度问题以及解决方案

一、背景

在java中float赋值给double，会产生精度问题。

float a = 2.1f;
double b = 3.3;
b = a;
System.out.println(b);

输出为2.0999999046325684。

二、案例

public class Test{
    public static void main(String args[]){
        System.out.println(0.05+0.01);
        System.out.println(1.0-0.42);
        System.out.println(4.015*100);
        System.out.println(123.3/100);
    }
}

结果：

0.060000000000000005
0.5800000000000001
401.49999999999994
1.2329999999999999

三、小数的二进制表示问题

首先我们要搞清楚下面两个问题：

1、十进制整数如何转化为二进制数

算法很简单。举个例子，11表示成二进制数：

11/2=5 余 1
5/2=2 余 1
2/2=1 余 0
1/2=0 余 1
0结束
11二进制表示为(从下往上):1011

这里提一点：只要遇到除以后的结果为0了就结束了，大家想一想，所有的整数除以2是不是一定能够最终得到0。换句话说，所有的整数转变为二进制数的算法会不会无限循环下去呢？绝对不会，整数永远可以用二进制精确表示，但小数就不一定了。

2、十进制小数如何转化为二进制数

算法是乘以2直到没有了小数为止。举个例子，0.9表示成二进制数

0.9*2=1.8 取整数部分 1
0.8(1.8的小数部分)*2=1.6 取整数部分 1
0.6*2=1.2 取整数部分 1
0.2*2=0.4 取整数部分 0
0.4*2=0.8 取整数部分 0
0.8*2=1.6 取整数部分 1
0.6*2=1.2 取整数部分 0
.........
0.9二进制表示为(从上往下): 1100100100100......

注意：上面的计算过程循环了，也就是说*2永远不可能消灭小数部分，这样算法将无限下去。很显然，小数的二进制表示有时是不可能精确的。其实道理很简单，十进制系统中能不能准确表示出1/3呢？同样二进制系统也无法准确表示1/10。这也就解释了为什么浮点型减法出现了”减不尽”的精度丢失问题。

3、float型在内存中的存储

众所周知、 Java 的float型在内存中占4个字节。float的32个二进制位结构如下
float内存存储结构

4bytes	31	30	29~23	22~0
表示	实数符号位	指数符号位	指数位	有效数位

其中符号位1表示正，0表示负。有效位数位24位，其中一位是实数符号位。
将一个float型转化为内存存储格式的步骤为：

先将这个实数的绝对值化为二进制格式，注意实数的整数部分和小数部分的二进制方法在上面已经探讨过了。
将这个二进制格式实数的小数点左移或右移n位，直到小数点移动到第一个有效数字的右边。
从小数点右边第一位开始数出二十三位数字放入第22到第0位。
如果实数是正的，则在第31位放入“0”，否则放入“1”。
如果n 是左移得到的，说明指数是正的，第30位放入“1”。如果n是右移得到的或n=0，则第30位放入“0”。
如果n是左移得到的，则将n减去1后化为二进制，并在左边加“0”补足七位，放入第29到第23位。如果n是右移得到的或n=0，则将n化为二进制后在左边加“0”补足七位，再各位求反，再放入第29到第23位。

举例说明： 11.9的内存存储格式

将11.9化为二进制后大约是” 1011. 1110011001100110011001100…”。
将小数点左移三位到第一个有效位右侧： “1. 011 11100110011001100110 “。保证有效位数24位，右侧多余的截取（误差在这里产生了）。
这已经有了二十四位有效数字，将最左边一位“1”去掉，得到“ 011 11100110011001100110 ”共23bit。将它放入float存储结构的第22到第0位。
因为11.9是正数，因此在第31位实数符号位放入“0”。
由于我们把小数点左移，因此在第30位指数符号位放入“1”。
因为我们是把小数点左移3位，因此将3减去1得2，化为二进制，并补足7位得到0000010，放入第29到第23位。
最后表示11.9为： 0 1 0000010 011 11100110011001100110

再举一个例子：0.2356的内存存储格式

将0.2356化为二进制后大约是0.00111100010100000100100000。
将小数点右移三位得到1.11100010100000100100000。
从小数点右边数出二十三位有效数字，即11100010100000100100000放
入第22到第0位。
由于0.2356是正的，所以在第31位放入“0”。
由于我们把小数点右移了，所以在第30位放入“0”。
因为小数点被右移了3位，所以将3化为二进制，在左边补“0”补足七
位，得到0000011，各位取反，得到1111100，放入第29到第23位。
最后表示0.2356为：0 0 1111100 11100010100000100100000

将一个内存存储的float二进制格式转化为十进制的步骤：

将第22位到第0位的二进制数写出来，在最左边补一位“1”，得到二十四位有效数字。将小数点点在最左边那个“1”的右边。
取出第29到第23位所表示的值n。当30位是“0”时将n各位求反。当30位是“1”时将n增1。
将小数点左移n位（当30位是“0”时）或右移n位（当30位是“1”时），得到一个二进制表示的实数。
将这个二进制实数化为十进制，并根据第31位是“0”还是“1”加上正号或负号即可。

4、浮点型的减法运算

0操作数的检查；
如果判断两个需要加减的浮点数有一个为0，即可得知运算结果而没有必要再进行有序的一些列操作。
比较阶码（指数位）大小并完成对阶；
两浮点数进行加减，首先要看两数的指数位是否相同，即小数点位置是否对齐。若两数指数位相同，表示小数点是对齐的，就可以进行尾数的加减运算。反之，若两数阶码不同，表示小数点位置没有对齐，此时必须使两数的阶码相同，这个过程叫做对阶。
如何对阶(假设两浮点数的指数位为 Ex 和 Ey )：通过尾数的移位以改变 Ex 或 Ey ，使之相等。由于浮点表示的数多是规格化的，尾数左移会引起最高有位的丢失，造成很大误差；而尾数右移虽引起最低有效位的丢失，但造成的误差较小，因此，对阶操作规定使尾数右移，尾数右移后使阶码作相应增加，其数值保持不变。很显然，一个增加后的阶码与另一个相等，所增加的阶码一定是小阶。因此在对阶时，总是使小阶向大阶看齐，即小阶的尾数向右移位 ( 相当于小数点左移 ) ，每右移一位，其阶码加 1 ，直到两数的阶码相等为止，右移的位数等于阶差 △ E 。
尾数（有效数位）进行加或减运算；
结果规格化并进行舍入处理。

四、解决方法

1、解决浮点数精确计算有误差的方法

在《Effective Java》这本书中也提到这个原则，float和double只能用来做科学计算或者是工程计算，在商业计算中我们要用java.math.BigDecimal。使用BigDecimal并且一定要用String来够造。

BigDecimal用哪个构造函数？

BigDecimal(double val) 
BigDecimal(String val)

上面的API简要描述相当的明确，而且通常情况下，上面的那一个使用起来要方便一些。我们可能想都不想就用上了，会有什么问题呢？等到出了问题的时候，才发现参数是double的构造方法的详细说明中有这么一段：

Note: the results of this constructor can be somewhat unpredictable. One might assume that new BigDecimal(.1) is exactly equal to .1, but it is actually equal to .1000000000000000055511151231257827021181583404541015625. This is so because .1 cannot be represented exactly as a double (or, for that matter, as a binary fraction of any finite length). Thus, the long value that is being passed in to the constructor is not exactly equal to .1, appearances nonwithstanding.
The (String) constructor, on the other hand, is perfectly predictable: new BigDecimal(“.1”) is exactly equal to .1, as one would expect. Therefore, it is generally recommended that the (String) constructor be used in preference to this one.
原来我们如果需要精确计算，非要用String来够造BigDecimal不可！

2、bigdecimal比等方法

如浮点类型一样， BigDecimal 也有一些令人奇怪的行为。尤其在使用 equals() 方法来检测数值之间是否相等时要小心。 equals() 方法认为，两个表示同一个数但换算值不同（例如， 100.00 和 100.000 ）的 BigDecimal 值是不相等的。然而， compareTo() 方法会认为这两个数是相等的，所以在从数值上比较两个 BigDecimal 值时，应该使用 compareTo() 而不是 equals() 。

3、简化bigdecimal计算的小工具类

如果我们要做一个加法运算，需要先将两个浮点数转为String，然后够造成BigDecimal，在其中一个上调用add方法，传入另一个作为参数，然后把运算的结果（BigDecimal）再转换为浮点数。你能够忍受这么烦琐的过程吗？网上提供的工具类Arith来简化操作。它提供以下静态方法，包括加减乘除和四舍五入：

public   static   double   add(double   v1,double   v2)   
public   static   double   sub(double   v1,double   v2)   
public   static   double   mul(double   v1,double   v2)   
public   static   double   div(double   v1,double   v2)   
public   static   double   div(double   v1,double   v2,int   scale)   
public   static   double   round(double   v,int   scale)

import java.math.BigDecimal;    
/**  
 * 进行BigDecimal对象的加减乘除，四舍五入等运算的工具类  
 * @author ameyume  
 *  
 */  
public class Arith {    
    /**   
    * 由于Java的简单类型不能够精确的对浮点数进行运算，这个工具类提供精   
    * 确的浮点数运算，包括加减乘除和四舍五入。   
    */    
    //默认除法运算精度    
    private static final int DEF_DIV_SCALE = 10;    
    //这个类不能实例化    
    private Arith(){    
    }    
    /**   
     * 提供精确的加法运算。   
     * @param v1 被加数   
     * @param v2 加数   
     * @return 两个参数的和   
     */    
    public static double add(double v1,double v2){    
        BigDecimal b1 = new BigDecimal(Double.toString(v1));    
        BigDecimal b2 = new BigDecimal(Double.toString(v2));    
        return b1.add(b2).doubleValue();    
    }    
    /**   
     * 提供精确的减法运算。   
     * @param v1 被减数   
     * @param v2 减数   
     * @return 两个参数的差   
     */    
    public static double sub(double v1,double v2){    
        BigDecimal b1 = new BigDecimal(Double.toString(v1));    
        BigDecimal b2 = new BigDecimal(Double.toString(v2));    
        return b1.subtract(b2).doubleValue();    
    }    
    /**   
     * 提供精确的乘法运算。   
     * @param v1 被乘数   
     * @param v2 乘数   
     * @return 两个参数的积   
     */    
    public static double mul(double v1,double v2){    
        BigDecimal b1 = new BigDecimal(Double.toString(v1));    
        BigDecimal b2 = new BigDecimal(Double.toString(v2));    
        return b1.multiply(b2).doubleValue();    
    }    
    /**   
     * 提供（相对）精确的除法运算，当发生除不尽的情况时，精确到   
     * 小数点以后10位，以后的数字四舍五入。   
     * @param v1 被除数   
     * @param v2 除数   
     * @return 两个参数的商   
     */    
    public static double div(double v1,double v2){    
        return div(v1,v2,DEF_DIV_SCALE);    
    }    
    /**   
     * 提供（相对）精确的除法运算。当发生除不尽的情况时，由scale参数指   
     * 定精度，以后的数字四舍五入。   
     * @param v1 被除数   
     * @param v2 除数   
     * @param scale 表示表示需要精确到小数点以后几位。   
     * @return 两个参数的商   
     */    
    public static double div(double v1,double v2,int scale){    
        if(scale<0){    
            throw new IllegalArgumentException(    
                "The scale must be a positive integer or zero");    
        }    
        BigDecimal b1 = new BigDecimal(Double.toString(v1));    
        BigDecimal b2 = new BigDecimal(Double.toString(v2));    
        return b1.divide(b2,scale,BigDecimal.ROUND_HALF_UP).doubleValue();    
    }    
    /**   
     * 提供精确的小数位四舍五入处理。   
     * @param v 需要四舍五入的数字   
     * @param scale 小数点后保留几位   
     * @return 四舍五入后的结果   
     */    
    public static double round(double v,int scale){    
        if(scale<0){    
            throw new IllegalArgumentException(    
                "The scale must be a positive integer or zero");    
        }    
        BigDecimal b = new BigDecimal(Double.toString(v));    
        BigDecimal one = new BigDecimal("1");    
        return b.divide(one,scale,BigDecimal.ROUND_HALF_UP).doubleValue();    
    }    
   /**   
    * 提供精确的类型转换(Float)   
    * @param v 需要被转换的数字   
    * @return 返回转换结果   
    */    
    public static float convertsToFloat(double v){    
        BigDecimal b = new BigDecimal(v);    
        return b.floatValue();    
    }    
    /**   
    * 提供精确的类型转换(Int)不进行四舍五入   
    * @param v 需要被转换的数字   
    * @return 返回转换结果   
    */    
    public static int convertsToInt(double v){    
        BigDecimal b = new BigDecimal(v);    
        return b.intValue();    
    }    
    /**   
    * 提供精确的类型转换(Long)   
    * @param v 需要被转换的数字   
    * @return 返回转换结果   
    */    
    public static long convertsToLong(double v){    
        BigDecimal b = new BigDecimal(v);    
        return b.longValue();    
    }    
    /**   
    * 返回两个数中大的一个值   
    * @param v1 需要被对比的第一个数   
    * @param v2 需要被对比的第二个数   
    * @return 返回两个数中大的一个值   
    */    
    public static double returnMax(double v1,double v2){    
        BigDecimal b1 = new BigDecimal(v1);    
        BigDecimal b2 = new BigDecimal(v2);    
        return b1.max(b2).doubleValue();    
    }    
    /**   
    * 返回两个数中小的一个值   
    * @param v1 需要被对比的第一个数   
    * @param v2 需要被对比的第二个数   
    * @return 返回两个数中小的一个值   
    */    
    public static double returnMin(double v1,double v2){    
        BigDecimal b1 = new BigDecimal(v1);    
        BigDecimal b2 = new BigDecimal(v2);    
        return b1.min(b2).doubleValue();    
    }    
    /**   
    * 精确对比两个数字   
    * @param v1 需要被对比的第一个数   
    * @param v2 需要被对比的第二个数   
    * @return 如果两个数一样则返回0，如果第一个数比第二个数大则返回1，反之返回-1   
    */    
        public static int compareTo(double v1,double v2){    
        BigDecimal b1 = new BigDecimal(v1);    
        BigDecimal b2 = new BigDecimal(v2);    
        return b1.compareTo(b2);    
    }   
}

4、bigdecimal构造函数使用不当带来异常

BigDecimal其中一个构造函数以双精度浮点数作为输入，另一个以整数和换算因子作为输入，还有一个以小数的 String 表示作为输入。要小心使用 BigDecimal(double) 构造函数，因为如果不了解它，会在计算过程中产生舍入误差。请使用基于整数或 String 的构造函数。

参考：
https://www.jianshu.com/p/c51041a791bd
https://blog.csdn.net/aya19880214/article/details/45891581