首页 > 编程语言 > 详细

java IO流:转换流

时间:2021-01-08 09:27:25      阅读:24      评论:0      收藏:0      [点我收藏+]

转换流

字符编码和字符集

1. 字符编码

  • 计算机中储存的信息都是用二进制数表示的。按照某种规则,将字符存储到计算机中,称为编码 。反之,将存储在计算机中的二进制数按照某种规则解析显示出来,称为解码

编码:字符(能看懂的)--字节(看不懂的)

解码:字节(看不懂的)-->字符(能看懂的)

  • 字符编码(编码表)Character Encoding : 就是一套自然语言的字符与二进制数之间的对应规则。

2. 字符集

  • 字符集 Charset:也叫编码表。是一个系统支持的所有字符的集合,包括各国家文字、标点符号、图形符号、数字等。

  • 计算机要准确的存储和识别各种字符集符号,需要进行字符编码,一套字符集必然至少有一套字符编码。常见字符集有ASCII字符集、GBK字符集、Unicode字符集等。

  • 当指定了编码,它所对应的字符集自然就指定了,所以编码才是我们最终要关心的

技术分享图片


ASCII字符集

  • ASCII是基于拉丁字母的一套电脑编码系统,用于显示现代英语,主要包括控制字符(回车键、退格、换行键等)和可显示字符(英文大小写字符、阿拉伯数字和西文符号)。
  • 基本的ASCII字符集,使用7位(bits)表示一个字符,共128字符。ASCII的扩展字符集使用8位(bits)表示一个字符(表示负数),共256字符,方便支持欧洲常用字符。

ISO-8859-1字符集:

  • 拉丁码表,别名Latin-1,用于显示欧洲使用的语言,包括荷兰、丹麦、德语、意大利语、西班牙语等。
  • ISO-8859-1使用单字节编码兼容ASCII编码

GBxxx字符集:

  • GB就是国标的意思,是为了显示中文而设计的一套字符集。
  • GB2312简体中文码表。一个小于127的字符的意义与原来相同。但两个大于127的字符连在一起时,就表示一个汉字,这样大约可以组合了包含7000多个简体汉字,此外数学符号、罗马希腊的字母、日文的假名们都编进去了,连在ASCII里本来就有的数字、标点、字母都统统重新编了两个字节长的编码,这就是常说的"全角"字符,而原来在127号以下的那些就叫"半角"字符了。
  • GBK最常用的中文码表。是在GB2312标准基础上的扩展规范,使用了双字节编码方案,共收录了21003个汉字,完全兼容GB2312标准,同时支持繁体汉字以及日韩汉字等。
  • GB18030最新的中文码表。收录汉字70244个,采用多字节编码,每个字可以由1个、2个或4个字节组成。支持中国国内少数民族的文字,同时支持繁体汉字以及日韩汉字等。

Unicode字符集:

  • Unicode编码系统为表达任意语言的任意字符而设计,是业界的一种标准,也称为统一码、标准万国码
  • 最多使用4个字节的数字来表达每个字母、符号,或者文字。有三种编码方案,UTF-8、UTF-16和UTF-32。最为常用的UTF-8编码。
  • UTF-8编码,可以用来表示Unicode标准中任何字符,它是电子邮件、网页及其他存储或传送文字的应用中,优先采用的编码。互联网工程工作小组(IETF)要求所有互联网协议都必须支持UTF-8编码。所以,我们开发Web应用,也要使用UTF-8编码。它使用一至四个字节为每个字符编码,编码规则:
    1. 128个US-ASCII字符,只需一个字节编码。
    2. 拉丁文等字符,需要二个字节编码。
    3. 大部分常用字(含中文),使用三个字节编码。
    4. 其他极少使用的Unicode辅助字符,使用四字节编码。

编码引出的问题

  • 在IDEA中,使用FileReader 读取项目中的文本文件。由于IDEA的设置,都是默认的UTF-8编码,所以没有任何问题。但是,当读取Windows系统中创建的文本文件时,由于Windows系统的默认是GBK编码,就会出现乱码。



OutputStreamWriter 类

  • OutputStreamWriter extends Writer
  • OutputStreamWriter 是字符流通向字节流的桥梁:可使用指定的 charset 将要写入流中的字符编码成字节。它使用的字符集可以由名称指定或显式给定,否则将接受平台默认的字符集。
  • 继承自父类(Writer)的共性成员:
    • void close() 关闭此流,但要先刷新它。
    • abstract void flush() 刷新该流的缓冲。
    • void write(int c) :写入单个字符。
    • abstract void write(char[] cbuf, int off, int len) 写入字符数组的某一部分。
    • void write(String str) 写入字符串。
    • void write(String str, int off, int len) 写入字符串的某一部分。

构造方法

  • OutputStreamWriter(OutputStream in): 创建一个使用默认字符集的字符流。
  • OutputStreamWriter(OutputStream in, String charsetName): 创建一个指定字符集的字符流。
  • 参数:
    • OutputStream in: 字节输出流,用来写转换之后的字节到文件中
    • String charsetName:指定的编码表名称,不区分大小写(utf-8/UTF-8/gbk/GBK...),不指定默认使用utf-8
public class Demo {
    public static void main(String[] args) throws IOException {
        OutputStreamWriter osw=new OutputStreamWriter(new FileOutputStream("D:\\document\\code\\xuexi\\java\\aaa\\a.txt"),"utf-8");
        osw.write("你好abc");//9个字节
        osw.flush();
        osw.close();
    }
}

public class Demo02 {
    public static void main(String[] args) throws IOException {
        OutputStreamWriter osw=new OutputStreamWriter(new FileOutputStream("D:\\document\\code\\xuexi\\java\\aaa\\a.txt"),"gbk");
        osw.write("你好abc");//7个字节
        osw.flush();
        osw.close();
    }
}

InputStreamReader类

  • InputStreamReader extends Reader
  • InputStreamReader 是字节流通向字符流的桥梁:它使用指定的 charset 读取字节并将其解码为字符。它使用的字符集可以由名称指定或显式给定,或者可以接受平台默认的字符集。
  • 继承自父类(Reader)的共性成员:
    • int read()读取单个字符。
    • int read(char[] cbuf) 将字符读入数组。
    • void close()关闭该流并释放与之关联的所有资源。

构造方法

  • InputStreamReader(InputStream in): 创建一个使用默认字符集的字符流,默认utf-8。
  • InputStreamReader(InputStream in, String charsetName): 创建一个指定字符集的字符流。
  • 注意:构造方法中指定的编码表名称要和文件的编码相同,否则会发生乱码
//a.txt文件编码为gbk
public class Demo {
    public static void main(String[] args) throws IOException {
        InputStreamReader isr=new InputStreamReader(new FileInputStream("D:\\document\\code\\xuexi\\java\\aaa\\a.txt"),"gbk");
        int len=0;
        while ((len=isr.read())!=-1)
            System.out.print((char) len);//你好abc
        isr.close();
    }
}

public class Demo {
    public static void main(String[] args) throws IOException {
        InputStreamReader isr=new InputStreamReader(new FileInputStream("D:\\document\\code\\xuexi\\java\\aaa\\a.txt"));//默认编码为utf-8
        int len=0;
        while ((len=isr.read())!=-1)
            System.out.print((char) len);//???abc
        isr.close();
    }
}

java IO流:转换流

原文:https://www.cnblogs.com/wu-myblog/p/14249191.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!