社区

京东店铺
淘宝店铺
当当店铺
拼多多店铺

APP下载

扫描下载官方APP

VIP会员

Java图书答疑

+关注

已有101人关注

+发表新帖

所属版块： Java答疑区

282340493@qq.com

学分:0

+关注

私信

立即签到

版块推荐

用JAVA过滤保存为TXT文档的HTML文件的问题

发表在Java图书答疑 2013-11-17

是否精华是否

版块置顶: 是否

package com.test;

import java.io.BufferedReader;
import java.io.File;
import java.io.FileReader;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class FileTest {

public static void main(String[] args) throws Exception{

File file = new File("E:/heihei1/xiazai.txt");

StringBuilder sb = new StringBuilder();
String s ="";
BufferedReader br = new BufferedReader(new FileReader(file));

while( (s = br.readLine()) != null) {
sb.append(s + "\n");
}

br.close();
String str = sb.toString();

String regEx = "[\\u4e00-\\u9fa5]";
Pattern p = Pattern.compile(regEx);
Matcher m = p.matcher(str);
System.out.print("提取出来的中文有：");
while (m.find()) {
System.out.print(m.group(0)+" ");
}
}

}
其中的xiazai.txt文档为抓取的HTML文档，为什么过滤出的内容不显示，好像是txt文档内容太多了，当自己输入一些文字是还可以滤出来，请问是什么原因，该怎么修改