`

unicode的html页面编码转换成中文

    博客分类:
  • Java
 
阅读更多
代码:
private static String convertToChinese(String dataStr) {
		System.out.println("--------data str---->" + dataStr); 
		if(dataStr == null || dataStr.length() == 0) {
			return dataStr;
		}
		int start = 0;
		int end = 0;
		final StringBuffer buffer = new StringBuffer();
		while (start > -1) {
			int system = 10;// 进制
			if (start == 0) {
				int t = dataStr.indexOf("&#");
				if (start != t)
					start = t;
				if(start > 0) {
					buffer.append(dataStr.substring(0, start));
				}
				if(start == -1) {
					return dataStr;
				}
			}
			end = dataStr.indexOf(";", start + 2);
			String charStr = "";
			if (end != -1) {
				charStr = dataStr.substring(start + 2, end);
				// 判断进制
				char s = charStr.charAt(0);
				if (s == 'x' || s == 'X') {
					system = 16;
					charStr = charStr.substring(1);
				}
				// 转换
				try {
					char letter = (char) Integer.parseInt(charStr, system);
					buffer.append(new Character(letter).toString());
				} catch (NumberFormatException e) {
					e.printStackTrace();
				}
			}
			
			// 处理当前unicode字符到下一个unicode字符之间的非unicode字符
			start = dataStr.indexOf("&#", end);
			if (start - end > 1) {
				buffer.append(dataStr.substring(end + 1, start));
			}
			// 处理最后面的非 unicode字符
			if (start == -1) {
				int length = dataStr.length();
				if (end + 1 != length) {
					buffer.append(dataStr.substring(end + 1, length));
				}
			}
		}
		return buffer.toString();
	}


Sample input:
引用

Ahimsa Vegetarian Restaurant健康煮营养餐厅


Sample output:
引用

Ahimsa Vegetarian Restaurant健康煮营养餐厅
分享到:
评论

相关推荐

    php网页utf8字符串与unicode互转

    utf8字符串与unicode的相互转换。 在utf8编码的网页上输入字符串后, 可产生unicode编码字符串, 然后再还原回原先的utf8字符串。html/PHP实现。

    JSP-常用编码转换工具

    在做J2EE时,经常需要将静态网页转换成jsp,但下载下来的htm或htm文件本身是UTF8和unicode,直接改成jsp会变成乱码,在MyEclipse中修改也不成,颇费劲。这个代码程序就是用来读取某种编码格式的html或txt文件并将它...

    记事本软件 还原 可以高亮显示各种语法 自定义语法高亮 支持ANSI,Unicode,UTF-8等编码互换

    2 支持ANSI,Unicode,UTF-8等编码互换 3 可以设置无限个书签(9种图标可换)轻松定位 4 空格,制表符彩色显示,并可互相转换 5 可以对任意的文本块进行操作,ALT键+鼠标 6 对括号{}〔〕()可以高亮配对...

    网页转换TXT格式

    提供以下功能:HTML->TXT转换、文件合并、TXT文件段落合并、TXT文件分行、编码(GB/GBK/Big5/Shift-JIS/Unicode)转换(只能用于Win 2k/XP)、文本替换、HTML代码整理、文件切分、文本提取、正则表达式、TCR批量压缩...

    Unicode Tool

    Unicode Tool 1.0 beta 是利用JAVA编写的第一个代码转换程序,解决了乱码问题,无论你用任何编码进行编写的纯文本的文件只要通过它来转换后,传输给对方后无论他使用什么编码都能看清你写的内容,特别适合发送邮件和...

    文本、十六进制、HTML和程序编辑器

    内含完整的UNICODE支持,通过另存文件可以转换文件的字符编码。它为网页作者提供了方便的HTML编辑功能,设置了单独的HTML工具栏,大部分HTML编辑操作可以通过操作这个工具栏完成,可以直接预览设计的网页。软件特别...

    ASP+FSO生成的网页文件默认编码格式以及转换成UTF-8编码方法

    和该主题相关的类似或不同表达 FSO写UTF-8编码文件 FSO怎么才能生成utf-8编码的文件 FSO生成的文件默认是什么编码格式 如何转换成UTF-8编码 FSO生成静态网页的问题 ASP中用FSO生成文件代码如下 代码如下: function ...

    jchardet-1.1jchardet-1.1jchardet-1.1

    jchardet-1.1 字符编码识别jchardet-1.1 字符编码...例如,一个HTML页面中的数据,如果没有元数据标签明确地指定页面的字符集,就很难确实其编码,将其转换为 Java Unicode字符串时也会误用而终止。符集探测算法代码的

    苹果站长查询工具 v2.0.zip

    )3、Unicode编码转换工具(Unicode编码转换。)4、友情链接(通过本工具可以批量查询指定网站的友情链接在百度的收录、百度快照、PR以及对方是否链接本站,可以识破骗链接。)5 、META信息检测(通过本工具可以快速...

    jchardet jchardet

    jchardet-1.1 字符编码识别jchardet-1.1 字符编码...例如,一个HTML页面中的数据,如果没有元数据标签明确地指定页面的字符集,就很难确实其编码,将其转换为 Java Unicode字符串时也会误用而终止。符集探测算法代码的

    超级批量文本替换(UltraReplace)

    文本替换的利器,批量文本替换的不二之选,站长必备,挂马网页杀手,支持所有纯ANSI文件,支持GBK/Unicode/UTF8编码的htm、html、asp、java、php等文件,可自定义所支持的文件类型,支持16进制替换,支持单行和多行...

    WEB前端助手(FeHelper)_v2019.09.0320.crx

    JSON自动美化(页面自动检测并格式化) JSON手动美化(粘贴文本、手动格式化)...网页编码设置(UTF-8、GBK、日文、韩文等) 我的便签笔记(便签笔记,支持导出) 人像背景移除(将人物照片中的背景移除:抠图工具)

    FeHelper超好用谷歌插件

    网页编码设置(UTF-8、GBK、日文、韩文等) 我的便签笔记(便签笔记,支持导出) 人像背景移除(将人物照片中的背景移除:抠图工具) 根据提示,打开 chrome://extensions 拖拽crx文件到该页面,完成安装

    AptEdit Pro 5.1.0破解版

    内含完整的UNICODE支持,通过另存文件可以转换文件的字符编码。它为网页作者提供了方便的HTML编辑功能,设置了单独的HTML工具栏,大部分HTML编辑操作可以通过操作这个工具栏完成,可以直接预览设计的网页。软件特别...

    MadEdit编辑器

    包括Unicode(UTF-8、UTF-16/32)、Big5、GBK以及S-JIS 支持Unicode CJK 扩展B区(Ext-B) 可进行中文繁、简体的转换 若用户输入的字符不为当前编码支持,该字符会被转换成诸如U+XXXX的Unicode格式可用正则表达式进行...

    前端助手FeHelper插件

    如果有特殊的情况,FeHelper插件甚至还可以帮助用户把普通的字符直接编码成时下最流行的二维码图片与移动设备交互。好吧,FeHelper的功能有: 字符串编解码(Unicode/UTF8/Base64/MD5) 代码美化工具...

    helper.rar

    包括Unicode编码和解码、UTF-8字符串编码和解码、Base64字符串编解码、字符串MD5编码,前端非常实用的工具 图片Base64编码 对图片文件进行base64编码,直接拷贝datauri格式的数据 二维码生成器 能对网址、普通文本...

    ASP生成静态文件编码为UTF-8格式的HTML文件

    一般我们在ASP环境下,运行动生静操作时都用到的是FSO,他是专门对文件进行操作的一个组件,他FSO的编码属性只有三种,系统默认,Unicode,ASCII,并没有我们要的utf-8,所以一般中文系统上使用FSO组件生成的文件都是...

    WEB前端助手(FeHelper)_v6.2.crx

    包括Unicode编码和解码、UTF-8字符串编码和解码、Base64字符串编解码、字符串MD5编码,前端非常实用的工具 图片Base64编码 对图片文件进行base64编码,直接拷贝datauri格式的数据 二维码生成器 能对网址、普通文本...

Global site tag (gtag.js) - Google Analytics