`

java取汉字拼音首字母含多音字及不常见的字

    博客分类:
  • JAVA
阅读更多
package com.anxin.ssk.common;

import java.io.UnsupportedEncodingException;
import java.util.HashMap;
import java.util.Map;
import java.util.Map.Entry;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

/**
 * 取得给定汉字串的首字母串,即声母串 Title: ChineseCharToEn(含常用汉字,不常见汉字及多音字)
 * 
 * @author: (le.qiao)
 * @e-mail: qiaolevip@gmail.com
 * @myblog: <a href="http://qiaolevip.iteye.com">http://qiaolevip.iteye.com</a>
 * @date: 2014-1-15 注:只支持GB2312字符集中的汉字
 * 
 */
public class LetterUtil {

	private final static int[] li_SecPosValue = { 1601, 1637, 1833, 2078, 2274, 2302, 2433, 2594, 2787, 3106, 3212, 3472, 3635, 3722, 3730, 3858, 4027, 4086,
			4390, 4558, 4684, 4925, 5249, 5590 };

	private final static String[] lc_FirstLetter = { "a", "b", "c", "d", "e", "f", "g", "h", "j", "k", "l", "m", "n", "o", "p", "q", "r", "s", "t", "w", "x",
			"y", "z" };

	private static Map<String, String> exceptWords = new HashMap<String, String>();
	static {
		exceptWords.put("a", "庵鳌");
		exceptWords.put("b", "璧亳並侼別匂");
		exceptWords.put("c", "茌丞丒丳刅");
		exceptWords.put("d", "渎砀棣儋丟");
		exceptWords.put("e", "");
		exceptWords.put("f", "邡冹兝");
		exceptWords.put("g", "崮藁莞丐丱乢亁仠冮匃匄");
		exceptWords.put("h", "骅珲潢湟丆冴匢");
		exceptWords.put("j", "泾蛟暨缙旌莒鄄丌丩丮丯丼亅伋冏匊匛匞");
		exceptWords.put("k", "丂匟");
		exceptWords.put("l", "崂涞栾溧漯浏耒醴泸阆崃両刢劽啰");
		exceptWords.put("m", "渑汨丏冐冺兞冇");
		exceptWords.put("n", "");
		exceptWords.put("o", "瓯");
		exceptWords.put("p", "邳濮郫丕伂冸");
		exceptWords.put("q", "喬綦衢岐朐邛丠丬亝冾兛匤");
		exceptWords.put("r", "榕刄");
		exceptWords.put("s", "泗睢沭嵊歙莘嵩鄯丄丗侺兙");
		exceptWords.put("t", "潼滕郯亣侹侻");
		exceptWords.put("w", "婺涠汶亾仼卍卐");
		exceptWords.put("x", "鑫盱浔荥淅浠亵丅伈兇");
		exceptWords.put("y", "懿眙黟颍兖郓偃鄢晏丣亜伇偐円匜");
		exceptWords.put("z", "梓涿诏柘秭圳伀冑刣");
	}

	private final static String polyphoneTxt = "重庆|cq,音乐|yy";

	/**
	 * 取得给定汉字串的首字母串,即声母串
	 * 
	 * @param str 给定汉字串
	 * @return 声母串
	 */
	public static String getAllFirstLetter(String str) {
		if (str == null || str.trim().length() == 0) {
			return "";
		}

		// 多音字判定
		for (String polyphone : polyphoneTxt.split(",")) {
			String[] chinese = polyphone.split("[|]");
			if (str.indexOf(chinese[0]) != -1) {
				str = str.replace(chinese[0], chinese[1]);
			}
		}

		String _str = "";
		for (int i = 0; i < str.length(); i++) {
			_str = _str + getFirstLetter(str.substring(i, i + 1));
		}

		return _str;
	}

	/**
	 * 取得给定汉字的首字母,即声母
	 * 
	 * @param chinese 给定的汉字
	 * @return 给定汉字的声母
	 */
	public static String getFirstLetter(String chinese) {
		if (chinese == null || chinese.trim().length() == 0) {
			return "";
		}
		String chineseTemp = chinese;
		chinese = conversionStr(chinese, "GB2312", "ISO8859-1");

		if (chinese.length() > 1) {
			// 判断是不是汉字
			int li_SectorCode = (int) chinese.charAt(0); // 汉字区码
			int li_PositionCode = (int) chinese.charAt(1); // 汉字位码
			li_SectorCode = li_SectorCode - 160;
			li_PositionCode = li_PositionCode - 160;
			int li_SecPosCode = li_SectorCode * 100 + li_PositionCode; // 汉字区位码
			if (li_SecPosCode > 1600 && li_SecPosCode < 5590) {
				for (int i = 0; i < 23; i++) {
					if (li_SecPosCode >= li_SecPosValue[i] && li_SecPosCode < li_SecPosValue[i + 1]) {
						chinese = lc_FirstLetter[i];
						break;
					}
				}
			} else {
				// 非汉字字符,如图形符号或ASCII码
				chinese = matchPinYin(chinese);
			}
		}

		// 如还是无法匹配,再次进行拼音匹配
		if (chinese.equals("?")) {
			chinese = matchPinYin(chineseTemp, false);
		}

		return chinese;
	}

	/**
	 * 汉字匹配拼音对照
	 * 
	 * @param chinese
	 * @return
	 */
	private static String matchPinYin(String chinese, boolean needConvert) {
		String chineseTemp = chinese;
		if (needConvert) {
			chinese = conversionStr(chinese, "ISO8859-1", "GB2312");
		}
		chinese = chinese.substring(0, 1);

		// findRepeatWord(exceptWords);

		for (Entry<String, String> letterSet : exceptWords.entrySet()) {
			if (letterSet.getValue().indexOf(chinese) != -1) {
				chinese = letterSet.getKey();
				break;
			}
		}
		chinese = chineseTemp.equals(chinese) ? "?" : chinese;
		return chinese;
	}

	private static String matchPinYin(String chinese) {
		return matchPinYin(chinese, true);
	}

	/**
	 * 字符串编码转换
	 * 
	 * @param str 要转换编码的字符串
	 * @param charsetName 原来的编码
	 * @param toCharsetName 转换后的编码
	 * @return 经过编码转换后的字符串
	 */
	private static String conversionStr(String str, String charsetName, String toCharsetName) {
		try {
			str = new String(str.getBytes(charsetName), toCharsetName);
		} catch (UnsupportedEncodingException ex) {
			System.out.println("字符串编码转换异常:" + ex.getMessage());
		}
		return str;
	}

	public static void main(String[] args) {
		String content = "丬";
		String pinyin = "";
		String contentAll = "";
		String pinyinAll = "";
		for (int i = 21000; i <= 22000; i++) {
			content = ((char) i) + "";
			pinyin = LetterUtil.getFirstLetter(content);
			if (pinyin.equals("?")) {
				contentAll += content;
				pinyinAll += pinyin;
			}
		}
		System.out.println("获取拼音首字母:" + contentAll + ":" + pinyinAll);
		// String address = "(金浜小区)栖山路1689弄";
		// address = address.substring(address.indexOf(")") + 1);
		// System.out.println("获取拼音首字母:" + LetterUtil.getFirstLetter(address));
	}

	@SuppressWarnings("unused")
	private static void findRepeatWord(Map<String, String> wordsMap) {
		String words = wordsMap.values().toString().replaceAll("[, ]", "");
		words = words.substring(1, words.length() - 1);
		for (char word : words.toCharArray()) {
			int count = findStr2(words, String.valueOf(word));
			if (count > 1) {
				System.out.println("汉字:【" + word + "】出现了" + count + "次!");
			}
		}
	}

	private static int findStr2(String srcText, String keyword) {
		int count = 0;
		Pattern p = Pattern.compile(keyword);
		Matcher m = p.matcher(srcText);
		while (m.find()) {
			count++;
		}
		return count;
	}
}

 

分享到:
评论

相关推荐

    汉字转拼音、首字母、多音字java

    将汉字转成拼音 汉字首字母获取 多音字转化

    java提取汉字拼音首字母

    java提取汉字拼音首字母的代码,简体中文的编码范围从B0A1(45217)一直到F7FE(63486),不支持多音字处理

    java汉字转拼音代码+多音字词汇表

    实现汉字转拼音,还可以得到汉字的首写字母,支持上万个汉字的转化(包括多音字),一个很好的java工具类,附带多音字词汇表。

    java获取汉字首字母+jar

    汉字转换位汉语拼音首字母,包括对多音字的识别,有jar

    java 写的把汉字转换成拼音首字母,提供最全的字库。增加了多音字的处理。

    java 写的把汉字转换成拼音首字母,提供最全的字库。增加了多音字的处理。

    Java汉字转换为拼音工具类

    Java汉字转换为拼音工具类 汉字转换为拼音包括全拼、首字母缩写;全拼可计算出多音字。

    汉字转拼音,关键字搜索心得

    关键字【汉字,拼音首字母,拼音全拼】搜索的功能,支持多音字搜索,一些心得分享,包含了汉字拼音转换的源代码以及架包,欢迎下载相互交流

    汉字转拼音类

    可将汉字、词组转为全拼、拼音首写或前部分首写加最后一个字全拼确认,支持多音字,字库中有2万多个汉字,对大部分生僻字有很好的支持

    lpinyin:Dart 汉字转拼音,Flutter, web, other

    ③支持多种拼音输出格式:带音标、不带音标、数字表示音标以及拼音首字母输出格式 ④支持常见多音字的识别,其中包括词组、成语、地名等 ⑤简繁体中文转换 ⑥支持添加用户自定义字典 Pub dependencies: lpinyin: ^...

    一个汉字转拼音的Java开源类库-JPinyin

    JPinyin支持多种拼音输出格式:带音标、不带音标、数字表示音标以及拼音首字母输出格式; 4、常见多音字识别; JPinyin支持常见多音字的识别,其中包括词组、成语、地名等; 5、简繁体中文转换; 6、支持添加...

    C++ 汉字转拼音源码

    之前同学用Java的类库汉字转换成拼音感觉挺方便的,于是自己就写了这个C++版的。源码只提供静态方法。目前暂不支持多音字。 封装了汉字转拼音音节和汉字转首字母方法。

    JPinYin:Java拼音

    单个汉字的拼音转换,支持多音字 可指定拼音之间的连接符 可补充编制自己的词库users_*,便于用于专业词汇场景。 可加载自定义词典文件 集成代码 只有一个java文件 JPinYin.java 字典目录为data目录 代码使用 //...

    jpinyin-1.1.8-javadoc.jar

    JPinyin是一个汉字转...JPinyin支持多种拼音输出格式:带音标、不带音标、数字表示音标以及拼音首字母输出格式; 4、常见多音字识别; JPinyin支持常见多音字的识别,其中包括词组、成语、地名等; 5、简繁体中文转换

    jpinyin-jdk1.6.jar

    JPinyin支持多种拼音输出格式:带音标、不带音标、数字表示音标以及拼音首字母输出格式; 4、常见多音字识别; JPinyin支持常见多音字的识别,其中包括词组、成语、地名等; 5、简繁体中文转换 在网上下载了jpinyin...

    Jpinyin 2017年2月版本 jar包

    JPinyin支持多种拼音输出格式:带音标、不带音标、数字表示音标以及拼音首字母输出格式; 4、常见多音字识别; JPinyin支持常见多音字的识别,其中包括词组、成语、地名等; 5、简繁体中文转换; 6、支持添加...

    ASP200问.EXE

    26.如何将每个单词的首个字母改成大写 27.如何将汉字转换为拼音 28.如何分位显示位数较长的数字 29.如何将数字转换为大写的中文字符 30.如何判断奇数和偶数 32.如何生成一个随机数 33.如何实现VBScript和JavaScript...

Global site tag (gtag.js) - Google Analytics