split 与tokenizer的区别 - benben - ITeye博客

`

benben

浏览: 1394859 次
性别:
来自: 北京

最近访客更多访客>>

javabang

goril

zhima

dapk

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

呵呵6666：精通JFinal实战：http://www.roncoo.co ...
java框架利器jfinal框架，你应该知道的！！！
游其是你：拜托，打广告也专业点行不行
nutz在线教程，不妨看一下，对你应该会有所帮助！！！
59biye： 11miao 写道看了一下，要是有个例子就更好了
nutz在线教程，不妨看一下，对你应该会有所帮助！！！
11miao：看了一下，要是有个例子就更好了
nutz在线教程，不妨看一下，对你应该会有所帮助！！！
骨之灵魂： 11miao 写道有点深奥，有点看不太懂，呵呵！！！
java规则引擎你应该知道的几点东西，不妨来看看呦！

split 与tokenizer的区别

split tokenizer

阅读更多

至于理论方面的就不多说了，大家可以查看api，现在主要举几个例子，说明两者的区别：

例子一：

String sample1="ben ben" ; //其中连个ben之间间隔8个空格

String[] split1 = sample1.split(" "); //通过一个空格隔离

final List<String> oLines = new ArrayList<String>();
final StringTokenizer tokens = new StringTokenizer(sample1, " ");

结果：split1.length 为9 oLines.size 为2

解释：如果用split进行分离的话，他会将空格也作为一个字符串存入数组，而tokenizer不会

例子二：

String t1 = "ben, ,,   ,,,ben";
  String[] split2 = t1.split(",");
  final ListoLines = new ArrayList();
   final StringTokenizer tokens = new StringTokenizer(t1, ",");

结果：split2.length 为7 oLines.size 为4

解释：tokenizer他会将连续相同的需要过滤的进行处理

总结：尤其是在进行空格过滤的时候，尽量的用tokenizer，如果用split很可能会出现许多，并不想得到的数据比如说空格（我是碰到过）

分享到：

位图格式、编码与显象原理 | js 判断checkbox是否选中

2009-02-02 11:17
浏览 5820
评论(2)
查看更多

评论

2 楼 stepinto 2011-10-25

A token is a string of characters, categorized according to the rules as a symbol。空格没有意义，所以不会被看作为token的一部分。

1 楼 clue 2009-02-04

受教了
一直对这个tokenizer莫名其妙的，呵呵

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

tokenizer.model: tokenizer.model

C++、MFC源代码tokenizer: C++、MFC源代码tokenizer

C++ Tokenizer: 为c++实现Tokenizer，就像java里面的string tokenizer

前端开源库-jeefo_tokenizer: 前端开源库-jeefo_tokenizer吉福标记器，吉福标记器

PyPI 官网下载 | tokenizer_tools-0.11.0.tar.gz: 资源来自pypi官网。资源全名：tokenizer_tools-0.11.0.tar.gz

Python-Python中速度最快最完整可自定义的tokenizer: Python中速度最快，最完整/可自定义的tokenizer

string_tokenizer_unittest.rar_tokenizer: String Tokenizer Test Source Code for Linux.

css-selector-tokenizer, 解析和 stringifies CSS选择器.zip: css-selector-tokenizer, 解析和 stringifies CSS选择器 CSS模块：CSS选择器标记器解析和 stringifies CSS选择器。import Tokenizer from "css-selector-tokenizer";let input = "a#content.act

用于适配低版本transformers的tokenizer: 解决问题： TypeError: TextEncodeInput must be Union[TextInputSequence,Tupele[InputSequence, InputSequence]] 使用方法： pip install transformers_old...from transformers_old_tokenizer import AutoTokenizer

LLaMA Tokenizer: LLaMA原生Tokenizer，词表大小为32000。

bert情感分类中用tokenizer实现文本预处理: 在pytoch中，实现利用预训练BertTokenizer对影评数据集IMDB进行预处理，得到Bert模型所需输入样本特征。利用torch.utils.data将预处理结果打包为数据集，并利用pickle将数据集序列化保存至本地文件中。

PyPI 官网下载 | hanbert_tokenizer-0.1.7-py3-none-any.whl: 资源来自pypi官网。资源全名：hanbert_tokenizer-0.1.7-py3-none-any.whl

Python库 | tokenizer-1.0.3-py2.py3-none-any.whl: python库，解压后可用。资源全名：tokenizer-1.0.3-py2.py3-none-any.whl

node_tokenizer:在nodejs中实现的tf.keras令牌生成器: -save tf_node_tokenizer 或与纱线yarn add tf_node_tokenizer用法使用Tokenizer const { Tokenizer } = require ( "tf_node_tokenizer" ) ;const tokenizer = new Tokenizer ( { num_words : 5 , oov_token : "<...

tokenizer:印度尼西亚语的分词器: Sastrawi Tokenizer 可以与一起安装。打开终端（命令行）并导航到您的项目目录。以便composer.phar文件位于该目录中。将 Literary Sentence Detector 添加到您的composer.json文件中： php composer.p

Py3-Clang-Tokenizer: Py3-Clang-Tokenizer C / C ++标记程序的Python3端口可从。添加了一些额外的功能，例如从内存中的文件缓冲区进行解析，并删除了我的用例不需要的功能。安装（Mac OSX）确保安装了最新的XCode命令行工具xcode-...

tokenizer:使用Go语言编写的NLP令牌生成器: tokenizer是一个雄心勃勃的目标（与和一起）的一部分，为Gophers 带来更多AI/深度学习工具，以便他们能够坚持使用他们喜欢的语言并在生产中构建更快的软件。特征 tokenizer内置于子包中的模块中。归一化器预...

tokenizer：一个小型库，用于将标记化PHP源代码转换为XML（以及其他可能的格式）: 分词器 ... 安装您可以使用将该库作为本地的，基于项目的依赖项添加到您的项目中： ...$ tokenizer = new TheSeer \ Tokenizer \ Tokenizer (); $ tokens = $ tokenizer -> parse ( file_get_contents (__

tokenizer_image: tokenizer_image

nlp-tokenizer: 对于Linux： java -classpath args4j-2.0.6.jar:jmdn-base.jar:tokenizer.jar main.Main -filename ../data/sample.txt 对于Windows： java -classpath args4j-2.0.6.jar;jmdn-base.jar;tokenizer.jar main.Main -...

Global site tag (gtag.js) - Google Analytics