`
奔跑的羚羊
  • 浏览: 570155 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

【译】mahout in action 1.4 分类Classification

阅读更多
分类技术决定一个东西是不是某个类型或种类的一部分,或者有没有某些属性。分类同样是普遍存在的,虽然这是更多的幕后工作。这种系统问题通常是通过对目录中的项目,很多例子的回顾来了解,从而推断出分类的规则。这里大致可以发现很多应用程序:

雅虎邮件,决定收到的消息是否是垃圾邮件,这基于用户之前的电子邮件和垃圾邮件报告,和电子邮件本身的特性一样。一些被分类为垃圾邮件的信息将会在图1.4中显示。

Picasa(http://picasa.google.com/)和其他一些相片管理应用程序,可以从一个图像中识别出一个人的脸部。

光学字符辨识软件,通过把小范围的已扫描的文本分割成若干个小单元格的个体,来分成单字。

Apple在报道的iTunes中的天才特性,就是用分类技术为用户把歌曲分成潜在的播放列表。


图1.3 雅虎邮件发现的垃圾邮件信息
基于用户的垃圾邮件报告,加上其他的分析,系统已经获得了通常用来辨认垃圾邮件的某些属性。例如,在“viagra”提到的信息经常是垃圾邮件,通常的拼错的如“v1agra”中也是这样。这样例子的存在是一个例子的一个属性,这个属性是从一个垃圾邮件分类器可以获得的。
  • 大小: 9.3 KB
分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics