`
kofsky
  • 浏览: 198107 次
  • 性别: Icon_minigender_1
  • 来自: 重庆
社区版块
存档分类
最新评论

电话面试

阅读更多

关于自然语言处理的

好像很多都是模式识别相关的问题

1、简历上提到你熟悉相当多模式识别相关的算法,谈谈相关经历?

    上过很多相关的课:数字图像处理(两次),机器学习,模式识别,神经网络等

    大四毕业设计开始一直在做与之相关的工作,已经有两年了。刚开始的一段时间由于效果不佳,因此尝试了许多方法,在这个过程中熟悉了很多算法,比如说K均值,Isodata,AdaBoost等。其中一部分是自己实现的,一部分是由合作伙伴实现的,还有一部分是由工具箱提供的。

 2、谈谈SVM的思想?

      将样本由低维空间转化到高维特征空间,在高维空间构造超平面进行分类。样本在低维空间线性不可分,但转化到高维空间后则线性可分了。(好像还说了些,忘了)

3、再谈谈PCA?

     PCA就是KL变换。将原有信息变换到新的n维空间。变换以后,各个分量在新的空间相互垂直,互不相关,每个分量代表了不等量的原始信息。因此,可以选取一部分信息量大的分量来代替原有信息,也就是说可以用来做特征选择。但由于PCA也存在缺陷,就是没有考虑分类信息。

4、JAVA项目经验?

    谈了点。

5、实习经验?

    大三在外面搞过两个月,大四搞过半年多。

6、你曾经做过一个手写体识别的系统,....?

    这个谈得比较多。仔细的谈了下样本的获取,样本的大小,样本容量等;特征提取也问的很仔细。怎么提取特征的,特征维数多大,等等。

7、文本分类问题。

     现在有一系列的文章,里面可能涉及两个类型。第一类是作者心情比较愉快的,还一类是心情比较低落的,你如何将文章划分到这两类里面呢?

     我说,建立两个关键词列表。一个与心情愉快相关,比如高兴,快乐,Happy等;一个与心情低落相关,比如郁闷,烦恼等。为了体现不同的程度,可以考虑为每个关键词设置一个权重。对每篇文章,计算其与两个类别的相似度。通过相似度来度量其属于哪一类。这段描述的很混乱,感觉。

     追问,这样做的话就需要人工干预,需要人工设定这些关键词?回答:是啊。需要预先设定。现在已经存在有同义词词林,可以利用里面的同义词信息,因此可以减少些工作量。

     问:图像处理的特征不需要人工指定,那这个人工指定..? 答:可能会存在一些不需要人工干预的特征提取手段。但我现在不知道,因为没有看过相关论文。

Over.

HP Labs.

分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics