- 浏览: 1637929 次
- 性别:
- 来自: 北京
文章分类
- 全部博客 (405)
- C/C++ (16)
- Linux (60)
- Algorithm (41)
- ACM (8)
- Ruby (39)
- Ruby on Rails (6)
- FP (2)
- Java SE (39)
- Java EE (6)
- Spring (11)
- Hibernate (1)
- Struts (1)
- Ajax (5)
- php (2)
- Data/Web Mining (20)
- Search Engine (19)
- NLP (2)
- Machine Learning (23)
- R (0)
- Database (10)
- Data Structure (6)
- Design Pattern (16)
- Hadoop (2)
- Browser (0)
- Firefox plugin/XPCOM (8)
- Eclise development (5)
- Architecture (1)
- Server (1)
- Cache (6)
- Code Generation (3)
- Open Source Tool (5)
- Develope Tools (5)
- 读书笔记 (7)
- 备忘 (4)
- 情感 (4)
- Others (20)
- python (0)
最新评论
-
532870393:
请问下,这本书是基于Hadoop1还是Hadoop2?
Hadoop in Action简单笔记(一) -
dongbiying:
不懂呀。。
十大常用数据结构 -
bing_it:
...
使用Spring MVC HandlerExceptionResolver处理异常 -
一别梦心:
按照上面的执行,文件确实是更新了,但是还是找不到kernel, ...
virtualbox 4.08安装虚机Ubuntu11.04增强功能失败解决方法 -
dsjt:
楼主spring 什么版本,我的3.1 ,xml中配置 < ...
使用Spring MVC HandlerExceptionResolver处理异常
根据文件的后缀名识别文件类型并不准确,可以使用文件的头信息进行识别:
以下是各类文件的头:
JPEG (jpg),文件头:FFD8FFE1
PNG (png),文件头:89504E47
GIF (gif),文件头:47494638
TIFF (tif),文件头:49492A00
Windows Bitmap (bmp),文件头:424D
CAD (dwg),文件头:41433130
Adobe Photoshop (psd),文件头:38425053
Rich Text Format (rtf),文件头:7B5C727466
XML (xml),文件头:3C3F786D6C
HTML (html),文件头:68746D6C3E
Email [thorough only] (eml),文件头:44656C69766572792D646174653A
Outlook Express (dbx),文件头:CFAD12FEC5FD746F
Outlook (pst),文件头:2142444E
MS Word/Excel (xls.or.doc),文件头:D0CF11E0
MS Access (mdb),文件头:5374616E64617264204A
WordPerfect (wpd),文件头:FF575043
Postscript (eps.or.ps),文件头:252150532D41646F6265
Adobe Acrobat (pdf),文件头:255044462D312E
Quicken (qdf),文件头:AC9EBD8F
Windows Password (pwl),文件头:E3828596
ZIP Archive (zip),文件头:504B0304
RAR Archive (rar),文件头:52617221
Wave (wav),文件头:57415645
AVI (avi),文件头:41564920
Real Audio (ram),文件头:2E7261FD
Real Media (rm),文件头:2E524D46
MPEG (mpg),文件头:000001BA
MPEG (mpg),文件头:000001B3
Quicktime (mov),文件头:6D6F6F76
Windows Media (asf),文件头:3026B2758E66CF11
MIDI (mid),文件头:4D546864
检测文件类型的代码如下:
参考:http://blog.sina.com.cn/s/blog_4c98b9600100jamb.html
以下是各类文件的头:
JPEG (jpg),文件头:FFD8FFE1
PNG (png),文件头:89504E47
GIF (gif),文件头:47494638
TIFF (tif),文件头:49492A00
Windows Bitmap (bmp),文件头:424D
CAD (dwg),文件头:41433130
Adobe Photoshop (psd),文件头:38425053
Rich Text Format (rtf),文件头:7B5C727466
XML (xml),文件头:3C3F786D6C
HTML (html),文件头:68746D6C3E
Email [thorough only] (eml),文件头:44656C69766572792D646174653A
Outlook Express (dbx),文件头:CFAD12FEC5FD746F
Outlook (pst),文件头:2142444E
MS Word/Excel (xls.or.doc),文件头:D0CF11E0
MS Access (mdb),文件头:5374616E64617264204A
WordPerfect (wpd),文件头:FF575043
Postscript (eps.or.ps),文件头:252150532D41646F6265
Adobe Acrobat (pdf),文件头:255044462D312E
Quicken (qdf),文件头:AC9EBD8F
Windows Password (pwl),文件头:E3828596
ZIP Archive (zip),文件头:504B0304
RAR Archive (rar),文件头:52617221
Wave (wav),文件头:57415645
AVI (avi),文件头:41564920
Real Audio (ram),文件头:2E7261FD
Real Media (rm),文件头:2E524D46
MPEG (mpg),文件头:000001BA
MPEG (mpg),文件头:000001B3
Quicktime (mov),文件头:6D6F6F76
Windows Media (asf),文件头:3026B2758E66CF11
MIDI (mid),文件头:4D546864
检测文件类型的代码如下:
import java.io.File; import java.io.FileInputStream; import java.io.IOException; import java.util.HashMap; import java.util.Map; public class FileTypeDetector { private static Map<String,String> head2FileType = new HashMap<String,String>(); static{ head2FileType.put("FFD8FFE1", "jpg"); head2FileType.put("89504E47", "png"); head2FileType.put("47494638 ", "gif"); head2FileType.put("49492A00", "tif"); head2FileType.put("424D", "bmp"); head2FileType.put("41433130", "dwg"); head2FileType.put("38425053 ", "psd"); head2FileType.put("7B5C727466", "rtf"); head2FileType.put("3C3F786D6C", "xml"); head2FileType.put("68746D6C3E ", "html"); head2FileType.put("44656C69766572792D646174", "eml"); head2FileType.put("CFAD12FEC5FD746F ", "dbx"); head2FileType.put("2142444E", "pst"); head2FileType.put("D0CF11E0", "xls/doc"); head2FileType.put("5374616E64617264204A", "mdb"); head2FileType.put("FF575043", "wpd"); head2FileType.put("252150532D41646F6265", "eps/ps"); head2FileType.put("255044462D312E", "pdf"); head2FileType.put("E3828596", "pwl"); head2FileType.put("504B0304", "zip"); head2FileType.put("52617221", "rar"); head2FileType.put("57415645", "wav"); head2FileType.put("41564920", "avi"); head2FileType.put("2E7261FD", "ram"); head2FileType.put("2E524D46", "rm"); head2FileType.put("000001BA", "mpg"); head2FileType.put("000001B3", "mpg"); head2FileType.put("6D6F6F76", "mov"); head2FileType.put("3026B2758E66CF11", "asf"); head2FileType.put("4D546864", "mid"); } private static String bytesToHexString(String fileName) throws IOException{ FileInputStream fis = null; StringBuilder stringBuilder = new StringBuilder(); try{ fis = new FileInputStream(new File(fileName)); byte[] b = new byte[4]; fis.read(b, 0, b.length); for (int i = 0; i < b.length; i++) { int v = b[i] & 0xFF; String hv = Integer.toHexString(v); if (hv.length() < 2) { stringBuilder.append(0); } stringBuilder.append(hv); } }finally{ if(fis != null) fis.close(); } return stringBuilder.toString().toUpperCase(); } public static String fileType(String fileName) throws IOException{ String head = bytesToHexString(fileName); return head2FileType.get(head); } public static void main(String[] args) throws IOException { System.out.println(fileType("d://aaa.png")); } }
参考:http://blog.sina.com.cn/s/blog_4c98b9600100jamb.html
发表评论
-
Lucene 索引格式
2013-06-25 20:11 0索引结构: 索引层次 ... -
计算广告学
2012-08-12 13:53 0计算广告学一: 1、核 ... -
《Lucene in Action》简单笔记
2011-12-22 09:19 0第一章 Meet Lucene -
Information Retrieval Resources
2011-04-07 16:40 1371Information Retrieval Resource ... -
使用Jsoup抽取数据
2011-03-20 19:22 4918Jsoup是一个Java的HTML解析器,提供了非常方便的抽取 ... -
(zz)信息检索领域资料整理
2010-06-05 13:05 3137A Guide to Information Retrieva ... -
Introduce to Inforamtion Retrieval读书笔记(2)
2009-10-31 13:02 1894The term vocabulary and posting ... -
Introduce to Inforamtion Retrieval读书笔记(1)
2009-10-25 23:49 2013很好的一本书,介绍的非常全面,看了很久了,还没有看完,刚看完前 ... -
Query Log Mining notes
2009-10-02 18:08 1247Enhancing Efficiency of Search ... -
百度搜索的一些高级语法
2009-08-27 20:06 18961.title语法 就是在title ... -
Hadoop好书推荐:Hadoop The Definitive Guide
2009-08-16 22:49 3617第一本详细介绍Hadoop的书籍,从网上下来看了几章,作者是H ... -
Java开源搜索引擎[收藏]
2008-04-24 00:09 2881Egothor Egothor是一个用Java编写的开 ... -
分享一本斯坦福的信息检索的教材
2008-01-04 23:59 2434斯坦福的信息检索的教材,还没出版,先分享一下电子版原稿. 对于 ... -
分享一本搜索引擎的电子书
2007-12-29 19:42 2498还没有来得及看,但搜索引擎的书不是很好找,先放上,希望对大家能 ... -
分享一个Nutch入门学习的资料
2007-12-18 20:49 4244分享一个Nutch入门学习的资料,感觉写的还不错. -
搜索引擎Nutch源代码研究之一 网页抓取(4)
2007-12-17 22:37 8357今天来看看Nutch如何Parse网页的: Nutch使用了两 ... -
[转]MAP/REDUCE:Google和Nutch实现异同及其他
2007-12-15 19:21 2954设计要素 nutch包含以下几个部分: 辅助类 Log:记载运 ... -
Nutch源代码学习小小总结一下
2007-12-15 19:13 4426我现在看得源码主要是网页抓取部分,这部分相对比较容易。我首先定 ... -
搜索引擎Nutch源代码研究之一 网页抓取(3)
2007-12-15 16:39 4547今天我们看看Nutch网页抓取,所用的几种数据结构: 主要涉及 ... -
搜索引擎Nutch源代码研究之一 网页抓取(2)
2007-12-15 00:36 5529今天我们来看看Nutch的源代码中的protocol-h ...
相关推荐
FFV是一款专业的文件格式识别软件,使用该软件用户只需将文件拖入窗口中即可快速精准的检测文件格式,支持批量检测功能,有时候,电脑中一个文件的扩展名(或后缀名)被改...本软件就是通过上述原理判断常见文件类型!
文件类型查看器是一款专门识别文件类型的软件,软件收集了一千多种常见的文件扩展名,并且在不断的扩充新的文件类型。只要把文件拖到本软件窗口中,就能报告真实的文件类型。 文件类型查看器截图
识别文件编码类型,使用juniversalchardet,内含juniversalchardet-1.0.3.jar 常见编码识别 UTF-8,GBK,UTF-16,GB2312 等等 还有不常见的EUC-TW Cyrillic MACCYRILLIC等 一共支持已测试的36种编码
IIS发布配置文件访问常见MIME扩展类型添加汇总,包括MP4,silk等,做文件上传的功能时,有个增加可支持的上传文件类型的需求,然后需要查文件后缀所对应的Mime Type用于识别。
WSUnpacker是一个“通用”脱壳机,其功能如下: 1、一键全自动脱壳。... 5、文件类型识别。能够识别常见的各种文件类型,不通过扩展名,内含一个特征库,通过特征码识别出各种文件类型。如pdf、rar等。
WSUnpacker是一个“通用”脱壳机,其功能如下: 1、一键全自动脱壳。... 5、文件类型识别。能够识别常见的各种文件类型,不通过扩展名,内含一个特征库,通过特征码识别出各种文件类型。如pdf、rar等。
SUnpacker是一个“通用”脱壳机,其功能如下: 1、一键全自动脱壳。... 5、文件类型识别。能够识别常见的各种文件类型,不通过扩展名,内含一个特征库,通过特征码识别出各种文件类型。如pdf、rar等。
opencv可以读取的图片类型比较多,但大多是比较常见的类型,比如”.jpg”和”.png”,但它不能直接读取YUV格式的文件,需要通过python读取YUV文件,并进行相应的转换后,才能被opencv读取,并进行后续相应的处理. ...
new-file-by-type注意: 1.0版本对本项目进行重写,...支持单击Esc返回上一步,双击Esc取消项目支持国际化,支持中英两种语言高度可定制的配置利用自定义路径选择器,实现文件或目录的拷贝、复制和重命名等常见文件系统
安全标识符类型识别为正则表达式提供了识别所有最常见的标识符类型(即CUSIP,SEDOL和ISIN)的功能。 在某些情况下,数据中未提供有关安全性id类型的信息,因此需要通过其自身构造从id本身获取信息。 此代码使用...
Linux 中的一些特殊文件还是要求写 "扩展名" 的,但 Linux 不依赖扩展名来识别文件类型,写这些扩展名是为了帮助运维人员来区分不同的文件类型。 这样的文件扩展名主要有以下几种: 压缩包:Linux 下常见的压缩...
常见编码解码助手是一款强大的编码解码器,编程中常见的编码类型都可以用这款工具,支持的编码类型包括ASCII转义、UTF-8转义,并支持URL转义、HTML转义等功能,同样也可以进行加码,可满足用户的多种编码和解码需求...
6.新增推测无扩展名文件类型的功能; 7.新增Xls文档批量处理的第9项——删除对象功能; 8.修正Pdf文档处理功能的问题; 9.修正媒体处理功能模块中文件名存在空格时异常的问题; 10.增强Office文档自动批处理过程...
spyglass 基础操作与常见错误lint.doc
其他常见的文件系统 创建文件系统 使用文件系统 mount参数 /etc/fstab 当前挂载系统 卷标 卸载文件系统 文件系统维护 自动挂载 第三单元 开机与启动 启动流程图 开机流程 BIOS 初始化 启动引导工具 LILO GRUB 核心...
还可以删除所需的任何标签(例如,常见,不常见,嵌入的图片)并创建包含或排除列表,从文件名称或路径中获取标签,以及根据文件的标签对文件进行重命名和排序等。 。 MetatOGGer 提供多语言支持,可让您自定义快速...
6.没有这样的文件或目录 7.没有定义的有效CPU 8.下图?处参数无法识别,或者默认打桩函数未打开 9.数组默认只输入第一位[0] 10.测试用例TDE中形参是指针的变量,无法赋值 11.当测试用例TDE中无法正常显示解析函数的...
- 本程序仅处理.docx类型的文件; - 本程序暂不支持处理含有表格内容的文件; - 含有图片的文档图片导出后可能会被压缩; - 本程序无法处理图片格式,如果图片独立成段,本程序所用API识别到图片会被默认是空段落。...
PyTextScan通过http、socket等形式获取文本并对内容进行关键敏感信息进行识别,以多种格式(JSON、XML、HTML等)返回扫描结果,采用配置文件的方式来定制扫描类型。 姓名 常见的中文姓名。 身份证号码 身份证号 中国...
3、在WimTool中,对Wim文件进行操作处理时,界面元素给用户提供了相当的显示信息,对Wim文件最常见的处理出现失败时,WimTool会提供失败的说明。 4、WimTool界面采用分页式设计,每页都提供了必要的操作说明、选项...