DMCTextFilter是由北京红樱枫软件有限公司研制和开发的纯文本抽出通用程序库产品。本产品可以从各种各样的文档格式的数据中或从插入的OLE对象中,完全除掉特殊控制信息,快速抽出纯文本数据信息。便于用户实现对多种文档数据资源信息进行统一管理,编辑,检索和浏览。
本产品采用了先进的多语言、多平台、多线程的设计理念,支持多国语言(英语,中文简体,中文繁体,日本语,韩国语),多种操作系统(Windows,Solaris,Linux,IBM AIX,Macintosh,HP-UNIX),多种文字集合代码(GBK,GB18030,Big5,ISO-8859-1,KS X 1001,Shift_JIS,WINDOWS31J,EUC-JP,ISO-10646-UCS-2,ISO-10646-UCS-4,UTF-16,UTF-8等)。提供了多种形式的API功能接口(文件格式识别函数,文本抽出函数,文件属性抽出函数,页抽出函数,设定User Password的PDF文件的文本抽出函数等),便于用户方便使用。用户可以十分便利的将本产品组装到自己的应用程序中,进行二次开发。通过调用本产品的提供的API功能接口,实现从多种文档格式的数据中快速抽出纯文本数据。本产品在国内外得到了广泛的应用,在产品性能和质量上都得到了用户高度的好评。
(1)原数据文件的语言
中国语(简体/繁体),英语,日本语及韩国语。
(2)文本抽出时可以指定以下的文字集合
★中文简体(GB2312、GB18030、GBK)
★中文繁体(Big5)
★日文(Jis、Shift_Jis、EUC_JP、EUC_JP_Fix、ISO2022_JP、Window31J)
★韩文(KoreanKSC)
★西文(ISO8859-1~15)
★Unicode(UTF8、UTF16、UCS4、UCS8)
(3)原数据文件格式的种类
·Microsoft Word95/97/98/2000/2003/XP/2007/2010/2013
·Microsoft Excel95/97/2000/2003/XP/2007/2010/2013
·Microsoft PowerPoint95/97/2000/2003/XP/2007/2010/2013
·Adobe PDF 1.2/1.3/1.4/1.5/1.6/1.7
·Adobe PageMaker 6.0/6.5
·Microsoft RTF
·Lotus 1-2-3 R5/97/98/2000
·Works 2000 WP/DB/SS
·一太郎 7/8/9/10/11/12/13
·OASYS V3/V4/V5/V6/V7/V8 OA2
·ClarisWorks 4.0
·AppleWorks 6
·WordPerfect Office 2000(仅限于WordPerfect 8/9 )
·Corel Presentations 9(Slide show 7/8/9)
·QuarkXPress 3.3/4
·AutoCAD GX-III/GX-5/R12/R13/R14 /2000/2002/2004/2005/2006 DXF形式
·AutoCAD GX-III/GX-5/R12/R13/R14 /2000/2002/2004/2005/2006 DWG形式
·AutoCAD 2007 DXF 形式
·AutoCAD 2007 DWG 形式
·AutoCAD 2010 DXF 形式
·AutoCAD 2010 DWG 形式
·DocuWorks Ver.4/5
·HTML
·XML
(4)文本抽出时可以指定以下的功能
★从指定的文件或嵌在文件中的OLE对象中抽出文本数据。
★从指定的文件中,将文件的属性信息进行抽出。
★从指定的文件中,抽出指定页中的文本数据。
★从设定了安全保护的PDF文件中抽出文本数据。
在实际的推广和应用中,红樱枫的通用文本抽出程序软件被应用到了多个领域,如:信息资源开发利用,智能搜索引擎,情报分析和服务,信息安全,企业知识门户,数字图书馆,电子商务等领域。在世界各地得到了众多知名企业的青睐。本产品在性能和质量上都得到了用户高度评价。我司将不懈努力,继续为用户提供品质优良,性能可靠的一流产品。为用户提供优良的技术服务,满足用户的各种需求。
目前主要突出体现出如下应用价值:
1) 为海量非结构化资源提供了智能加工工具,提高信息资源加工效率;同时,可为政务信息资源服务的使用者提供智能检索和挖掘分析的手段,放大政务信息资源增值效用。
2) 此软件在国家相关部门的搜索引擎以及多个行业垂直搜索引擎服务的建设中,获得了成功应用,可以为提高垂直搜索引擎服务的智能化、行业化和知识化水平奠定了基础。
3) 此软件为相关机构从事内容安全管理提供了智能化的技术,可以降低监管成本,提高监管效率。
4) 此软件可以作为信息资源利用和知识管理应用的基础构件,为企业信息资源的加工、分析和服务提供先进智能的文本转换技术。
相关推荐
lang和lang3这两个包里有转换所需的工具类 org.jsoup jsoup 1.11.3 commons-lang commons-lang 2.6 org.apache.commons commons-lang3 3.4 第二步:直接使用即可: import org.apache.commons.lang....
STL文件有文本(asc)和二进制(bin)两种格式。本程序提供了从文本到二进制格式的转换。
数据格式转换,文本文件转换为las数据格式
vb数据格式转换,c/c++数据格式转换,asm数据格式转换
可以根据不同设计院的横断面数据格式实行转换
万能数据格式转换软件zip,万能数据格式转换软件
徕卡GSI_XML_TXT坐标数据格式转换
超文本转换成纯文本(3KB)
批量文本格式转换工具,支持其它格式转化为UTF-8,Unicode等
GPS数据格式转换 只可以转换.txt文件
遥感数据 BIP BSQ BIL格式转换
python脚本通过使用obspy模块,将miniseed地震数据文件转化为文本文件,以便后续的地震数据分析和可视化。 操作系统:Linux
VB之网络精彩编程-超文本转换成纯文本(3KB)
将VOC格式的数据集转换为COCO格式,xml格式转换成json格式 effcientdet等网络中均可用到
读取文件中的二进制文件并将二进制转换成文本文档并输出
Micaps数据格式转换 节选自说明书,指导数据转换
支持oracle,sqlsever,access等数据库之间数据格式转换:即Oracle转SQL Server;SQL Server转Oracle;Oracle转Access;Access转Oracle;SQL Server转Access, Access转SQL Server等。可以实现数据库的移植,异构数据库...
用于libsvm数据格式的转换,可将mat格式的数据转成libsvm特定的数据格式,并以txt格式保存。非常好用。
计算机视觉——数据格式转换,将Visdrone2019中的DET(可用来做目标检测)和VID(用来做视频目标检测和跟踪),含有readme.md和对应的代码,其中需要修改的路径部分均已说明,仅需简单进行路径修改,操作方便简单,更加...
GIS 数据格式 转换器 一个小工具,可以很方便进行各种GIS格式之间的转换