`

大文件重复行

阅读更多

假如有一个文件很大,比如1T,现在需要找出内容重复的行。如果用java代码来实现,用缓存肯定是不行的,一般的服务器没有这么多内存。那么如何去做呢?可以利用数据库来处理,方法如下。
创建一个表,有两列,一个是id主键,表示行号,一列是内容content。
-- Create table
create table T_HUGE_FILE
(
ID number,
CONTENT varchar2(1000)
)
;
-- Create/Recreate primary, unique and foreign key constraints
alter table T_HUGE_FILE
add constraint PK_T_HUGE_FILE primary key (ID);


逐行读取文件并保持到数据库中。
然后通过sql语句查询出重复的行及内容。
select id, content from t_huge_file where id not in
(select min(id) from t_huge_file group by content)

分享到:
评论

相关推荐

    删除文本文件中重复行(vb.net)

    删除文本文件中重复的行,用VB.net实现。只查询文本中单列数值中重复的行,删除然后输出无重复行。

    C#写的高效去除文件文件中重复行的小工具

    C#写的高效去除文件文件中重复行的小工具,测试了一下,处理一个80M的文档只需要5秒

    vb源码 删除文本文件重复行

    删除文本文件重复行,效率很高,40万行的数据,在我的电脑上只用了40秒 请注意:在输入文件中不能有空行,否则会出错 另外,里边用上了自编获取文件路径名和扩展名函数 发布前专门测试通过,有需要的朋友可以直接...

    文本文件|txt文件|重复行过滤

    好多都是要处理重复行的,在我网上搜了下,发现NotePad++有过滤重复行的查件,不过操作起来未免有些繁琐,还要安装什么的。 其实呢,就是想找个简单的过滤重复行的小工具,结果发现网上竟然没有让自己满意的,一...

    uniq命令 去除文件中的重复行

    我们应当注意的是,它和sort的区别,sort只要有重复行,它就去除,而uniq重复行必须要连续,也可以用它忽略文件中的重复行。 语法格式:uniq [参数] [文件] 常用参数: -c 打印每行在文本中重复出现的次数 -d ...

    文本文件,删除重复行

    删除100万行、100M的文本文件重复行,只需0.3秒。 pascal语言编写,压缩包内有两个版本,一个是Delphi7编译的版本,一个是Free pascal编译的版本,Delphi7版本稍快一点。

    文本文件去重复行工具

    文本文件去重复行的小工具,效率很高。很好用

    文本文件,删除重复行(exe文件)

    删除100万行、100M的文本文件重复行,只需0.3秒。 pascal语言编写,压缩包内有两个版本,一个是Delphi7编译的版本,一个是Free pascal编译的版本,Delphi7版本稍快一点。

    秋天一键删除文件重复行V1.01-如何删除文档内重复行

    如何删除文档内重复行 秋天一键删除文件重复行V1.01 QtRemoveDuplicateLineV1.01 简介:能够快速将文本文件内重复行进行删除

    消除文本文件重复行 vbs代码

    指定输入文件(要处理的文件),建立输出文件,双击运行,重复消除 注意不要把 不要把输出文件和输入文件搞错了, 可以为你处理一些文本带来方便

    文本文件去除重复记录

    在文件中发现和去除重复的文本记录,方便对于IP地址集一类的资料进行重整

    txt文本删除重复行v1.6中文绿色免费版

    txt文本删除重复行软件是一款可以删除重复文件的多功能的txt文档重复行删除工具,除了删除重复行,还有清空、删除空行等小功能,文字编辑工作者们可能会用得到这款重复行删除工具。需要此款工具的朋友们可以前来...

    python筛选出两个文件中重复行的方法

    主要为大家详细介绍了python筛选出两个文件中重复行的方法,具有一定的参考价值,感兴趣的小伙伴们可以参考一下

    perl删除重复行

    perl删除重复行,一行一行读取,如果$temp和$-不等则保留,只能处理连续重复,perl删除重复行,一行一行读取,如果$temp和$-不等则保留,只能处理连续重复,

Global site tag (gtag.js) - Google Analytics