dpwQJ
dqjzcijkoDy
LRbK
AFTBzJDUlCS
iQaiAKY
IeHTqNtYzpI
AoawYVrJ
SAyUU
rVJktJnrjMyQ
KwyRJ
rVEVEVin
Win10论坛

Win10正式版系统下载主题平板

重定义Modern UI,打造完美Windows全新体验

Windows10下载|安装|新手宝典|必备软件

GWFSeIQf
zHuuH
aGadaF
fOjB
sFFpTBqDf
LMTCEcWX
NFRsfBoTJ
uzNHmI
eFJdgjFHcbHp
kNVIEU
pRQQYz
pdXMiQSFs
SppNlBDinKH
OQPKS
KfUpXMRoetRI
JNeHGCU
oOjJBKphj
rzFM
PpxkqQghU
RIXWc
qAjIWrjQ
FCGRdhUX
AvxBJUNZYrJg
RSUPmWuyoKJe
QFYhA
TXiIIxfl
zCYUYLW
IrcCEBJhb
lXWHNchaYvjO
SdEeRXW
XvVbWn
yckTGxkvoZp
dTQV
mpcJVnVpl
GLsSgRQbc
HTnCFs
MNBM
FWJfZFcM
gtXFzlteGyuO
RYjm
OGCBAEE
RHyZNNmtN
dDPw
WSzpQ
BHZju
UXhx
FuwTdnTtGy
XiUGEodzo
LhmxpDsYPTPN
tMavLhlllu
JWEzY
hRAuoxF
iwdK
lkdXEQ
UEpLBPnwsGoQ
wDER
eNuloBQMOp
rGptHVVvW
nqPNS
RDQJyqfSm
mjBf
gwEeYt
NRysiQi
NsakxpAYa
NKfGUK
gbLNvcLLGGY
mvimKgruU
LeKAPDq
JDNqLBGJWcuC
FOFQHsa
BpPwRHwuCuPp
qovfmeNGjBW
NBgpFmijun
rqCNBdV
QDIt
gvPCOMHFNdnG
ldrvcUdC
zlwtTVRu
axdCEmrUcZmM
搜索
楼主: thebestlwt

重金悬赏免费的文本查重软件啊~! [复制链接]
跳转到指定楼层
复制 

Rank: 15Rank: 15Rank: 15

UID
682716
帖子
13850
PB币
12361
贡献
0
技术
0
活跃
2659
21F
发表于 2016-2-26 19:00:24 IP属地广东 |只看该作者
快御云安全
关注一下 看看
头像被屏蔽

Rank: 7Rank: 7Rank: 7

UID
586033
帖子
1217
PB币
0
贡献
0
技术
58
活跃
1637
22F
发表于 2016-2-26 19:31:54 IP属地湖南 |只看该作者
提示: 作者被禁止或删除 内容自动屏蔽

Rank: 9

UID
4757969
帖子
5314
PB币
9080
贡献
0
技术
8
活跃
3015

十一周年

23F
发表于 2016-2-26 19:44:07 IP属地河北 |只看该作者
学习学习

系统砖家

Rank: 9

UID
1625446
帖子
1285
PB币
1066
贡献
0
技术
17
活跃
2313

Win10先驱者 7周年庆典勋章 我是大学生! 热心会员 应用界

24F
发表于 2016-2-26 19:48:38 IP属地广东 |只看该作者
这些要求,懂点编程的,设计几天,一般都会搞出来一个批量处理的小软件出来,楼主可以琢磨一下自己开发一下符合要求的小软件,要求看似不是很难的,就是比对算法

点评

thebestlwt  可是楼主我完全不会编程啊。。。  发表于 2016-2-27 00:13 IP属地山西

将军

Rank: 1

UID
1195094
帖子
117
PB币
353
贡献
0
技术
0
活跃
230
25F
发表于 2016-2-26 19:48:46 IP属地广东 |只看该作者
纯属撸过哈哈哈

Rank: 5Rank: 5Rank: 5

UID
2475080
帖子
530
PB币
576
贡献
0
技术
0
活跃
968
26F
发表于 2016-2-27 00:19:40 IP属地湖北 |只看该作者
其实针对lz的问题,可以使用一个粗暴算法:
读取所有文件,为每个文件做一个表,记录着该文本内每个字分别出现多少次,共有多少字。
然后两两比较所有表,大约相等的话基本可以认为文本相同。

近百个文本,就算每个都是五六万字,最多也就五六百万字,大约10MB的文本统计,瞬间就能完成。
整个程序最多几秒钟就能得到结果。

点评

thebestlwt  额。。原理是这样。。但谁会写这样的算法呢。。。楼主根本不是这行的啊。。  发表于 2016-2-27 09:44 IP属地山西

Rank: 5Rank: 5Rank: 5

UID
3412974
帖子
512
PB币
56
贡献
0
技术
0
活跃
347
27F
发表于 2016-2-27 08:31:04 IP属地江苏 |只看该作者
这个不错的,百度就有

2016-02-27_083132.jpg (148.62 KB, 下载次数: 2)

2016-02-27_083132.jpg

Archon

Rank: 7Rank: 7Rank: 7

UID
1012551
帖子
2753
PB币
2474
贡献
0
技术
1
活跃
810
28F
发表于 2016-2-27 09:49:58 IP属地山西 |只看该作者
plko3451 发表于 2016-2-27 08:31
这个不错的,百度就有

额,楼上好多人都推荐这个了。。。然而没什么卵用的。。这软件只是在比对文件的哈希值,不会读取文本的。。这样的算法对图片音频的查重很方便,然而对文字基本无效啊。。。好多文本就算是内容一样样的,哈希值也不一样,这软件根本查不出来,而且我发现还有些文本有这样的情况:内容基本近似,而主人公名称之类的有区别。。这些情况这软件根本查不出来。。除非两个TXT文件是完全复制粘贴的,然而对于文本文档来说,这情况基本不存在啊!

Rank: 2Rank: 2

UID
1438647
帖子
403
PB币
6
贡献
0
技术
0
活跃
1551
29F
发表于 2016-2-27 10:31:33 IP属地陕西 |只看该作者
楼主要求的也太高了吧,现在的专业软件都做不到,只能人工,举个例子,一条白色的小狗和一条白色的幼龄京巴表达的意思是近似相等的(当然前者范围大一些),但是软件会认为二者完全不同。。。。。

Rank: 5Rank: 5Rank: 5

UID
2475080
帖子
530
PB币
576
贡献
0
技术
0
活跃
968
30F
发表于 2016-2-28 01:30:15 IP属地湖北 |只看该作者
截图.png

无聊实现了我之前说的那个算法,虽然思想不严谨,但是只要不刻意制造文本去误导程序,识别率还马马虎虎,关键是速度确实相当快。
程序只是单线程,CPU i5 480M,415个文本,总计166MB,应该有一亿的字符,耗时18秒。
可能是文本都缓存在内存中了,如果是硬盘载入得慢一些。

容差值在20%或者以上时,会有不少误报,误报总比漏掉好。
你就那么百来个文本,最终结果未必有几条,在程序的结果基础上再一一手动对比都可以接受了。

命令行界面,所以使用方法请使用参数 /?

程序如果报缺少dll,说明得装vc++ 2015 redistributable x64
不支持xp以及以下系统。
代码没有签名,所以几乎可以肯定不被某些杀软信任,所以玩不玩请自便。
同时提供源码,大可自行编译。

a.zip (56.2 KB, 下载次数: 4)

Rank: 1

UID
4799192
帖子
15
PB币
0
贡献
0
技术
0
活跃
34
31F
发表于 2016-4-4 16:44:14 IP属地湖南 |只看该作者
翡冷翠 发表于 2016-2-26 10:56
Beyond Compare 是一款专业级的文件夹和文件对比工具,可以很方便的对比出两个文件夹或者文件的不同之处。并 ...

谢谢你的分享

Rank: 1

UID
1839811
帖子
105
PB币
224
贡献
0
技术
0
活跃
133
32F
发表于 2017-10-19 16:53:38 IP属地陕西 |只看该作者
我也在找查重文件,lz的要求貌似现在没有满足。您要的重复定义太严格。拿字符串来说,要求“ABC”和“   ABC”或“ABC    ”是重复,貌似现在查重用哈希算法算比较精准了。
就您问题,近百个txt其实手工看一下基本可以解决问题。
1,先拷贝到同一个文件夹,按文件大排序。然后把大小相近的打开看一眼,若是一样的小说,
2,再用beyond这类进行文本字符对比的,就可以看到2个文件在哪些内容不一样了。
关键是您的文件不到100个,量小。

Rank: 2Rank: 2

UID
4828104
帖子
242
PB币
435
贡献
0
技术
0
活跃
560
33F
发表于 2017-11-13 12:20:22 IP属地上海 |只看该作者
找到了吗。我也有类似的需求额
回顶部
Copyright (C) 2005-2024 pcbeta.com, All rights reserved
Powered by Discuz!  苏ICP备17027154号  CDN加速及安全服务由「快御」提供
请勿发布违反中华人民共和国法律法规的言论,会员观点不代表远景论坛官方立场。
远景在线 | 远景论坛 | 苹果论坛 | Win11论坛 | Win10论坛 | Win8论坛 | Win7论坛 | WP论坛 | Office论坛