文章

点击:1151

[回复留言] [回复(需要先登录)] [引用(需要先登录)]		跟帖
文章id: 421 请正确理解加权计算作者: 孤舟蓑笠翁加权计算查重法，是我们系统有别于其它系统的一个亮点。既然加权，并不是你理解的一个查重依据就只有你设置的那个权值，比如你说的“查重过程中我发现有的得分会有200多，而dup中责任者+题名+ISBN才150分”。事实上，MARC字段是可重复的，如果你有两个责任者字段一样，一个算50分，两个就有100分了，既然你的阈值设置为100，符合条件，程序当然就提示为重了。加权查重，也可以说是模糊查重，体现了一种受控的相似度计算。按你所说，同一个ISBN号不一定重，这是事实。但是，除了记录复制，严格意义上说是不容易找到相同的记录的——多个无关字段、多个空格字符、不同的著录细节都会产生“不一样”的记录的。所以，程序只能根据用户的好恶，由用户来确定记录相似度，这个相似度的定义，全靠用户根据业务要求与经验来调整了——起码，ISBN号相同的，一定有些嫌疑，而即使ISBN号不一样，同一个著者、同一个书名的书，相似度也是很大的。批查重功能仅是一种提高效率的参考功能，它不能完全替代人工的判断——如果怕错杀，你完全可以将批查重后生成的所谓“重”的数据导入到一个临时库中，再逐条浏览并逐条查重来对照数据嘛。何况，对于重的数据，在业务中也并不是视若无物——也可以对重的记录进行补订或追加订购吧？有点佩服你的认真与执着：图书馆系统作为一个复杂的、专业的系统，很少有人如你这样，纯因个人研究爱好而钻研这么仔细并寻求这么细的技术支持的。发表时间: 2009-02-28 01:35:46

查重导入数据发生“误杀”现象 Harry 2009-02-27 17:48:21[点击:62174]

请正确理解加权计算孤舟蓑笠翁 2009-02-28 01:35:46 (ID:421) [点击:1151]

当求甚解 Harry 2009-02-28 09:03:23 (ID:422) [点击:1139]

回复: 当求甚解 xietao 2009-02-28 17:47:10 (ID:424) [点击:1010]

回复: 查重导入数据发生“误杀”现象 xietao 2009-02-28 17:28:36 (ID:423) [点击:1273]

不能完全解决问题 Harry 2009-02-28 18:51:24 (ID:425) [点击:1415]

回复: 不能完全解决问题 xietao 2009-02-28 21:58:07 (ID:426) [点击:1129]

难以深入 Harry 2009-03-01 13:43:40 (ID:427) [点击:994]

回复: 难以深入 xietao 2009-03-01 21:25:34 (ID:428) [点击:1190]

要乐于听丑话孤舟蓑笠翁 2009-03-03 13:18:56 (ID:434) [点击:1215]

向老同志学习 Harry 2009-03-03 21:33:12 (ID:436) [点击:1477]

回复: 向老同志学习 xietao 2009-03-03 22:31:00 (ID:438) [点击:1466]

有新改进 xietao 2009-03-02 21:26:37 (ID:432) [点击:1063]

欢迎您来到数字平台。您尚未登录。	[登录] [注册新用户]
当前位置: 论坛首页 / 栏目产品与服务 / 文章 421