欢迎您来到 数字平台。 您尚未登录。[登录] [注册新用户]
当前位置: 论坛首页 / 栏目 产品与服务 / 文章 421

点击:1069

[顶层访客留言] [回复顶层(需要先登录)] [表状] [详细]
[回复留言] [回复(需要先登录)] [引用(需要先登录)]普通文章跟帖
文章id: 421
请正确理解加权计算



加权计算查重法,是我们系统有别于其它系统的一个亮点。

既然加权,并不是你理解的一个查重依据就只有你设置的那个权值,比如你说的“查重过程中我发现有的得分会有200多,而dup中责任者+题名+ISBN才150分”。事实上,MARC字段是可重复的,如果你有两个责任者字段一样,一个算50分,两个就有100分了,既然你的阈值设置为100,符合条件,程序当然就提示为重了。

加权查重,也可以说是模糊查重,体现了一种受控的相似度计算。按你所说,同一个ISBN号不一定重,这是事实。但是,除了记录复制,严格意义上说是不容易找到相同的记录的——多个无关字段、多个空格字符、不同的著录细节都会产生“不一样”的记录的。

所以,程序只能根据用户的好恶,由用户来确定记录相似度,这个相似度的定义,全靠用户根据业务要求与经验来调整了——起码,ISBN号相同的,一定有些嫌疑,而即使ISBN号不一样,同一个著者、同一个书名的书,相似度也是很大的。

批查重功能仅是一种提高效率的参考功能,它不能完全替代人工的判断——如果怕错杀,你完全可以将批查重后生成的所谓“重”的数据导入到一个临时库中,再逐条浏览并逐条查重来对照数据嘛。何况,对于重的数据,在业务中也并不是视若无物——也可以对重的记录进行补订或追加订购吧?

有点佩服你的认真与执着:图书馆系统作为一个复杂的、专业的系统,很少有人如你这样,纯因个人研究爱好而钻研这么仔细并寻求这么细的技术支持的。



发表时间: 2009-02-28 01:35:46
  • 精品 查重导入数据发生“误杀”现象 Harry 2009-02-27 17:48:21[点击:55982]
  • 普通文章 请正确理解加权计算 孤舟蓑笠翁 2009-02-28 01:35:46 (ID:421) [点击:1069]
  • 普通文章 当求甚解 Harry 2009-02-28 09:03:23 (ID:422) [点击:999]
  • 普通文章 回复: 当求甚解 xietao 2009-02-28 17:47:10 (ID:424) [点击:922]
  • 普通文章 回复: 查重导入数据发生“误杀”现象 xietao 2009-02-28 17:28:36 (ID:423) [点击:1132]
  • 普通文章 不能完全解决问题 Harry 2009-02-28 18:51:24 (ID:425) [点击:1108]
  • 普通文章 回复: 不能完全解决问题 xietao 2009-02-28 21:58:07 (ID:426) [点击:958]
  • 普通文章 难以深入 Harry 2009-03-01 13:43:40 (ID:427) [点击:874]
  • 普通文章 回复: 难以深入 xietao 2009-03-01 21:25:34 (ID:428) [点击:1029]
  • 普通文章 要乐于听丑话 孤舟蓑笠翁 2009-03-03 13:18:56 (ID:434) [点击:1079]
  • 普通文章 向老同志学习 Harry 2009-03-03 21:33:12 (ID:436) [点击:1263]
  • 普通文章 回复: 向老同志学习 xietao 2009-03-03 22:31:00 (ID:438) [点击:1311]
  • 普通文章 有新改进 xietao 2009-03-02 21:26:37 (ID:432) [点击:926]
  •  

    在线用户
    (无) 
    当前栏目在线用户数 0, 总在线用户数 1