欢迎您来到 数字平台。 您尚未登录。[登录] [注册新用户]
当前位置: 论坛首页 / 栏目 产品与服务 / 文章 421

点击:1082

[顶层访客留言] [回复顶层(需要先登录)] [表状] [详细]
[回复留言] [回复(需要先登录)] [引用(需要先登录)]普通文章跟帖
文章id: 421
请正确理解加权计算



加权计算查重法,是我们系统有别于其它系统的一个亮点。

既然加权,并不是你理解的一个查重依据就只有你设置的那个权值,比如你说的“查重过程中我发现有的得分会有200多,而dup中责任者+题名+ISBN才150分”。事实上,MARC字段是可重复的,如果你有两个责任者字段一样,一个算50分,两个就有100分了,既然你的阈值设置为100,符合条件,程序当然就提示为重了。

加权查重,也可以说是模糊查重,体现了一种受控的相似度计算。按你所说,同一个ISBN号不一定重,这是事实。但是,除了记录复制,严格意义上说是不容易找到相同的记录的——多个无关字段、多个空格字符、不同的著录细节都会产生“不一样”的记录的。

所以,程序只能根据用户的好恶,由用户来确定记录相似度,这个相似度的定义,全靠用户根据业务要求与经验来调整了——起码,ISBN号相同的,一定有些嫌疑,而即使ISBN号不一样,同一个著者、同一个书名的书,相似度也是很大的。

批查重功能仅是一种提高效率的参考功能,它不能完全替代人工的判断——如果怕错杀,你完全可以将批查重后生成的所谓“重”的数据导入到一个临时库中,再逐条浏览并逐条查重来对照数据嘛。何况,对于重的数据,在业务中也并不是视若无物——也可以对重的记录进行补订或追加订购吧?

有点佩服你的认真与执着:图书馆系统作为一个复杂的、专业的系统,很少有人如你这样,纯因个人研究爱好而钻研这么仔细并寻求这么细的技术支持的。



发表时间: 2009-02-28 01:35:46
  • 精品 查重导入数据发生“误杀”现象 Harry 2009-02-27 17:48:21[点击:57557]
  • 普通文章 请正确理解加权计算 孤舟蓑笠翁 2009-02-28 01:35:46 (ID:421) [点击:1082]
  • 普通文章 当求甚解 Harry 2009-02-28 09:03:23 (ID:422) [点击:1024]
  • 普通文章 回复: 当求甚解 xietao 2009-02-28 17:47:10 (ID:424) [点击:936]
  • 普通文章 回复: 查重导入数据发生“误杀”现象 xietao 2009-02-28 17:28:36 (ID:423) [点击:1156]
  • 普通文章 不能完全解决问题 Harry 2009-02-28 18:51:24 (ID:425) [点击:1288]
  • 普通文章 回复: 不能完全解决问题 xietao 2009-02-28 21:58:07 (ID:426) [点击:1003]
  • 普通文章 难以深入 Harry 2009-03-01 13:43:40 (ID:427) [点击:892]
  • 普通文章 回复: 难以深入 xietao 2009-03-01 21:25:34 (ID:428) [点击:1073]
  • 普通文章 要乐于听丑话 孤舟蓑笠翁 2009-03-03 13:18:56 (ID:434) [点击:1103]
  • 普通文章 向老同志学习 Harry 2009-03-03 21:33:12 (ID:436) [点击:1338]
  • 普通文章 回复: 向老同志学习 xietao 2009-03-03 22:31:00 (ID:438) [点击:1351]
  • 普通文章 有新改进 xietao 2009-03-02 21:26:37 (ID:432) [点击:949]
  •  

    在线用户
    访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客 (我自己)   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客   访客访客
    当前栏目在线用户数 38, 总在线用户数 40