加权计算查重法,是我们系统有别于其它系统的一个亮点。
既然加权,并不是你理解的一个查重依据就只有你设置的那个权值,比如你说的“查重过程中我发现有的得分会有200多,而dup中责任者+题名+ISBN才150分”。事实上,MARC字段是可重复的,如果你有两个责任者字段一样,一个算50分,两个就有100分了,既然你的阈值设置为100,符合条件,程序当然就提示为重了。
加权查重,也可以说是模糊查重,体现了一种受控的相似度计算。按你所说,同一个ISBN号不一定重,这是事实。但是,除了记录复制,严格意义上说是不容易找到相同的记录的——多个无关字段、多个空格字符、不同的著录细节都会产生“不一样”的记录的。
所以,程序只能根据用户的好恶,由用户来确定记录相似度,这个相似度的定义,全靠用户根据业务要求与经验来调整了——起码,ISBN号相同的,一定有些嫌疑,而即使ISBN号不一样,同一个著者、同一个书名的书,相似度也是很大的。
批查重功能仅是一种提高效率的参考功能,它不能完全替代人工的判断——如果怕错杀,你完全可以将批查重后生成的所谓“重”的数据导入到一个临时库中,再逐条浏览并逐条查重来对照数据嘛。何况,对于重的数据,在业务中也并不是视若无物——也可以对重的记录进行补订或追加订购吧?
有点佩服你的认真与执着:图书馆系统作为一个复杂的、专业的系统,很少有人如你这样,纯因个人研究爱好而钻研这么仔细并寻求这么细的技术支持的。