欢迎您来到 数字平台。 您尚未登录。[登录] [注册新用户]
当前位置: 论坛首页 / 栏目 产品与服务 / 文章 420

点击:55959

[顶层访客留言] [回复顶层(需要先登录)] [表状] [详细]
[回复留言] [回复(需要先登录)] [引用(需要先登录)]精品第 1 楼
文章id: 420
查重导入数据发生“误杀”现象

作者: Harry


今天参照“数字平台系统的二次开发体验(一)——数据导入批查重方案”试验了一边倒入一边查重。

{

方案照做之后,有的人(我就是)可能出现“找不到cfgs/dup”错误,解决办法如下:

1.打开dp2内核管理——dp2manager;

2.右键单击服务器节点,在弹出菜单中选择“在下级创建目录或文件”,创建目录名为cfgs;

3.右键单击cfgs目录,在弹出菜单中选择“在下级创建目录或文件”,创建文件名为dup;

4.右键单击dup,在弹出菜单中选择“编辑配置文件”;

5.输入内容如下:

<?xml version="1.0" encoding="utf-8"?>
<root>
    <project name="编目查重" comment="编目查重">
        <database name="你的书目库名" threshold="100">
            <accessPoint name="责任者" weight="50" searchStyle="" />
            <accessPoint name="ISBN" weight="80" searchStyle="" />
            <accessPoint name="题名" weight="20" searchStyle="" />
        </database>
    </project>
    <default origin="你的书目库名" project="编目查重" />
</root>

}

 

 

试验导入了一些数据,功能看起来是正常的,但是仔细检查之后,发现有些书目被“误杀”了,没有重复的却被当成重复书目舍弃了。如下图(右边是查重导入后的)。

如上图左边的1-5,责任者相同,而题名、ISBN不同,被当成重复的,2-5全被舍弃了。

6,7,题名、责任者相同,ISBN不同,200$h不同,被当成重复的,7被舍弃了。

如上两条书目是一套丛书中的不同单册,题名、ISBN均不相同,仅责任者相同,得分也不过50,怎么会被判重了呢,查重过程中我发现有的得分会有200多,而dup中责任者+题名+ISBN才150分,所以可能除了dup文件中设置的查重点,系统内还会有其他查重点,其他重复点得分值加上责任者的分值,可能就超过阀值了。

如上两条书目,题名、责任者相同,ISBN不同,200$h不同,被判重(判断错误),看到这里,我觉得算法中忽略了200$h的权重。

以上两条书目:题名、责任者相同,ISBN,200$h不同,被判不重(判断正确),这下我糊涂了,到底是忽略了200$h的权重还是没有呢?

谢老师,以上的结果让我产生了两点怀疑:

1.是不是我的软件配置有问题,我觉得应该不是,如果没配置好,软件应该不能正常查重。软件查重功能正常,而且大部分结果正确。

2.加权查重算法有问题。

如果是查重算法的问题,那它很难通过重新分配权值来解决,而是加权查重这种算法本身的问题了。就拿200$h来说,该分配给他多重的权值呢,可能一套书题名、责任者、ISBN完全相同,就是分卷不同,他们不能被判重,200$h这一项就超过了题名+责任者+ISBN,而如果给200$h分配了很高的权值,那么两套不同书而200$h相同的书,就有可能被判重了。

加权查重极有可能产生“人多势众”的结果,多个弱权重的加在一起超过了那个掌握真理的少数“人”;

加权查重也有可能产生“以权谋私”的结果,过大的单一掌权者说了算,就损害整体利益了。

拿第一组例子来说,题名不同的书有可能是重吗?应该不算是重吧!但是加权就可能给他判重。

ISBN相同,一定就相同吗?一套书的不同册共用ISBN,就不能判重,一个ISBN给80分,随便加上根稻草,就超过阀值了。

如此组合起来,恐怕结果是n多种,通过预设权值能解决吗?很难吧。是否可以通过多重机制判重呢,可能您已经做了,就是我不知道罢了。

如果不是我的问题的话,这样的查重结果很难令人接受。

如果是我的问题,造成了查重结果出错,麻烦老师指正。

我用的ISO文件一并传上来。

测试.iso

另外,重复数据我选择了保存成gb2312格式,可是打开一看却是UTF8的。



发表时间: 2009-02-27 17:48:21
最后修改时间: 2009-02-27 18:32:55
  • 精品 查重导入数据发生“误杀”现象 Harry 2009-02-27 17:48:21[点击:55959]
  • 普通文章 请正确理解加权计算 孤舟蓑笠翁 2009-02-28 01:35:46 (ID:421) [点击:1068]
  • 普通文章 当求甚解 Harry 2009-02-28 09:03:23 (ID:422) [点击:999]
  • 普通文章 回复: 当求甚解 xietao 2009-02-28 17:47:10 (ID:424) [点击:921]
  • 普通文章 回复: 查重导入数据发生“误杀”现象 xietao 2009-02-28 17:28:36 (ID:423) [点击:1131]
  • 普通文章 不能完全解决问题 Harry 2009-02-28 18:51:24 (ID:425) [点击:1108]
  • 普通文章 回复: 不能完全解决问题 xietao 2009-02-28 21:58:07 (ID:426) [点击:957]
  • 普通文章 难以深入 Harry 2009-03-01 13:43:40 (ID:427) [点击:873]
  • 普通文章 回复: 难以深入 xietao 2009-03-01 21:25:34 (ID:428) [点击:1029]
  • 普通文章 要乐于听丑话 孤舟蓑笠翁 2009-03-03 13:18:56 (ID:434) [点击:1079]
  • 普通文章 向老同志学习 Harry 2009-03-03 21:33:12 (ID:436) [点击:1263]
  • 普通文章 回复: 向老同志学习 xietao 2009-03-03 22:31:00 (ID:438) [点击:1311]
  • 普通文章 有新改进 xietao 2009-03-02 21:26:37 (ID:432) [点击:926]
  •  

    在线用户
    (无) 
    当前栏目在线用户数 0, 总在线用户数 0