==========
以下是引用 Harry 于 2009-2-28 9:03:23 发表的文字:
既然要把dp2的加权查重法做成一个亮点,那就应该把它做完善,怎么能让用户(不包括我)再手动检查一边呢,这样的得过且过怎么能把这个系统做好呢,孤芳自赏往往就是掩耳盗铃,我话说直了点,望老师勿恼。
我一个不相关的人,花了整整一个下午测试、抓图、写文发上来,不能往我的热心上浇冷水吧。
一个责任者重复就给50分,两个就是100分,这个不好吧,是不是一个责任者重复给50分,第二责任者不重复恢复为0分更符合逻辑呢?!而第二责任者重复继续保持50分,还是60分,还是70分呢?这就难了,权值应当分配给子字段呢?还是当分配给子字段中的各个元素呢,各个元素又当分配多少值呢?看来这需要一个数学家来分析一下了。
问题还是加权查重法本身的问题,或者说加权法是不是适合做查重的问题,望老师深究。
==========
现在的体系虽然不完善,但是改进起来却很容易,所谓9个馍馍和第10个馍馍的关系。
关于算法不可相信,需要用户手动操作的思想,这是我们一贯的看法。不过不影响我们把现有的东西努力做到尽善尽美。两方面不矛盾。
您测试和写文的方式很好,我们自己就是这么认真工作的,今后有机会您会逐步了解到。夸您就是夸我们自己,我们都是认真的人,毛主席说了,世界上怕就怕认真二字,认真起来,能量会很大的,会做出原来意想不到的成绩,我们叫“超水平发挥”。
刚才我在楼上说了,您的思路很好,简单又明了。
关于权值分配给子字段,这个说法有些模糊。因为权值本来是和“检索途径”相关的,一个检索途径就是一个最小的单元,无法再小。而一个检索途径,可以仅仅由一个子字段构成,也可以由多个子字段(甚至包括不同字段内的子字段)构成,都是可以的,所以,隔着检索途径的外壳说,权值当然有时候是对应某个子字段,有时候是对应一组子字段了 --- 间接地对应上。既然概念有区隔,那么我们乐得少死一点脑细胞,从宏观搭桥思考就可以了。
我在楼上说过了,目前这个加权算法(改进前)还是可用的,不如您说的那样不堪。好比普通汽车通过正常的司机控制,还不至于撞人,虽然汽车还没有配备自动避撞系统。但是算法的缺点是明显的,尤其是用您提供的例子突出了这个缺点后。这好比汽车要加装自动避撞系统,只要可行,我不反对。装了避撞系统后,眼睛不好的司机开着也安全了。
类似的事情很多。我们提供了MARC编辑器后,有的用户把数据编得井井有条,而另外的用户就把数据编得乱七八糟。其实目前的软件绝大部分还是要老老实实停留在一个“工具”的位置,用户的使用方式方法起到了化腐朽为神奇的作用,用户的因素、人因素还是很重要的。就目前这个加权算法来说,就是这样,我们可以多花一点精力来探讨如何把权重配得更完善一些,也是一种生活方式。在它不完美的情况下,也是可以用的,有个怎么用的问题。并且,在有缺点的时候就用得好的,往往在缺点消失后更能用得好,努力也不是白费的。