上周末小马已经把这个文字转发给我了,下面我提出一些自己的想法,供讨论和参考。
一、工作量统计
直到现在我对工作量统计的核心问题有了比较明确的认识,就是工作量统计结果是要和工作人员的薪酬挂钩的。认识到这一点,一方面可以把这个问题放到一个新的高度来看待;另外一方面也给我一个启发,就是可能日志统计的方向不一定合适,我们需要用新的方向来思考问题。
日志统计的特点是,每日都有新鲜的工作量数据可以统计出来,不过,通常统计数据具有一定的“匿名性”,也就是说习惯上在计算一个人的创建新记录和修改记录操作量的时候,不会和具体的记录本身挂钩,所以出现了修改次数居高不下的问题(这令修改次数这个指标失去了应有的计算劳动量的意义),也出现了创建新记录可以作弊的问题(虽然和删除记录数结合起来看可以看出一定的破绽)。
如果我们换一个方向思考,假如管理人员在每个月考察员工薪酬的时候,能够逐一翻看每个员工创建的每一条MARC记录,那么作弊就无法得逞。当然这是一个极端的说法,管理人员不会有那么好的精力去检查每一条加工出来的数据记录,那么,我们退一步,可以用软件列出每一条记录的简明清单,每一条记录只需要显示其题名责任者等主要事项,然后把针对这每一条记录的创建和修改次数显示在另一栏,并且,按照题名之类的key来进行排序,这样,作弊的事儿就会暴露出来:你会看到某些记录修改的次数畸高,某些记录被删除了然后又重新多次创建。
从dp2circulation的统计窗类型来说,似乎可以考虑不要用目前思维定势的“日志统计窗”,而采用“书目统计窗”来设计新的统计方案。
二、重复利用源书目数据的问题
这个问题是个老生常谈的问题了,dp2系统给出了一种经过长年检验的好办法:创建一个中央库,然后把加工后的正式记录不断积累到其中。
而草率转入源书目库的记录,属于质量不确定的外部参考记录,在利用它转存后进一步加工成正规的书目记录后,就保存到了中央库。日后再进行查重,应当是针对源书目库和中央库两种目标的查重。如果查出一条记录在源书目库和中央库都存在,那么显然要转存利用中央库的那条记录。
所以,当书目记录加工好以后,要寻迹去覆盖源书目库里的那条记录(以便后面可以重复利用到“更高质量”的记录),是不必要的。或者说是一种比较原始的用法,属于突发奇想了。因为源书目库既然是这个名字,那就意味着它是一个外源数据的“垃圾堆”,没有人会真正去用心收拾打理它里面的记录,如果把本应是中央库的职责派给它,属于勉为其难了,效果必然不会太好。
不过,dp2batch的“一边查重一边转入”方案把加工好的记录灌入源书目库的功能中,增加发现重复的时候不是放弃而是覆盖的功能,原则上说是可以的。不过,要解决一些概念问题:如果查重发现一条即将转入的记录,和数据库中多条记录相重,到底覆盖哪一条呢?这就是一笔糊涂帐了,这也就是上面说的“垃圾堆”的深刻含义。
所以我的建议是,增加查重目标,调整数据库结构为正规的模式,这是彻底解决问题的办法。希望不要采用把加工好的记录转入源书目库的办法。
以下是引用 shenming 于 2011-11-28 14:46:16 发表的文字:
关于编目系统两点紧急需求的情况说明
我们在实际的使用中,目前有两点需求非常紧迫,请你们务必尽快给予解决。
1、关于工作量的统计
现在的日志统计窗里,编目员的工作量统计是分为“新建”、“修改”、“删除”和“另存” 四项内容,其中“另存”我不清楚是统计什么,“删除”目前也没有什么问题,关键在“新建”和“修改”这两项上问题比较大。现在的“新建书目”和“修改书目”只是一个简单的计数器,是一个点击“保存(F2)”按钮和“另存(F3)”按钮的计数器,并不能真正统计到是原编了多少条书目记录或者修改了多少条书目记录。同一条数据,我另存到某个库里边一次,就会计为一条“新建书目”,再存到另一个库里边一次,就又会计为一条“新建书目”。打开某一条数据,我可以不做任何修改,点一次保存,就会计为一条“修改书目”,点十次保存,就能计为十条“修改书目”。这样的话,我们的编目员都能虚报自己的工作量,甚至可以一整天什么事情都不做,打开一条数据后点击1000次F2键,那他当天的工作量也会有1000条的“修改书目”。
从十月份开始,我部门已经实行了新的薪酬制度,按件计算编目员的工资,分为“原编”和“修改”两种类型。也就是说,他从头到尾原编一条数据,能拿到多少钱,对一条数据进行了某些字段的修改,或者说添加了几个馆藏字段,又能拿到多少钱,这两种操作的标准是不一样的,而且相隔比较大。涉及到每个人的工资发放,和他们的切身利益密切相关,所以,现在我们必须要对编目员的工作量进行精确的统计。只有在一条数据从无到有,所有字段完全为编目员全新创建的情况下,才能统计为原编,至于修改,则最好能分出个程度,只做一两处简单的修改,和对整条数据做了多处修改,应予区分为妥。只有这样,才能真正做到统计的科学和公平,否则的话,付出辛勤劳动的编目员得不到应有的报酬,经常偷懒但会钻空子的编目员却能不劳而获,这是很难想象的。
2、关于在导入数据时增添“覆盖”功能
我们的一个原则是所有为学校做过的数据,都会导入源书目库,以便下次有另外学校需要相同数据时,可以直接套录出来使用,减少原编量。现在往库里边批量导入数据的时候,只能选择查重或者不查重,选择前者,则系统判定为重复的数据就不会入库,选择后者,则所有数据全部入库,库里边有可能出现重复的数据。但在实际操作中,经常会遇到这样一种情况:例如我们要完成某个学校的100条数据,这其中有80条可以从源书目库套录出来,另20条做原编处理。但这80条套录的数据里有10条不准确,缺少了一两个字段,这时候我就需要抽取这10本样书,像做原编一样将这些字段补齐。整批数据制作完成后,应该将这100条数据导进源书目库,为了避免重复,当然选择查重,但这样的话,这其中的10条经过我补充完整的数据也会被当做重复数据无法入库,而库里边留存的任然是原来那10条缺少字段的不完整数据,当下次再有学校还是需要这10条数据的时候,我还是得抽取样书补充字段。所以,在使用批处理程序导入数据的时候,除了具备“查重”选项外,应该增加一项“覆盖”选项。如选中此项,当数据不重复时,会直接进入源书目库,若为重复数据时,则以当前的数据覆盖掉库中已有的数据,这样就能保证新的完整的数据替换掉库里旧的不完整的数据,从而不断提高源书目库里数据的质量,避免我们的重复劳动。
以上两点需求甚为紧急,盼火速解决。如有疑问,可随时与我联系。