? ?问题来源:https://groups.google.com/forum/#!topic/mongodb-user/BpgEaRqrKsA
?
? ?Collection C1的部分数据如下:
?
要求按name分组,每组数据是相同的name对应的子文档中的users字段,且数据不能重复。计算结果类似:
?
? ?集算器代码:
?
A1:连接MongoDB,连接字格式为mongo://ip:port/db?arg=value&… 。
A2: 使用find函数从MongoDB中取数并排序,形成游标。collectoin是c1,过滤条件是空,取出_id之外的所有字段,并按name排序。集算器的find函数和mongdb的find+sort+limit函数类似,过滤条件的写法遵循mongodb规范。
A3: 循环从游标读数,每次取name字段相同的一组文档。A3的作用范围是缩进的B3到B5,其间可以用A3来引用循环变量。
?
?
?
B3:取出本组文档的所有users字段,如下:
?
? ? ? ? ?B4:合并本组各文档的users,并去除重复。
?
B5:将B4不断地追加到B2中。B2如下:
?
B2就是本案例的计算目标。如果计算结果太多导致内存放不下,可以在B5中用函数export@j将B4转为json串,再不断地追加到文本文件中。
?
A6:关闭MongoDB。
原文:http://datamachine.iteye.com/blog/2226098