MongoDB(32) - 一括処理(Bulk)①一括登録

今回から、一括処理(Bulk)に関する操作を行っていきます。

一括処理(Bulk)とは

大量にinsertやupdateを行う場合、一括処理(Bulk)を使うとまとめて処理を行うことができるため速く実行することができます

一括処理(Bulk)には、下記の2種類があります。

  1. 順次処理
    登録の順番に意味がある場合に使用します。
    前の処理が終わってから次の処理を行うため、2.並列処理よりも処理は遅くなります、
  2. 並列処理
    順番に関係なく処理を行います。
    そのため1.順次処理よりも速く処理が終了します。

一括登録

順次処理で一括登録を行います。

(並列処理で実行したい場合は、initializeOrderedBulkOp()ではなくinitializeUnorderedBulkOp()を使います。)

処理の詳細は以下の通りです。

  1. Bulk実行タイプを設定。(1行目)
  2. insertクエリーを設定。(3~5行目)
  3. 一括実行(Bulk実行)。(7行目)

[Mongoシェル]

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
> var bulk = db.member.initializeOrderedBulkOp()  //順次処理

> bulk.insert({name:"武元", age:10})
> bulk.insert({name:"松田", age:20})
> bulk.insert({name:"加藤", age:30})

> bulk.execute()
BulkWriteResult({
"writeErrors" : [ ],
"writeConcernErrors" : [ ],
"nInserted" : 3,
"nUpserted" : 0,
"nMatched" : 0,
"nModified" : 0,
"nRemoved" : 0,
"upserted" : [ ]
})

> db.member.find()
{ "_id" : ObjectId("613e728c0fb0f3e6cf9e2b7e"), "name" : "武元", "age" : 10 }
{ "_id" : ObjectId("613e728c0fb0f3e6cf9e2b7f"), "name" : "松田", "age" : 20 }
{ "_id" : ObjectId("613e728c0fb0f3e6cf9e2b80"), "name" : "加藤", "age" : 30 }

問題なく3つのドキュメントを追加することができました。

Pythonで操作

上記の処理をPythonで行うと、次のようになります。

3~4行目に新たにimport文を追加していますのでご注意下さい。

[ソースコード]

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
import pymongo
from pymongo import MongoClient
from pymongo import InsertOne
from pymongo.errors import BulkWriteError

# MongoDB操作用のインスタンスを作成
client = MongoClient() # [IPとポートを指定する場合] MongoClient('10.200.243.203', 27017')

# データベースの取得
db1 = client.db1

# 一括更新
requests = [
InsertOne({'name':'武元', 'age':10}),
InsertOne({'name':'松田', 'age':20}),
InsertOne({'name':'加藤', 'age':30})
]

try:
db1.member.bulk_write(requests) # 順次処理
# db.member.bulk_write(requests, ordered=False) # 並列処理
except BulkWriteError as bwe:
pprint(bwe.details)

# 登録内容の確認
docs = db1.member.find()
for doc in docs:
print(doc)

次回は、一括更新処理を行います。

MongoDB(31) - 集計処理(aggregate)⑫集計結果のソート/表示件数制限/取得開始位置の指定

今回は、集計結果のソート/表示件数制限/取得開始位置の指定を行います。

サンプルデータ

以前用意した会社の部、課、従業員データを使用します。

集計処理(aggregate)①データ準備 - https://ailog.site/2021/09/02/2021/0902/

集計結果のソート

集計結果をソートしてみます。

集計結果のソートには$sortを使います。

[Mongoシェル]

1
2
3
4
5
6
7
8
> db.employee.aggregate([
{$group:{_id:"$k_id", max_salary:{$max: "$salary"}}},
{$sort:{max_salary:1}} // 1:昇順 -1:降順
])
{ "_id" : "ka4", "max_salary" : 120000 }
{ "_id" : "ka2", "max_salary" : 250000 }
{ "_id" : "ka1", "max_salary" : 400000 }
{ "_id" : "ka3", "max_salary" : 550000 }

課ごとの最大給料に関して、昇順でソートすることができました。

集計結果の表示件数制限

集計結果の表示件数を制限します。

集計結果の表示件数制限には$limitを使います。

[Mongoシェル]

1
2
3
4
5
6
> db.employee.aggregate([
{$group:{_id:"$k_id", max_salary:{$max: "$salary"}}},
{$sort:{max_salary:1}},
{$limit: 1}
])
{ "_id" : "ka4", "max_salary" : 120000 }

課ごとの最大給料に関して、表示件数を1件に制限することができました。

集計結果の取得開始位置の指定

集計結果の取得開始位置を指定します。

集計結果の表示開始位置を指定するためには$skipを使用します。

[Mongoシェル]

1
2
3
4
5
6
7
8
> db.employee.aggregate([
{$group:{_id:"$k_id", max_salary:{$max: "$salary"}}},
{$sort:{max_salary:1}},
{$skip: 1}
])
{ "_id" : "ka2", "max_salary" : 250000 }
{ "_id" : "ka1", "max_salary" : 400000 }
{ "_id" : "ka3", "max_salary" : 550000 }

課ごとの最大給料に関して、表示開始位置を2つめからとすることができました。

$skipに指定するインデックスは0から始まりますので、1を指定した場合は2つめの集計結果から表示されることになります。


$sort$limit$skip は組み合わせて実行することが可能ですが、上から順番に実行されるので順番には気を付ける必要があります。

Pythonで操作

上記の集計処理をPythonで行うと、次のようになります。

[ソースコード]

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
import pymongo
from pymongo import MongoClient

# MongoDB操作用のインスタンスを作成
client = MongoClient() # [IPとポートを指定する場合] MongoClient('10.200.243.203', 27017')

# データベースの取得
db1 = client.db1

# 集計結果のソート
docs = db1.employee.aggregate([
{'$group':{'_id':'$k_id', 'max_salary':{'$max': '$salary'}}},
{'$sort':{'max_salary':1}} # 1:昇順 -1:降順
])
for doc in docs:
print(doc)

# 集計結果の表示件数制限
docs = db1.employee.aggregate([
{'$group':{'_id':'$k_id', 'max_salary':{'$max': '$salary'}}},
{'$sort':{'max_salary':1}},
{'$limit': 1}
])
for doc in docs:
print(doc)


# 集計結果の取得開始位置の指定
docs = db1.employee.aggregate([
{'$group':{'_id':'$k_id', 'max_salary':{'$max': '$salary'}}},
{'$sort':{'max_salary':1}},
{'$skip': 1}
])
for doc in docs:
print(doc)

次回からは、一括高速処理(Bulk)を行います。

MongoDB(30) - 集計処理(aggregate)⑪複数コレクションの結合

今回は、複数コレクションの結合を行います。

サンプルデータ

以前用意した会社の部、課、従業員データを使用します。

集計処理(aggregate)①データ準備 - https://ailog.site/2021/09/02/2021/0902/

複数コレクションの結合

1つのコレクションから複数のコレクションを同時に結合します。

コレクションの結合方法は下記の通りです。

  • 従業員コレクション(employee)と課コレクション(division)を結合
    結合キーは課ID(k_id)
  • 従業員コレクション(employeeと役職コレクション(position)を結合
    結合キーは役職ID(p_id)

[Mongoシェル]

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
> db.employee.aggregate([
{$lookup:{
from: "division",
localField: "k_id",
foreignField: "k_id",
as: "division_docs"
}},
{$lookup:{
from: "position",
localField: "p_id",
foreignField: "p_id",
as: "position_docs"
}}
])
{ "_id" : ObjectId("612f07f568110fe533ed9d21"), "e_id" : "emp001", "k_id" : "ka1", "p_id" : "po1", "name" : "高山", "age" : 31, "salary" : 400000, "division_docs" : [ { "_id" : ObjectId("612f07b568110fe533ed9d19"), "k_id" : "ka1", "b_id" : "bu1", "name" : "総務課" } ], "position_docs" : [ { "_id" : ObjectId("612f07d768110fe533ed9d1d"), "p_id" : "po1", "name" : "社長" } ] }
{ "_id" : ObjectId("612f07f568110fe533ed9d22"), "e_id" : "emp002", "k_id" : "ka2", "p_id" : "po2", "name" : "生駒", "age" : 37, "salary" : 250000, "division_docs" : [ { "_id" : ObjectId("612f07b568110fe533ed9d1a"), "k_id" : "ka2", "b_id" : "bu2", "name" : "企画課" } ], "position_docs" : [ { "_id" : ObjectId("612f07d768110fe533ed9d1e"), "p_id" : "po2", "name" : "部長" } ] }
{ "_id" : ObjectId("612f07f568110fe533ed9d23"), "e_id" : "emp003", "k_id" : "ka3", "p_id" : "po3", "name" : "嘉喜", "age" : 23, "salary" : 200000, "division_docs" : [ { "_id" : ObjectId("612f07b568110fe533ed9d1b"), "k_id" : "ka3", "b_id" : "bu3", "name" : "開発1課" } ], "position_docs" : [ { "_id" : ObjectId("612f07d768110fe533ed9d1f"), "p_id" : "po3", "name" : "課長" } ] }
{ "_id" : ObjectId("612f07f568110fe533ed9d24"), "e_id" : "emp004", "k_id" : "ka4", "p_id" : "po4", "name" : "与田", "age" : 33, "salary" : 100000, "division_docs" : [ { "_id" : ObjectId("612f07b568110fe533ed9d1c"), "k_id" : "ka4", "b_id" : "bu3", "name" : "開発2課" } ], "position_docs" : [ { "_id" : ObjectId("612f07d768110fe533ed9d20"), "p_id" : "po4", "name" : "一般社員" } ] }
{ "_id" : ObjectId("612f07f568110fe533ed9d25"), "e_id" : "emp005", "k_id" : "ka3", "p_id" : "po4", "name" : "松田", "age" : 35, "salary" : 550000, "division_docs" : [ { "_id" : ObjectId("612f07b568110fe533ed9d1b"), "k_id" : "ka3", "b_id" : "bu3", "name" : "開発1課" } ], "position_docs" : [ { "_id" : ObjectId("612f07d768110fe533ed9d20"), "p_id" : "po4", "name" : "一般社員" } ] }
{ "_id" : ObjectId("612f07f568110fe533ed9d26"), "e_id" : "emp006", "k_id" : "ka4", "p_id" : "po4", "name" : "菅井", "age" : 45, "salary" : 120000, "division_docs" : [ { "_id" : ObjectId("612f07b568110fe533ed9d1c"), "k_id" : "ka4", "b_id" : "bu3", "name" : "開発2課" } ], "position_docs" : [ { "_id" : ObjectId("612f07d768110fe533ed9d20"), "p_id" : "po4", "name" : "一般社員" } ] }

従業員コレクションから、課コレクションと役職コレクションを結合することができました。

表示フィールドの絞り込み

複数コレクションの結合を行った結果に対して、$projectを使って表示フィールドを絞り込みます。

オブジェクトID(_id)を非表示にし、従業員ID(e_id)・従業員名・課の名称・役職名を表示します。

また同時にunwindを使い、配列をオブジェクト型に展開します。

[Mongoシェル]

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
> db.employee.aggregate([
{$lookup:{
from: "division",
localField: "k_id",
foreignField: "k_id",
as: "division_docs"
}},
{$lookup:{
from: "position",
localField: "p_id",
foreignField: "p_id",
as: "position_docs"
}},
{$project:{
"_id": 0,
"e_id": 1,
"name": 1,
"division_docs.name": 1,
"position_docs.name": 1
}},
{$unwind: "$division_docs"}, // 課コレクションの展開
{$unwind: "$position_docs"} // 役職コレクションの展開
])
{ "e_id" : "emp001", "name" : "高山", "division_docs" : { "name" : "総務課" }, "position_docs" : { "name" : "社長" } }
{ "e_id" : "emp002", "name" : "生駒", "division_docs" : { "name" : "企画課" }, "position_docs" : { "name" : "部長" } }
{ "e_id" : "emp003", "name" : "嘉喜", "division_docs" : { "name" : "開発1課" }, "position_docs" : { "name" : "課長" } }
{ "e_id" : "emp004", "name" : "与田", "division_docs" : { "name" : "開発2課" }, "position_docs" : { "name" : "一般社員" } }
{ "e_id" : "emp005", "name" : "松田", "division_docs" : { "name" : "開発1課" }, "position_docs" : { "name" : "一般社員" } }
{ "e_id" : "emp006", "name" : "菅井", "division_docs" : { "name" : "開発2課" }, "position_docs" : { "name" : "一般社員" } }

コレクションを結合した結果から、想定通りのフィールドを表示することができました。

Pythonで操作

上記の集計処理をPythonで行うと、次のようになります。

[ソースコード]

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
import pymongo
from pymongo import MongoClient

# MongoDB操作用のインスタンスを作成
client = MongoClient() # [IPとポートを指定する場合] MongoClient('10.200.243.203', 27017')

# データベースの取得
db1 = client.db1

# 複数コレクションの結合
docs = db1.employee.aggregate([
{'$lookup':{
'from': 'division',
'localField': 'k_id',
'foreignField': 'k_id',
'as': 'division_docs'
}},
{'$lookup':{
'from': 'position',
'localField': 'p_id',
'foreignField': 'p_id',
'as': 'position_docs'
}}
])
for doc in docs:
print(doc)

# 表示フィールドの絞り込み
docs = db1.employee.aggregate([
{'$lookup':{
'from': 'division',
'localField': 'k_id',
'foreignField': 'k_id',
'as': 'division_docs'
}},
{'$lookup':{
'from': 'position',
'localField': 'p_id',
'foreignField': 'p_id',
'as': 'position_docs'
}},
{'$project':{
'_id': 0,
'e_id': 1,
'name': 1,
'division_docs.name': 1,
'position_docs.name': 1
}},
{'$unwind': '$division_docs'}, # 課コレクションの展開
{'$unwind': '$position_docs'} # 役職コレクションの展開
])
for doc in docs:
print(doc)

次回は、集計結果のソート/表示件数制限/取得開始位置の指定を行います。

MongoDB(29) - 集計処理(aggregate)⑩コレクションの二重結合

今回は、コレクションの二重結合を行います。

サンプルデータ

以前用意した会社の部、課、従業員データを使用します。

集計処理(aggregate)①データ準備 - https://ailog.site/2021/09/02/2021/0902/

コレクションの二重結合

これまでは$lookupを使い2つのコレクションを結合してきました。

$lookupは1度に複数指定することができ、3つ以上のコレクションを結合することも可能です。

次のように3つのコレクションを結合してみます。

  • 従業員コレクション(employee)と課コレクション(division)を結合
    結合キーは課ID(k_id)
  • 課コレクション(division)と部署コレクション(department)を結合
    結合キーは部ID(b_id)

[Mongoシェル]

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
> db.employee.aggregate([
{$lookup:{
from: "division",
localField: "k_id",
foreignField: "k_id",
as: "division_docs"
}},
{$lookup:{
from: "department",
localField: "division_docs.b_id",
foreignField: "b_id",
as: "department_docs"
}}
])
{ "_id" : ObjectId("612f07f568110fe533ed9d21"), "e_id" : "emp001", "k_id" : "ka1", "p_id" : "po1", "name" : "高山", "age" : 31, "salary" : 400000, "division_docs" : [ { "_id" : ObjectId("612f07b568110fe533ed9d19"), "k_id" : "ka1", "b_id" : "bu1", "name" : "総務課" } ], "department_docs" : [ { "_id" : ObjectId("612f075468110fe533ed9d16"), "b_id" : "bu1", "name" : "総務部" } ] }
{ "_id" : ObjectId("612f07f568110fe533ed9d22"), "e_id" : "emp002", "k_id" : "ka2", "p_id" : "po2", "name" : "生駒", "age" : 37, "salary" : 250000, "division_docs" : [ { "_id" : ObjectId("612f07b568110fe533ed9d1a"), "k_id" : "ka2", "b_id" : "bu2", "name" : "企画課" } ], "department_docs" : [ { "_id" : ObjectId("612f075468110fe533ed9d17"), "b_id" : "bu2", "name" : "企画部" } ] }
{ "_id" : ObjectId("612f07f568110fe533ed9d23"), "e_id" : "emp003", "k_id" : "ka3", "p_id" : "po3", "name" : "嘉喜", "age" : 23, "salary" : 200000, "division_docs" : [ { "_id" : ObjectId("612f07b568110fe533ed9d1b"), "k_id" : "ka3", "b_id" : "bu3", "name" : "開発1課" } ], "department_docs" : [ { "_id" : ObjectId("612f075468110fe533ed9d18"), "b_id" : "bu3", "name" : "開発部" } ] }
{ "_id" : ObjectId("612f07f568110fe533ed9d24"), "e_id" : "emp004", "k_id" : "ka4", "p_id" : "po4", "name" : "与田", "age" : 33, "salary" : 100000, "division_docs" : [ { "_id" : ObjectId("612f07b568110fe533ed9d1c"), "k_id" : "ka4", "b_id" : "bu3", "name" : "開発2課" } ], "department_docs" : [ { "_id" : ObjectId("612f075468110fe533ed9d18"), "b_id" : "bu3", "name" : "開発部" } ] }
{ "_id" : ObjectId("612f07f568110fe533ed9d25"), "e_id" : "emp005", "k_id" : "ka3", "p_id" : "po4", "name" : "松田", "age" : 35, "salary" : 550000, "division_docs" : [ { "_id" : ObjectId("612f07b568110fe533ed9d1b"), "k_id" : "ka3", "b_id" : "bu3", "name" : "開発1課" } ], "department_docs" : [ { "_id" : ObjectId("612f075468110fe533ed9d18"), "b_id" : "bu3", "name" : "開発部" } ] }
{ "_id" : ObjectId("612f07f568110fe533ed9d26"), "e_id" : "emp006", "k_id" : "ka4", "p_id" : "po4", "name" : "菅井", "age" : 45, "salary" : 120000, "division_docs" : [ { "_id" : ObjectId("612f07b568110fe533ed9d1c"), "k_id" : "ka4", "b_id" : "bu3", "name" : "開発2課" } ], "department_docs" : [ { "_id" : ObjectId("612f075468110fe533ed9d18"), "b_id" : "bu3", "name" : "開発部" } ] }

3つのコレクションを結合してデータを取得することができました。

表示フィールドの絞り込み

コレクションを二重結合して取得したドキュメントに対して、$projectを使って表示フィールドを絞り込みます。

また同時にunwindを使い、配列をオブジェクト型に展開します。

[Mongoシェル]

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
> db.employee.aggregate([
{$lookup:{
from: "division",
localField: "k_id",
foreignField: "k_id",
as: "division_docs"
}},
{$lookup:{
from: "department",
localField: "division_docs.b_id",
foreignField: "b_id",
as: "department_docs"
}},
{$project: {
"_id":0,
"e_id":1,
"name":1,
"department_docs.name": 1,
"division_docs.name": 1
}},
{$unwind: "$department_docs"}, // 部署コレクションの展開
{$unwind: "$division_docs"} // 課コレクションの展開
])
{ "e_id" : "emp001", "name" : "高山", "division_docs" : { "name" : "総務課" }, "department_docs" : { "name" : "総務部" } }
{ "e_id" : "emp002", "name" : "生駒", "division_docs" : { "name" : "企画課" }, "department_docs" : { "name" : "企画部" } }
{ "e_id" : "emp003", "name" : "嘉喜", "division_docs" : { "name" : "開発1課" }, "department_docs" : { "name" : "開発部" } }
{ "e_id" : "emp004", "name" : "与田", "division_docs" : { "name" : "開発2課" }, "department_docs" : { "name" : "開発部" } }
{ "e_id" : "emp005", "name" : "松田", "division_docs" : { "name" : "開発1課" }, "department_docs" : { "name" : "開発部" } }
{ "e_id" : "emp006", "name" : "菅井", "division_docs" : { "name" : "開発2課" }, "department_docs" : { "name" : "開発部" } }

すっきりとした表示結果にすることができました。

Pythonで操作

上記の集計処理をPythonで行うと、次のようになります。

[ソースコード]

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
import pymongo
from pymongo import MongoClient

# MongoDB操作用のインスタンスを作成
client = MongoClient() # [IPとポートを指定する場合] MongoClient('10.200.243.203', 27017')

# データベースの取得
db1 = client.db1

# コレクションの結合(オブジェクト型に展開)
docs = db1.employee.aggregate([
{'$lookup':{
'from': 'division',
'localField': 'k_id',
'foreignField': 'k_id',
'as': 'division_docs'
}},
{'$lookup':{
'from': 'department',
'localField': 'division_docs.b_id',
'foreignField': 'b_id',
'as': 'department_docs'
}}
])
for doc in docs:
print(doc)

# コレクションの結合(文字列型に展開)
docs = db1.employee.aggregate([
{'$lookup':{
'from': 'division',
'localField': 'k_id',
'foreignField': 'k_id',
'as': 'division_docs'
}},
{'$lookup':{
'from': 'department',
'localField': 'division_docs.b_id',
'foreignField': 'b_id',
'as': 'department_docs'
}},
{'$project': {
'_id':0,
'e_id':1,
'name':1,
'department_docs.name': 1,
'division_docs.name': 1
}},
{'$unwind': '$department_docs'},
{'$unwind': '$division_docs'}
])
for doc in docs:
print(doc)

次回は、複数コレクションの結合を行います。

MongoDB(28) - 集計処理(aggregate)⑨コレクション結合・オブジェクト型と文字列型に展開

今回は、結合したコレクションをオブジェクト型と文字列型に展開します。

サンプルデータ

以前用意した会社の部、課、従業員データを使用します。

集計処理(aggregate)①データ準備 - https://ailog.site/2021/09/02/2021/0902/

オブジェクト型に変換

前回のコレクション結合では、結合先コレクションのdivision_docsが [{}] というように配列の中にオブジェクトが入っている構造になっています。

$unwindを使うと、配列の中の値を展開することができます。

[Mongoシェル]

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
> db.employee.aggregate([
{$lookup:{
from: "division",
localField:"k_id",
foreignField:"k_id",
as: "division_docs"
}},
{$project:{
"_id":0,
"name":1,
"division_docs.name":1
}},
{$unwind:"$division_docs"}
])
{ "name" : "高山", "division_docs" : { "name" : "総務課" } }
{ "name" : "生駒", "division_docs" : { "name" : "企画課" } }
{ "name" : "嘉喜", "division_docs" : { "name" : "開発1課" } }
{ "name" : "与田", "division_docs" : { "name" : "開発2課" } }
{ "name" : "松田", "division_docs" : { "name" : "開発1課" } }
{ "name" : "菅井", "division_docs" : { "name" : "開発2課" } }

division_docsの[]がとれて、{}というオブジェクト型になりました。

文字列型に変換

次にオブジェクト型を文字列型に変換します。

オブジェクト型に変換したデータに対して$groupを使い_id(集計キー)にe_id(従業員ID)を指定します。

e_idはユニークなので集計されません。

さらに表示したいフィールドに何らかの集計関数(maxなど)を使って、オブジェクト型から文字列型に変換します。

[Mongoシェル]

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
> db.employee.aggregate([
{$lookup:{
from: "division",
localField:"k_id",
foreignField:"k_id",
as: "division_docs"
}},
{$project:{
"_id":0,
"e_id":1,
"name":1,
"division_docs.name":1
}},
{$unwind:"$division_docs"},
{$group:{
_id:"$e_id",
employeeName:{$max:"$name"},
divisionName:{$max:"$division_docs.name"}
}}
])
{ "_id" : "emp002", "employeeName" : "生駒", "divisionName" : "企画課" }
{ "_id" : "emp001", "employeeName" : "高山", "divisionName" : "総務課" }
{ "_id" : "emp004", "employeeName" : "与田", "divisionName" : "開発2課" }
{ "_id" : "emp006", "employeeName" : "菅井", "divisionName" : "開発2課" }
{ "_id" : "emp005", "employeeName" : "松田", "divisionName" : "開発1課" }
{ "_id" : "emp003", "employeeName" : "嘉喜", "divisionName" : "開発1課" }

結合した課コレクションの課の名称(division_docs.name)を、オブジェクト型から文字列型に変換することができました。

少々強引な方法なので、アプリケーション側で処理した方が楽に展開できるかもしれません。

Pythonで操作

上記の集計処理をPythonで行うと、次のようになります。

[ソースコード]

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
import pymongo
from pymongo import MongoClient

# MongoDB操作用のインスタンスを作成
client = MongoClient() # [IPとポートを指定する場合] MongoClient('10.200.243.203', 27017')

# データベースの取得
db1 = client.db1

# コレクションの結合(オブジェクト型に展開)
docs = db1.employee.aggregate([
{'$lookup':{
'from': 'division',
'localField':'k_id',
'foreignField':'k_id',
'as': 'division_docs'
}},
{'$project':{
'_id':0,
'name':1,
'division_docs.name':1
}},
{'$unwind':'$division_docs'}
])
for doc in docs:
print(doc)

# コレクションの結合(文字列型に展開)
docs = db1.employee.aggregate([
{'$lookup':{
'from': 'division',
'localField':'k_id',
'foreignField':'k_id',
'as': 'division_docs'
}},
{'$project':{
'_id':0,
'e_id':1,
'name':1,
'division_docs.name':1
}},
{'$unwind':'$division_docs'},
{'$group':{
'_id':'$e_id',
'employeeName':{'$max':'$name'},
'divisionName':{'$max':'$division_docs.name'}
}}
])
for doc in docs:
print(doc)

次回は、コレクションの二重結合を行います。

MongoDB(27) - 集計処理(aggregate)⑧コレクション結合

今回は、コレクションの結合を行います。

サンプルデータ

以前用意した会社の部、課、従業員データを使用します。

集計処理(aggregate)①データ準備 - https://ailog.site/2021/09/02/2021/0902/

コレクションの結合

$lookupを使うと、コレクションの結合を行うことができます。

従業員コレクション(employee)と課コレクション(division)を結合します。

設定値の意味は下記の通りです。

  • from
    結合先のコレクション名
  • localField
    結合元のフィールド名
  • foreignField
    結合先のフィールド名
  • as
    結合先コレクションの別名

[Mongoシェル]

1
2
3
4
5
6
7
8
9
10
11
12
13
14
> db.employee.aggregate([
{$lookup:{
from: "division",
localField:"k_id",
foreignField:"k_id",
as: "division_docs"
}}
])
{ "_id" : ObjectId("612f07f568110fe533ed9d21"), "e_id" : "emp001", "k_id" : "ka1", "p_id" : "po1", "name" : "高山", "age" : 31, "salary" : 400000, "division_docs" : [ { "_id" : ObjectId("612f07b568110fe533ed9d19"), "k_id" : "ka1", "b_id" : "bu1", "name" : "総務課" } ] }
{ "_id" : ObjectId("612f07f568110fe533ed9d22"), "e_id" : "emp002", "k_id" : "ka2", "p_id" : "po2", "name" : "生駒", "age" : 37, "salary" : 250000, "division_docs" : [ { "_id" : ObjectId("612f07b568110fe533ed9d1a"), "k_id" : "ka2", "b_id" : "bu2", "name" : "企画課" } ] }
{ "_id" : ObjectId("612f07f568110fe533ed9d23"), "e_id" : "emp003", "k_id" : "ka3", "p_id" : "po3", "name" : "嘉喜", "age" : 23, "salary" : 200000, "division_docs" : [ { "_id" : ObjectId("612f07b568110fe533ed9d1b"), "k_id" : "ka3", "b_id" : "bu3", "name" : "開発1課" } ] }
{ "_id" : ObjectId("612f07f568110fe533ed9d24"), "e_id" : "emp004", "k_id" : "ka4", "p_id" : "po4", "name" : "与田", "age" : 33, "salary" : 100000, "division_docs" : [ { "_id" : ObjectId("612f07b568110fe533ed9d1c"), "k_id" : "ka4", "b_id" : "bu3", "name" : "開発2課" } ] }
{ "_id" : ObjectId("612f07f568110fe533ed9d25"), "e_id" : "emp005", "k_id" : "ka3", "p_id" : "po4", "name" : "松田", "age" : 35, "salary" : 550000, "division_docs" : [ { "_id" : ObjectId("612f07b568110fe533ed9d1b"), "k_id" : "ka3", "b_id" : "bu3", "name" : "開発1課" } ] }
{ "_id" : ObjectId("612f07f568110fe533ed9d26"), "e_id" : "emp006", "k_id" : "ka4", "p_id" : "po4", "name" : "菅井", "age" : 45, "salary" : 120000, "division_docs" : [ { "_id" : ObjectId("612f07b568110fe533ed9d1c"), "k_id" : "ka4", "b_id" : "bu3", "name" : "開発2課" } ] }

“division_docs”という配列のデータが、結合したコレクションから取得したデータになります。

結合したコレクションの表示フィールドを絞る

$projectを使うと、結合したコレクションの表示フィールドを絞って表示することができます。

_idを非表示にして、従業員コレクションのnameと課コレクションのnameだけを表示してみます。

[Mongoシェル]

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
> db.employee.aggregate([
{$lookup:{
from: "division",
localField:"k_id",
foreignField:"k_id",
as: "division_docs"
}},
{$project:{
"_id":0,
"name":1,
"division_docs.name":1
}}
])
{ "name" : "高山", "division_docs" : [ { "name" : "総務課" } ] }
{ "name" : "生駒", "division_docs" : [ { "name" : "企画課" } ] }
{ "name" : "嘉喜", "division_docs" : [ { "name" : "開発1課" } ] }
{ "name" : "与田", "division_docs" : [ { "name" : "開発2課" } ] }
{ "name" : "松田", "division_docs" : [ { "name" : "開発1課" } ] }
{ "name" : "菅井", "division_docs" : [ { "name" : "開発2課" } ] }

指定した通りのフィールドを表示することができました。

Pythonで操作

上記の集計処理をPythonで行うと、次のようになります。

[ソースコード]

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
import pymongo
from pymongo import MongoClient

# MongoDB操作用のインスタンスを作成
client = MongoClient() # [IPとポートを指定する場合] MongoClient('10.200.243.203', 27017')

# データベースの取得
db1 = client.db1

# コレクションの結合
docs = db1.employee.aggregate([
{'$lookup':{
'from': 'division',
'localField':'k_id',
'foreignField':'k_id',
'as': 'division_docs'
}}
])
for doc in docs:
print(doc)

# 結合したコレクションの表示フィールドを絞る
docs = db1.employee.aggregate([
{'$lookup':{
'from': 'division',
'localField':'k_id',
'foreignField':'k_id',
'as': 'division_docs'
}},
{'$project':{
'_id':0,
'name':1,
'division_docs.name':1
}}
])
for doc in docs:
print(doc)

次回は、結合したコレクションをオブジェクト型と文字列型に展開します。

MongoDB(26) - 集計処理(aggregate)⑦データ数のカウント

今回は、データ数のカウントを行います。

サンプルデータ

以前用意した会社の部、課、従業員データを使用します。

集計処理(aggregate)①データ準備 - https://ailog.site/2021/09/02/2021/0902/

データ数のカウント

データ数をカウントする場合は、$countを使います。

$countには表示名を指定します。

[Mongoシェル]

1
2
3
4
> db.employee.aggregate([
{$count: "employee_count"}
])
{ "employee_count" : 6 }

従業員コレクション(employee)全体のデータ数をカウントできました。

条件を指定してデータ数のカウント

$matchに検索条件を指定すると、条件を指定してのデータ数カウントができます。

30歳以上の従業員数をカウントする場合は、以下のようになります。

[Mongoシェル]

1
2
3
4
5
> db.employee.aggregate([
{$match: {age: {$gte:30}}},
{$count: "employee_count"}
])
{ "employee_count" : 5 }

グループごとのカウント

$countでは、グループごとのカウントを行うことができません。

$group$sumを使うことでグループごとのカウントを行うことができます。

ポイントは{$sum:1}とすることです。

[Mongoシェル]

1
2
3
4
5
6
7
> db.employee.aggregate([
{$group: {_id:"$k_id", employee_count:{$sum:1}}}
])
{ "_id" : "ka2", "employee_count" : 1 }
{ "_id" : "ka3", "employee_count" : 2 }
{ "_id" : "ka4", "employee_count" : 2 }
{ "_id" : "ka1", "employee_count" : 1 }

課ごとの従業員数をカウントすることができました。

Pythonで操作

上記の集計処理をPythonで行うと、次のようになります。

[ソースコード]

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
import pymongo
from pymongo import MongoClient

# MongoDB操作用のインスタンスを作成
client = MongoClient() # [IPとポートを指定する場合] MongoClient('10.200.243.203', 27017')

# データベースの取得
db1 = client.db1

# コレクション全体のカウント(従業員数)
docs = db1.employee.aggregate([
{'$count': 'employee_count'}
])
for doc in docs:
print(doc)

# 30歳以上の従業員数をカウント
docs = db1.employee.aggregate([
{'$match': {'age': {'$gte':30}}},
{'$count': 'employee_count'}
])
for doc in docs:
print(doc)

# 課ごとの従業員数をカウント
docs = db1.employee.aggregate([
{'$group': {'_id':'$k_id', 'employee_count':{'$sum':1}}}
])
for doc in docs:
print(doc)

次回は、コレクションの結合を行います。

MongoDB(25) - 集計処理(aggregate)⑥コレクション全体の集計

今回は、コレクション全体の集計を行います。

サンプルデータ

以前用意した会社の部、課、従業員データを使用します。

集計処理(aggregate)①データ準備 - https://ailog.site/2021/09/02/2021/0902/

コレクション全体の集計

$groupを使って、コレクション全体の集計を行うことができます。

コレクション全体の集計を行うためには_idにnullを指定します。

[Mongoシェル]

1
2
3
4
> db.employee.aggregate([
... {$group: {_id:null, total:{$sum:"$salary"}}}
... ])
{ "_id" : null, "total" : 1620000 }

従業員コレクション(employee)全体の給料合計を集計することができました。

Pythonで操作

上記の集計処理をPythonで行うと、次のようになります。

pythonではnullの代わりにNoneを指定します。

[ソースコード]

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
import pymongo
from pymongo import MongoClient

# MongoDB操作用のインスタンスを作成
client = MongoClient() # [IPとポートを指定する場合] MongoClient('10.200.243.203', 27017')

# データベースの取得
db1 = client.db1

# コレクション全体の集計
docs = db1.employee.aggregate([
{'$group': {'_id':None, 'total':{'$sum':'$salary'}}}
])
for doc in docs:
print(doc)

次回は、データ数のカウントを行います。

MongoDB(24) - 集計処理(aggregate)⑤最大値・最小値・平均値の集計

今回は、最大値・最小値・平均値の集計を行います。

サンプルデータ

以前用意した会社の部、課、従業員データを使用します。

集計処理(aggregate)①データ準備 - https://ailog.site/2021/09/02/2021/0902/

最大値取得

$maxを使うと、最大値を取得することができます。

[Mongoシェル]

1
2
3
4
5
6
7
> db.employee.aggregate([
{$group: {_id:"$k_id", salary_max:{$max:"$salary"}}}
])
{ "_id" : "ka1", "salary_max" : 400000 }
{ "_id" : "ka3", "salary_max" : 550000 }
{ "_id" : "ka4", "salary_max" : 120000 }
{ "_id" : "ka2", "salary_max" : 250000 }

最小値取得

$minを使うと、最小値を取得することができます。

[Mongoシェル]

1
2
3
4
5
6
7
> db.employee.aggregate([
{$group: {_id:"$k_id", salary_min:{$min:"$salary"}}}
])
{ "_id" : "ka1", "salary_min" : 400000 }
{ "_id" : "ka3", "salary_min" : 200000 }
{ "_id" : "ka4", "salary_min" : 100000 }
{ "_id" : "ka2", "salary_min" : 250000 }

平均値取得

$avgを使うと、平均値を取得することができます。

[Mongoシェル]

1
2
3
4
5
6
7
> db.employee.aggregate([
{$group: {_id:"$k_id", salary_avg:{$avg:"$salary"}}}
])
{ "_id" : "ka1", "salary_avg" : 400000 }
{ "_id" : "ka2", "salary_avg" : 250000 }
{ "_id" : "ka3", "salary_avg" : 375000 }
{ "_id" : "ka4", "salary_avg" : 110000 }

複数の集計を同時に行う

$groupの後にフィールドを追加していくことで、複数の集計を同時に行うことができます。

[Mongoシェル]

1
2
3
4
5
6
7
8
9
> db.employee.aggregate([
{$group: {_id:"$k_id", salary_max:{$max:"$salary"},
salary_min:{$min:"$salary"},
salary_avg:{$avg:"$salary"}}}
])
{ "_id" : "ka1", "salary_max" : 400000, "salary_min" : 400000, "salary_avg" : 400000 }
{ "_id" : "ka2", "salary_max" : 250000, "salary_min" : 250000, "salary_avg" : 250000 }
{ "_id" : "ka3", "salary_max" : 550000, "salary_min" : 200000, "salary_avg" : 375000 }
{ "_id" : "ka4", "salary_max" : 120000, "salary_min" : 100000, "salary_avg" : 110000 }

Pythonで操作

上記の集計処理をPythonで行うと、次のようになります。

[ソースコード]

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
import pymongo
from pymongo import MongoClient

# MongoDB操作用のインスタンスを作成
client = MongoClient() # [IPとポートを指定する場合] MongoClient('10.200.243.203', 27017')

# データベースの取得
db1 = client.db1

# 最大値を取得
docs = db1.employee.aggregate([
{'$group': {'_id':'$k_id', 'salary_max':{'$max':'$salary'}}}
])
for doc in docs:
print(doc)

# 最小値を取得
docs = db1.employee.aggregate([
{'$group': {'_id':'$k_id', 'salary_min':{'$min':'$salary'}}}
])
for doc in docs:
print(doc)

# 平均値を取得
docs = db1.employee.aggregate([
{'$group': {'_id':'$k_id', 'salary_avg':{'$avg':'$salary'}}}
])
for doc in docs:
print(doc)

# 最大値・最小値・平均値を取得
docs = db1.employee.aggregate([
{'$group': {'_id':'$k_id','salary_max':{'$max':'$salary'},
'salary_min':{'$min':'$salary'},
'salary_avg':{'$avg':'$salary'}}}
])
for doc in docs:
print(doc)

次回は、コレクション全体の集計を行います。

MongoDB(23) - 集計処理(aggregate)④集計前後に検索

今回は、集計の前後に検索を行ってみます。

サンプルデータ

以前用意した会社の部、課、従業員データを使用します。

集計処理(aggregate)①データ準備 - https://ailog.site/2021/09/02/2021/0902/

集計後に検索

集計後に検索を行います。

具体的には①課ごとに給料合計を集計し、②総務課を抽出します。

groupにフィールドを指定する場合はフィールド名の先頭に$を付けますが、matchにフィールドを指定する場合はフィールド名の先頭に$をつける必要はありません。

[Mongoシェル]

1
2
3
4
5
6
> db.employee.aggregate([
{$group: {_id:"$k_id", salary_total:{$sum:"$salary"}}},
{$match: {_id:"ka1"}},
])

> { "_id" : "ka1", "salary_total" : 400000 }

集計結果への検索を行うことができました。

集計の前後に検索

集計前と集計後に検索を行います。

具体的には①30歳以上の従業員を検索し、②課ごとに給料合計を集計し、③開発1課を抽出します。

[Mongoシェル]

1
2
3
4
5
6
7
>  db.employee.aggregate([
{$match: {age:{$gte: 30}}},
{$group: {_id:"$k_id", salary_total:{$sum:"$salary"}}},
{$match: {_id:"ka3"}},
])

> { "_id" : "ka3", "salary_total" : 550000 }

集計の前と後に検索を行うことができました。

Pythonで操作

上記の集計処理をPythonで行うと、次のようになります。

[ソースコード]

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
import pymongo
from pymongo import MongoClient

# MongoDB操作用のインスタンスを作成
client = MongoClient() # [IPとポートを指定する場合] MongoClient('10.200.243.203', 27017')

# データベースの取得
db1 = client.db1

# ①課ごとに給料合計を集計
# ②総務課を抽出
docs = db1.employee.aggregate([
{'$group':{'_id':'$k_id', 'salary_total':{'$sum':'$salary'}}},
{'$match': {'_id': 'ka1'}}
])
for doc in docs:
print(doc)

# ①30歳以上の従業員
# ②課ごとに給料合計を集計
# ③開発1課を抽出
docs = db1.employee.aggregate([
{'$match': {'age': {'$gte':30}}},
{'$group':{'_id':'$k_id', 'salary_total':{'$sum':'$salary'}}},
{'$match': {'_id': 'ka3'}}
])
for doc in docs:
print(doc)

次回は、最大値・最小値・平均値の集計を行います。


Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×