Blame - mm/page_cgroup.c - kernel/linux-linaro-stable.git

blob: 384518e5f6eb0eb8608133760224e0b4131e9462 [file] [log] [blame]

KAMEZAWA Hiroyuki	52d4b9a	2008-10-18 20:28:16 -0700	[diff] [blame]	1	#include <linux/mm.h>
				2	#include <linux/mmzone.h>
				3	#include <linux/bootmem.h>
				4	#include <linux/bit_spinlock.h>
				5	#include <linux/page_cgroup.h>
				6	#include <linux/hash.h>
KAMEZAWA Hiroyuki	94b6da5	2008-10-22 14:15:05 -0700	[diff] [blame]	7	#include <linux/slab.h>
KAMEZAWA Hiroyuki	52d4b9a	2008-10-18 20:28:16 -0700	[diff] [blame]	8	#include <linux/memory.h>
Paul Mundt	4c821042	2008-10-22 14:14:58 -0700	[diff] [blame]	9	#include <linux/vmalloc.h>
KAMEZAWA Hiroyuki	94b6da5	2008-10-22 14:15:05 -0700	[diff] [blame]	10	#include <linux/cgroup.h>
KAMEZAWA Hiroyuki	27a7faa	2009-01-07 18:07:58 -0800	[diff] [blame]	11	#include <linux/swapops.h>
Catalin Marinas	7952f98	2010-07-19 11:54:14 +0100	[diff] [blame]	12	#include <linux/kmemleak.h>
KAMEZAWA Hiroyuki	52d4b9a	2008-10-18 20:28:16 -0700	[diff] [blame]	13
KAMEZAWA Hiroyuki	52d4b9a	2008-10-18 20:28:16 -0700	[diff] [blame]	14	static unsigned long total_usage;
				15
Thomas Gleixner	e6d50c4	2009-08-19 09:56:42 +0200	[diff] [blame]	16	static void page_cgroup_lock_init(struct page_cgroup *pc, int nr_pages)
				17	{
				18	#ifdef CONFIG_PREEMPT_RT_BASE
				19	for (; nr_pages; nr_pages--, pc++)
				20	spin_lock_init(&pc->pcg_lock);
				21	#endif
				22	}
				23
KAMEZAWA Hiroyuki	52d4b9a	2008-10-18 20:28:16 -0700	[diff] [blame]	24	#if !defined(CONFIG_SPARSEMEM)
				25
				26
Al Viro	3116848	2008-11-22 17:33:24 +0000	[diff] [blame]	27	void __meminit pgdat_page_cgroup_init(struct pglist_data *pgdat)
KAMEZAWA Hiroyuki	52d4b9a	2008-10-18 20:28:16 -0700	[diff] [blame]	28	{
				29	pgdat->node_page_cgroup = NULL;
				30	}
				31
				32	struct page_cgroup lookup_page_cgroup(struct page page)
				33	{
				34	unsigned long pfn = page_to_pfn(page);
				35	unsigned long offset;
				36	struct page_cgroup *base;
				37
				38	base = NODE_DATA(page_to_nid(page))->node_page_cgroup;
Johannes Weiner	00c54c0	2012-01-12 17:18:40 -0800	[diff] [blame]	39	#ifdef CONFIG_DEBUG_VM
				40	/*
				41	* The sanity checks the page allocator does upon freeing a
				42	* page can reach here before the page_cgroup arrays are
				43	* allocated when feeding a range of pages to the allocator
				44	* for the first time during bootup or memory hotplug.
				45	*/
KAMEZAWA Hiroyuki	52d4b9a	2008-10-18 20:28:16 -0700	[diff] [blame]	46	if (unlikely(!base))
				47	return NULL;
Johannes Weiner	00c54c0	2012-01-12 17:18:40 -0800	[diff] [blame]	48	#endif
KAMEZAWA Hiroyuki	52d4b9a	2008-10-18 20:28:16 -0700	[diff] [blame]	49	offset = pfn - NODE_DATA(page_to_nid(page))->node_start_pfn;
				50	return base + offset;
				51	}
				52
				53	static int __init alloc_node_page_cgroup(int nid)
				54	{
Johannes Weiner	6b208e3	2012-01-12 17:18:18 -0800	[diff] [blame]	55	struct page_cgroup *base;
KAMEZAWA Hiroyuki	52d4b9a	2008-10-18 20:28:16 -0700	[diff] [blame]	56	unsigned long table_size;
Johannes Weiner	6b208e3	2012-01-12 17:18:18 -0800	[diff] [blame]	57	unsigned long nr_pages;
KAMEZAWA Hiroyuki	52d4b9a	2008-10-18 20:28:16 -0700	[diff] [blame]	58
KAMEZAWA Hiroyuki	52d4b9a	2008-10-18 20:28:16 -0700	[diff] [blame]	59	nr_pages = NODE_DATA(nid)->node_spanned_pages;
KAMEZAWA Hiroyuki	653d22c	2008-12-09 13:14:20 -0800	[diff] [blame]	60	if (!nr_pages)
				61	return 0;
				62
KAMEZAWA Hiroyuki	52d4b9a	2008-10-18 20:28:16 -0700	[diff] [blame]	63	table_size = sizeof(struct page_cgroup) * nr_pages;
KAMEZAWA Hiroyuki	ca371c0	2009-06-12 10:33:53 +0300	[diff] [blame]	64
				65	base = __alloc_bootmem_node_nopanic(NODE_DATA(nid),
				66	table_size, PAGE_SIZE, __pa(MAX_DMA_ADDRESS));
				67	if (!base)
KAMEZAWA Hiroyuki	52d4b9a	2008-10-18 20:28:16 -0700	[diff] [blame]	68	return -ENOMEM;
KAMEZAWA Hiroyuki	52d4b9a	2008-10-18 20:28:16 -0700	[diff] [blame]	69	NODE_DATA(nid)->node_page_cgroup = base;
				70	total_usage += table_size;
Thomas Gleixner	e6d50c4	2009-08-19 09:56:42 +0200	[diff] [blame]	71	page_cgroup_lock_init(base, nr_pages);
KAMEZAWA Hiroyuki	52d4b9a	2008-10-18 20:28:16 -0700	[diff] [blame]	72	return 0;
				73	}
				74
KAMEZAWA Hiroyuki	ca371c0	2009-06-12 10:33:53 +0300	[diff] [blame]	75	void __init page_cgroup_init_flatmem(void)
KAMEZAWA Hiroyuki	52d4b9a	2008-10-18 20:28:16 -0700	[diff] [blame]	76	{
				77
				78	int nid, fail;
				79
Hirokazu Takahashi	f8d66542	2009-01-07 18:08:02 -0800	[diff] [blame]	80	if (mem_cgroup_disabled())
KAMEZAWA Hiroyuki	94b6da5	2008-10-22 14:15:05 -0700	[diff] [blame]	81	return;
				82
KAMEZAWA Hiroyuki	52d4b9a	2008-10-18 20:28:16 -0700	[diff] [blame]	83	for_each_online_node(nid) {
				84	fail = alloc_node_page_cgroup(nid);
				85	if (fail)
				86	goto fail;
				87	}
				88	printk(KERN_INFO "allocated %ld bytes of page_cgroup\n", total_usage);
Randy Dunlap	8ca739e	2009-06-17 16:26:32 -0700	[diff] [blame]	89	printk(KERN_INFO "please try 'cgroup_disable=memory' option if you"
				90	" don't want memory cgroups\n");
KAMEZAWA Hiroyuki	52d4b9a	2008-10-18 20:28:16 -0700	[diff] [blame]	91	return;
				92	fail:
Randy Dunlap	8ca739e	2009-06-17 16:26:32 -0700	[diff] [blame]	93	printk(KERN_CRIT "allocation of page_cgroup failed.\n");
				94	printk(KERN_CRIT "please try 'cgroup_disable=memory' boot option\n");
KAMEZAWA Hiroyuki	52d4b9a	2008-10-18 20:28:16 -0700	[diff] [blame]	95	panic("Out of memory");
				96	}
				97
				98	#else /* CONFIG_FLAT_NODE_MEM_MAP */
				99
				100	struct page_cgroup lookup_page_cgroup(struct page page)
				101	{
				102	unsigned long pfn = page_to_pfn(page);
				103	struct mem_section *section = __pfn_to_section(pfn);
Johannes Weiner	00c54c0	2012-01-12 17:18:40 -0800	[diff] [blame]	104	#ifdef CONFIG_DEBUG_VM
				105	/*
				106	* The sanity checks the page allocator does upon freeing a
				107	* page can reach here before the page_cgroup arrays are
				108	* allocated when feeding a range of pages to the allocator
				109	* for the first time during bootup or memory hotplug.
				110	*/
Balbir Singh	d69b042	2009-06-17 16:26:34 -0700	[diff] [blame]	111	if (!section->page_cgroup)
				112	return NULL;
Johannes Weiner	00c54c0	2012-01-12 17:18:40 -0800	[diff] [blame]	113	#endif
KAMEZAWA Hiroyuki	52d4b9a	2008-10-18 20:28:16 -0700	[diff] [blame]	114	return section->page_cgroup + pfn;
				115	}
				116
Namhyung Kim	268433b	2011-05-26 16:25:29 -0700	[diff] [blame]	117	static void *__meminit alloc_page_cgroup(size_t size, int nid)
Michal Hocko	dde79e0	2011-03-23 16:42:40 -0700	[diff] [blame]	118	{
Johannes Weiner	6b208e3	2012-01-12 17:18:18 -0800	[diff] [blame]	119	gfp_t flags = GFP_KERNEL \| __GFP_ZERO \| __GFP_NOWARN;
Michal Hocko	dde79e0	2011-03-23 16:42:40 -0700	[diff] [blame]	120	void *addr = NULL;
				121
Steven Rostedt	ff7ee93	2011-11-02 13:38:11 -0700	[diff] [blame]	122	addr = alloc_pages_exact_nid(nid, size, flags);
				123	if (addr) {
				124	kmemleak_alloc(addr, size, 1, flags);
Michal Hocko	dde79e0	2011-03-23 16:42:40 -0700	[diff] [blame]	125	return addr;
Steven Rostedt	ff7ee93	2011-11-02 13:38:11 -0700	[diff] [blame]	126	}
Michal Hocko	dde79e0	2011-03-23 16:42:40 -0700	[diff] [blame]	127
				128	if (node_state(nid, N_HIGH_MEMORY))
Johannes Weiner	6b208e3	2012-01-12 17:18:18 -0800	[diff] [blame]	129	addr = vzalloc_node(size, nid);
Michal Hocko	dde79e0	2011-03-23 16:42:40 -0700	[diff] [blame]	130	else
Johannes Weiner	6b208e3	2012-01-12 17:18:18 -0800	[diff] [blame]	131	addr = vzalloc(size);
Michal Hocko	dde79e0	2011-03-23 16:42:40 -0700	[diff] [blame]	132
				133	return addr;
				134	}
				135
KAMEZAWA Hiroyuki	37573e8	2011-06-15 15:08:42 -0700	[diff] [blame]	136	static int __meminit init_section_page_cgroup(unsigned long pfn, int nid)
KAMEZAWA Hiroyuki	52d4b9a	2008-10-18 20:28:16 -0700	[diff] [blame]	137	{
Johannes Weiner	6b3ae58	2011-03-23 16:42:30 -0700	[diff] [blame]	138	struct mem_section *section;
Johannes Weiner	6b208e3	2012-01-12 17:18:18 -0800	[diff] [blame]	139	struct page_cgroup *base;
KAMEZAWA Hiroyuki	52d4b9a	2008-10-18 20:28:16 -0700	[diff] [blame]	140	unsigned long table_size;
KAMEZAWA Hiroyuki	52d4b9a	2008-10-18 20:28:16 -0700	[diff] [blame]	141
Johannes Weiner	6b208e3	2012-01-12 17:18:18 -0800	[diff] [blame]	142	section = __pfn_to_section(pfn);
Johannes Weiner	6b3ae58	2011-03-23 16:42:30 -0700	[diff] [blame]	143
				144	if (section->page_cgroup)
				145	return 0;
				146
Johannes Weiner	6b3ae58	2011-03-23 16:42:30 -0700	[diff] [blame]	147	table_size = sizeof(struct page_cgroup) * PAGES_PER_SECTION;
Michal Hocko	dde79e0	2011-03-23 16:42:40 -0700	[diff] [blame]	148	base = alloc_page_cgroup(table_size, nid);
				149
Johannes Weiner	6b3ae58	2011-03-23 16:42:30 -0700	[diff] [blame]	150	/*
				151	* The value stored in section->page_cgroup is (base - pfn)
				152	* and it does not point to the memory block allocated above,
				153	* causing kmemleak false positives.
				154	*/
				155	kmemleak_not_leak(base);
KAMEZAWA Hiroyuki	52d4b9a	2008-10-18 20:28:16 -0700	[diff] [blame]	156
				157	if (!base) {
				158	printk(KERN_ERR "page cgroup allocation failure\n");
				159	return -ENOMEM;
				160	}
				161
Thomas Gleixner	e6d50c4	2009-08-19 09:56:42 +0200	[diff] [blame]	162	page_cgroup_lock_init(base, PAGES_PER_SECTION);
				163
KAMEZAWA Hiroyuki	37573e8	2011-06-15 15:08:42 -0700	[diff] [blame]	164	/*
				165	* The passed "pfn" may not be aligned to SECTION. For the calculation
				166	* we need to apply a mask.
				167	*/
				168	pfn &= PAGE_SECTION_MASK;
KAMEZAWA Hiroyuki	52d4b9a	2008-10-18 20:28:16 -0700	[diff] [blame]	169	section->page_cgroup = base - pfn;
				170	total_usage += table_size;
				171	return 0;
				172	}
				173	#ifdef CONFIG_MEMORY_HOTPLUG
Bob Liu	0efc8eb	2012-01-12 17:19:08 -0800	[diff] [blame]	174	static void free_page_cgroup(void *addr)
				175	{
				176	if (is_vmalloc_addr(addr)) {
				177	vfree(addr);
				178	} else {
				179	struct page *page = virt_to_page(addr);
				180	size_t table_size =
				181	sizeof(struct page_cgroup) * PAGES_PER_SECTION;
				182
				183	BUG_ON(PageReserved(page));
Wang Nan	6c8ad60	2014-10-29 14:50:18 -0700	[diff] [blame]	184	kmemleak_free(addr);
Bob Liu	0efc8eb	2012-01-12 17:19:08 -0800	[diff] [blame]	185	free_pages_exact(addr, table_size);
				186	}
				187	}
				188
KAMEZAWA Hiroyuki	52d4b9a	2008-10-18 20:28:16 -0700	[diff] [blame]	189	void __free_page_cgroup(unsigned long pfn)
				190	{
				191	struct mem_section *ms;
				192	struct page_cgroup *base;
				193
				194	ms = __pfn_to_section(pfn);
				195	if (!ms \|\| !ms->page_cgroup)
				196	return;
				197	base = ms->page_cgroup + pfn;
Michal Hocko	dde79e0	2011-03-23 16:42:40 -0700	[diff] [blame]	198	free_page_cgroup(base);
				199	ms->page_cgroup = NULL;
KAMEZAWA Hiroyuki	52d4b9a	2008-10-18 20:28:16 -0700	[diff] [blame]	200	}
				201
Al Viro	3116848	2008-11-22 17:33:24 +0000	[diff] [blame]	202	int __meminit online_page_cgroup(unsigned long start_pfn,
KAMEZAWA Hiroyuki	52d4b9a	2008-10-18 20:28:16 -0700	[diff] [blame]	203	unsigned long nr_pages,
				204	int nid)
				205	{
				206	unsigned long start, end, pfn;
				207	int fail = 0;
				208
Daniel Kiper	1bb36fb	2011-07-25 17:12:13 -0700	[diff] [blame]	209	start = SECTION_ALIGN_DOWN(start_pfn);
				210	end = SECTION_ALIGN_UP(start_pfn + nr_pages);
KAMEZAWA Hiroyuki	52d4b9a	2008-10-18 20:28:16 -0700	[diff] [blame]	211
KAMEZAWA Hiroyuki	37573e8	2011-06-15 15:08:42 -0700	[diff] [blame]	212	if (nid == -1) {
				213	/*
				214	* In this case, "nid" already exists and contains valid memory.
				215	* "start_pfn" passed to us is a pfn which is an arg for
				216	* online__pages(), and start_pfn should exist.
				217	*/
				218	nid = pfn_to_nid(start_pfn);
				219	VM_BUG_ON(!node_state(nid, N_ONLINE));
				220	}
				221
KAMEZAWA Hiroyuki	52d4b9a	2008-10-18 20:28:16 -0700	[diff] [blame]	222	for (pfn = start; !fail && pfn < end; pfn += PAGES_PER_SECTION) {
				223	if (!pfn_present(pfn))
				224	continue;
KAMEZAWA Hiroyuki	37573e8	2011-06-15 15:08:42 -0700	[diff] [blame]	225	fail = init_section_page_cgroup(pfn, nid);
KAMEZAWA Hiroyuki	52d4b9a	2008-10-18 20:28:16 -0700	[diff] [blame]	226	}
				227	if (!fail)
				228	return 0;
				229
				230	/* rollback */
				231	for (pfn = start; pfn < end; pfn += PAGES_PER_SECTION)
				232	__free_page_cgroup(pfn);
				233
				234	return -ENOMEM;
				235	}
				236
Al Viro	3116848	2008-11-22 17:33:24 +0000	[diff] [blame]	237	int __meminit offline_page_cgroup(unsigned long start_pfn,
KAMEZAWA Hiroyuki	52d4b9a	2008-10-18 20:28:16 -0700	[diff] [blame]	238	unsigned long nr_pages, int nid)
				239	{
				240	unsigned long start, end, pfn;
				241
Daniel Kiper	1bb36fb	2011-07-25 17:12:13 -0700	[diff] [blame]	242	start = SECTION_ALIGN_DOWN(start_pfn);
				243	end = SECTION_ALIGN_UP(start_pfn + nr_pages);
KAMEZAWA Hiroyuki	52d4b9a	2008-10-18 20:28:16 -0700	[diff] [blame]	244
				245	for (pfn = start; pfn < end; pfn += PAGES_PER_SECTION)
				246	__free_page_cgroup(pfn);
				247	return 0;
				248
				249	}
				250
Al Viro	3116848	2008-11-22 17:33:24 +0000	[diff] [blame]	251	static int __meminit page_cgroup_callback(struct notifier_block *self,
KAMEZAWA Hiroyuki	52d4b9a	2008-10-18 20:28:16 -0700	[diff] [blame]	252	unsigned long action, void *arg)
				253	{
				254	struct memory_notify *mn = arg;
				255	int ret = 0;
				256	switch (action) {
				257	case MEM_GOING_ONLINE:
				258	ret = online_page_cgroup(mn->start_pfn,
				259	mn->nr_pages, mn->status_change_nid);
				260	break;
KAMEZAWA Hiroyuki	52d4b9a	2008-10-18 20:28:16 -0700	[diff] [blame]	261	case MEM_OFFLINE:
				262	offline_page_cgroup(mn->start_pfn,
				263	mn->nr_pages, mn->status_change_nid);
				264	break;
KAMEZAWA Hiroyuki	dc19f9d	2008-12-01 13:13:48 -0800	[diff] [blame]	265	case MEM_CANCEL_ONLINE:
Wen Congyang	7c72eb3	2012-12-11 16:00:49 -0800	[diff] [blame]	266	offline_page_cgroup(mn->start_pfn,
				267	mn->nr_pages, mn->status_change_nid);
				268	break;
KAMEZAWA Hiroyuki	52d4b9a	2008-10-18 20:28:16 -0700	[diff] [blame]	269	case MEM_GOING_OFFLINE:
				270	break;
				271	case MEM_ONLINE:
				272	case MEM_CANCEL_OFFLINE:
				273	break;
				274	}
KAMEZAWA Hiroyuki	dc19f9d	2008-12-01 13:13:48 -0800	[diff] [blame]	275
Prarit Bhargava	5fda1bd	2011-03-22 16:30:49 -0700	[diff] [blame]	276	return notifier_from_errno(ret);
KAMEZAWA Hiroyuki	52d4b9a	2008-10-18 20:28:16 -0700	[diff] [blame]	277	}
				278
				279	#endif
				280
				281	void __init page_cgroup_init(void)
				282	{
				283	unsigned long pfn;
KAMEZAWA Hiroyuki	37573e8	2011-06-15 15:08:42 -0700	[diff] [blame]	284	int nid;
KAMEZAWA Hiroyuki	52d4b9a	2008-10-18 20:28:16 -0700	[diff] [blame]	285
Hirokazu Takahashi	f8d66542	2009-01-07 18:08:02 -0800	[diff] [blame]	286	if (mem_cgroup_disabled())
KAMEZAWA Hiroyuki	94b6da5	2008-10-22 14:15:05 -0700	[diff] [blame]	287	return;
				288
Lai Jiangshan	31aaea4	2012-12-12 13:51:27 -0800	[diff] [blame]	289	for_each_node_state(nid, N_MEMORY) {
KAMEZAWA Hiroyuki	37573e8	2011-06-15 15:08:42 -0700	[diff] [blame]	290	unsigned long start_pfn, end_pfn;
				291
				292	start_pfn = node_start_pfn(nid);
				293	end_pfn = node_end_pfn(nid);
				294	/*
				295	* start_pfn and end_pfn may not be aligned to SECTION and the
				296	* page->flags of out of node pages are not initialized. So we
				297	* scan [start_pfn, the biggest section's pfn < end_pfn) here.
				298	*/
				299	for (pfn = start_pfn;
				300	pfn < end_pfn;
				301	pfn = ALIGN(pfn + 1, PAGES_PER_SECTION)) {
				302
				303	if (!pfn_valid(pfn))
				304	continue;
				305	/*
				306	* Nodes's pfns can be overlapping.
				307	* We know some arch can have a nodes layout such as
				308	* -------------pfn-------------->
				309	* N0 \| N1 \| N2 \| N0 \| N1 \| N2\|....
				310	*/
				311	if (pfn_to_nid(pfn) != nid)
				312	continue;
				313	if (init_section_page_cgroup(pfn, nid))
				314	goto oom;
				315	}
KAMEZAWA Hiroyuki	52d4b9a	2008-10-18 20:28:16 -0700	[diff] [blame]	316	}
KAMEZAWA Hiroyuki	37573e8	2011-06-15 15:08:42 -0700	[diff] [blame]	317	hotplug_memory_notifier(page_cgroup_callback, 0);
KAMEZAWA Hiroyuki	52d4b9a	2008-10-18 20:28:16 -0700	[diff] [blame]	318	printk(KERN_INFO "allocated %ld bytes of page_cgroup\n", total_usage);
KAMEZAWA Hiroyuki	37573e8	2011-06-15 15:08:42 -0700	[diff] [blame]	319	printk(KERN_INFO "please try 'cgroup_disable=memory' option if you "
				320	"don't want memory cgroups\n");
				321	return;
				322	oom:
				323	printk(KERN_CRIT "try 'cgroup_disable=memory' boot option\n");
				324	panic("Out of memory");
KAMEZAWA Hiroyuki	52d4b9a	2008-10-18 20:28:16 -0700	[diff] [blame]	325	}
				326
Al Viro	3116848	2008-11-22 17:33:24 +0000	[diff] [blame]	327	void __meminit pgdat_page_cgroup_init(struct pglist_data *pgdat)
KAMEZAWA Hiroyuki	52d4b9a	2008-10-18 20:28:16 -0700	[diff] [blame]	328	{
				329	return;
				330	}
				331
				332	#endif
KAMEZAWA Hiroyuki	27a7faa	2009-01-07 18:07:58 -0800	[diff] [blame]	333
				334
Andrew Morton	c255a45	2012-07-31 16:43:02 -0700	[diff] [blame]	335	#ifdef CONFIG_MEMCG_SWAP
KAMEZAWA Hiroyuki	27a7faa	2009-01-07 18:07:58 -0800	[diff] [blame]	336
				337	static DEFINE_MUTEX(swap_cgroup_mutex);
				338	struct swap_cgroup_ctrl {
				339	struct page **map;
				340	unsigned long length;
KAMEZAWA Hiroyuki	e9e58a4	2010-03-15 00:34:57 -0400	[diff] [blame]	341	spinlock_t lock;
KAMEZAWA Hiroyuki	27a7faa	2009-01-07 18:07:58 -0800	[diff] [blame]	342	};
				343
H Hartley Sweeten	61600f5	2011-11-02 13:38:36 -0700	[diff] [blame]	344	static struct swap_cgroup_ctrl swap_cgroup_ctrl[MAX_SWAPFILES];
KAMEZAWA Hiroyuki	27a7faa	2009-01-07 18:07:58 -0800	[diff] [blame]	345
KAMEZAWA Hiroyuki	27a7faa	2009-01-07 18:07:58 -0800	[diff] [blame]	346	struct swap_cgroup {
KAMEZAWA Hiroyuki	a3b2d69	2009-04-02 16:57:45 -0700	[diff] [blame]	347	unsigned short id;
KAMEZAWA Hiroyuki	27a7faa	2009-01-07 18:07:58 -0800	[diff] [blame]	348	};
				349	#define SC_PER_PAGE (PAGE_SIZE/sizeof(struct swap_cgroup))
KAMEZAWA Hiroyuki	27a7faa	2009-01-07 18:07:58 -0800	[diff] [blame]	350
				351	/*
				352	* SwapCgroup implements "lookup" and "exchange" operations.
				353	* In typical usage, this swap_cgroup is accessed via memcg's charge/uncharge
				354	* against SwapCache. At swap_free(), this is accessed directly from swap.
				355	*
				356	* This means,
				357	* - we have no race in "exchange" when we're accessed via SwapCache because
				358	* SwapCache(and its swp_entry) is under lock.
				359	* - When called via swap_free(), there is no user of this entry and no race.
				360	* Then, we don't need lock around "exchange".
				361	*
				362	* TODO: we can push these buffers out to HIGHMEM.
				363	*/
				364
				365	/*
				366	* allocate buffer for swap_cgroup.
				367	*/
				368	static int swap_cgroup_prepare(int type)
				369	{
				370	struct page *page;
				371	struct swap_cgroup_ctrl *ctrl;
				372	unsigned long idx, max;
				373
KAMEZAWA Hiroyuki	27a7faa	2009-01-07 18:07:58 -0800	[diff] [blame]	374	ctrl = &swap_cgroup_ctrl[type];
				375
				376	for (idx = 0; idx < ctrl->length; idx++) {
				377	page = alloc_page(GFP_KERNEL \| __GFP_ZERO);
				378	if (!page)
				379	goto not_enough_page;
				380	ctrl->map[idx] = page;
				381	}
				382	return 0;
				383	not_enough_page:
				384	max = idx;
				385	for (idx = 0; idx < max; idx++)
				386	__free_page(ctrl->map[idx]);
				387
				388	return -ENOMEM;
				389	}
				390
Bob Liu	9fb4b7c	2012-01-12 17:18:48 -0800	[diff] [blame]	391	static struct swap_cgroup *lookup_swap_cgroup(swp_entry_t ent,
				392	struct swap_cgroup_ctrl **ctrlp)
				393	{
				394	pgoff_t offset = swp_offset(ent);
				395	struct swap_cgroup_ctrl *ctrl;
				396	struct page *mappage;
Hugh Dickins	c09ff08	2012-03-05 20:52:55 -0800	[diff] [blame]	397	struct swap_cgroup *sc;
Bob Liu	9fb4b7c	2012-01-12 17:18:48 -0800	[diff] [blame]	398
				399	ctrl = &swap_cgroup_ctrl[swp_type(ent)];
				400	if (ctrlp)
				401	*ctrlp = ctrl;
				402
				403	mappage = ctrl->map[offset / SC_PER_PAGE];
Hugh Dickins	c09ff08	2012-03-05 20:52:55 -0800	[diff] [blame]	404	sc = page_address(mappage);
				405	return sc + offset % SC_PER_PAGE;
Bob Liu	9fb4b7c	2012-01-12 17:18:48 -0800	[diff] [blame]	406	}
				407
KAMEZAWA Hiroyuki	27a7faa	2009-01-07 18:07:58 -0800	[diff] [blame]	408	/**
Daisuke Nishimura	0249144	2010-03-10 15:22:17 -0800	[diff] [blame]	409	* swap_cgroup_cmpxchg - cmpxchg mem_cgroup's id for this swp_entry.
Wanpeng Li	dad7557	2012-06-20 12:53:01 -0700	[diff] [blame]	410	* @ent: swap entry to be cmpxchged
Daisuke Nishimura	0249144	2010-03-10 15:22:17 -0800	[diff] [blame]	411	* @old: old id
				412	* @new: new id
				413	*
				414	* Returns old id at success, 0 at failure.
Lucas De Marchi	25985ed	2011-03-30 22:57:33 -0300	[diff] [blame]	415	* (There is no mem_cgroup using 0 as its id)
Daisuke Nishimura	0249144	2010-03-10 15:22:17 -0800	[diff] [blame]	416	*/
				417	unsigned short swap_cgroup_cmpxchg(swp_entry_t ent,
				418	unsigned short old, unsigned short new)
				419	{
Daisuke Nishimura	0249144	2010-03-10 15:22:17 -0800	[diff] [blame]	420	struct swap_cgroup_ctrl *ctrl;
Daisuke Nishimura	0249144	2010-03-10 15:22:17 -0800	[diff] [blame]	421	struct swap_cgroup *sc;
KAMEZAWA Hiroyuki	e9e58a4	2010-03-15 00:34:57 -0400	[diff] [blame]	422	unsigned long flags;
				423	unsigned short retval;
Daisuke Nishimura	0249144	2010-03-10 15:22:17 -0800	[diff] [blame]	424
Bob Liu	9fb4b7c	2012-01-12 17:18:48 -0800	[diff] [blame]	425	sc = lookup_swap_cgroup(ent, &ctrl);
Daisuke Nishimura	0249144	2010-03-10 15:22:17 -0800	[diff] [blame]	426
KAMEZAWA Hiroyuki	e9e58a4	2010-03-15 00:34:57 -0400	[diff] [blame]	427	spin_lock_irqsave(&ctrl->lock, flags);
				428	retval = sc->id;
				429	if (retval == old)
				430	sc->id = new;
Daisuke Nishimura	0249144	2010-03-10 15:22:17 -0800	[diff] [blame]	431	else
KAMEZAWA Hiroyuki	e9e58a4	2010-03-15 00:34:57 -0400	[diff] [blame]	432	retval = 0;
				433	spin_unlock_irqrestore(&ctrl->lock, flags);
				434	return retval;
Daisuke Nishimura	0249144	2010-03-10 15:22:17 -0800	[diff] [blame]	435	}
				436
				437	/**
KAMEZAWA Hiroyuki	27a7faa	2009-01-07 18:07:58 -0800	[diff] [blame]	438	* swap_cgroup_record - record mem_cgroup for this swp_entry.
				439	* @ent: swap entry to be recorded into
Wanpeng Li	dad7557	2012-06-20 12:53:01 -0700	[diff] [blame]	440	* @id: mem_cgroup to be recorded
KAMEZAWA Hiroyuki	27a7faa	2009-01-07 18:07:58 -0800	[diff] [blame]	441	*
KAMEZAWA Hiroyuki	a3b2d69	2009-04-02 16:57:45 -0700	[diff] [blame]	442	* Returns old value at success, 0 at failure.
				443	* (Of course, old value can be 0.)
KAMEZAWA Hiroyuki	27a7faa	2009-01-07 18:07:58 -0800	[diff] [blame]	444	*/
KAMEZAWA Hiroyuki	a3b2d69	2009-04-02 16:57:45 -0700	[diff] [blame]	445	unsigned short swap_cgroup_record(swp_entry_t ent, unsigned short id)
KAMEZAWA Hiroyuki	27a7faa	2009-01-07 18:07:58 -0800	[diff] [blame]	446	{
KAMEZAWA Hiroyuki	27a7faa	2009-01-07 18:07:58 -0800	[diff] [blame]	447	struct swap_cgroup_ctrl *ctrl;
KAMEZAWA Hiroyuki	27a7faa	2009-01-07 18:07:58 -0800	[diff] [blame]	448	struct swap_cgroup *sc;
KAMEZAWA Hiroyuki	a3b2d69	2009-04-02 16:57:45 -0700	[diff] [blame]	449	unsigned short old;
KAMEZAWA Hiroyuki	e9e58a4	2010-03-15 00:34:57 -0400	[diff] [blame]	450	unsigned long flags;
KAMEZAWA Hiroyuki	27a7faa	2009-01-07 18:07:58 -0800	[diff] [blame]	451
Bob Liu	9fb4b7c	2012-01-12 17:18:48 -0800	[diff] [blame]	452	sc = lookup_swap_cgroup(ent, &ctrl);
KAMEZAWA Hiroyuki	27a7faa	2009-01-07 18:07:58 -0800	[diff] [blame]	453
KAMEZAWA Hiroyuki	e9e58a4	2010-03-15 00:34:57 -0400	[diff] [blame]	454	spin_lock_irqsave(&ctrl->lock, flags);
				455	old = sc->id;
				456	sc->id = id;
				457	spin_unlock_irqrestore(&ctrl->lock, flags);
KAMEZAWA Hiroyuki	27a7faa	2009-01-07 18:07:58 -0800	[diff] [blame]	458
				459	return old;
				460	}
				461
				462	/**
Bob Liu	9fb4b7c	2012-01-12 17:18:48 -0800	[diff] [blame]	463	* lookup_swap_cgroup_id - lookup mem_cgroup id tied to swap entry
KAMEZAWA Hiroyuki	27a7faa	2009-01-07 18:07:58 -0800	[diff] [blame]	464	* @ent: swap entry to be looked up.
				465	*
KAMEZAWA Hiroyuki	a3b2d69	2009-04-02 16:57:45 -0700	[diff] [blame]	466	* Returns CSS ID of mem_cgroup at success. 0 at failure. (0 is invalid ID)
KAMEZAWA Hiroyuki	27a7faa	2009-01-07 18:07:58 -0800	[diff] [blame]	467	*/
Bob Liu	9fb4b7c	2012-01-12 17:18:48 -0800	[diff] [blame]	468	unsigned short lookup_swap_cgroup_id(swp_entry_t ent)
KAMEZAWA Hiroyuki	27a7faa	2009-01-07 18:07:58 -0800	[diff] [blame]	469	{
Bob Liu	9fb4b7c	2012-01-12 17:18:48 -0800	[diff] [blame]	470	return lookup_swap_cgroup(ent, NULL)->id;
KAMEZAWA Hiroyuki	27a7faa	2009-01-07 18:07:58 -0800	[diff] [blame]	471	}
				472
				473	int swap_cgroup_swapon(int type, unsigned long max_pages)
				474	{
				475	void *array;
				476	unsigned long array_size;
				477	unsigned long length;
				478	struct swap_cgroup_ctrl *ctrl;
				479
				480	if (!do_swap_account)
				481	return 0;
				482
Namhyung Kim	33278f7	2011-05-26 16:25:30 -0700	[diff] [blame]	483	length = DIV_ROUND_UP(max_pages, SC_PER_PAGE);
KAMEZAWA Hiroyuki	27a7faa	2009-01-07 18:07:58 -0800	[diff] [blame]	484	array_size = length * sizeof(void *);
				485
Joe Perches	8c1fec1	2011-05-28 10:36:34 -0700	[diff] [blame]	486	array = vzalloc(array_size);
KAMEZAWA Hiroyuki	27a7faa	2009-01-07 18:07:58 -0800	[diff] [blame]	487	if (!array)
				488	goto nomem;
				489
KAMEZAWA Hiroyuki	27a7faa	2009-01-07 18:07:58 -0800	[diff] [blame]	490	ctrl = &swap_cgroup_ctrl[type];
				491	mutex_lock(&swap_cgroup_mutex);
				492	ctrl->length = length;
				493	ctrl->map = array;
KAMEZAWA Hiroyuki	e9e58a4	2010-03-15 00:34:57 -0400	[diff] [blame]	494	spin_lock_init(&ctrl->lock);
KAMEZAWA Hiroyuki	27a7faa	2009-01-07 18:07:58 -0800	[diff] [blame]	495	if (swap_cgroup_prepare(type)) {
				496	/* memory shortage */
				497	ctrl->map = NULL;
				498	ctrl->length = 0;
KAMEZAWA Hiroyuki	27a7faa	2009-01-07 18:07:58 -0800	[diff] [blame]	499	mutex_unlock(&swap_cgroup_mutex);
Namhyung Kim	6a5b18d	2011-05-26 16:25:31 -0700	[diff] [blame]	500	vfree(array);
KAMEZAWA Hiroyuki	27a7faa	2009-01-07 18:07:58 -0800	[diff] [blame]	501	goto nomem;
				502	}
				503	mutex_unlock(&swap_cgroup_mutex);
				504
KAMEZAWA Hiroyuki	27a7faa	2009-01-07 18:07:58 -0800	[diff] [blame]	505	return 0;
				506	nomem:
				507	printk(KERN_INFO "couldn't allocate enough memory for swap_cgroup.\n");
				508	printk(KERN_INFO
WANG Cong	00a66d2	2011-07-25 17:12:12 -0700	[diff] [blame]	509	"swap_cgroup can be disabled by swapaccount=0 boot option\n");
KAMEZAWA Hiroyuki	27a7faa	2009-01-07 18:07:58 -0800	[diff] [blame]	510	return -ENOMEM;
				511	}
				512
				513	void swap_cgroup_swapoff(int type)
				514	{
Namhyung Kim	6a5b18d	2011-05-26 16:25:31 -0700	[diff] [blame]	515	struct page **map;
				516	unsigned long i, length;
KAMEZAWA Hiroyuki	27a7faa	2009-01-07 18:07:58 -0800	[diff] [blame]	517	struct swap_cgroup_ctrl *ctrl;
				518
				519	if (!do_swap_account)
				520	return;
				521
				522	mutex_lock(&swap_cgroup_mutex);
				523	ctrl = &swap_cgroup_ctrl[type];
Namhyung Kim	6a5b18d	2011-05-26 16:25:31 -0700	[diff] [blame]	524	map = ctrl->map;
				525	length = ctrl->length;
				526	ctrl->map = NULL;
				527	ctrl->length = 0;
				528	mutex_unlock(&swap_cgroup_mutex);
				529
				530	if (map) {
				531	for (i = 0; i < length; i++) {
				532	struct page *page = map[i];
KAMEZAWA Hiroyuki	27a7faa	2009-01-07 18:07:58 -0800	[diff] [blame]	533	if (page)
				534	__free_page(page);
				535	}
Namhyung Kim	6a5b18d	2011-05-26 16:25:31 -0700	[diff] [blame]	536	vfree(map);
KAMEZAWA Hiroyuki	27a7faa	2009-01-07 18:07:58 -0800	[diff] [blame]	537	}
KAMEZAWA Hiroyuki	27a7faa	2009-01-07 18:07:58 -0800	[diff] [blame]	538	}
				539
				540	#endif