Windows x64 栈帧结构
一、前言Windows 64位下函数调用约定变为了快速调用约定,前4个参数采用rcx、rdx、r8、r9传递,多余的参数从右向左依次使用堆栈传递。本次文章是对于Windows 64位下函数调用的分析,分析各种参数情况下调用者和被调用函数的栈结构。
二、4参数时函数调用流程
64位下函数的调用约定全部用FASTCALL,就是前4个参数依次用rcx,rdx,r8,r9传递,多余的参数从右至左压参。
1)测试用例
我们先用c语言写一个调用4参数的函数
int Add(int a,int b,int c,int d);
int _tmain(int argc, _TCHAR* argv[])
{
int a = 0;
Add(1,2,3,4);
return 0;
}
int Add(int a,int b,int c,int d)
{
int xx = a+b+c+d;
int yy = a+b-c-d;
int zz = -a-b+c+d;
return xx;
}
2)分析过程
使用Vs2010 ,64位下调试,打开寄存器窗口,Alt+8 反汇编
①Main中调用Add函数
000000013F931049mov r9d,4
000000013F93104Fmov r8d,3
000000013F931055mov edx,2
000000013F93105Amov ecx,1
000000013F93105Fcall Add (13F931005h) ;指令为 push rip ;RSP-8
; jmp Add
可以看到首先将1,2,3,4放在寄存器中,然后调用call指令,call指令可以分解为将下一条指令压参,然后jmp到函数地址,注意在执行push指令的时候,RSP-8
②Add函数
int Add(int a,int b,int c,int d)
{
000000013F251080mov dword ptr ,r9d
000000013F251085mov dword ptr ,r8d
000000013F25108Amov dword ptr ,edx
000000013F25108Emov dword ptr ,ecx
000000013F251092push rdi ;保存前栈底 RSP-8
000000013F251093sub rsp,10h ;开辟栈区 16字节 RSP-10h
000000013F251097mov rdi,rsp ;新栈帧栈底rdi=rsp
000000013F25109Amov ecx,4 ;循环次数
000000013F25109Fmov eax,0CCCCCCCCh
000000013F2510A4rep stos dword ptr ;将rdi开始赋值eax中的值,循环4次
000000013F2510A6mov ecx,dword ptr ;此处是第一个参数a
int xx = a+b+c+d;
000000013F2510AAmov eax,dword ptr
000000013F2510AEmov ecx,dword ptr
000000013F2510B2add ecx,eax
000000013F2510B4mov eax,ecx
000000013F2510B6add eax,dword ptr
000000013F2510BAadd eax,dword ptr
000000013F2510BEmov dword ptr ,eax;rsp 保存 xx
int yy = a+b-c-d;
000000013F2510C1mov eax,dword ptr
000000013F2510C5mov ecx,dword ptr
000000013F2510C9add ecx,eax
000000013F2510CBmov eax,ecx
000000013F2510CDsub eax,dword ptr
000000013F2510D1sub eax,dword ptr
000000013F2510D5mov dword ptr ,eax ;rsp+4 保存yy
int zz = -a-b+c+d;
000000013F2510D9mov eax,dword ptr
000000013F2510DDneg eax
000000013F2510DFsub eax,dword ptr
000000013F2510E3add eax,dword ptr
000000013F2510E7add eax,dword ptr
000000013F2510EBmov dword ptr ,eax//rsp+8 保存
return xx;
000000013F2510EFmov eax,dword ptr ;将返回值保存在eax寄存器中
}
000000013F2510F2add rsp,10h ;恢复开辟的栈区
000000013F2510F6pop rdi ;恢复前栈帧的栈底
000000013F2510F7ret ;pop rip将之前保存的call下一条指令弹出给rip , 继续执行
;RSP - 8等于调用call之前的值
可以看到前4句将寄存器中传递的参数赋值给rsp+8h,rsp+10h,rsp+18h,rsp+20h,这是因为虽然使用寄存器传参,但是在栈区函数还是会开辟0x20大小的区域保存传递过来的参数,不过使用寄存器传参会比使用堆栈传参更有效率。
push rdi;保存前栈帧栈底
sub rsp,10h;开辟栈区保存局部变量,由于是三个变量12字节,对齐内存是16字节,sub rsp,10h
mov rdi,rsp;保存当前函数栈的栈底
mov ecx,4
mov eax,0CCCCCCCCh
rep stos dword ptr 这三句是将rdi(栈底)指向的值,循环4次(rcx),赋值为0CCCCCCCCh(eax),这里是初始化栈区开辟的0x10字节的内容,注意release和debug版本的变化,debug版本会自动将变量初始化为0CCCCCCCCh,但是release版本不会初始化,如果忘记初始化则会编译报错。
函数最后返回参数需要保存在eax中,add rsp,10h要将之前堆栈开辟的栈区恢复,pop rdi;要将之前push的main函数栈底恢复到rdi中。ret指令相当于pop rip,将call时压入的rip(call的下一条指令)恢复,这样一次函数调用的流程便结束了。
3)内存分析
①我们查看main函数的栈底RDI和栈顶RSP
②保存上一个函数栈底,将rsp赋值给rdi,作为新函数Add()函数的栈底
此时RSP经过 call 中的push rip 减去8,push edi 减去8,sub rsp,10h 一共减去20h,rsp赋值给rdi,为当前Add的栈底
rdi经过rep stos 指令将eax中值初始化到rdi中,共4*4字节,rdi初始化之后加10h,此时我们看内存中的情况如上图所示
栈帧情况如下
三、5参数时函数调用流程以及调用者栈分析
我们在试试5参数的函数调用情况,同时我们知道函数会把4个寄存器中的值赋值到栈上面的区域,要开辟4*8=0x20h的区域,在调试的时候没有发现对于rsp的操作,于是猜测是在上一个函数中已经开辟好了额外的空间存储参数的数据。
1)测试用例
我们在main中调用5参数的Sub()函数查看5参数调用流程
同时在Sub()中调用Add()函数,查看调用者栈的使用情况
#include "stdafx.h"
int Sub(int a,int b,int c,int d,int e);
int _tmain(int argc, _TCHAR* argv[])
{
int a = 0;
Sub(1,2,3,4,5);
return 0;
}
int Add(int a,int b,int c,int d,int e)
{
int xx = a+b+c+d;
int yy = a+b-c-d;
int zz = -a-b+c+d;
return xx;
}
int Sub(int a,int b,int c,int d,int e)
{
int xx = a+b+e+d;
int yy = a+b-c-d;
int zz = -a-b+c+d;
Add(b,c,d,e,xx);
return xx;
}
2)分析过程
①main函数中调用5参数函数
Sub(1,2,3,4,5);
000000013F4F2EF9mov dword ptr ,5 ;当前rsp + 20 就是存储4个参数之后的位置
000000013F4F2F01mov r9d,4
000000013F4F2F07mov r8d,3
000000013F4F2F0Dmov edx,2
000000013F4F2F12mov ecx,1
000000013F4F2F17call Sub (13F4F100Fh)
这里多余的一个参数直接保存在rsp+20h的地址中,使用栈传递参数,我们下面在调用者的栈分析中会说明rsp+20h是什么
②Sub()函数作为调用者,调用Add()函数的过程分析
int Sub(int a,int b,int c,int d,int e)
{
000000013F211110mov dword ptr ,r9d;第四个参数此时的rsp为上一个函数的rsp
000000013F211115mov dword ptr ,r8d;第三个参数
000000013F21111Amov dword ptr ,edx;第二个参数
000000013F21111Emov dword ptr ,ecx;第一个参数
000000013F211122push rdi;保存main函数栈底
000000013F211123sub rsp,40h;开辟本函数栈区,这里是三个局部变量对齐为0x10,和下一个函数的0x20+0x8。全部对齐为0x40
000000013F211127mov rdi,rsp;保存本函数栈底
000000013F21112Amov ecx,10h;rep次数
000000013F21112Fmov eax,0CCCCCCCCh;rep初始化值
000000013F211134rep stos dword ptr ;初始化本函数栈区
000000013F211136mov ecx,dword ptr
int xx = a+b+e+d;
000000013F21113Amov eax,dword ptr
000000013F21113Emov ecx,dword ptr
000000013F211142add ecx,eax
000000013F211144mov eax,ecx
000000013F211146add eax,dword ptr
000000013F21114Aadd eax,dword ptr
000000013F21114Emov dword ptr ,eax;xx=a+b+c+d 值为10
int yy = a+b-c-d;
000000013F211152mov eax,dword ptr
000000013F211156mov ecx,dword ptr
000000013F21115Aadd ecx,eax
000000013F21115Cmov eax,ecx
000000013F21115Esub eax,dword ptr
000000013F211162sub eax,dword ptr
000000013F211166mov dword ptr ,eax;yy=a+b-c-d 值为-4
int zz = -a-b+c+d;
000000013F21116Amov eax,dword ptr
000000013F21116Eneg eax
000000013F211170sub eax,dword ptr
000000013F211174add eax,dword ptr
000000013F211178add eax,dword ptr
000000013F21117Cmov dword ptr ,eax;zz=-a-b+c+d 值为4
Add(b,c,d,e,xx);
000000013F211180mov eax,dword ptr
000000013F211184mov dword ptr ,eax;第五个参数保存在Sub函数的rsp+20h处
000000013F211188mov r9d,dword ptr ;第四个参数
000000013F21118Dmov r8d,dword ptr ;第三个参数
000000013F211192mov edx,dword ptr ;第二个参数
000000013F211196mov ecx,dword ptr ;第一个参数
000000013F21119Acall Add (13F211005h)
return xx;
000000013F21119Fmov eax,dword ptr
}
我在函数中调用了Add()函数,结果rsp - 0x40 开辟了0x40大小的栈区空间,这里的0x10是保存三个int型的局部变量,0x30中保存Add的4个寄存器中的值使用了0x20,还有0x08用作保存第5个参数,剩下的用于内存对齐。
3)内存分析
①我们在Sub函数的栈顶RSP初始化完成之后,查看RSP的值
②在内存中输入RSP地址,查看栈区内存,当我们对局部变量xx,yy,zz赋值完成之后栈区如下图所示
可以看出Sub函数栈中,栈顶RSP+0x30、0x34、0x38分别保存着局部变量xx/yy/zz,+0x3c的地方有4字节用于内存对齐。
③我们再看看Sub()函数中调用Add()函数返回之后Sub函数栈的内容
此时在Add()函数返回之后,Add()开辟的函数栈已经销毁,但是Sub()函数依然保留这传递给Add()的参数,从RSP开始依次0x20内存区域保存4个寄存器传递的参数的值,2,3,4,5。在RSP+0x20的地方保存了第五个参数的值0xc,这里就是在调用的时候直接使用RSP+20的原因,这里的赋值是在Add()函数开始将4个寄存器中的值拷贝到这里的,可以参考Sub()函数开始将寄存器中值拷贝到main函数栈区。
四、少于4参数时函数调用流程
1)我们编写c语言测试三参数函数调用
#include "stdafx.h"
int Sub(int a,int b,int c);
int _tmain(int argc, _TCHAR* argv[])
{
int a = 0;
Sub(1,2,3);
return 0;
}
int Add(int a,int b,int c)//2,3,3
{
int xx = a+b+c;
int yy = a+b-c;
int zz = -a-b+c;
return xx;
}
int Sub(int a,int b,int c)//1,2,3
{
int xx = a+b;//3
int yy = a+b-c;//0
int zz = -b+c;//1
Add(b,c,xx);//2,3,3
return xx;
}
2)分析过程
我们直接查看Sub()函数的汇编代码
int Sub(int a,int b,int c)//1,2,3
{
000000013F8E10F0mov dword ptr ,r8d;r9寄存器没有用到
000000013F8E10F5mov dword ptr ,edx
000000013F8E10F9mov dword ptr ,ecx
000000013F8E10FDpush rdi
000000013F8E10FEsub rsp,30h;开辟了0x10用于局部变量,0x20用于Add()函数的参数
000000013F8E1102mov rdi,rsp
000000013F8E1105mov ecx,0Ch
000000013F8E110Amov eax,0CCCCCCCCh
000000013F8E110Frep stos dword ptr
000000013F8E1111mov ecx,dword ptr
int xx = a+b;//3
000000013F8E1115mov eax,dword ptr
000000013F8E1119mov ecx,dword ptr
000000013F8E111Dadd ecx,eax
000000013F8E111Fmov eax,ecx
000000013F8E1121mov dword ptr ,eax;xx = a+b 3
int yy = a+b-c;//0
000000013F8E1125mov eax,dword ptr
000000013F8E1129mov ecx,dword ptr
000000013F8E112Dadd ecx,eax
000000013F8E112Fmov eax,ecx
000000013F8E1131sub eax,dword ptr
000000013F8E1135mov dword ptr ,eax;yy = a+b-c 0
int zz = -b+c;//1
000000013F8E1139mov eax,dword ptr
000000013F8E113Dneg eax
000000013F8E113Fadd eax,dword ptr
000000013F8E1143mov dword ptr ,eax;zz = -b+c 1
Add(b,c,xx);//2,3,3
000000013F8E1147mov r8d,dword ptr ;第三参数
000000013F8E114Cmov edx,dword ptr ;第二参数
000000013F8E1150mov ecx,dword ptr ;第一参数
000000013F8E1154call Add (13F8E1014h)
return xx;
000000013F8E1159mov eax,dword ptr
}
我在函数中调用了Add()函数,结果rsp - 0x30 开辟了0x30大小的栈区空间,这里有0x10是保存三个int型的局部变量,可以看到虽然只是用了三个寄存器传递参数,但是Sub()函数依然开辟了0x20保存4个参数的栈内存。
3)内存分析
①我们在Sub()函数初始化RSP完成之后,查看RSP的值
②通过Sub()函数的RSP,我们查看Add()调用之后的Sub()函数栈区内存
这里RSP依次保存三个参数,第四个参数内存初始化为cccccccch,然后就是Sub函数自身的局部变量,最后4个字节为内存对齐的开销。
五、总结
本文编写了几个小Demo,验证了64位下函数调用时栈的分配情况。
1.函数在开始会将寄存器上的参数拷贝到栈中保存,这块内存由调用函数开辟
2.少于或等于4参数情况,调用者函数会分配多余0x20字节内存用于保存调用函数的参数,保存由寄存器传递的参数。
3.多余4参数时,调用者函数会分配0x20+多余参数个数 x 8 字节的内存用于保存调用函数的参数。其中0x20保存寄存器赋值的参数,多余的通过栈传递。
4.函数的call指令,会保存下一条指令入栈,接着跳转到函数的开头。
5.ret指令,会弹出之前保存的call之后的指令到eip/rip上,返回执行call之后的内容。
6.函数栈是连续的,函数在开始会保存上一个函数栈帧,在结束时还原上一个函数栈帧。
有什么不足之处,请指出!
页:
[1]