« Archives in May, 2011

start debug with gdb

gdb คือ debugger โดยปกติ programmer จะใช้สำหรับช่วยในการแก้ bug ด้วยการดูค่าของตัวแปรต่างๆ ที่บรรทัดต่างๆ ของ code แต่ในมุมมองของ hacker ตัว debugger นั้น ช่วยให้เข้าใจโปรแกรม และช่องโหว่ของโปรแกรม และเราจะได้ใช้ gdb ไปตลอด tutorial นี้ โดยหัวข้อนี้ ผมตั้งใจให้คนที่ไม่เคยใช้ gdb ได้เห็นคำสั่งต่างๆ และได้ลองนิดหน่อย (ไม่ต้องให้คล่องนะครับ ต้องได้ใช้อีกเยอะ เดี๋ยวก็จำได้เอง)

ก่อนจะ เริ่ม debug ก็ต้องสั่ง gdb แล้วเราจะเข้าไปในอยู่ใน gdb แล้วสั่งคำสั่งเพื่อตรวจสอบ process ได้ โดย gdb มีรูปแบบของ parameter ที่สำคัญตามนี้

# debug โปรแกรม prog
$ gdb ./prog
# ตรวจสอบ core dump file (มีหลายรูปแบบ)
$ gdb ./prog core
$ gdb -c core ./prog
$ gdb -c core
# ส่งโปรแกรม prog arguments เข้าไปด้วย (มีหลายรูปแบบ)
$ gdb –args ./prog arg1 arg2
# attach เข้าไปใน process ที่ run อยู่ (สมมติว่า pid คือ 1234) (มีหลายรูปแบบ)
$ gdb ./prog 1234
$ gdb -p 1234

ส่วน parameter อื่นๆ ให้หาอ่านเองนะครับ ง่ายสุดก็ man gdb

หลัง จากสั่ง gdb ก็จะเจอ gdb prompt โดยมีคำสั่งต่างๆ ที่ใช้บ่อยๆ สำหรับการเขียน exploit ตามนี้ (addr ในตารางข้างล่าง สามารถใช้ register แทนได้เช่น $eax, $esp)

คำสั่งเต็ม คำสั่งย่อ คำอธิบาย
run r เริ่มโปรแกรม
kill k หยุดโปรแกรม
quit q ออกจาก gdb
continue c ทำงานต่อโดยหยุดที่ breakpoint ถัดไป
disassemble disas แสดง assembly code ของ function ที่ eip อยู่
disassemble addr disas addr แสดง assembly code ที่ address addr (ใช้ชื่อ function ได้)
disassemble addr1 addr2 disas addr1 addr2 แสดง assembly code ที่ address addr1 ถึง addr2
info breakpoints i b แสดง breakpoint ทั้งหมด
info registers i r แสดงค่าของ cpu registers ทั้งหมด
info frame i f แสดงข้อมูลเกี่ยวกับ stack frame ปัจจุบัน
backtrace bt แสดง call stack
break *addr b *addr set breakpoint ที่ address addr (ถ้าใช้ชื่อ function ไม่ต้องมี *)
enable [num] en [num] enable breakpoint หมายเลขที่ num
disable [num] dis [num] disable breakpoint หมายเลขที่ num
delete [num] d [num] delete breakpoint หมายเลขที่ num
delete d delete breakpoint ทั้งหมด
nexti [num] ni [num] ทำงานคำสั่งถัดไป ไม่เข้าไปใน call
stepi [num] si [num] ทำงานคำสั่งถัดไป เข้าไปใน call
x/nfu addr แสดงค่าของ address addr โดย
n คือจำนวนที่จะแสดงผล
f คือรูปแบบที่จะแสดงผล (ดูตารางถัดไป)
u คือจำนวน byte มี b (byte), h (2 bytes), w (4 bytes)
display/f addr disp/f addr แสดงค่าของ address addr ทุกครั้งที่ถึงหยุดทำงานชั่วคราว
display disp แสดงค่าที่อยู่ใน display list ทั้งหมด
undisplay [num] und [num] ลบ display ที่เก็บไว้ที่ num
set addr=val set ค่า val ไปที่ address addr

ต่อไปก็รูปแบบการแสดงผล (ค่า f จากตารางข้างบน) จะเหมือน c เกือบหมด

รูปแบบ คำอธิบาย
a pointer
a pointer
c character
d signed decimal
f floating point number
o octal
s string
t binary
u unsigned decimal
x hexadecimal

คำสั่งตั้งเยอะใครจะจำได้หมด ต้องลองใช้บ่อยๆ ให้มันซึมเข้าไปเองครับ โดยผมจะลองใช้คำสั่งต่างๆ กับโปรแกรมในหัวข้อ “buffer overflow คืออะไร” แต่ให้ compile ตามนี้ (ex_05_1.c)

SHELL
$ gcc -fno-pie -fno-stack-protector -z norelro -z execstack 
    -mpreferred-stack-boundary=2 -o ex_05_1 ex_05_1.c
C++
// ex_05_1.c
/*
gcc -fno-pie -fno-stack-protector -z norelro -z execstack 
    -mpreferred-stack-boundary=2 -o ex_05_1 ex_05_1.c
*/
 
#include <stdio.h>
#include <string.h>
 
int main(int argc, char **argv)
{
  int magic = 0;
  char buf[8];
 
  printf("before strcpy: magic is 0x%08x\n", magic);
  strcpy(buf, argv[1]);
  printf("after strcpy: magic is 0x%08x\n", magic);
  if (magic == 0x55555555)
    printf("hahaha, you win\n");
 
  return 0;
}

หลัง จากนั้น มาลองใช้ gdb กัน (ให้ลองทำตามด้วยนะครับ อย่าเอาแต่อ่าน) โดยผมจะใส่คำอธิบายไว้หลังเครื่องหมาย # (ไม่ต้องพิมพ์นะครับ คำอธิบายนะครับ) และตามสัญญาจากหัวข้อที่แล้ว ว่าจะให้เห็นการส่งผ่าน argument อีกรูปหนึ่ง (สำหรับคนที่ไม่ชอบ at&t syntax สามารถใช้คำสั่ง set disassembly-flavor intel เพื่อให้เป็น masm syntax แต่ผมแนะนำให้ใช้ default เพื่อที่จะได้รู้หลากหลาย)


$ gdb -q ./ex_05_1
reading symbols from /home/worawit/tutz/ch05/ex_05_1…(no debugging symbols found)…done.
(gdb) disas main # disassemble main
0×08048434 <+0>: push %ebp
0×08048435 <+1>: mov %esp,%ebp
0×08048437 <+3>: sub $0×14,%esp # หัวข้อที่แล้ว -0xc แต่คราวนี้ -0×14 เพิ่มมา 8 bytes ใช้สำหรับส่ง argument ให้ strcpy
0x0804843a <+6>: movl $0×0,-0×4(%ebp)
… # ขอละไว้ มันยาว
0×08048455 <+33>: mov 0xc(%ebp),%eax # เอา argument ตัวที่ 2 (argv) ไปที่
0×08048458 <+36>: add $0×4,%eax # eax+4 เพื่อชี้ไปที่ address ของ argv[1]
0x0804845b <+39>: mov (%eax),%eax # เอาค่าของ argv[1] เก็บใน eax
0x0804845d <+41>: mov %eax,0×4(%esp) # เก็บไปไว้ที่ esp+4 (เป็น argument ตัวที่ 2 ของ strcpy)
0×08048461 <+45>: lea -0xc(%ebp),%eax # โหลด address ของ buf ไว้ที่ eax
0×08048464 <+48>: mov %eax,(%esp) # เก็บไปไว้ที่ esp (เป็น argument ตัวที่ 1 ของ strcpy)
0×08048467 <+51>: call 0×8048344 <strcpy@plt>
… # ขอละไว้ มันยาว
(gdb) b main # set breakpoint ไว้ที่ main
breakpoint 1 at 0x804843a # สังเกตว่า set ที่หลัง function prologue
(gdb) r
starting program: /home/worawit/tutz/ch05/ex_05_1

breakpoint 1, 0x0804843a in main ()
(gdb) b *0×08048467 # set breakpoint ที่คำสั่ง call strcpy
breakpoint 2 at 0×8048467
(gdb) r uuuuuuuuuuuuuuuuuuu # run โปรแกรมอีกรอบ โดยมี argument
the program being debugged has been started already.
start it from the beginning? (y or n) y

starting program: /home/worawit/tutz/ch05/ex_05_1 uuuuuuuuuuuuuuuuuuu

breakpoint 1, 0x0804843a in main ()
(gdb) i r # แสดง registers ทั้งหมด
eax 0xbffff7b4 -1073743948
ecx 0xa988bb4b -1450656949
edx 0×2 2
ebx 0x293ff4 2703348
esp 0xbffff6f4 0xbffff6f4
ebp 0xbffff708 0xbffff708
esi 0×0 0
edi 0×0 0
eip 0x804843a 0x804843a
… # ขอละไว้ มันยาว
(gdb) c # ทำงานต่อ หยุดที่ breakpoint ถัดไป
continuing.
before strcpy: magic is 0×00000000

breakpoint 2, 0×08048467 in main ()
(gdb) display/i $pc # add display ให้แสดงคำสั่งที่ eip ชี้อยู่ (pc คือ program counter ใช้แทน eip ได้)
1: x/i $pc
=> 0×8048467 : call 0×8048344
(gdb) x/8x $ebp-0xc # แสดงค่าตั้งแต่ 0xbffff6fc (buf) ไป 8*4=32 bytes
0xbffff6fc: 0x00293ff4 0x080484b0 0×00000000 0xbffff788
0xbffff70c: 0x00154bd6 0×00000002 0xbffff7b4 0xbffff7c0
(gdb) ni # ทำงานคำสั่งถัดไป โดยไม่เข้าไปใน call
0x0804846c in main ()
1: x/i $pc # คำสั่งที่อยู่ใน display list แสดงทุกครั้งที่โปรแกรมหยุด
=> 0x804846c : mov $0×8048580,%eax
(gdb) x/8x $ebp-0xc # แสดงค่าที่ memory ของ buf อีกครั้ง (ค่า dword ที่ 3 คือ magic)
0xbffff6fc: 0×55555555 0×55555555 0×55555555 0×55555555
0xbffff70c: 0×00555555 0×00000002 0xbffff7b4 0xbffff7c0
(gdb) i f # แสดงข้อมูล stack frame
stack level 0, frame at 0xbffff710:
eip = 0x804846c in main; saved eip 0×555555
arglist at 0xbffff708, args:
locals at 0xbffff708, previous frame s sp is 0xbffff710
saved registers:
ebp at 0xbffff708, eip at 0xbffff70c
(gdb) x/2s $esp # แสดงข้อมูลที่ esp ในรูปแบบ string จำนวน 2 string
0xbffff6f4: “\374\366\377\277\360\370\377\277″, ‘u’
0xbffff710: “\002″
(gdb) # enter เฉยๆ คือทำคำสั่งข้างบนซ้ำ แต่แสดงที่ address ถัดไป
0xbffff712: “”
0xbffff713: “”
(gdb) c # ให้โปรแกรมทำงานต่อ
continuing.
after strcpy: magic is 0×55555555
hahaha, you win

program received signal sigsegv, segmentation fault.
0×00555555 in ?? ()
(gdb) i r ebp eip
ebp 0×55555555 0×55555555
eip 0×555555 0×555555
(gdb) q
a debugging session is active.

inferior 1 [process 1857] will be killed.

quit anyway? (y or n) y
$


ให้สังเกตที่คำสั่ง i f จะเห็นว่า saved ebp อยู่ที่ 0xbffff708 และ saved eip อยู่ที่ 0xbffff70c นั้นค่าถูกทำให้เปลี่ยน หลังจากเรียก strcpy (ตัว saved eip ที่มี 00 นำหน้านั้น 00 (null) มาจากตัวจบของ string ใน c แต่ที่อยู่ข้างหน้า เพราะแสดงเป็น integer ถ้างงก็คิดเรื่อง endian) แสดงให้เห็นว่า ข้อมูลที่เราใส่เข้าไปนั้น นอกจากจะเขียนทับ magic แล้วยังเขียนทับข้อมูลสำคัญ ที่กำหนดว่าให้โปรแกรมทำงานต่อที่ไหนหลังจากจบ main ทำให้โปรแกรมมีการอ้างถึง memory ที่ invalid คือ eip ชี้ไปที่ 0×00555555 ทำให้เกิด segmentation fault ขึ้น

ส่วนวิธีการ call function ในครั้งนี้จะไม่ใช้การ push argument แล้ว call อย่างที่เห็นใน assembly ข้างบน แต่จะเป็นการจองเนื้อที่บน stack ไว้สำหรับการส่ง argument แล้วใช้วิธี mov เพื่อย้ายค่าไปเป็น argument ต่างๆ แทน

ก่อนจะเริ่มในหัวข้อถ้ดไป ผมอยากให้ลองเอาโปรแกรมในหัวข้อ “function กับ stack” โดย compile ตามนี้ (ex_05_2.c)

SHELL
$ gcc -fno-pie -fno-stack-protector -z norelro -z execstack 
    -mpreferred-stack-boundary=2 -o ex_05_2 ex_05_2.c
C++
// ex_05_2.c
/*
gcc -fno-pie -fno-stack-protector -z norelro -z execstack 
    -mpreferred-stack-boundary=2 -o ex_05_2 ex_05_2.c
*/
 
int fn_second(int n1, int n2, char *s)
{
        char bb[16];
        return 1;
}
 
void fn_first(int num)
{
        int i;
        char buf[8];
        fn_second(i, num, buf);
}
 
int main()
{
        fn_first(5);
        return 0;
}

แล้วให้ลอง

1. disassemble แล้วลองอ่าน assembly ดู
2. ลองใช้ stepi กับ nexti กับคำสั่ง call
3. ลองใช้ x/10s $esp แล้ว enter ไปเรื่อยๆ จนหมด stack (bottom of stack) แล้วสังเกตค่าที่เป็นตัวอักษร อ่านรู้เรื่อง

reference:

  • http://www.yolinux.com/tutorials/gdb-commands.html – gnu gdb debugger command cheat sheet
  • gdb cheat sheet

credit : sleepya [ http://thtutz.blogspot.com ]

function and stack

คราวนี้ผมจะพูดถึงการ call (เรียก) function หนึ่ง จะมีผลอย่างไรกับ memory ในส่วน stack และจะมีคำสั่ง assembly อะไรบ้างที่เกี่ยวข้อง

ปกติโปรแกรมจะทำงานเป็นลำดับ โดยมี eip ชี้ไปคำสั่งที่จะถูกประมวลผล แต่เมื่อมีการ call function หนึ่ง eip จะกระโดดไปทำงานใน function ใหม่ และเมื่อทำงานใน function ใหม่จบแล้ว eip จะต้องกระโดดกลับมาทำงานที่ function เดิมต่อ แล้วโปรแกรมรู้ได้อย่างไรละว่า eip ต้องกระโดดกลับไปที่ไหน?

เพื่อให้ eip ชี้ไปที่คำสั่งถัดไปหลังจากกลับมาจาก function ที่เรียก คำสั่งที่ใช้ในการ call function คือ “call” (เช่น “call printf”) จะทำการ “push eip” ลงไปใน stack ก่อน แล้วค่อยกระโดดไปทำงานที่ function ใหม่ และที่จบ function ก็จะมีคำสั่ง “ret” ซึ่งจะเท่ากับ “pop eip” ทำให้โปรแกรมสามารถกลับไปทำงานตามปกติได้ เช่น สมมติว่าโปรแกรมเรา eip ชี้ไปที่ address 0×08112200 และคำสั่งที่ call some_fn ที่ address 0×08112100 และคำสั่งถัดไปคือ address 0×08112205 ผลของการ call ก็จะได้ตามรูปข้างล่าง

note : ไม่มีคำสั่ง assembly ที่แก้ไขค่า หรืออ่านค่า eip โดยตรง ที่เห็นผมเขียน “push eip” และ “pop eip” นั้น เพื่อใช้ในการอธิบายเท่านั้น

function and stack

แล้วถ้า function มีการส่ง arguments ละ จะเป็นอย่างไร?

วิธีการส่ง arguments จริงๆแล้ว แล้วแต่ compiler ว่าจะใช้ call convention (รูปแบบการเรียก)ไหน แต่ที่ใช้โดยทั่วไป arguments ของแต่ละ function นั้นจะถูก push ลงไปใน stack จาก arguments ตัวหลังสุดไล่ไปยังตัวหน้าสุด ก่อนจะมีการ call function เช่น ใน c เราเขียน some_args(1, 2, 3) เราจะได้ assembly code เป็น (เพื่อเป็นการประหยัดพื้นที่ ดูรูปแรกในห้วข้อ stack frame ข้างล่างนะครับ)

ASM
push $3
push $2
push $1
call some_args

note : วิธีส่ง arguments ไม่จำเป็นต้อง push นะครับ แค่ทำให้เหมือนกันก็พอ ซึ่งจะได้เห็นในหัวข้อถัดไป

ส่วน การส่งค่ากลับของ function คนเขียนโปรแกรมคงคุ้นเคยกันอยู่แล้วว่า function ในจะส่งค่ากลับได้เพียงแค่ค่าเดียว ซึ่ง compiler โดยทั่วไปจะส่งกลับผ่านทาง register eax โดยการ set ค่าที่ eax แล้วค่อย ret

function call convention

ในที่นี้ผมจะพูดถึงแค่ 3 แบบเท่านั้นนะครับ โดยทั้ง 3 แบบ arguments จะถูก push จากตัวหลังสุดไปหน้าสุด

c calling convention (cdecl) – เป็นแบบที่ compiler ปัจจุบันใช้ โดย function ที่เรียกจะทำหน้าที่ clear stack เช่นการเรียก some_args(1, 2, 3) จะได้ assembly เป็น

ASM
push $3
push $2
push $1
call some_args
add $12,%esp

standard convention (stdcall) – การเรียกแบบนี้ microsoft คิด และใช้ใน dll ของ microsoft เอง ถ้าใครเคยเขียนโปรแกรมโดยใช้ win32 api คงจะเคยเห็น winapi หน้า function ซึ่งถ้าไล่ดูใน header file ของ win32 api ก็จะเห็นว่า define เป็น _stdcall การเรียกแบบนี้ต่างจากแบบแรกคือ function ที่ถูกเรียกจะทำหน้าที่ clear stack โดยใช้คำสั่ง assembly “ret n” เช่นการเรียก some_args(1, 2, 3) จะได้ assembly ของ function ที่เรียกคือ

ASM
push $3
push $2
push $1
call some_args

และใน function ที่ถูกเรียกจะจบด้วย assembly

ASM
ret $12

fastcall convention (fastcall) – แบบนี้จะคล้ายแบบ “standard convention” ต่างกันตรงที่ argument ตัวแรกจะเก็บไว้ใน ecx และตัวที่สองเก็บไว้ใน edx ส่วนที่เหลือ push ลง stack เหมือนเดิม การเรียกแบบนี้ ผมไม่ยกตัวอย่าง assembly นะครับ เพราะใช้น้อยมาก เมื่อเทียบกับ 2 แบบแรก

note : หลังจากนี้ ถ้าผมพูดถึงการ call function โดยไม่บอกรูปแบบก็ถือว่าเป็น c calling convention

local variables

ในแต่ละ function จะมี local variables ที่ใช้ภายใน function เท่านั้น และเมื่อจบ function พวก local variables จะถูกทำลายอัตโนมัติ

local variables นั้น จะถูกเก็บไว้ใน stack วิธีการจองคือ compiler ทำการคำนวณขนาดของ local variables ทั้งหมด แล้วเพิ่มคำสั่งลบ esp ไว้ที่ตอนเริ่มของ function (อย่าลืมนะครับว่า stack ใน x86 ขยายจาก high address ไป low address) เช่นใน function มีการประกาศตัวแปร “int i; char buf[16];” ได้ขนาด local variables เป็น 20 bytes ซึ่ง compiler จะเพิ่มคำสั่ง

ASM
sub $20, %esp

stack frame

ในหัวข้อ assembly ผมได้พูดถึง esp กับ ebp สั้นๆ ในหัวข้อนี้จะได้เห็นว่า register 2 ตัวนี้ถูกใช้งานอย่างไรใน stack

โดย ปกติ ebp ชี้ไปยัง address ของ stack ข้างบน eip ที่ถูก push ลงไปใน stack ก่อนมีการ call function โดยหน้าที่หลักคือ ใช้อ้างอิง function arguments และ local variables ซึ่งเมื่อใช้ ebp การอ้างอิงทั้ง arguments และ local variables นั้นจะไม่มีการเปลี่ยนแปลงตามรูปข้างล่าง โดยสมมติว่ามีการ call function ที่มี 3 arguments และใน function นั้นมีการประกาศตัวแปรไว้เป็น “int i; char buf[8];” (เหมือนตัวอย่างในหัวข้อ “buffer overflow คืออะไร” ใน function main แต่ใช้ i แทน magic)

stack frame

จากรูปข้างบน อาจจะเรียกทั้งหมดว่า “stack frame” โดยถ้าเราต้องการจะอ้างถึงตัวแปร buf ก็ใช้ ebp-12 ส่วนถ้าต้องการอ้างถึง argument ตัวที่ 1 ก็ใช้ ebp+8 และตัวอื่นๆ ตามรูป

ส่วน “saved eip” ในรูปนั้น ผมได้อธิบายไปในตอนต้นแล้ว มันคือ eip ของคำสั่งที่จะถูกทำงานหลังจากจบ function ที่เรียก

แล้ว “saved ebp” ละมีไว้ทำอะไร เนื่องด้วยเราได้ใช้ ebp เป็น strack frame pointer เพื่อที่จะได้อ้างอิง local variables และ function arguments ได้สะดวก ดังนั้นเมื่อมีการ call function หนึ่ง ebp จะต้องถูกเลื่อนไปที่ stack frame ของ function ที่ถูกเรียก ดังนั้นเราต้องทำเหมือนกับ eip คือเก็บไว้ใน stack เพื่อจะได้เอา (restore) ebp ของ function เดิมกลับมาได้ (ถ้างง ให้อ่านไปก่อนนะครับ จะมีตัวอย่างอีกอัน)

จะเห็นว่าก่อนจะเริ่มทำงานใน function แต่ละครั้งนั้น จะมีการเก็บค่า ebp ย้าย ebp และจองเนื้อที่สำหรับ local variables (ไม่มีการเก็บค่า eip นะครับ อันนี้ถูกรวมอยู่ในคำสั่ง call) และเมื่อจบ function ก็จะมีการ clear stack ที่จองไว้สำหรับ local variables และ restore ebp ก่อนที่จะเรียกคำสั่ง ret

สิ่งที่ต้องทำก่อนเริ่มทำงานใน function จะเรียกว่า function prologue ซึ่งถ้านำตัวอย่างข้างบนมาเขียนเป็น assembly จะเป็น

ASM
push %ebp      # เก็บค่า ebp ที่ใช้ใน function ก่อนหน้าไว้ใน stack
mov %esp, %ebp # เลื่อนค่า ebp มาที่ esp (top of stack)
sub $12, %esp  # เลื่อน esp เพื่อจอง memory ให้ local variables

และสิ่งที่ต้องทำก่อนจบ function จะเรียกว่า function epilogue ซึ่งเขียนเป็น assembly ได้เป็น

ASM
mov %ebp, %esp # clear memory สำหรับ local variables โดยการย้าย esp มาที่ ebp
pop %ebp       # restore ebp จากค่าที่เก็บไว้ใน stack
ret

เนื่องจากใน x86 มีคำสั่งสำหรับทำ function epilogue คือ leave ซึ่งเท่ากับ mov %ebp,%esp และ pop %ebp ทำให้โดยปกติ เราจะเห็น function epilogue เมื่อเรา disassembly เป็น

ASM
leave
ret

บาง คนอาจจะสังเกตเห็น esp ในรูป แล้วสงสัยว่าทำไมถึงไม่ใช้ esp ในการอ้างอิง local variables และ function arguments ละ ในเมื่อ esp ชี้ไปที่ top of stack เสมออยู่แล้ว และก็อยู่ใกล้ local variables กับ function arguments เหตุผลก็คือ

  • การ ถ้าใช้ esp ต้องมีการคำนวณทุกครั้ง ที่มีการ push หรือ pop ว่า local variables และ function arguments ห่างจาก esp เท่าไร แต่การใช้ ebp ทำให้การอ้างอิงค่าแต่ละตัวเหมือนเดิมตลอดๆ ไม่ว่า stack จะเปลี่ยนแปลงอย่างไร ทำให้ง่ายต่อการ debug
  • เนื่องด้วยต้องคำนวณระยะห่างของ esp ที่กล่าวไปในข้อ 1 ทำให้ compiler ทำงานช้าลง

จริงๆแล้ว compiler เกือบทุกตัว มี option ให้ใช้แต่ esp แล้วเก็บ ebp ไว้ใช้เหมือน register ตัวอื่นๆ เช่นใน gcc จะใช้ -fomit-frame-pointer ส่วนเหตุผลว่า บางครั้งทำไมต้องใช้แบบนี้ ไม่ขอกล่าวในนี้ เดี๋ยวจะยาวเกิน

ก่อนจะจบ ผมขอยกตัวอย่าง ที่มาจากการ compile จริงๆ และจะได้ฝึก assembly ไปด้วย โดยมีโปรแกรมที่เขียนด้วยภาษา c ดังนี้ (ex_04_1.c)

C++
int fn_second(int n1, int n2, char *s)
{
  char bb[16];
  return 1;
}
 
void fn_first(int num)
{
  int i;
  char buf[8];
  fn_second(i, num, buf);
}
 
int main()
{
  fn_first(5);
  return 0;
}

แล้ว compile ด้วย gcc ตามนี้ (ครั้งนี้ ผม compile ให้ใช้วิธี push argument แล้ว call function เพื่อให้เข้าใจง่าย แต่ในหัวข้อถัดไป ผมจะให้ดูอีกรูปแบบหนึ่ง)

SHELL
$ gcc -march=i586 -fno-pie -fno-stack-protector -z norelro -z execstack 
    -mpreferred-stack-boundary=2 -o call_stack call_stack.c

เมื่อผมทำการ disassembly ออกมาจะได้ (ผมเอามาแสดงแค่ 3 function ที่มีใน c code นะครับ และเป็น address จริงๆ ในเครื่องของผม)

<fn_second>:
# function prologue โดยจองเนื้อที่ขนาด 16 bytes สำหรับ local variable

ASM
0x08048394 <+0>:   push   %ebp
0x08048395 <+1>:   mov    %esp,%ebp
0x08048397 <+3>:   sub    $0x10,%esp
0x0804839a <+6>:   mov    $0x1,%eax    # set ค่า 1 ที่จะ return ใน eax
# function epilogue
0x0804839f <+11>:  leave
0x080483a0 <+12>:  ret

<fn_first>:
# function prologue โดยจองเนื้อที่ขนาด 12 bytes สำหรับ local variable

ASM
0x080483a1 <+0>:   push   %ebp
0x080483a2 <+1>:   mov    %esp,%ebp
0x080483a4 <+3>:   sub    $0xc,%esp
0x080483a7 <+6>:   lea    -0xc(%ebp),%eax # load address ของ buf ไว้ที่ eax
0x080483aa <+9>:   push   %eax            # push address ของ buf (argument ตัวที่ 3)
0x080483ab <+10>:  pushl  0x8(%ebp)       # push ค่า num (argument ตัวที่ 2)
0x080483ae <+13>:  pushl  -0x4(%ebp)      # push ค่า i (argument ตัวที่ 1)
0x080483b1 <+16>:  call   0x8048394 <fn_second>
0x080483b6 <+21>:  add    $0xc,%esp       # clear arguments ที่ส่งผ่านใน stack
# function epilogue
0x080483b9 <+24>:  leave
0x080483ba <+25>:  ret

<main>:
# function prologue มี 2 คำสั่งเพราะ ไม่มี local variables

ASM
0x080483bb <+0>:   push   %ebp
0x080483bc <+1>:   mov    %esp,%ebp
0x080483be <+3>:   push   $0x5       # push argument ตัวที่ 1
0x080483c0 <+5>:   call   0x80483a1 <fn_first>
0x080483c5 <+10>:  add    $0x4,%esp  # clear arguments ที่ส่งผ่านใน stack
0x080483c8 <+13>:  mov    $0x0,%eax  # set ค่า 0 ที่จะ return ใน eax
# function epilogue
0x080483cd <+18>:  leave
0x080483ce <+19>:  ret

ถ้าใครอ่าน assembly code แล้วไม่เห็นภาพ ผมก็มีรูปให้ดู (หวังว่าคนที่ยังไม่เข้าใจ ดูแล้วจะเข้าใจ) โดยผมจะเริ่มคำสั่งจากใน main ที่ address 0x080483be และจบที่ address 0x080483c5 โดย ebp และ esp ชี้ไปที่ address 0xbffff728 อยู่ (address จริงในเครื่องผม) และเนื่องด้วยถ้าทำเป็น step ทั้งหมดรูปจะใหญ่มาก ผมขอไม่เข้าไปใน “call fn_second” และคำสั่งที่ address 0x080483c5 ผมไม่แสดง โดยผลลัพธ์จะเหมือนขั้นตอนแรก

summary stack

ถ้าใครไม่เคยรู้เรื่องนี้มาก่อน ให้ค่อยๆ ไล่นะครับ ใช้เวลานานหน่อยไม่ต้องรีบร้อนเรื่องนี้สำคัญมากๆ

สุดท้ายให้ลองกลับไปดูในหัวข้อ “buffer overflow คืออะไร” แล้วคิดดูว่าเกิดอะไรขึ้นใน stack ในแต่ละ input ที่เราลองกัน แล้วผมจะอธิบายในหัวข้อถัดไป พร้อมกับการใช้ gdb เบื้องต้น

credit : sleepya [ http://thtutz.blogspot.com ]

basic assembly

cpu registers

ใน cpu จะมี registers ต่างๆ ขนาด 32 bits ที่ใช้เก็บข้อมูล สำหรับ alu (arithmetic logic unit) นำมาประมวลผล โดยมี register ที่สำคัญ มีดังนี้

  • eip (extended instruction pointer) ใช้สำหรับเก็บ address ของคำสั่งถัดไปที่จะถูกประมวลผล
  • ebp (extended base pointer) ใช้สำหรับเก็บ address ล่างสุดของ frame ที่ทำงานอยู่ใน stack
  • esp (extended stack pointer) ใช้สำหรับเก็บ address บนสุดของ stack
  • eax (extended accumulator register), ebx (extended base register), ecx (extended counter register), edx (extended data register) ทั้ง 4 ตัวนี้ใช้สำหรับเก็บข้อมูลทั่วไป (general purpose registers)
  • esi (extended source index), edi (extended destination index) ใช้สำหรับคำสั่งที่ต้องการ indexing เช่น array, copy string แต่ในบางครั้ง ก็ถูกใช้เหมือนกับ register 4 ตัวข้างบน คือเก็บข้อมูลทั่วไป

general purpose registers (eax, ebx, ecx, edx) สามารถ access แบบ 16 bits และ 8 bits โดยแบ่งตามรูปข้างล่าง

eax

ส่วน register ตัวอื่นๆ สามารถ access แบบ 16 bits ตามนี้ ip, bp, sp, si, di

flags

flags ใช้สำหรับบอกสถานะของผลลัพธ์ของคำสั่ง บางคำสั่งจะไม่มีการเปลี่ยนค่า flags บางคำสั่งจะมีการเปลี่ยนบาง flags โดยใน cpu นั้นมี flags อยู่หลายตัว แต่ในที่นี้ ผมจะพูดเฉพาะ zf (zero flag), sf (sign flag)

  • zf เป็น flag ที่ถูก set เมื่อผลลัพธ์ของ operation เป็น 0
  • sf เป็น flag ที่ถูก set เมื่อผลลัพธ์ของ operation เป็นลบ

assembly language

คราวนี้ก็มาถึงตัว assembly เองแล้ว โดยตัว syntax เองก็จะมีหลักๆ อยู่ 2 แบบที่ใช้กัน คือ at&t กับ intel โดย

  • ตัว at&t syntax จะถูกใช้ใน gnu assembler และส่วนมากจะเป็น default สำหรับ linux
  • ตัว intel syntax ก็จะเป็น netwide assembler (nasm) และ windows assemblers ส่วนมากจะใช้ nasm

ทั้ง สอง syntax ที่กล่าวนี้ จะมี syntax ที่ต่างกันบ้าง แต่เมื่อถูกเปลี่ยนเป็น machine code แล้ว ผลลัพธ์ที่ได้ก็จะเหมือนกัน โดยความแตกต่างหลักๆ ที่ต้องรู้

  • คำสั่งที่ต้องการ source กับ destination จะสลับกัน โดย at&t จะใช้ source ข้างหน้า แต่ nasm จะใช้ destination ข้างหน้า คือ
    • at&t: cmd <source>, <dest> <# comment>
    • nasm: cmd <dest>, <source> <; comment>
  • at&t ใช้ % ข้างหน้า registers แต่ nasm ไม่ใช้
  • at&t ใช้ $ ข้างหน้า immediate value แต่ nasm ไม่ใช้
  • at&t จะมี suffix (ตัวต่อท้ายคำสั่ง) เพื่อระบุขนาดของ operand โดยใช้ l สำหรับ long (4 byte), w สำหรับ word (2 byte), b สำหรับ byte (สำหรับ gnu assembler เราสามารถไม่ใส่ suffix ถ้าคำสั่งนั้นมี operand ที่ระบุขนาด) แต่ nasm จะมีเมื่อใช้กับการอ้างอิงที่อยู่ เช่น dword ptr, byte ptr
  • เรื่องการอ้างที่อยู่ memory โดย at&t ใช้ () ส่วน nasm ใช้ [] และตำแหน่งของ index ก็จะต่างกัน จะพูดถึงอีกทีในเรื่องของ assembly command

เนื่องจากเรากำลังเขียน exploit บน linux ผมจะพูดถึง at&t syntax เป็นหลัก

assembly commands

ในที่นี้ ผมจะพูดเฉพาะคำสั่งที่ผมคิดว่าสำคัญมากๆ ถ้าใครต้องการรู้เพิ่มเติม คงต้องหาอ่านเพิ่มเอาเองนะครับ

mov
คือการ copy (คัดลอก) ข้อมูลจาก source ไปยัง destination เช่น

ASM
movl $1234h, %eax
mov  %eax, %ebx   # gnu assembler สามารถเดาได้ว่าเป็น movl เพราะ ebx มีขนาด 4 bytes
movw %ax, %bx
movb %al, %bl

คำสั่งแรกคือ กำหนดค่าของ register eax ให้เป็น 0×1234 (ใน assembly สามารถใช้ได้ทั้้ง 1234h และ 0×1234) ส่วนคำสั่งที่ 2 คือ กำหนดค่าของ ebx ให้เหมือน eax ถ้าทำงานต่อกัน ebx ก็จะเป็นค่า 0×1234
ส่วนถ้า assembly นี้เขียนเป็น nasm syntax ก็จะเป็น

ASM
mov eax, 1234h
mov ebx, eax
mov bx, ax
mov bl, al

add, sub
ใช้สำหรับการบวกและลบ โดยนำค่าของ source ไปบวก/ลบ กับ destination แล้วเก็บผลลัพธ์ไว้ที่ destination เช่น

ASM
addl $1234h, %eax  # นำค่าที่อยู่ใน eax บวก 0x1234 แล้วเก็บใน eax
subl $1234h, %eax  # นำค่าที่อยู่ใน eax ลบ 0x1234 แล้วเก็บใน eax

xor, or, and
เป็น bitwise operation ของการทำ xor, or หรือ and ของ source กับ destination แล้วเก็บผลลัพธ์ไว้ที่ destination เช่น

ASM
xorl %eax, %eax  # xor ค่าของ eax กับ eax เป็นเทคนิคหนึ่ง ที่ทำให้ eax เป็น 0
orl %ebx, %eax
andl %ebx, $ffh

push, pop
ใช้สำหรับ push กับ pop ค่าบน stack (ตำแหน่งบนสุดของ stack ดูได้จากค่า register esp) เช่น

ASM
pushl $10h  # push ค่า 0x10 ลงใน stack
pushl %eax  # push ค่าของ eax ลงใน stack
popl %ebx   # pop ค่าจาก stack เก็บใน ebx

cmp
ใช้สำหรับเปรียบเทียบค่า source กับ destination แล้ว set ค่า flag ต่างๆ ตามผลลัพธ์ เพื่อใช้สำหรับคำสั่ง jump ต่างๆ เช่น

ASM
cmpl $55, %eax

jne, je, jnz, jz, jmp
ใช้ สำหรับ jump (กระโดด) ไปคำสั่งที่ตำแหน่งอื่นๆ โดยจะกระโดดหรือไม่ ขึ้นอยู่กับชนิดของ jump และค่าของ flag ต่างๆ แต่ในที่นี้ ผมจะไม่พูดถึง flag นะครับ เพราะจำยาก แต่ให้ดูที่ความหมายเอา โดยในตัวอย่างข้างล่างสมมติว่ามีการใช้ cmp ตามตัวอย่างข้างบน และค่า eax เป็น 10

ASM
jne 5   # jump if not equal คือ 55 ไม่เท่ากับ 10 ดังนั้นก็จะ jump
je 5    # jump if equal คือ 55 ไม่เท่ากับ 10 ดังนั้นจะไม่ jump
jnz 5   # jump if not zero คือถ้า zero flag ไม่ถูก set ซึ่งจะเหมือนกัน jne
jz 5    # jump if zero คือถ้า zero flag ถูก set ซึ่งจะเหมือนกัน je
jmp 5   # jump โดยไม่มีเงื่อนไข

การ jump จะมีทั้งแบบ absolute address (คือระบุว่าจะไปที่ address ไหน) และ relative address (คือระบุว่าจะไปข้างหน้าหรือข้างหลังจากตำแหน่งปัจจุบันเท่าไร) โดยตัวอย่างที่ผมเขียนมา เป็นแบบ relative ทั้งหมด

inc, dec
ใช้สำหรับเพิ่มค่า (+1) หรือลดค่า (-1) ใน register เช้น

ASM
inc %eax
dec %ebx

lea
ย่อ มาจาก load effective address ใช้สำหรับคำนวณค่า address ของ source แล้วเก็บที่ destination คำสั่งนี้หลายๆ คน จะสับสนกับ mov โดย mov ใช้สำหรับ copy ค่าที่อยู่ใน address ของ source สมมติว่าค่าใน eax เป็น 0xdeadbee0 และค่าที่อยู่ใน address 0xdeadbee4 คือ 8

ASM
leal 4(%eax),%ebx  # คำนวณค่า address ของ source ได้ 0xdeadbeee4 แล้วเก็บที่ ebx

แต่ถ้าเป็น mov

ASM
movl 4(%eax),%ebx  # เอาค่า address ที่คำนวณได้ แล้วไปดึงค่าที่ address นั้น (คือ 8) แล้วเก็บที่ ebx

int
ใช้สำหรับเรียก interrupt handler ในการเขียน exploit บน linux ตัวที่จะได้ใช้บ่อย คือค่า 0×80 ซึ่งใช้สำหรับเรียก system call เช่น

ASM
int $0x80

nop
คือ no operation (ไม่มีการทำงาน) ใช้สำหรับบอกว่าไม่ต้องทำอะไร คล้ายๆ กับบรรทัดที่มี semicolon เฉยๆ ใน c ตัวนี้ผมจะพูดถึงประโยชน์ทีหลัง เมื่อมีการใช้งาน และขอให้จำด้วยว่ามีค่าเป็น 0×90

ในหัวข้อนี้ ที่ผมเขียนมาทั้งหมดเกี่ยวกับ assembly จริงๆ แล้วยังไม่พอที่จะมาใช้จริงๆ แค่ให้พอที่จะถูๆไถๆไปได้ สำหรับเรื่อง assembly ผมแนะนำให้ฝึกมากกว่า ไม่ต้องไปนั่งท่องจำอะไร ได้ใช้สักพักก็จะจำได้เอง ใครที่ยังไม่ค่อยเข้าใจก็อ่านหัวข้อต่อไปก่อนเลยนะครับ มันเป็นเรื่องที่เกี่ยวกัน และจะได้ฝึก assembly ด้วย น่าจะช่วยให้เข้าใจได้มากขึ้น

reference

credit : sleepya [ http://thtutz.blogspot.com ]