池袋バイナリ勉強会(9)に参加しました
12月2日(日)に開催された池袋バイナリ勉強会(9)に参加しました。PDP-11のバイナリ解析に取り組んでいます。a.outの逆アセンブル、およびインタプリタの作成に取り組んでいます。
目標: hello.c を実行するインタプリタの作成
% cat hello.c main() { write(1, "hello\n", 6); } % v6cc hello.c % v6run a.out hello
mov 命令の実装
mov 命令は、前回の勉強会で勉強したことを、そのまま素直に実装しました。
jsr 命令の実装(実装途中)
jsr 命令は、『pdp40/11 processor handbook』(pdp11-40.pdf)を読んでもさっぱり分かりませんでした。そこで、まずは以下のサンプルで jsr の仕組みを見ていきました。
% cat jsr.s .globl _printf .globl _exit mov $10, r2 mov r2, -(sp) mov $format, -(sp) jsr pc, _printf add $4, sp mov $0, -(sp) jsr pc, _exit format: <value:%d\n\0>
v6asでアセンブルして、v6runで実行します。
% v6as jsr.s % v6run a.out 000c,0000,0008,0000,0000,0000,sp=0004,pc=0006: invalid operand
エラー(invalid operand)が出ました。何かがおかしいです。逆アセンブルしてみます。
% v6as jsr.s % v6strip a.out % pdp11-aout-objdump -d a.out a.out: ファイル形式 a.out-pdp11 セクション .text の逆アセンブル: 00000000 <.text>: 0: 15c2 0008 mov $10, r2 4: 10a6 mov r2, -(sp) 6: 15e6 001a mov $32, -(sp) a: 09f7 fff2 jsr pc, 0x0 # <---- 0x0 は、おかしい e: 65c6 0004 add $4, sp 12: 15e6 0000 mov $0, -(sp) 16: 09f7 ffe6 jsr pc, 0x0 1a: 6176 756c add r5, 72554(sp) 1e: 3a65 bit *-(r1), -(r5) 20: 6425 add (r0)+, -(r5) 22: 000a .word 12
_printfのアドレスが 0x0 になっているのがおかしいようです。この場合、v6ld a.out /lib/libc.a
を実行します。
% v6as jsr.s % v6ld a.out /lib/libc.a % v6run a.out value:8
今度はうまく行きました!ちなみに、このa.outに対して再び逆アセンブルを行うと、先ほどの_printfのアドレスが0x0から0x24に置き換わっており、さらに0x24以降の命令列を眺めると、それは v6src/s5/printf.s ファイルの中身がそのまま格納されているのが確認出来ます。
jsr.s における jsr 命令を見る限り、どうやら jsr 命令では _printf を呼び出しているようです。DEC PDP-11 Subroutines には、jsr 命令について、次のように解説されています。
jsr register,target - push register; register <- PC; PC <- target rts register - PC <- register; pop registerIf the specified register is r7 (the PC), then the PC is pushed and popped.
先ほどの jsr.s をもう一度見てみます。
% cat jsr.s .globl _printf .globl _exit mov $10, r2 mov r2, -(sp) mov $format, -(sp) jsr pc, _printf add $4, sp mov $0, -(sp) jsr pc, _exit format: <value:%d\n\0>
つまり、jsr pc, _printf
が行っていることは、
- pc をプッシュ
- pc に pc の値を代入
- pc に _printf の値を代入
となります。プログラムカウンタ(pc)にはジャンプ先(_printf)を格納して、処理が終わると(ジャンプ前に保存しておいた)元の場所に戻る仕組みのようです。
jsr 命令の対として rts 命令があり、rts 命令が元の位置に戻るための命令になります。C言語のreturnのイメージです。
(補足): ちなみに、v6strip後にv6ldを実行すると以下のエラーが表示されました。
% v6as jsr.s % v6strip a.out % v6ld a.out /lib/libc.a a.out: No relocation bits a.out: Relocation error
bne 命令を用いたサンプル: loop.s
% cat loop.s .globl _printf .globl _exit mov $10, r2 loop: mov r2, -(sp) mov $format, -(sp) jsr pc, _printf add $4, sp dec r2 bne loop mov $0, -(sp) jsr pc, _exit format: <%d\n\0>
実行結果です。
% v6as loop.s && v6ld a.out /lib/libc.a % v6run a.out 8 7 6 5 4 3 2 1
v6runのverbose modeとsyscall mode
v6runコマンドは、-v, -s オプションをとるようになっていて、それぞれのオプションを指定するとsyscallと逆アセンブル結果を出力してくれるようになります。
% v6run usage: v6run [-r V6ROOT] [-v/-s] cmd [args ...] -v: verbose mode (output syscall and disassemble) -s: syscall mode (output syscall)
実行例です。
% v6as jsr.s && v6ld a.out /lib/libc.a % v6run -s a.out 0001,0000,0008,0000,fff4,ff64,sp=ff62,pc=0226: sys indir; 029c 0001,0000,0008,0000,fff4,ff64,sp=ff62,pc=0226: sys write; 02b2; 0001 v0001,0000,0008,0000,fff4,ff64,sp=ff62,pc=0226: sys indir; 029c 0001,0000,0008,0000,fff4,ff64,sp=ff62,pc=0226: sys write; 02b2; 0001 a0001,0000,0008,0000,fff4,ff64,sp=ff62,pc=0226: sys indir; 029c 0001,0000,0008,0000,fff4,ff64,sp=ff62,pc=0226: sys write; 02b2; 0001 l0001,0000,0008,0000,fff4,ff64,sp=ff62,pc=0226: sys indir; 029c 0001,0000,0008,0000,fff4,ff64,sp=ff62,pc=0226: sys write; 02b2; 0001 u0001,0000,0008,0000,fff4,ff64,sp=ff62,pc=0226: sys indir; 029c 0001,0000,0008,0000,fff4,ff64,sp=ff62,pc=0226: sys write; 02b2; 0001 e0001,0000,0008,0000,fff4,ff64,sp=ff62,pc=0226: sys indir; 029c 0001,0000,0008,0000,fff4,ff64,sp=ff62,pc=0226: sys write; 02b2; 0001 :0001,0000,ff6d,ffff,0001,ff60,sp=ff5e,pc=0226: sys indir; 029c 0001,0000,ff6d,ffff,0001,ff60,sp=ff5e,pc=0226: sys write; 02b2; 0001 80001,0000,ff6d,ffff,fff6,ff64,sp=ff62,pc=0226: sys indir; 029c 0001,0000,ff6d,ffff,fff6,ff64,sp=ff62,pc=0226: sys write; 02b2; 0001 0000,ffe8,0008,0000,0000,fff0,sp=fff0,pc=024e: sys exit
ところどころに、v a l u e : 8 の文字が出力されているのが確認できます。sys writeが文字を出力しているようです。
N, Z, V, C フラグ
『pdp11/40 processor handbook』(pdp11-40.dpf)を読むと、たとえば mov の説明には、N, Z, V, C フラグに関する記述があります。
Condition Codes: N: set if (src) < 0; cleared otherwise Z: set if (src) = 0; cleared otherwise V: cleard C: not affected
mov 命令を実行した後、その処理結果に応じて N, Z, V, C の値が変わります。これらのフラグの値がどのように変更されるかは、それぞれ命令ごとに異なります。たとえば、上記の mov 命令の場合、V フラグは必ずクリアされることになります。
『はじめてのOSコードリーディング ~UNIX V6で学ぶカーネルのしくみ (Software Design plus)』が出版されます。
以下の本が出版されることを勉強会で教えていただきました。とても楽しみです。
はじめてのOSコードリーディング ~UNIX V6で学ぶカーネルのしくみ (Software Design plus)
- 作者: 青柳隆宏
- 出版社/メーカー: 技術評論社
- 発売日: 2013/01/08
- メディア: 単行本(ソフトカバー)
- クリック: 1,072回
- この商品を含むブログ (1件) を見る
勉強会後にやったこと
7shiさんのv6runソースをGNU GLOBALで読む。
id:n7shiさんのv6runをGNU GLOBALで読めるようにしました。
% gtags -v [Sat Dec 15 21:02:15 JST 2012] Gtags started. Using default configuration. [Sat Dec 15 21:02:15 JST 2012] Creating 'GTAGS' and 'GRTAGS'. [1] extracting tags of AOut.cpp [2] extracting tags of AOut.h [3] extracting tags of main.cpp [4] extracting tags of Operand.cpp [5] extracting tags of Operand.h [6] extracting tags of utils.cpp [7] extracting tags of utils.h [8] extracting tags of VM.cpp [9] extracting tags of VM.h [10] extracting tags of VM.inst.cpp [11] extracting tags of VM.signal.cpp [12] extracting tags of VM.sys.cpp [Sat Dec 15 21:02:15 JST 2012] Done. % htags -ansx
参考:
v6runのverbose modeでN, Z, V, Cフラグの値を出力する
v6runのソースを改造して、N, Z, V, Cの値を出力するようにしました。VM.cppのdebug()メソッドを書き換えます。
void VM::debug(const std::string &msg) { fprintf(stderr, "%04x,%04x,%04x,%04x,%04x,%04x,sp=%04x,pc=%04x: %s\n", r[0], r[1], r[2], r[3], r[4], r[5], r[6], prevPC, msg.c_str()); fprintf(stderr, "N:%d Z:%d V:%d C:%d\n", N, Z, V, C); }
さきほどの loop.s プログラムを用いて、N, Z, V, C のフラグの変化を確認してみます。注目ポイントは、bne 命令を実行するときの Z フラグの値です。
サンプルプログラム(ループ回数を3回に変更しました):
% cat loop.s .globl _printf .globl _exit mov $3, r2 loop: mov r2, -(sp) mov $format, -(sp) jsr pc, _printf add $4, sp dec r2 bne loop mov $0, -(sp) jsr pc, _exit format: <%d\n\0>
逆アセンブル結果です。(先頭一部のみ)
% v6as loop.s && v6ld a.out /lib/libc.a % v6strip a.out % pdp11-aout-objdump -d a.out a.out: ファイル形式 a.out-pdp11 セクション .text の逆アセンブル: 00000000 <.text>: 0: 15c2 0003 mov $3, r2 4: 10a6 mov r2, -(sp) 6: 15e6 001e mov $36, -(sp) a: 09f7 0014 jsr pc, 0x22 e: 65c6 0004 add $4, sp 12: 0ac2 dec r2 14: 02f7 bne 0x4 # <--- ここに注目 16: 15e6 0000 mov $0, -(sp) 1a: 09f7 0226 jsr pc, 0x244 <以降省略>
実行結果です。
% v6run2 -v a.out ...<省略>... 0000,ffe8,0002,0000,0000,0000,sp=fff6,pc=0014: bne N:0 Z:0 V:0 C:0 ...<省略>... 0000,ffe8,0001,0000,0000,0000,sp=fff6,pc=0014: bne N:0 Z:0 V:0 C:0 ...<省略>... 0000,ffe8,0000,0000,0000,0000,sp=fff6,pc=0014: bne N:0 Z:1 V:0 C:0 ...<省略>...
『pdp11/40 processor handbook』(pdp11-40.pdf)によると、bne 命令は Z = 0 の場合に pc の値を書き換えるとあります。上のv6run2による実行結果をみると、pc=0014 の bne 命令が 3 回実行されており、最初の 2 回は Z = 0 でループを繰り返しているのが確認出来ました。
Githubにプロジェクトを登録しました
https://github.com/noriok/pdp11
更新履歴
(2012-12-23) Githubのプロジェクトへのリンクを追加しました。