池袋バイナリ勉強会(9)に参加しました

12月2日(日)に開催された池袋バイナリ勉強会(9)に参加しました。PDP-11のバイナリ解析に取り組んでいます。a.outの逆アセンブル、およびインタプリタの作成に取り組んでいます。

目標: hello.c を実行するインタプリタの作成

% cat hello.c
main() {
  write(1, "hello\n", 6);
}
% v6cc hello.c
% v6run a.out
hello

mov 命令の実装

mov 命令は、前回の勉強会で勉強したことを、そのまま素直に実装しました。

jsr 命令の実装(実装途中)

jsr 命令は、『pdp40/11 processor handbook』(pdp11-40.pdf)を読んでもさっぱり分かりませんでした。そこで、まずは以下のサンプルで jsr の仕組みを見ていきました。

% cat jsr.s
.globl _printf
.globl _exit

mov $10, r2
mov r2, -(sp)
mov $format, -(sp)
jsr pc, _printf
add $4, sp

mov $0, -(sp)
jsr pc, _exit

format: <value:%d\n\0>

v6asでアセンブルして、v6runで実行します。

% v6as jsr.s
% v6run a.out
000c,0000,0008,0000,0000,0000,sp=0004,pc=0006: invalid operand

エラー(invalid operand)が出ました。何かがおかしいです。逆アセンブルしてみます。

% v6as jsr.s
% v6strip a.out
% pdp11-aout-objdump -d a.out

a.out:     ファイル形式 a.out-pdp11


セクション .text の逆アセンブル:

00000000 <.text>:
   0:	15c2 0008      	mov	$10, r2
   4:	10a6           	mov	r2, -(sp)
   6:	15e6 001a      	mov	$32, -(sp)
   a:	09f7 fff2      	jsr	pc, 0x0     # <---- 0x0 は、おかしい
   e:	65c6 0004      	add	$4, sp
  12:	15e6 0000      	mov	$0, -(sp)
  16:	09f7 ffe6      	jsr	pc, 0x0
  1a:	6176 756c      	add	r5, 72554(sp)
  1e:	3a65           	bit	*-(r1), -(r5)
  20:	6425           	add	(r0)+, -(r5)
  22:	000a           	.word	12

_printfのアドレスが 0x0 になっているのがおかしいようです。この場合、v6ld a.out /lib/libc.a を実行します。

% v6as jsr.s
% v6ld a.out /lib/libc.a
% v6run a.out
value:8

今度はうまく行きました!ちなみに、このa.outに対して再び逆アセンブルを行うと、先ほどの_printfのアドレスが0x0から0x24に置き換わっており、さらに0x24以降の命令列を眺めると、それは v6src/s5/printf.s ファイルの中身がそのまま格納されているのが確認出来ます。

jsr.s における jsr 命令を見る限り、どうやら jsr 命令では _printf を呼び出しているようです。DEC PDP-11 Subroutines には、jsr 命令について、次のように解説されています。

        jsr  register,target   - push register; register <- PC; PC <- target
        rts  register          - PC <- register; pop register

If the specified register is r7 (the PC), then the PC is pushed and popped.

先ほどの jsr.s をもう一度見てみます。

% cat jsr.s
.globl _printf
.globl _exit

mov $10, r2
mov r2, -(sp)
mov $format, -(sp)
jsr pc, _printf
add $4, sp

mov $0, -(sp)
jsr pc, _exit

format: <value:%d\n\0>

つまり、jsr pc, _printf が行っていることは、

  • pc をプッシュ
  • pc に pc の値を代入
  • pc に _printf の値を代入

となります。プログラムカウンタ(pc)にはジャンプ先(_printf)を格納して、処理が終わると(ジャンプ前に保存しておいた)元の場所に戻る仕組みのようです。

jsr 命令の対として rts 命令があり、rts 命令が元の位置に戻るための命令になります。C言語のreturnのイメージです。

(補足): ちなみに、v6strip後にv6ldを実行すると以下のエラーが表示されました。

% v6as jsr.s
% v6strip a.out
% v6ld a.out /lib/libc.a
a.out: No relocation bits
a.out: Relocation error

bne 命令を用いたサンプル: loop.s

% cat loop.s 
.globl _printf
.globl _exit

    mov $10, r2
loop:
    mov r2, -(sp)
    mov $format, -(sp)
    jsr pc, _printf
    add $4, sp
    dec r2
    bne loop

    mov $0, -(sp)
    jsr pc, _exit

format: <%d\n\0>

実行結果です。

% v6as loop.s && v6ld a.out /lib/libc.a
% v6run a.out
8
7
6
5
4
3
2
1

v6runのverbose modeとsyscall mode

v6runコマンドは、-v, -s オプションをとるようになっていて、それぞれのオプションを指定するとsyscallと逆アセンブル結果を出力してくれるようになります。

% v6run
usage: v6run [-r V6ROOT] [-v/-s] cmd [args ...]
    -v: verbose mode (output syscall and disassemble)
    -s: syscall mode (output syscall)

実行例です。

% v6as jsr.s && v6ld a.out /lib/libc.a   
% v6run -s a.out
0001,0000,0008,0000,fff4,ff64,sp=ff62,pc=0226: sys indir; 029c
0001,0000,0008,0000,fff4,ff64,sp=ff62,pc=0226: sys write; 02b2; 0001
v0001,0000,0008,0000,fff4,ff64,sp=ff62,pc=0226: sys indir; 029c
0001,0000,0008,0000,fff4,ff64,sp=ff62,pc=0226: sys write; 02b2; 0001
a0001,0000,0008,0000,fff4,ff64,sp=ff62,pc=0226: sys indir; 029c
0001,0000,0008,0000,fff4,ff64,sp=ff62,pc=0226: sys write; 02b2; 0001
l0001,0000,0008,0000,fff4,ff64,sp=ff62,pc=0226: sys indir; 029c
0001,0000,0008,0000,fff4,ff64,sp=ff62,pc=0226: sys write; 02b2; 0001
u0001,0000,0008,0000,fff4,ff64,sp=ff62,pc=0226: sys indir; 029c
0001,0000,0008,0000,fff4,ff64,sp=ff62,pc=0226: sys write; 02b2; 0001
e0001,0000,0008,0000,fff4,ff64,sp=ff62,pc=0226: sys indir; 029c
0001,0000,0008,0000,fff4,ff64,sp=ff62,pc=0226: sys write; 02b2; 0001
:0001,0000,ff6d,ffff,0001,ff60,sp=ff5e,pc=0226: sys indir; 029c
0001,0000,ff6d,ffff,0001,ff60,sp=ff5e,pc=0226: sys write; 02b2; 0001
80001,0000,ff6d,ffff,fff6,ff64,sp=ff62,pc=0226: sys indir; 029c
0001,0000,ff6d,ffff,fff6,ff64,sp=ff62,pc=0226: sys write; 02b2; 0001

0000,ffe8,0008,0000,0000,fff0,sp=fff0,pc=024e: sys exit

ところどころに、v a l u e : 8 の文字が出力されているのが確認できます。sys writeが文字を出力しているようです。

N, Z, V, C フラグ

『pdp11/40 processor handbook』(pdp11-40.dpf)を読むと、たとえば mov の説明には、N, Z, V, C フラグに関する記述があります。

Condition Codes: N: set if (src) < 0; cleared otherwise
                 Z: set if (src) = 0; cleared otherwise
                 V: cleard
                 C: not affected

mov 命令を実行した後、その処理結果に応じて N, Z, V, C の値が変わります。これらのフラグの値がどのように変更されるかは、それぞれ命令ごとに異なります。たとえば、上記の mov 命令の場合、V フラグは必ずクリアされることになります。

はじめてのOSコードリーディング ~UNIX V6で学ぶカーネルのしくみ (Software Design plus)』が出版されます。

以下の本が出版されることを勉強会で教えていただきました。とても楽しみです。

はじめてのOSコードリーディング ~UNIX V6で学ぶカーネルのしくみ (Software Design plus)

はじめてのOSコードリーディング ~UNIX V6で学ぶカーネルのしくみ (Software Design plus)

勉強会後にやったこと

7shiさんのv6runソースをGNU GLOBALで読む。

id:n7shiさんのv6runGNU GLOBALで読めるようにしました。

% gtags -v 
[Sat Dec 15 21:02:15 JST 2012] Gtags started.
 Using default configuration.
[Sat Dec 15 21:02:15 JST 2012] Creating 'GTAGS' and 'GRTAGS'.
 [1] extracting tags of AOut.cpp
 [2] extracting tags of AOut.h
 [3] extracting tags of main.cpp
 [4] extracting tags of Operand.cpp
 [5] extracting tags of Operand.h
 [6] extracting tags of utils.cpp
 [7] extracting tags of utils.h
 [8] extracting tags of VM.cpp
 [9] extracting tags of VM.h
 [10] extracting tags of VM.inst.cpp
 [11] extracting tags of VM.signal.cpp
 [12] extracting tags of VM.sys.cpp
[Sat Dec 15 21:02:15 JST 2012] Done.
% htags -ansx

参考:

v6runのverbose modeでN, Z, V, Cフラグの値を出力する

v6runのソースを改造して、N, Z, V, Cの値を出力するようにしました。VM.cppのdebug()メソッドを書き換えます。

void VM::debug(const std::string &msg)
{
    fprintf(stderr,
            "%04x,%04x,%04x,%04x,%04x,%04x,sp=%04x,pc=%04x: %s\n",
            r[0], r[1], r[2], r[3], r[4], r[5], r[6], prevPC, msg.c_str());

    fprintf(stderr, "N:%d Z:%d V:%d C:%d\n", N, Z, V, C); 
}

さきほどの loop.s プログラムを用いて、N, Z, V, C のフラグの変化を確認してみます。注目ポイントは、bne 命令を実行するときの Z フラグの値です。

サンプルプログラム(ループ回数を3回に変更しました):

% cat loop.s
.globl _printf
.globl _exit

    mov $3, r2
loop:
    mov r2, -(sp)
    mov $format, -(sp)
    jsr pc, _printf
    add $4, sp
    dec r2
    bne loop

    mov $0, -(sp)
    jsr pc, _exit

format: <%d\n\0>

アセンブル結果です。(先頭一部のみ)

% v6as loop.s && v6ld a.out /lib/libc.a 
% v6strip a.out
% pdp11-aout-objdump -d a.out

a.out:     ファイル形式 a.out-pdp11


セクション .text の逆アセンブル:

00000000 <.text>:
   0:	15c2 0003      	mov	$3, r2
   4:	10a6           	mov	r2, -(sp)
   6:	15e6 001e      	mov	$36, -(sp)
   a:	09f7 0014      	jsr	pc, 0x22
   e:	65c6 0004      	add	$4, sp
  12:	0ac2           	dec	r2
  14:	02f7           	bne	0x4       # <--- ここに注目
  16:	15e6 0000      	mov	$0, -(sp)
  1a:	09f7 0226      	jsr	pc, 0x244
<以降省略>

実行結果です。

% v6run2 -v a.out
...<省略>...
0000,ffe8,0002,0000,0000,0000,sp=fff6,pc=0014: bne
N:0 Z:0 V:0 C:0
...<省略>...
0000,ffe8,0001,0000,0000,0000,sp=fff6,pc=0014: bne
N:0 Z:0 V:0 C:0
...<省略>...
0000,ffe8,0000,0000,0000,0000,sp=fff6,pc=0014: bne
N:0 Z:1 V:0 C:0
...<省略>...

『pdp11/40 processor handbook』(pdp11-40.pdf)によると、bne 命令は Z = 0 の場合に pc の値を書き換えるとあります。上のv6run2による実行結果をみると、pc=0014 の bne 命令が 3 回実行されており、最初の 2 回は Z = 0 でループを繰り返しているのが確認出来ました。

Githubにプロジェクトを登録しました

https://github.com/noriok/pdp11

更新履歴

(2012-12-23) Githubのプロジェクトへのリンクを追加しました。