Gaucheで小町算にチャレンジ
Makoto HiroiさんのMemorandum(2013年1月5日)で小町算の問題が紹介されていました。
●パズルでプログラミング パズルの世界では、1 から 9 までの数字を 1 個ずつすべて使った数字を「小町数」といいます。 たとえば、123456789 とか 321654987 のような数字です。「小町算」というものもあり、 たとえば 123 + 456 + 789 とか 321 * 654 + 987 のようなものです。 [問題] 小町算 1 から 9 までの数字を順番に並べ、間に + と - を補って三桁の値 (100 - 999) になる式を作ることにします。 100 になる式の一例を示します。 例:1 + 2 + 3 - 4 + 5 + 6 + 78 + 9 = 100 100 になる式は全部で 11 通りあります。それでは問題です。 1. 式の総数が最大になる値をすべて求めてください。 2. 解のない値で最小のものを求めてください。 3. 解のある値で最大のものを求めてください。
Gauche(Scheme)でチャレンジしてみたいと思います。
はじめに、100になる式は全部で11通りあるとのことですので、それを確かめるプログラムを作成します。
(use util.match) (define (komachi) (let loop ((expr '(1)) ; 計算式 (rest '(2 3 4 5 6 7 8 9))) ; 残りの数字 (cond ((null? rest) (when (and (integer? (car expr)) (= 100 (eval (reverse expr)))) (print (reverse expr)))) ((integer? (car expr)) (loop (cons (+ (* 10 (car expr)) (car rest)) (cdr expr)) (cdr rest)) (loop (cons '+ expr) rest) (loop (cons '- expr) rest)) (else (loop (cons (car rest) expr) (cdr rest)))))) ;;; 式を評価 (define (eval expr) (let loop ((expr (cdr expr)) (acc (car expr))) (match expr (() acc) (('+ x . z) (loop z (+ acc x))) (('- x . z) (loop z (- acc x))))))
実行結果です。
gosh> (komachi) (123 + 45 - 67 + 8 - 9) (123 + 4 - 5 + 67 - 89) (123 - 45 - 67 + 89) (123 - 4 - 5 - 6 - 7 + 8 - 9) (12 + 3 + 4 + 5 - 6 - 7 + 89) (12 + 3 - 4 + 5 + 67 + 8 + 9) (12 - 3 - 4 + 5 - 6 + 7 + 89) (1 + 23 - 4 + 56 + 7 + 8 + 9) (1 + 23 - 4 + 5 + 6 + 78 - 9) (1 + 2 + 34 - 5 + 67 - 8 + 9) (1 + 2 + 3 - 4 + 5 + 6 + 78 + 9) #<undef>
100になる式は全部で11通りありました。上のプログラムを元に以下の3つの問題を解いていきます。
- 式の総数が最大になる値をすべて求めてください。
- 解のない値で最小のものを求めてください。
- 解のある値で最大のものを求めてください。
(use util.match) (use gauche.collection) (use srfi-1) ; lset-difference (define (komachi) (let ((ht (make-hash-table))) (let loop ((expr '(1)) ; 計算式 (rest '(2 3 4 5 6 7 8 9))) ; 残りの数字 (cond ((null? rest) (when (integer? (car expr)) (let ((x (eval (reverse expr)))) (when (<= 100 x 999) (hash-table-put! ht x (+ 1 (hash-table-get ht x 0))))))) ((integer? (car expr)) (loop (cons (+ (* 10 (car expr)) (car rest)) (cdr expr)) (cdr rest)) (loop (cons '+ expr) rest) (loop (cons '- expr) rest)) (else (loop (cons (car rest) expr) (cdr rest))))) ht)) ;;; 式を評価 (define (eval expr) (let loop ((expr (cdr expr)) (acc (car expr))) (match expr (() acc) (('+ x . z) (loop z (+ acc x))) (('- x . z) (loop z (- acc x)))))) (define (solve1) ; 問題1 (let* ((alist (hash-table->alist (komachi))) (nmax (cdr (find-max alist :key cdr)))) (map car (filter (^x (= nmax (cdr x))) alist)))) (define (solve2) ; 問題2 (let ((alist (hash-table->alist (komachi)))) (find-min (lset-difference = (iota 900 100) (map car alist))))) (define (solve3) ; 問題3 (let ((alist (hash-table->alist (komachi)))) (car (find-max alist :key car))))
問題 1 の「全て求める」というのが結構くせ者ですね……。上のプログラムでは、まず最大値を見つけてから、再度その値を持つ要素を検索しています。1度きりの探索で答えを出せたら良いのですがうまく書けませんでした。
問題 2 は、存在しない値を求めるのにlset-difference
を使っています。最小値だけでなく、存在しない値を全て求めてしまっているのはあまり良くないかも知れません。
問題 3 は、単純にfind-max
で最も大きい値を求めています。
実行結果です。
gosh> (solve1) (117 108 126) gosh> (solve2) 160 gosh> (solve3) 972
参考
- 作者: Kahuaプロジェクト,川合史朗
- 出版社/メーカー: オライリージャパン
- 発売日: 2008/03/14
- メディア: 大型本
- 購入: 20人 クリック: 707回
- この商品を含むブログ (273件) を見る
追記
- 2013年1月12日のMemorandumに解答編が掲載されていました(2013-01-14)。
RubyのBinDataが便利!
RubyのBinDataが便利!バイナリ構造が宣言的に書ける。Javaクラスファイルのconstant_poolを解析してppしただけのプログラムだが2-30分でできてしまった。これにはほとんど感動してしまった。gist.github.com/3408774#binsummer
— Shiina san!さん (@shinaisan) 8月 20, 2012
これはすごい。。忘れないようにメモ。Rubyだとこんな書き方が出来るんですね。
深さ優先探索によるトポロジカルソート
トポロジカルソートのアルゴリズムは、『プログラマのうちあけ話―続・プログラム設計の着想』を読んで学びました。この本では次の方法により、トポロジカルソートします。
入力辺がないノードをキュー q に入れる while (q に要素が含まれる): node = q.pop() print(node) nodeの出力辺を全て削除する 入力辺がないノードをキュー q に入れる(ただし、printしたnodeは除く)
トポロジカルソート - Wikipedia をみますと、上記アルゴリズムの他に、深さ優先探索による方法でトポロジカルソートを行うアルゴリズムが書かれてあります。
深さ優先探索によるトポロジカルソートのプログラムを Lua で書いてみました。
入力ファイルとして、Problem 79 - Project Eulerのkeylog.txtを使います。
tsort コマンド
tsort (Unix) - Wikipedia, the free encyclopedia というトポロジカルソートを行うコマンドがあるようです。この tsort コマンドをつかって、トポロジカルソートしてみました。
% awk '{ split($1, a, ""); print a[1], a[2], a[2], a[3] }' < keylog.txt | tsort 7 3 1 6 2 8 9 0
参考
池袋バイナリ勉強会(9)に参加しました
12月2日(日)に開催された池袋バイナリ勉強会(9)に参加しました。PDP-11のバイナリ解析に取り組んでいます。a.outの逆アセンブル、およびインタプリタの作成に取り組んでいます。
目標: hello.c を実行するインタプリタの作成
% cat hello.c main() { write(1, "hello\n", 6); } % v6cc hello.c % v6run a.out hello
mov 命令の実装
mov 命令は、前回の勉強会で勉強したことを、そのまま素直に実装しました。
jsr 命令の実装(実装途中)
jsr 命令は、『pdp40/11 processor handbook』(pdp11-40.pdf)を読んでもさっぱり分かりませんでした。そこで、まずは以下のサンプルで jsr の仕組みを見ていきました。
% cat jsr.s .globl _printf .globl _exit mov $10, r2 mov r2, -(sp) mov $format, -(sp) jsr pc, _printf add $4, sp mov $0, -(sp) jsr pc, _exit format: <value:%d\n\0>
v6asでアセンブルして、v6runで実行します。
% v6as jsr.s % v6run a.out 000c,0000,0008,0000,0000,0000,sp=0004,pc=0006: invalid operand
エラー(invalid operand)が出ました。何かがおかしいです。逆アセンブルしてみます。
% v6as jsr.s % v6strip a.out % pdp11-aout-objdump -d a.out a.out: ファイル形式 a.out-pdp11 セクション .text の逆アセンブル: 00000000 <.text>: 0: 15c2 0008 mov $10, r2 4: 10a6 mov r2, -(sp) 6: 15e6 001a mov $32, -(sp) a: 09f7 fff2 jsr pc, 0x0 # <---- 0x0 は、おかしい e: 65c6 0004 add $4, sp 12: 15e6 0000 mov $0, -(sp) 16: 09f7 ffe6 jsr pc, 0x0 1a: 6176 756c add r5, 72554(sp) 1e: 3a65 bit *-(r1), -(r5) 20: 6425 add (r0)+, -(r5) 22: 000a .word 12
_printfのアドレスが 0x0 になっているのがおかしいようです。この場合、v6ld a.out /lib/libc.a
を実行します。
% v6as jsr.s % v6ld a.out /lib/libc.a % v6run a.out value:8
今度はうまく行きました!ちなみに、このa.outに対して再び逆アセンブルを行うと、先ほどの_printfのアドレスが0x0から0x24に置き換わっており、さらに0x24以降の命令列を眺めると、それは v6src/s5/printf.s ファイルの中身がそのまま格納されているのが確認出来ます。
jsr.s における jsr 命令を見る限り、どうやら jsr 命令では _printf を呼び出しているようです。DEC PDP-11 Subroutines には、jsr 命令について、次のように解説されています。
jsr register,target - push register; register <- PC; PC <- target rts register - PC <- register; pop registerIf the specified register is r7 (the PC), then the PC is pushed and popped.
先ほどの jsr.s をもう一度見てみます。
% cat jsr.s .globl _printf .globl _exit mov $10, r2 mov r2, -(sp) mov $format, -(sp) jsr pc, _printf add $4, sp mov $0, -(sp) jsr pc, _exit format: <value:%d\n\0>
つまり、jsr pc, _printf
が行っていることは、
- pc をプッシュ
- pc に pc の値を代入
- pc に _printf の値を代入
となります。プログラムカウンタ(pc)にはジャンプ先(_printf)を格納して、処理が終わると(ジャンプ前に保存しておいた)元の場所に戻る仕組みのようです。
jsr 命令の対として rts 命令があり、rts 命令が元の位置に戻るための命令になります。C言語のreturnのイメージです。
(補足): ちなみに、v6strip後にv6ldを実行すると以下のエラーが表示されました。
% v6as jsr.s % v6strip a.out % v6ld a.out /lib/libc.a a.out: No relocation bits a.out: Relocation error
bne 命令を用いたサンプル: loop.s
% cat loop.s .globl _printf .globl _exit mov $10, r2 loop: mov r2, -(sp) mov $format, -(sp) jsr pc, _printf add $4, sp dec r2 bne loop mov $0, -(sp) jsr pc, _exit format: <%d\n\0>
実行結果です。
% v6as loop.s && v6ld a.out /lib/libc.a % v6run a.out 8 7 6 5 4 3 2 1
v6runのverbose modeとsyscall mode
v6runコマンドは、-v, -s オプションをとるようになっていて、それぞれのオプションを指定するとsyscallと逆アセンブル結果を出力してくれるようになります。
% v6run usage: v6run [-r V6ROOT] [-v/-s] cmd [args ...] -v: verbose mode (output syscall and disassemble) -s: syscall mode (output syscall)
実行例です。
% v6as jsr.s && v6ld a.out /lib/libc.a % v6run -s a.out 0001,0000,0008,0000,fff4,ff64,sp=ff62,pc=0226: sys indir; 029c 0001,0000,0008,0000,fff4,ff64,sp=ff62,pc=0226: sys write; 02b2; 0001 v0001,0000,0008,0000,fff4,ff64,sp=ff62,pc=0226: sys indir; 029c 0001,0000,0008,0000,fff4,ff64,sp=ff62,pc=0226: sys write; 02b2; 0001 a0001,0000,0008,0000,fff4,ff64,sp=ff62,pc=0226: sys indir; 029c 0001,0000,0008,0000,fff4,ff64,sp=ff62,pc=0226: sys write; 02b2; 0001 l0001,0000,0008,0000,fff4,ff64,sp=ff62,pc=0226: sys indir; 029c 0001,0000,0008,0000,fff4,ff64,sp=ff62,pc=0226: sys write; 02b2; 0001 u0001,0000,0008,0000,fff4,ff64,sp=ff62,pc=0226: sys indir; 029c 0001,0000,0008,0000,fff4,ff64,sp=ff62,pc=0226: sys write; 02b2; 0001 e0001,0000,0008,0000,fff4,ff64,sp=ff62,pc=0226: sys indir; 029c 0001,0000,0008,0000,fff4,ff64,sp=ff62,pc=0226: sys write; 02b2; 0001 :0001,0000,ff6d,ffff,0001,ff60,sp=ff5e,pc=0226: sys indir; 029c 0001,0000,ff6d,ffff,0001,ff60,sp=ff5e,pc=0226: sys write; 02b2; 0001 80001,0000,ff6d,ffff,fff6,ff64,sp=ff62,pc=0226: sys indir; 029c 0001,0000,ff6d,ffff,fff6,ff64,sp=ff62,pc=0226: sys write; 02b2; 0001 0000,ffe8,0008,0000,0000,fff0,sp=fff0,pc=024e: sys exit
ところどころに、v a l u e : 8 の文字が出力されているのが確認できます。sys writeが文字を出力しているようです。
N, Z, V, C フラグ
『pdp11/40 processor handbook』(pdp11-40.dpf)を読むと、たとえば mov の説明には、N, Z, V, C フラグに関する記述があります。
Condition Codes: N: set if (src) < 0; cleared otherwise Z: set if (src) = 0; cleared otherwise V: cleard C: not affected
mov 命令を実行した後、その処理結果に応じて N, Z, V, C の値が変わります。これらのフラグの値がどのように変更されるかは、それぞれ命令ごとに異なります。たとえば、上記の mov 命令の場合、V フラグは必ずクリアされることになります。
『はじめてのOSコードリーディング ~UNIX V6で学ぶカーネルのしくみ (Software Design plus)』が出版されます。
以下の本が出版されることを勉強会で教えていただきました。とても楽しみです。
はじめてのOSコードリーディング ~UNIX V6で学ぶカーネルのしくみ (Software Design plus)
- 作者: 青柳隆宏
- 出版社/メーカー: 技術評論社
- 発売日: 2013/01/08
- メディア: 単行本(ソフトカバー)
- クリック: 1,072回
- この商品を含むブログ (1件) を見る
勉強会後にやったこと
7shiさんのv6runソースをGNU GLOBALで読む。
id:n7shiさんのv6runをGNU GLOBALで読めるようにしました。
% gtags -v [Sat Dec 15 21:02:15 JST 2012] Gtags started. Using default configuration. [Sat Dec 15 21:02:15 JST 2012] Creating 'GTAGS' and 'GRTAGS'. [1] extracting tags of AOut.cpp [2] extracting tags of AOut.h [3] extracting tags of main.cpp [4] extracting tags of Operand.cpp [5] extracting tags of Operand.h [6] extracting tags of utils.cpp [7] extracting tags of utils.h [8] extracting tags of VM.cpp [9] extracting tags of VM.h [10] extracting tags of VM.inst.cpp [11] extracting tags of VM.signal.cpp [12] extracting tags of VM.sys.cpp [Sat Dec 15 21:02:15 JST 2012] Done. % htags -ansx
参考:
v6runのverbose modeでN, Z, V, Cフラグの値を出力する
v6runのソースを改造して、N, Z, V, Cの値を出力するようにしました。VM.cppのdebug()メソッドを書き換えます。
void VM::debug(const std::string &msg) { fprintf(stderr, "%04x,%04x,%04x,%04x,%04x,%04x,sp=%04x,pc=%04x: %s\n", r[0], r[1], r[2], r[3], r[4], r[5], r[6], prevPC, msg.c_str()); fprintf(stderr, "N:%d Z:%d V:%d C:%d\n", N, Z, V, C); }
さきほどの loop.s プログラムを用いて、N, Z, V, C のフラグの変化を確認してみます。注目ポイントは、bne 命令を実行するときの Z フラグの値です。
サンプルプログラム(ループ回数を3回に変更しました):
% cat loop.s .globl _printf .globl _exit mov $3, r2 loop: mov r2, -(sp) mov $format, -(sp) jsr pc, _printf add $4, sp dec r2 bne loop mov $0, -(sp) jsr pc, _exit format: <%d\n\0>
逆アセンブル結果です。(先頭一部のみ)
% v6as loop.s && v6ld a.out /lib/libc.a % v6strip a.out % pdp11-aout-objdump -d a.out a.out: ファイル形式 a.out-pdp11 セクション .text の逆アセンブル: 00000000 <.text>: 0: 15c2 0003 mov $3, r2 4: 10a6 mov r2, -(sp) 6: 15e6 001e mov $36, -(sp) a: 09f7 0014 jsr pc, 0x22 e: 65c6 0004 add $4, sp 12: 0ac2 dec r2 14: 02f7 bne 0x4 # <--- ここに注目 16: 15e6 0000 mov $0, -(sp) 1a: 09f7 0226 jsr pc, 0x244 <以降省略>
実行結果です。
% v6run2 -v a.out ...<省略>... 0000,ffe8,0002,0000,0000,0000,sp=fff6,pc=0014: bne N:0 Z:0 V:0 C:0 ...<省略>... 0000,ffe8,0001,0000,0000,0000,sp=fff6,pc=0014: bne N:0 Z:0 V:0 C:0 ...<省略>... 0000,ffe8,0000,0000,0000,0000,sp=fff6,pc=0014: bne N:0 Z:1 V:0 C:0 ...<省略>...
『pdp11/40 processor handbook』(pdp11-40.pdf)によると、bne 命令は Z = 0 の場合に pc の値を書き換えるとあります。上のv6run2による実行結果をみると、pc=0014 の bne 命令が 3 回実行されており、最初の 2 回は Z = 0 でループを繰り返しているのが確認出来ました。
Githubにプロジェクトを登録しました
https://github.com/noriok/pdp11
更新履歴
(2012-12-23) Githubのプロジェクトへのリンクを追加しました。
SRM563 div2 easy FoxAndHandleEasy
文字列Sがあり、その文字列Sの任意の位置に同じ文字列Sを挿入する。そうして作られる文字列をSのexpansionと呼ぶとする。文字列S, Tが与えられたとき、TがSのexpansionかどうかを求める問題。
コンテスト中に書いたコードは以下。std::stringの文字列の削除のやり方がすぐに分からず、Dashで調べながら小さなプログラムを書いて確認しようかなと思ったけど逆に時間がかかりそうだったので止めました。
#include <cstdio> #include <cstdlib> #include <ctime> #include <iostream> #include <string> #include <vector> using namespace std; class FoxAndHandleEasy { public: string isPossible( string S, string T ) { const int n = S.length(); if (n*2 != T.length()) return "No"; for (int i = 0; i < (int)T.length(); i++) { if (i+n >= T.length()) break; bool ok = true; for (int j = 0; j < n; j++) { if (S[j] != T[j+i]) { ok = false; break; } } if (!ok) continue; int p = 0; for (int j = 0; j < (int)T.length(); j++) { if (i <= j && j < i+n) continue; if (S[p++] != T[j]) { ok = false; break; } } if (ok) return "Yes"; } return "No"; } };
Challenge phaseで他の人のコードを読むと、単純に文字列Sを検索して、見つかったらそれを削除して残りがSに等しいかを確認しているコードが殆どでした。ミスしてそうなコードは見当たらず、そのままChallenge phaseは終わりました。System Testが始まり、多くの人がこの問題を落としていて何事かと思ったら、以下のようなケースで引っかかっていました。
S = aba T = ababaa
最初に見つかる aba を削除すると残る文字列は baa になり、Sと一致しませんが、2番目に見つかる aba を削除すると残る文字列は aba となり、Sと等しくなります。つまり、削除する文字列の位置が重要なんですね。これは気づきませんでした(気づかずに、Tに含まれる全てのSを検索するようなコードを書いていました)。
コンテスト後に書き直したコード:
class FoxAndHandleEasy { public: string isPossible( string S, string T ) { string::size_type p = 0; while (string::npos != (p = T.find(S, p))) { string x = T.substr(0, p) + T.substr(p+S.length()); if (x == S) return "Yes"; p++; } return "No"; } };
池袋バイナリ勉強会(8)に参加しました
11月25日(日)に開催された池袋バイナリ勉強会(8)に参加しました。PDP-11のバイナリ解析に取り組んでいます。a.outを逆アセンブルする自作スクリプトを作成しながら、平行してそれを実行するインタプリタを作ろうとしている段階です。
逆アセンブラの作成
以下のhello.cを逆アセンブルするプログラムの作成に取り組んでいます。
$ cat hello.c main() { write(0, "hello\n", 6); }
たったこれだけのコードですが、hello.cから生成されるa.outをpdp11-aout-objdump
で逆アセンブルしてみると、いろんな処理が行われているのが分かります。逆アセンブル結果が以下になります。
$ v6cc hello.c # コンパイル $ v6strip a.out # シンボルテーブル削除 $ pdp11-aout-objdump -d a.out # 逆アセンブル a.out: ファイル形式 a.out-pdp11 セクション .text の逆アセンブル: 00000000 <.text>: 0: f009 setd 2: 1180 mov sp, r0 4: 1226 mov (r0), -(sp) 6: 0bd0 tst (r0)+ 8: 1036 0002 mov r0, 2(sp) c: 09f7 0008 jsr pc, 0x18 10: 100e mov r0, (sp) 12: 09df 0052 jsr pc, *$122 16: 8901 sys 1 18: 0977 0040 jsr r5, 0x5c 1c: 15ce 0006 mov $6, (sp) 20: 15e6 0086 mov $206, -(sp) 24: 0a26 clr -(sp) 26: 09df 0030 jsr pc, *$60 2a: 2596 cmp (sp)+, (sp)+ 2c: 0077 003a jmp 0x6a 30: 1166 mov r5, -(sp) 32: 1185 mov sp, r5 34: 1d40 0004 mov 4(r5), r0 38: 1d77 0006 0052 mov 6(r5), $0x90 3e: 1d77 0008 004e mov 10(r5), $0x92 44: 8900 sys 0 46: 008e .word 216 48: 8602 bcc 0x4e 4a: 0077 002a jmp 0x78 4e: 1585 mov (sp)+, r5 50: 0087 rts pc 52: 1166 mov r5, -(sp) 54: 1185 mov sp, r5 56: 1d40 0004 mov 4(r5), r0 5a: 8901 sys 1 5c: 1140 mov r5, r0 5e: 1185 mov sp, r5 60: 1126 mov r4, -(sp) 62: 10e6 mov r3, -(sp) 64: 10a6 mov r2, -(sp) 66: 0be6 tst -(sp) 68: 0048 jmp (r0) 6a: 1141 mov r5, r1 6c: 1844 mov -(r1), r4 6e: 1843 mov -(r1), r3 70: 1842 mov -(r1), r2 72: 1146 mov r5, sp 74: 1585 mov (sp)+, r5 76: 0087 rts pc 78: 1037 0018 mov r0, $0x94 7c: 15c0 ffff mov $-1, r0 80: 1146 mov r5, sp 82: 1585 mov (sp)+, r5 84: 0087 rts pc
自作の逆アセンブラによる出力は以下になります。Pythonで作成しています。
$ python ./script/dump.py a.out text size: 134 data size: 14 0: f009 setd 170011 2: 1180 mov sp, r0 010600 4: 1226 mov (r0), -(sp) 011046 6: 0bd0 tst (r0)+ 005720 8: 1036 0002 mov r0, 0o2(sp) 010066 000002 c: 09f7 0008 jsr pc, 0o10(pc) => $0x18 004767 000010 10: 100e mov r0, (sp) 010016 12: 09df 0052 jsr pc, @(pc)+ => 82(0o122 0x52) 004737 000122 16: 8901 sys 1 104401 18: 0977 0040 jsr r5, 0o100(pc) => $0x5c 004567 000100 1c: 15ce 0006 mov $6, (sp) 012716 000006 20: 15e6 0086 mov $206, -(sp) 012746 000206 24: 0a26 clr -(sp) 005046 26: 09df 0030 jsr pc, @(pc)+ => 48(0o60 0x30) 004737 000060 2a: 2596 cmp (sp)+, (sp)+ 022626 2c: 0077 003a jmp 0o72(pc) => $0x6a 000167 000072 30: 1166 mov r5, -(sp) 010546 32: 1185 mov sp, r5 010605 34: 1d40 0004 mov 0o4(r5), r0 016500 000004 38: 1d77 0006 0052 mov 0o6(r5), 0o122(pc) => $0x90 016567 000006 000122 3e: 1d77 0008 004e mov 0o10(r5), 0o116(pc) => $0x92 016567 000010 000116 44: 8900 sys 0 104400 46: 008e .word 0o216 000216 48: 8602 bcc 0x4e 103002 4a: 0077 002a jmp 0o52(pc) => $0x78 000167 000052 4e: 1585 mov (sp)+, r5 012605 50: 0087 rts pc 000207 52: 1166 mov r5, -(sp) 010546 54: 1185 mov sp, r5 010605 56: 1d40 0004 mov 0o4(r5), r0 016500 000004 5a: 8901 sys 1 104401 5c: 1140 mov r5, r0 010500 5e: 1185 mov sp, r5 010605 60: 1126 mov r4, -(sp) 010446 62: 10e6 mov r3, -(sp) 010346 64: 10a6 mov r2, -(sp) 010246 66: 0be6 tst -(sp) 005746 68: 0048 jmp (r0) 000110 6a: 1141 mov r5, r1 010501 6c: 1844 mov -(r1), r4 014104 6e: 1843 mov -(r1), r3 014103 70: 1842 mov -(r1), r2 014102 72: 1146 mov r5, sp 010506 74: 1585 mov (sp)+, r5 012605 76: 0087 rts pc 000207 78: 1037 0018 mov r0, 0o30(pc) => $0x94 010067 000030 7c: 15c0 ffff mov $177777, r0 012700 177777 80: 1146 mov r5, sp 010506 82: 1585 mov (sp)+, r5 012605 84: 0087 rts pc 000207
pdp11-aout-objdump
の出力結果は、8, 10, 16進数が混ざっていて混乱するので、自作の逆アセンブラでは、8, 10, 16進数にはプレフィックス(0x, 0o)を付けました。- オペコードはPDP-11の資料を見ながら一つ一つ解析しています。
- PDP-11の資料は、UNIXv6 ハードウェア資料 - 驟雨のカーネル探検隊(只今遭難中w で紹介されているものを参考にしています。
mov の引数のパターン
Mode | Name | Symbolic | Description |
---|---|---|---|
0 | register | R | Rの値 |
1 | register deferred | (R) | Rの値をアドレスと見なし、そのアドレスの値 |
2 | auto-increment | (R)+ | Rの値をアドレスと見なし、そのアドレスの値; R+=2 |
3 | auto-incr deferred | @(R)+ | Rの値をアドレスと見なし、そのアドレスの値をさらにアドレスとみなし、そのアドレスの値; R+=2 |
4 | auto-decrement | -(R) | R-=2; Rの値をアドレスと見なし、そのアドレスの値 |
5 | auto-decr deferred | @-(R) | R-=2; Rの値をアドレスと見なし、そのアドレスの値をさらにアドレスと見なし、そのアドレスの値 |
6 | index | X(R) | R+Xの値をアドレスと見なし、そのアドレスの値 |
7 | index deferred | @X(R) | R+Xの値をアドレスと見なし、そのアドレスの値をさらにアドレスと見なし、そのアドレスの値 |
表のSymbolicの括弧の意味は、C言語のポインタのデリファレンスと同じと捉えて良いようです。また、@ も同様でポインタのデリファレンスと同じ意味になります。ですから、@ ( R )+
は、( ( R ) )+
のように括弧が2重になったものと解釈すると良いと教えていただきました。C言語のポインタのポインタですね。
(今後の課題)条件式と符号なし整数
『Lions’ Commentary on UNIX (Ascii books)』の278ページには以下の記述があります。
Cでは条件式を使うことができる。aとbが整数変数ならば、
(a > b ? a : b)はaとbの大きなほうを値として持つ式である。ただし、これはaとbが符号なし整数とみなされる場合には機能しない。したがって、次の手続きを使用する。
6326 max (a, b) char *a, *b; { if (a > b) return (a); return (b); }ここでのトリックは、文字へのポインタとして宣言されたaとbが比較のために符号なし整数として扱われるということである。
aとbが符号なしの場合、条件式がなぜ機能しないのか疑問に思いました。その理由を勉強会で教えていただいたのですが、よく理解出来ませんでした……。まだまだ学ぶべきことが沢山あるので、今後の課題となります。理解できたら改めてブログに書くつもりです。
池袋バイナリ勉強会(5)に参加しました
10月21日(日)に開催された池袋バイナリ勉強会(5)に参加しました。PDP-11の実行ファイル(a.out形式)の解析に取り組んでいます。
以下、取り組んだ内容のメモです(書かれている内容には間違いがあるかも知れません)。
前回までの復習
前回までの勉強会で学んだことの復習をしました。
write.sファイルからa.outを作成します。
mov $1, r0 sys write hello 6 mov $0, r0 sys exit .data hello: <hello\n>
v6as
でa.outが作られます(アセンブル、リンク)。v6run
でa.outを実行します。実行するとhelloと出力されます。
$ v6as write.s $ v6run a.out hello
v6strip
でシンボル情報を削除します。
$ v6strip a.out
pdp11-aout-objdump -d a.out
で逆アセンブルします(v6strip
でa.outに含まれるシンボル情報を削除しないと正しく逆アセンブルできません)。
~/etc/pdp-11 $ pdp11-aout-objdump -d a.out a.out: ファイル形式 a.out-pdp11 セクション .text の逆アセンブル: 00000000 <.text>: 0: 15c0 0001 mov $1, r0 4: 8904 sys 4 6: 0010 .word 20 8: 0006 rtt a: 15c0 0000 mov $0, r0 e: 8901 sys 1
- 定義されていない命令は、
.word
として表示されるようです。 .word 20
の20は8進表記です。
逆アセンブル/実行を行うスクリプトの作成
先ほどのwrite.sから出力されたa.outに対して、pdp11-aout-objdump
を実行すると逆アセンブル結果が出力されますが、pdp11-aout-objdump
を使わずに、逆アセンブルを行うスクリプトの作成に取り組みました(write.sで使用している命令のみ)。
a.outをバイナリエディタで開いて、pdp11-aout-objdump
での逆アセンブル結果と見比べます。
$ xxd a.out 0000000: 0701 1000 0600 0000 0000 0000 0000 0100 ................ 0000010: c015 0100 0489 1000 0600 c015 0000 0189 ................ 0000020: 6865 6c6c 6f0a hello.
a.outの先頭16バイトはヘッダになっています。ここにテキストサイズ、データサイズ、シンボル情報のサイズなどが書き込まれているようです。17バイト目から命令が始まっています。
逆アセンブルすることが出来たら、次はa.outを実行するスクリプト("hello"と出力するスクリプト)を作成しました。実際には、mov,sysの正しい振る舞いは理解していないので、それっぽく動作するスクリプトを書いただけです。
v6nm
でシンボルテーブル出力
v6nm
でシンボルテーブルが出力されます。
$ v6as write.s $ v6nm a.out 000020d hello
v6strip
でシンボルテーブルを削除してから、v6nm
を再度実行すると、今度は「no name list」を表示されます。
$ v6strip a.out $ v6nm a.out no name list
strip前後のa.outを見比べてみます。
$ v6as write.s $ xxd a.out 0000000: 0701 1000 0600 0000 0c00 0000 0000 0000 ................ 0000010: c015 0100 0489 1000 0600 c015 0000 0189 ................ 0000020: 6865 6c6c 6f0a 0000 0000 0000 0400 0000 hello........... 0000030: 0000 0000 0000 0000 0000 0000 6865 6c6c ............hell 0000040: 6f00 0000 0300 1000 o....... $ v6strip a.out $ xxd a.out 0000000: 0701 1000 0600 0000 0000 0000 0000 0100 ................ 0000010: c015 0100 0489 1000 0600 c015 0000 0189 ................ 0000020: 6865 6c6c 6f0a hello.
strip前のa.outの9, 10バイト目には0c00とありますが、リトルエンディアンなのでひっくり返して000c(10進数で12)がシンボルテーブルのサイズとなります。strip後ではこの部分の値が0になっているのが確認出来ます。v6strip
実行すると、a.outのファイルサイズが72バイトから38バイトになり、34バイト削られていますから、v6strip
はシンボルテーブル以外にも削っている情報があるということでしょうか(よく分かっていません)。
ちなみに、オフセット0000020には、helloっぽいものがありますが、先ほどv6nm
にて表示されたものがこれに対応しているような感じです。
v6ar
でlibc.aを展開
v6ar
でlibc.aを展開すると、.oファイルが出てきます。
$ ls libc.a $ v6ar x libc.a $ ls abort.o dup.o getpid.o mcount.o ptrace.o stat.o abs.o errlst.o getpw.o mdate.o putc.o stime.o alloc.o execl.o getuid.o mknod.o putchr.o stty.o atof.o execv.o gtty.o mon.o qsort.o sync.o atoi.o exit.o hmul.o mount.o read.o time.o cerror.o ffltpr.o kill.o nargs.o reset.o times.o chdir.o fltpr.o ladd.o nice.o rin.o umount.o chmod.o fork.o ldfps.o nlist.o sbrk.o unlink.o chown.o fstat.o libc.a open.o seek.o wait.o close.o getc.o link.o perror.o setgid.o write.o creat.o getchr.o locv.o pipe.o setuid.o csv.o getcsw.o ltod.o printf.o signal.o ctime.o getgid.o makdir.o prof.o sleep.o
v6cc -S
で*.s出力
v6cc -S
でCプログラムからアセンブリコードを出力できます。
$ cat wr.c main() { write(1, "hello\n", 6); } $ v6cc -S wr.c $ cat wr.s .globl _main .text _main: ~~main: jsr r5,csv mov $6,(sp) mov $L2,-(sp) mov $1,-(sp) jsr pc,*$_write cmp (sp)+,(sp)+ L1:jmp cret .globl .data L2:.byte 150,145,154,154,157,12,0
write()の第1引数の整数
- 0を渡すと、stdin
- 1を渡すと、stdout
- 2を渡すと、stderr
$ cat wr.c main() { write(1, "hello\n", 6); } $ v6cc wr.c $ v6run a.out hello
a.outにはcrt0.sがそのまま含まれている
main() {}
test.cをコンパイルして逆アセンブルした結果を見ると、v6src/s4/crt0.sのコードがそのまま含まれているのが確認できます。
/ C runtime startoff .globl savr5 .globl _exit .globl _main start: setd mov sp,r0 mov (r0),-(sp) tst (r0)+ mov r0,2(sp) jsr pc,_main mov r0,(sp) jsr pc,*$_exit sys exit .bss savr5: .=.+2
以下がa.outの逆アセンブル結果です。
$ pdp11-aout-objdump -d a.out a.out: ファイル形式 a.out-pdp11 セクション .text の逆アセンブル: 00000000 <.text>: 0: f009 setd ↓↓↓↓↓↓ crt0.s ↓↓↓↓↓↓ 2: 1180 mov sp, r0 4: 1226 mov (r0), -(sp) 6: 0bd0 tst (r0)+ 8: 1036 0002 mov r0, 2(sp) c: 09f7 0008 jsr pc, 0x18 10: 100e mov r0, (sp) 12: 09df 0020 jsr pc, *$40 16: 8901 sys 1 ↑↑↑↑↑↑ crt0.s ↑↑↑↑↑↑ 18: 0977 000e jsr r5, 0x2a 1c: 0077 0018 jmp 0x38 20: 1166 mov r5, -(sp) 22: 1185 mov sp, r5 24: 1d40 0004 mov 4(r5), r0 28: 8901 sys 1 2a: 1140 mov r5, r0 2c: 1185 mov sp, r5 2e: 1126 mov r4, -(sp) 30: 10e6 mov r3, -(sp) 32: 10a6 mov r2, -(sp) 34: 0be6 tst -(sp) 36: 0048 jmp (r0) 38: 1141 mov r5, r1 3a: 1844 mov -(r1), r4 3c: 1843 mov -(r1), r3 3e: 1842 mov -(r1), r2 40: 1146 mov r5, sp 42: 1585 mov (sp)+, r5 44: 0087 rts pc
その他、学んだこと
mov命令でのPC(プログラムカウンタ)について学びました(ここに書けるほどには理解していませんが……)。
以下の2冊の本を紹介していただきました。
- 作者: John R. Levine,榊原一矢,ポジティブエッジ
- 出版社/メーカー: オーム社
- 発売日: 2001/09
- メディア: 単行本
- 購入: 7人 クリック: 171回
- この商品を含むブログ (54件) を見る
Lions’ Commentary on UNIX (Ascii books)
- 作者: ジョンライオンズ,John Lions,岩本信一
- 出版社/メーカー: アスキー
- 発売日: 1998/07
- メディア: 単行本
- 購入: 12人 クリック: 627回
- この商品を含むブログ (27件) を見る
『Lions’ Commentary on UNIX (Ascii books)』は、さっそく購入しました。