2013-01-06

Gaucheで小町算にチャレンジ

Gauche

Makoto HiroiさんのMemorandum(2013年1月5日)で小町算の問題が紹介されていました。

M.Hiroi's Home Page / Memorandum

●パズルでプログラミング

パズルの世界では、1 から 9 までの数字を 1 個ずつすべて使った数字を「小町数」といいます。
たとえば、123456789 とか 321654987 のような数字です。「小町算」というものもあり、
たとえば 123 + 456 + 789 とか 321 * 654 + 987 のようなものです。

[問題] 小町算

1 から 9 までの数字を順番に並べ、間に + と - を補って三桁の値 (100 - 999) になる式を作ることにします。
100 になる式の一例を示します。

例：1 + 2 + 3 - 4 + 5 + 6 + 78 + 9 = 100

100 になる式は全部で 11 通りあります。それでは問題です。

1. 式の総数が最大になる値をすべて求めてください。
2. 解のない値で最小のものを求めてください。
3. 解のある値で最大のものを求めてください。

Gauche(Scheme)でチャレンジしてみたいと思います。

はじめに、100になる式は全部で11通りあるとのことですので、それを確かめるプログラムを作成します。

(use util.match)

(define (komachi)
  (let loop ((expr '(1)) ; 計算式
             (rest '(2 3 4 5 6 7 8 9))) ; 残りの数字
    (cond ((null? rest)
           (when (and (integer? (car expr))
                      (= 100 (eval (reverse expr))))
             (print (reverse expr))))
          ((integer? (car expr))
           (loop (cons (+ (* 10 (car expr)) (car rest))
                       (cdr expr))
                 (cdr rest))
           (loop (cons '+ expr) rest)
           (loop (cons '- expr) rest))
          (else
           (loop (cons (car rest) expr) (cdr rest))))))

;;; 式を評価
(define (eval expr)
  (let loop ((expr (cdr expr))
             (acc  (car expr)))
    (match expr
      (() acc)
      (('+ x . z) (loop z (+ acc x)))
      (('- x . z) (loop z (- acc x))))))

実行結果です。

gosh> (komachi)
(123 + 45 - 67 + 8 - 9)
(123 + 4 - 5 + 67 - 89)
(123 - 45 - 67 + 89)
(123 - 4 - 5 - 6 - 7 + 8 - 9)
(12 + 3 + 4 + 5 - 6 - 7 + 89)
(12 + 3 - 4 + 5 + 67 + 8 + 9)
(12 - 3 - 4 + 5 - 6 + 7 + 89)
(1 + 23 - 4 + 56 + 7 + 8 + 9)
(1 + 23 - 4 + 5 + 6 + 78 - 9)
(1 + 2 + 34 - 5 + 67 - 8 + 9)
(1 + 2 + 3 - 4 + 5 + 6 + 78 + 9)
#<undef>

100になる式は全部で11通りありました。上のプログラムを元に以下の3つの問題を解いていきます。

式の総数が最大になる値をすべて求めてください。
解のない値で最小のものを求めてください。
解のある値で最大のものを求めてください。

(use util.match)
(use gauche.collection)
(use srfi-1) ; lset-difference

(define (komachi)
  (let ((ht (make-hash-table)))
    (let loop ((expr '(1)) ; 計算式
               (rest '(2 3 4 5 6 7 8 9))) ; 残りの数字
      (cond ((null? rest)
             (when (integer? (car expr))
               (let ((x (eval (reverse expr))))
                 (when (<= 100 x 999)
                   (hash-table-put! ht x (+ 1 (hash-table-get ht x 0)))))))
            ((integer? (car expr))
             (loop (cons (+ (* 10 (car expr)) (car rest))
                         (cdr expr))
                   (cdr rest))
             (loop (cons '+ expr) rest)
             (loop (cons '- expr) rest))
            (else
             (loop (cons (car rest) expr) (cdr rest)))))
    ht))

;;; 式を評価
(define (eval expr)
  (let loop ((expr (cdr expr))
             (acc  (car expr)))
    (match expr
      (() acc)
      (('+ x . z) (loop z (+ acc x)))
      (('- x . z) (loop z (- acc x))))))

(define (solve1) ; 問題1
  (let* ((alist (hash-table->alist (komachi)))
         (nmax (cdr (find-max alist :key cdr))))
    (map car (filter (^x (= nmax (cdr x))) alist))))

(define (solve2) ; 問題2
  (let ((alist (hash-table->alist (komachi))))
    (find-min (lset-difference = (iota 900 100) (map car alist)))))

(define (solve3) ; 問題3
  (let ((alist (hash-table->alist (komachi))))
    (car (find-max alist :key car))))

問題 1 の「全て求める」というのが結構くせ者ですね……。上のプログラムでは、まず最大値を見つけてから、再度その値を持つ要素を検索しています。1度きりの探索で答えを出せたら良いのですがうまく書けませんでした。

問題 2 は、存在しない値を求めるのにlset-differenceを使っています。最小値だけでなく、存在しない値を全て求めてしまっているのはあまり良くないかも知れません。

問題 3 は、単純にfind-maxで最も大きい値を求めています。

実行結果です。

gosh> (solve1)
(117 108 126)
gosh> (solve2)
160
gosh> (solve3)
972

参考

Gauche ユーザリファレンス: Top

プログラミングGauche

作者: Kahuaプロジェクト,川合史朗
出版社/メーカー: オライリージャパン
発売日: 2008/03/14
メディア: 大型本
購入: 20人クリック: 707回
この商品を含むブログ (273件) を見る

追記

2013年1月12日のMemorandumに解答編が掲載されていました(2013-01-14)。

2013-01-01

RubyのBinDataが便利！

Ruby

RubyのBinDataが便利！バイナリ構造が宣言的に書ける。Javaクラスファイルのconstant_poolを解析してppしただけのプログラムだが2-30分でできてしまった。これにはほとんど感動してしまった。gist.github.com/3408774 #binsummer
— Shiina san!さん (@shinaisan) 8月 20, 2012

これはすごい。。忘れないようにメモ。Rubyだとこんな書き方が出来るんですね。

2012-12-30

深さ優先探索によるトポロジカルソート

Lua

トポロジカルソートのアルゴリズムは、『プログラマのうちあけ話―続・プログラム設計の着想』を読んで学びました。この本では次の方法により、トポロジカルソートします。

入力辺がないノードをキュー q に入れる
while (q に要素が含まれる):
  node = q.pop()
  print(node)  
  nodeの出力辺を全て削除する
  入力辺がないノードをキュー q に入れる(ただし、printしたnodeは除く)

トポロジカルソート - Wikipedia をみますと、上記アルゴリズムの他に、深さ優先探索による方法でトポロジカルソートを行うアルゴリズムが書かれてあります。

深さ優先探索によるトポロジカルソートのプログラムを Lua で書いてみました。

入力ファイルとして、Problem 79 - Project Eulerのkeylog.txtを使います。

tsort コマンド

tsort (Unix) - Wikipedia, the free encyclopedia というトポロジカルソートを行うコマンドがあるようです。この tsort コマンドをつかって、トポロジカルソートしてみました。

% awk '{ split($1, a, ""); print a[1], a[2], a[2], a[3] }' < keylog.txt | tsort
7
3
1
6
2
8
9
0

参考

2012-12-15

池袋バイナリ勉強会(9)に参加しました

PDP-11 ikebin

12月2日(日)に開催された池袋バイナリ勉強会(9)に参加しました。PDP-11のバイナリ解析に取り組んでいます。a.outの逆アセンブル、およびインタプリタの作成に取り組んでいます。

目標: hello.c を実行するインタプリタの作成

% cat hello.c
main() {
  write(1, "hello\n", 6);
}
% v6cc hello.c
% v6run a.out
hello

mov 命令の実装

mov 命令は、前回の勉強会で勉強したことを、そのまま素直に実装しました。

jsr 命令の実装(実装途中)

jsr 命令は、『pdp40/11 processor handbook』(pdp11-40.pdf)を読んでもさっぱり分かりませんでした。そこで、まずは以下のサンプルで jsr の仕組みを見ていきました。

% cat jsr.s
.globl _printf
.globl _exit

mov $10, r2
mov r2, -(sp)
mov $format, -(sp)
jsr pc, _printf
add $4, sp

mov $0, -(sp)
jsr pc, _exit

format: <value:%d\n\0>

v6asでアセンブルして、v6runで実行します。

% v6as jsr.s
% v6run a.out
000c,0000,0008,0000,0000,0000,sp=0004,pc=0006: invalid operand

エラー(invalid operand)が出ました。何かがおかしいです。逆アセンブルしてみます。

% v6as jsr.s
% v6strip a.out
% pdp11-aout-objdump -d a.out

a.out:     ファイル形式 a.out-pdp11


セクション .text の逆アセンブル:

00000000 <.text>:
   0:	15c2 0008      	mov	$10, r2
   4:	10a6           	mov	r2, -(sp)
   6:	15e6 001a      	mov	$32, -(sp)
   a:	09f7 fff2      	jsr	pc, 0x0     # <---- 0x0 は、おかしい
   e:	65c6 0004      	add	$4, sp
  12:	15e6 0000      	mov	$0, -(sp)
  16:	09f7 ffe6      	jsr	pc, 0x0
  1a:	6176 756c      	add	r5, 72554(sp)
  1e:	3a65           	bit	*-(r1), -(r5)
  20:	6425           	add	(r0)+, -(r5)
  22:	000a           	.word	12

_printfのアドレスが 0x0 になっているのがおかしいようです。この場合、v6ld a.out /lib/libc.a を実行します。

% v6as jsr.s
% v6ld a.out /lib/libc.a
% v6run a.out
value:8

今度はうまく行きました！ちなみに、このa.outに対して再び逆アセンブルを行うと、先ほどの_printfのアドレスが0x0から0x24に置き換わっており、さらに0x24以降の命令列を眺めると、それは v6src/s5/printf.s ファイルの中身がそのまま格納されているのが確認出来ます。

jsr.s における jsr 命令を見る限り、どうやら jsr 命令では _printf を呼び出しているようです。DEC PDP-11 Subroutines には、jsr 命令について、次のように解説されています。

        jsr  register,target   - push register; register <- PC; PC <- target
        rts  register          - PC <- register; pop register

If the specified register is r7 (the PC), then the PC is pushed and popped.

先ほどの jsr.s をもう一度見てみます。

% cat jsr.s
.globl _printf
.globl _exit

mov $10, r2
mov r2, -(sp)
mov $format, -(sp)
jsr pc, _printf
add $4, sp

mov $0, -(sp)
jsr pc, _exit

format: <value:%d\n\0>

つまり、jsr pc, _printf が行っていることは、

pc をプッシュ
pc に pc の値を代入
pc に _printf の値を代入

となります。プログラムカウンタ(pc)にはジャンプ先(_printf)を格納して、処理が終わると(ジャンプ前に保存しておいた)元の場所に戻る仕組みのようです。

jsr 命令の対として rts 命令があり、rts 命令が元の位置に戻るための命令になります。C言語のreturnのイメージです。

(補足): ちなみに、v6strip後にv6ldを実行すると以下のエラーが表示されました。

% v6as jsr.s
% v6strip a.out
% v6ld a.out /lib/libc.a
a.out: No relocation bits
a.out: Relocation error

bne 命令を用いたサンプル: loop.s

% cat loop.s 
.globl _printf
.globl _exit

    mov $10, r2
loop:
    mov r2, -(sp)
    mov $format, -(sp)
    jsr pc, _printf
    add $4, sp
    dec r2
    bne loop

    mov $0, -(sp)
    jsr pc, _exit

format: <%d\n\0>

実行結果です。

% v6as loop.s && v6ld a.out /lib/libc.a
% v6run a.out
8
7
6
5
4
3
2
1

v6runのverbose modeとsyscall mode

v6runコマンドは、-v, -s オプションをとるようになっていて、それぞれのオプションを指定するとsyscallと逆アセンブル結果を出力してくれるようになります。

% v6run
usage: v6run [-r V6ROOT] [-v/-s] cmd [args ...]
    -v: verbose mode (output syscall and disassemble)
    -s: syscall mode (output syscall)

実行例です。

% v6as jsr.s && v6ld a.out /lib/libc.a   
% v6run -s a.out
0001,0000,0008,0000,fff4,ff64,sp=ff62,pc=0226: sys indir; 029c
0001,0000,0008,0000,fff4,ff64,sp=ff62,pc=0226: sys write; 02b2; 0001
v0001,0000,0008,0000,fff4,ff64,sp=ff62,pc=0226: sys indir; 029c
0001,0000,0008,0000,fff4,ff64,sp=ff62,pc=0226: sys write; 02b2; 0001
a0001,0000,0008,0000,fff4,ff64,sp=ff62,pc=0226: sys indir; 029c
0001,0000,0008,0000,fff4,ff64,sp=ff62,pc=0226: sys write; 02b2; 0001
l0001,0000,0008,0000,fff4,ff64,sp=ff62,pc=0226: sys indir; 029c
0001,0000,0008,0000,fff4,ff64,sp=ff62,pc=0226: sys write; 02b2; 0001
u0001,0000,0008,0000,fff4,ff64,sp=ff62,pc=0226: sys indir; 029c
0001,0000,0008,0000,fff4,ff64,sp=ff62,pc=0226: sys write; 02b2; 0001
e0001,0000,0008,0000,fff4,ff64,sp=ff62,pc=0226: sys indir; 029c
0001,0000,0008,0000,fff4,ff64,sp=ff62,pc=0226: sys write; 02b2; 0001
:0001,0000,ff6d,ffff,0001,ff60,sp=ff5e,pc=0226: sys indir; 029c
0001,0000,ff6d,ffff,0001,ff60,sp=ff5e,pc=0226: sys write; 02b2; 0001
80001,0000,ff6d,ffff,fff6,ff64,sp=ff62,pc=0226: sys indir; 029c
0001,0000,ff6d,ffff,fff6,ff64,sp=ff62,pc=0226: sys write; 02b2; 0001

0000,ffe8,0008,0000,0000,fff0,sp=fff0,pc=024e: sys exit

ところどころに、v a l u e : 8 の文字が出力されているのが確認できます。sys writeが文字を出力しているようです。

N, Z, V, C フラグ

『pdp11/40 processor handbook』(pdp11-40.dpf)を読むと、たとえば mov の説明には、N, Z, V, C フラグに関する記述があります。

Condition Codes: N: set if (src) < 0; cleared otherwise
                 Z: set if (src) = 0; cleared otherwise
                 V: cleard
                 C: not affected

mov 命令を実行した後、その処理結果に応じて N, Z, V, C の値が変わります。これらのフラグの値がどのように変更されるかは、それぞれ命令ごとに異なります。たとえば、上記の mov 命令の場合、V フラグは必ずクリアされることになります。

『はじめてのOSコードリーディング ~UNIX V6で学ぶカーネルのしくみ (Software Design plus)』が出版されます。

以下の本が出版されることを勉強会で教えていただきました。とても楽しみです。

はじめてのOSコードリーディング ~UNIX V6で学ぶカーネルのしくみ (Software Design plus)

作者: 青柳隆宏
出版社/メーカー: 技術評論社
発売日: 2013/01/08
メディア: 単行本（ソフトカバー）
クリック: 1,072回
この商品を含むブログ (1件) を見る

勉強会後にやったこと

7shiさんのv6runソースをGNU GLOBALで読む。

id:n7shiさんのv6runをGNU GLOBALで読めるようにしました。

% gtags -v 
[Sat Dec 15 21:02:15 JST 2012] Gtags started.
 Using default configuration.
[Sat Dec 15 21:02:15 JST 2012] Creating 'GTAGS' and 'GRTAGS'.
 [1] extracting tags of AOut.cpp
 [2] extracting tags of AOut.h
 [3] extracting tags of main.cpp
 [4] extracting tags of Operand.cpp
 [5] extracting tags of Operand.h
 [6] extracting tags of utils.cpp
 [7] extracting tags of utils.h
 [8] extracting tags of VM.cpp
 [9] extracting tags of VM.h
 [10] extracting tags of VM.inst.cpp
 [11] extracting tags of VM.signal.cpp
 [12] extracting tags of VM.sys.cpp
[Sat Dec 15 21:02:15 JST 2012] Done.
% htags -ansx

参考:

ソースコードを快適に読むための GNU GLOBAL 入門 (後編) - まちゅダイアリー(2009-03-09)

v6runのverbose modeでN, Z, V, Cフラグの値を出力する

v6runのソースを改造して、N, Z, V, Cの値を出力するようにしました。VM.cppのdebug()メソッドを書き換えます。

void VM::debug(const std::string &msg)
{
    fprintf(stderr,
            "%04x,%04x,%04x,%04x,%04x,%04x,sp=%04x,pc=%04x: %s\n",
            r[0], r[1], r[2], r[3], r[4], r[5], r[6], prevPC, msg.c_str());

    fprintf(stderr, "N:%d Z:%d V:%d C:%d\n", N, Z, V, C); 
}

さきほどの loop.s プログラムを用いて、N, Z, V, C のフラグの変化を確認してみます。注目ポイントは、bne 命令を実行するときの Z フラグの値です。

サンプルプログラム(ループ回数を3回に変更しました):

% cat loop.s
.globl _printf
.globl _exit

    mov $3, r2
loop:
    mov r2, -(sp)
    mov $format, -(sp)
    jsr pc, _printf
    add $4, sp
    dec r2
    bne loop

    mov $0, -(sp)
    jsr pc, _exit

format: <%d\n\0>

逆アセンブル結果です。(先頭一部のみ)

% v6as loop.s && v6ld a.out /lib/libc.a 
% v6strip a.out
% pdp11-aout-objdump -d a.out

a.out:     ファイル形式 a.out-pdp11


セクション .text の逆アセンブル:

00000000 <.text>:
   0:	15c2 0003      	mov	$3, r2
   4:	10a6           	mov	r2, -(sp)
   6:	15e6 001e      	mov	$36, -(sp)
   a:	09f7 0014      	jsr	pc, 0x22
   e:	65c6 0004      	add	$4, sp
  12:	0ac2           	dec	r2
  14:	02f7           	bne	0x4       # <--- ここに注目
  16:	15e6 0000      	mov	$0, -(sp)
  1a:	09f7 0226      	jsr	pc, 0x244
<以降省略>

実行結果です。

% v6run2 -v a.out
...<省略>...
0000,ffe8,0002,0000,0000,0000,sp=fff6,pc=0014: bne
N:0 Z:0 V:0 C:0
...<省略>...
0000,ffe8,0001,0000,0000,0000,sp=fff6,pc=0014: bne
N:0 Z:0 V:0 C:0
...<省略>...
0000,ffe8,0000,0000,0000,0000,sp=fff6,pc=0014: bne
N:0 Z:1 V:0 C:0
...<省略>...

『pdp11/40 processor handbook』(pdp11-40.pdf)によると、bne 命令は Z = 0 の場合に pc の値を書き換えるとあります。上のv6run2による実行結果をみると、pc=0014 の bne 命令が 3 回実行されており、最初の 2 回は Z = 0 でループを繰り返しているのが確認出来ました。

Githubにプロジェクトを登録しました

https://github.com/noriok/pdp11

更新履歴

(2012-12-23) Githubのプロジェクトへのリンクを追加しました。

2012-12-10

SRM563 div2 easy FoxAndHandleEasy

SRM

文字列Sがあり、その文字列Sの任意の位置に同じ文字列Sを挿入する。そうして作られる文字列をSのexpansionと呼ぶとする。文字列S, Tが与えられたとき、TがSのexpansionかどうかを求める問題。

コンテスト中に書いたコードは以下。std::stringの文字列の削除のやり方がすぐに分からず、Dashで調べながら小さなプログラムを書いて確認しようかなと思ったけど逆に時間がかかりそうだったので止めました。

#include <cstdio>
#include <cstdlib>
#include <ctime>
#include <iostream>
#include <string>
#include <vector>
using namespace std;

class FoxAndHandleEasy {
public:
    string isPossible( string S, string T ) {
        const int n = S.length();
        if (n*2 != T.length()) return "No";

        for (int i = 0; i < (int)T.length(); i++) {
            if (i+n >= T.length()) break;

            bool ok = true;
            for (int j = 0; j < n; j++) {
                if (S[j] != T[j+i]) {
                    ok = false;
                    break;
                }
            }

            if (!ok) continue;
            int p = 0;
            for (int j = 0; j < (int)T.length(); j++) {
                if (i <= j && j < i+n) continue;

                if (S[p++] != T[j]) {
                    ok = false;
                    break;
                }
            }

            if (ok) return "Yes";
        }
        return "No";
    }
};

Challenge phaseで他の人のコードを読むと、単純に文字列Sを検索して、見つかったらそれを削除して残りがSに等しいかを確認しているコードが殆どでした。ミスしてそうなコードは見当たらず、そのままChallenge phaseは終わりました。System Testが始まり、多くの人がこの問題を落としていて何事かと思ったら、以下のようなケースで引っかかっていました。

S = aba
T = ababaa

最初に見つかる aba を削除すると残る文字列は baa になり、Sと一致しませんが、2番目に見つかる aba を削除すると残る文字列は aba となり、Sと等しくなります。つまり、削除する文字列の位置が重要なんですね。これは気づきませんでした(気づかずに、Tに含まれる全てのSを検索するようなコードを書いていました)。

コンテスト後に書き直したコード:

class FoxAndHandleEasy {
public:
    string isPossible( string S, string T ) {
        string::size_type p = 0;
        while (string::npos != (p = T.find(S, p))) {
            string x = T.substr(0, p) + T.substr(p+S.length());
            if (x == S) return "Yes";
            p++;
        }
        return "No";
    }
};

2012-12-08

池袋バイナリ勉強会(8)に参加しました

ikebin PDP-11

11月25日(日)に開催された池袋バイナリ勉強会(8)に参加しました。PDP-11のバイナリ解析に取り組んでいます。a.outを逆アセンブルする自作スクリプトを作成しながら、平行してそれを実行するインタプリタを作ろうとしている段階です。

逆アセンブラの作成

以下のhello.cを逆アセンブルするプログラムの作成に取り組んでいます。

$ cat hello.c
main() {
  write(0, "hello\n", 6);
}

たったこれだけのコードですが、hello.cから生成されるa.outをpdp11-aout-objdumpで逆アセンブルしてみると、いろんな処理が行われているのが分かります。逆アセンブル結果が以下になります。

$ v6cc hello.c                # コンパイル
$ v6strip a.out               # シンボルテーブル削除
$ pdp11-aout-objdump -d a.out # 逆アセンブル

a.out:     ファイル形式 a.out-pdp11


セクション .text の逆アセンブル:

00000000 <.text>:
   0:	f009           	setd
   2:	1180           	mov	sp, r0
   4:	1226           	mov	(r0), -(sp)
   6:	0bd0           	tst	(r0)+
   8:	1036 0002      	mov	r0, 2(sp)
   c:	09f7 0008      	jsr	pc, 0x18
  10:	100e           	mov	r0, (sp)
  12:	09df 0052      	jsr	pc, *$122
  16:	8901           	sys	1
  18:	0977 0040      	jsr	r5, 0x5c
  1c:	15ce 0006      	mov	$6, (sp)
  20:	15e6 0086      	mov	$206, -(sp)
  24:	0a26           	clr	-(sp)
  26:	09df 0030      	jsr	pc, *$60
  2a:	2596           	cmp	(sp)+, (sp)+
  2c:	0077 003a      	jmp	0x6a
  30:	1166           	mov	r5, -(sp)
  32:	1185           	mov	sp, r5
  34:	1d40 0004      	mov	4(r5), r0
  38:	1d77 0006 0052 	mov	6(r5), $0x90
  3e:	1d77 0008 004e 	mov	10(r5), $0x92
  44:	8900           	sys	0
  46:	008e           	.word	216
  48:	8602           	bcc	0x4e
  4a:	0077 002a      	jmp	0x78
  4e:	1585           	mov	(sp)+, r5
  50:	0087           	rts	pc
  52:	1166           	mov	r5, -(sp)
  54:	1185           	mov	sp, r5
  56:	1d40 0004      	mov	4(r5), r0
  5a:	8901           	sys	1
  5c:	1140           	mov	r5, r0
  5e:	1185           	mov	sp, r5
  60:	1126           	mov	r4, -(sp)
  62:	10e6           	mov	r3, -(sp)
  64:	10a6           	mov	r2, -(sp)
  66:	0be6           	tst	-(sp)
  68:	0048           	jmp	(r0)
  6a:	1141           	mov	r5, r1
  6c:	1844           	mov	-(r1), r4
  6e:	1843           	mov	-(r1), r3
  70:	1842           	mov	-(r1), r2
  72:	1146           	mov	r5, sp
  74:	1585           	mov	(sp)+, r5
  76:	0087           	rts	pc
  78:	1037 0018      	mov	r0, $0x94
  7c:	15c0 ffff      	mov	$-1, r0
  80:	1146           	mov	r5, sp
  82:	1585           	mov	(sp)+, r5
  84:	0087           	rts	pc

自作の逆アセンブラによる出力は以下になります。Pythonで作成しています。

$ python ./script/dump.py a.out
text size: 134
data size: 14
   0: f009           setd                 170011
   2: 1180           mov sp, r0           010600
   4: 1226           mov (r0), -(sp)      011046
   6: 0bd0           tst (r0)+            005720
   8: 1036 0002      mov r0, 0o2(sp)      010066 000002
   c: 09f7 0008      jsr pc, 0o10(pc) => $0x18 004767 000010
  10: 100e           mov r0, (sp)         010016
  12: 09df 0052      jsr pc, @(pc)+ => 82(0o122 0x52) 004737 000122
  16: 8901           sys 1                104401
  18: 0977 0040      jsr r5, 0o100(pc) => $0x5c 004567 000100
  1c: 15ce 0006      mov $6, (sp)         012716 000006
  20: 15e6 0086      mov $206, -(sp)      012746 000206
  24: 0a26           clr -(sp)            005046
  26: 09df 0030      jsr pc, @(pc)+ => 48(0o60 0x30) 004737 000060
  2a: 2596           cmp (sp)+, (sp)+     022626
  2c: 0077 003a      jmp 0o72(pc) => $0x6a 000167 000072
  30: 1166           mov r5, -(sp)        010546
  32: 1185           mov sp, r5           010605
  34: 1d40 0004      mov 0o4(r5), r0      016500 000004
  38: 1d77 0006 0052 mov 0o6(r5), 0o122(pc) => $0x90 016567 000006 000122
  3e: 1d77 0008 004e mov 0o10(r5), 0o116(pc) => $0x92 016567 000010 000116
  44: 8900           sys 0                104400
  46: 008e           .word 0o216          000216
  48: 8602           bcc 0x4e             103002
  4a: 0077 002a      jmp 0o52(pc) => $0x78 000167 000052
  4e: 1585           mov (sp)+, r5        012605
  50: 0087           rts pc               000207
  52: 1166           mov r5, -(sp)        010546
  54: 1185           mov sp, r5           010605
  56: 1d40 0004      mov 0o4(r5), r0      016500 000004
  5a: 8901           sys 1                104401
  5c: 1140           mov r5, r0           010500
  5e: 1185           mov sp, r5           010605
  60: 1126           mov r4, -(sp)        010446
  62: 10e6           mov r3, -(sp)        010346
  64: 10a6           mov r2, -(sp)        010246
  66: 0be6           tst -(sp)            005746
  68: 0048           jmp (r0)             000110
  6a: 1141           mov r5, r1           010501
  6c: 1844           mov -(r1), r4        014104
  6e: 1843           mov -(r1), r3        014103
  70: 1842           mov -(r1), r2        014102
  72: 1146           mov r5, sp           010506
  74: 1585           mov (sp)+, r5        012605
  76: 0087           rts pc               000207
  78: 1037 0018      mov r0, 0o30(pc) => $0x94 010067 000030
  7c: 15c0 ffff      mov $177777, r0      012700 177777
  80: 1146           mov r5, sp           010506
  82: 1585           mov (sp)+, r5        012605
  84: 0087           rts pc               000207

pdp11-aout-objdumpの出力結果は、8, 10, 16進数が混ざっていて混乱するので、自作の逆アセンブラでは、8, 10, 16進数にはプレフィックス(0x, 0o)を付けました。
オペコードはPDP-11の資料を見ながら一つ一つ解析しています。
PDP-11の資料は、UNIXv6 ハードウェア資料 - 驟雨のカーネル探検隊（只今遭難中ｗで紹介されているものを参考にしています。

mov の引数のパターン

Mode	Name	Symbolic	Description
0	register	R	Rの値
1	register deferred	(R)	Rの値をアドレスと見なし、そのアドレスの値
2	auto-increment	(R)+	Rの値をアドレスと見なし、そのアドレスの値; R+=2
3	auto-incr deferred	@(R)+	Rの値をアドレスと見なし、そのアドレスの値をさらにアドレスとみなし、そのアドレスの値; R+=2
4	auto-decrement	-(R)	R-=2; Rの値をアドレスと見なし、そのアドレスの値
5	auto-decr deferred	@-(R)	R-=2; Rの値をアドレスと見なし、そのアドレスの値をさらにアドレスと見なし、そのアドレスの値
6	index	X(R)	R+Xの値をアドレスと見なし、そのアドレスの値
7	index deferred	@X(R)	R+Xの値をアドレスと見なし、そのアドレスの値をさらにアドレスと見なし、そのアドレスの値

表のSymbolicの括弧の意味は、C言語のポインタのデリファレンスと同じと捉えて良いようです。また、@ も同様でポインタのデリファレンスと同じ意味になります。ですから、@ ( R )+ は、( ( R ) )+ のように括弧が2重になったものと解釈すると良いと教えていただきました。C言語のポインタのポインタですね。

(今後の課題)条件式と符号なし整数

『Lions’ Commentary on UNIX (Ascii books)』の278ページには以下の記述があります。

Cでは条件式を使うことができる。aとbが整数変数ならば、
 (a > b ? a : b)
はaとbの大きなほうを値として持つ式である。

ただし、これはaとbが符号なし整数とみなされる場合には機能しない。したがって、次の手続きを使用する。
 6326 max (a, b)
      char *a, *b;
      {
        if (a > b)
          return (a);
        return (b);
      }
ここでのトリックは、文字へのポインタとして宣言されたaとbが比較のために符号なし整数として扱われるということである。

aとbが符号なしの場合、条件式がなぜ機能しないのか疑問に思いました。その理由を勉強会で教えていただいたのですが、よく理解出来ませんでした……。まだまだ学ぶべきことが沢山あるので、今後の課題となります。理解できたら改めてブログに書くつもりです。

2012-10-28

池袋バイナリ勉強会(5)に参加しました

ikebin PDP-11

10月21日(日)に開催された池袋バイナリ勉強会(5)に参加しました。PDP-11の実行ファイル(a.out形式)の解析に取り組んでいます。

以下、取り組んだ内容のメモです(書かれている内容には間違いがあるかも知れません)。

前回までの復習

前回までの勉強会で学んだことの復習をしました。

write.sファイルからa.outを作成します。

mov $1, r0
sys write
hello
6

mov $0, r0
sys exit

.data
hello: <hello\n>

v6asでa.outが作られます(アセンブル、リンク)。v6runでa.outを実行します。実行するとhelloと出力されます。

$ v6as write.s
$ v6run a.out
hello

v6stripでシンボル情報を削除します。

$ v6strip a.out

pdp11-aout-objdump -d a.outで逆アセンブルします(v6stripでa.outに含まれるシンボル情報を削除しないと正しく逆アセンブルできません)。

~/etc/pdp-11 $ pdp11-aout-objdump -d a.out

a.out:     ファイル形式 a.out-pdp11


セクション .text の逆アセンブル:

00000000 <.text>:
   0:	15c0 0001      	mov	$1, r0
   4:	8904           	sys	4
   6:	0010           	.word	20
   8:	0006           	rtt
   a:	15c0 0000      	mov	$0, r0
   e:	8901           	sys	1

定義されていない命令は、.word として表示されるようです。
.word 20の20は8進表記です。

逆アセンブル/実行を行うスクリプトの作成

先ほどのwrite.sから出力されたa.outに対して、pdp11-aout-objdumpを実行すると逆アセンブル結果が出力されますが、pdp11-aout-objdumpを使わずに、逆アセンブルを行うスクリプトの作成に取り組みました(write.sで使用している命令のみ)。

a.outをバイナリエディタで開いて、pdp11-aout-objdumpでの逆アセンブル結果と見比べます。

$ xxd a.out
0000000: 0701 1000 0600 0000 0000 0000 0000 0100  ................
0000010: c015 0100 0489 1000 0600 c015 0000 0189  ................
0000020: 6865 6c6c 6f0a                           hello.

a.outの先頭16バイトはヘッダになっています。ここにテキストサイズ、データサイズ、シンボル情報のサイズなどが書き込まれているようです。17バイト目から命令が始まっています。

逆アセンブルすることが出来たら、次はa.outを実行するスクリプト("hello"と出力するスクリプト)を作成しました。実際には、mov,sysの正しい振る舞いは理解していないので、それっぽく動作するスクリプトを書いただけです。

`v6nm`でシンボルテーブル出力

v6nmでシンボルテーブルが出力されます。

$ v6as write.s
$ v6nm a.out
000020d hello

v6stripでシンボルテーブルを削除してから、v6nmを再度実行すると、今度は「no name list」を表示されます。

$ v6strip a.out
$ v6nm a.out
no name list

strip前後のa.outを見比べてみます。

$ v6as write.s
$ xxd a.out
0000000: 0701 1000 0600 0000 0c00 0000 0000 0000  ................
0000010: c015 0100 0489 1000 0600 c015 0000 0189  ................
0000020: 6865 6c6c 6f0a 0000 0000 0000 0400 0000  hello...........
0000030: 0000 0000 0000 0000 0000 0000 6865 6c6c  ............hell
0000040: 6f00 0000 0300 1000                      o.......
$ v6strip a.out
$ xxd a.out
0000000: 0701 1000 0600 0000 0000 0000 0000 0100  ................
0000010: c015 0100 0489 1000 0600 c015 0000 0189  ................
0000020: 6865 6c6c 6f0a                           hello.

strip前のa.outの9, 10バイト目には0c00とありますが、リトルエンディアンなのでひっくり返して000c(10進数で12)がシンボルテーブルのサイズとなります。strip後ではこの部分の値が0になっているのが確認出来ます。v6strip実行すると、a.outのファイルサイズが72バイトから38バイトになり、34バイト削られていますから、v6stripはシンボルテーブル以外にも削っている情報があるということでしょうか(よく分かっていません)。

ちなみに、オフセット0000020には、helloっぽいものがありますが、先ほどv6nmにて表示されたものがこれに対応しているような感じです。

`v6ar`でlibc.aを展開

v6arでlibc.aを展開すると、.oファイルが出てきます。

$ ls
libc.a
$ v6ar x libc.a
$ ls
abort.o     dup.o       getpid.o    mcount.o    ptrace.o    stat.o
abs.o       errlst.o    getpw.o     mdate.o     putc.o      stime.o
alloc.o     execl.o     getuid.o    mknod.o     putchr.o    stty.o
atof.o      execv.o     gtty.o      mon.o       qsort.o     sync.o
atoi.o      exit.o      hmul.o      mount.o     read.o      time.o
cerror.o    ffltpr.o    kill.o      nargs.o     reset.o     times.o
chdir.o     fltpr.o     ladd.o      nice.o      rin.o       umount.o
chmod.o     fork.o      ldfps.o     nlist.o     sbrk.o      unlink.o
chown.o     fstat.o     libc.a      open.o      seek.o      wait.o
close.o     getc.o      link.o      perror.o    setgid.o    write.o
creat.o     getchr.o    locv.o      pipe.o      setuid.o
csv.o       getcsw.o    ltod.o      printf.o    signal.o
ctime.o     getgid.o    makdir.o    prof.o      sleep.o

`v6cc -S`で*.s出力

v6cc -SでCプログラムからアセンブリコードを出力できます。

$ cat wr.c
main() {
  write(1, "hello\n", 6);
}
$ v6cc -S wr.c
$ cat wr.s
.globl	_main
.text
_main:
~~main:
jsr	r5,csv
mov	$6,(sp)
mov	$L2,-(sp)
mov	$1,-(sp)
jsr	pc,*$_write
cmp	(sp)+,(sp)+
L1:jmp	cret
.globl
.data
L2:.byte 150,145,154,154,157,12,0

write()の第1引数の整数

0を渡すと、stdin
1を渡すと、stdout
2を渡すと、stderr

$ cat wr.c
main() {
  write(1, "hello\n", 6);
}
$ v6cc wr.c
$ v6run a.out
hello

a.outにはcrt0.sがそのまま含まれている

main() {}

test.cをコンパイルして逆アセンブルした結果を見ると、v6src/s4/crt0.sのコードがそのまま含まれているのが確認できます。

/ C runtime startoff

.globl	savr5
.globl	_exit

.globl	_main

start:
	setd
	mov	sp,r0
	mov	(r0),-(sp)
	tst	(r0)+
	mov	r0,2(sp)
	jsr	pc,_main
	mov	r0,(sp)
	jsr	pc,*$_exit
	sys	exit

.bss
savr5:	.=.+2

以下がa.outの逆アセンブル結果です。

$ pdp11-aout-objdump -d a.out

a.out:     ファイル形式 a.out-pdp11


セクション .text の逆アセンブル:

00000000 <.text>:
   0:	f009           	setd
   ↓↓↓↓↓↓ crt0.s ↓↓↓↓↓↓
   2:	1180           	mov	sp, r0
   4:	1226           	mov	(r0), -(sp)
   6:	0bd0           	tst	(r0)+
   8:	1036 0002      	mov	r0, 2(sp)
   c:	09f7 0008      	jsr	pc, 0x18
  10:	100e           	mov	r0, (sp)
  12:	09df 0020      	jsr	pc, *$40
  16:	8901           	sys	1
  ↑↑↑↑↑↑ crt0.s ↑↑↑↑↑↑
  18:	0977 000e      	jsr	r5, 0x2a
  1c:	0077 0018      	jmp	0x38
  20:	1166           	mov	r5, -(sp)
  22:	1185           	mov	sp, r5
  24:	1d40 0004      	mov	4(r5), r0
  28:	8901           	sys	1
  2a:	1140           	mov	r5, r0
  2c:	1185           	mov	sp, r5
  2e:	1126           	mov	r4, -(sp)
  30:	10e6           	mov	r3, -(sp)
  32:	10a6           	mov	r2, -(sp)
  34:	0be6           	tst	-(sp)
  36:	0048           	jmp	(r0)
  38:	1141           	mov	r5, r1
  3a:	1844           	mov	-(r1), r4
  3c:	1843           	mov	-(r1), r3
  3e:	1842           	mov	-(r1), r2
  40:	1146           	mov	r5, sp
  42:	1585           	mov	(sp)+, r5
  44:	0087           	rts	pc

その他、学んだこと

mov命令でのPC(プログラムカウンタ)について学びました(ここに書けるほどには理解していませんが……)。
以下の2冊の本を紹介していただきました。

Linkers & Loaders

作者: John R. Levine,榊原一矢,ポジティブエッジ
出版社/メーカー: オーム社
発売日: 2001/09
メディア: 単行本
購入: 7人クリック: 171回
この商品を含むブログ (54件) を見る

Lions’ Commentary on UNIX (Ascii books)

作者: ジョンライオンズ,John Lions,岩本信一
出版社/メーカー: アスキー
発売日: 1998/07
メディア: 単行本
購入: 12人クリック: 627回
この商品を含むブログ (27件) を見る

『Lions’ Commentary on UNIX (Ascii books)』は、さっそく購入しました。

参考

追記

tsort コマンド

参考

目標: hello.c を実行するインタプリタの作成

mov 命令の実装

jsr 命令の実装(実装途中)

bne 命令を用いたサンプル: loop.s

v6runのverbose modeとsyscall mode

N, Z, V, C フラグ

『はじめてのOSコードリーディング ~UNIX V6で学ぶカーネルのしくみ (Software Design plus)』が出版されます。

勉強会後にやったこと

7shiさんのv6runソースをGNU GLOBALで読む。

v6runのverbose modeでN, Z, V, Cフラグの値を出力する

Githubにプロジェクトを登録しました

更新履歴

逆アセンブラの作成

mov の引数のパターン

(今後の課題)条件式と符号なし整数

前回までの復習

逆アセンブル/実行を行うスクリプトの作成

v6nmでシンボルテーブル出力

v6arでlibc.aを展開

v6cc -Sで*.s出力

write()の第1引数の整数

a.outにはcrt0.sがそのまま含まれている

その他、学んだこと

`v6nm`でシンボルテーブル出力

`v6ar`でlibc.aを展開

`v6cc -S`で*.s出力