Python逆向(五)—— Python字节码解读
一、前言
前些章节我们对 python 编译、反汇编的原理及相关模块已经做了解读。读者应该初步掌握了通过反汇编获取 python 程序可读字节码的能力。python 逆向或者反汇编的目的就是在没有源码的基础上,通过字节码来理解源代码的运行内容,并且进一步对源码的远行进行调试。因此本次我们尝试对 python 字节码进行解读。
二、字节码结构
字节码结构如下:
源码行号 | 跳转注释符 | 指令在函数中的偏移 | 指令符号(助记符) | 指令参数 | 实际参数值
上图表示:
- 该字节码指令在源码中对应 59 行
- 此处是跳转的目的地址
- 82 该字节指令的字节码偏移
- 操作指令对应的助记符为 LOAD_GLOBAL
- 操作参数为 6
- 操作参数对应的实际值为 disassemble
三、字节码实战
3.1 常量
加载常量只有一行 LOAD_CONST,对应源码第 1 行,字节码偏移地址 0 字节,常量数组中索引 0,实际常量值‘123’
3.2 局部变量
加载局部变量 a:LOAD_CONST 加载常量 1,调用 STORE_NAME(参数 a),并将变量 a 存储为 1
同理加载局部变量 b
3.3 全局变量
加载全局变量 a,与加载局部变量不同的是通过 STORE_GLOBAL 在存储变量。
3.4 数据类型 list
先将所有的 list 元素加载,调用 BUILD_LIST 方法生成 list 于内存中,通过 STORE_NAME 将堆栈中的 list 存储于局部变量 a 中
3.5 数据类型 dict
BUILD_MAP 声明字典元素数量,通过两次 LOAD_CONST 后,调用 STORE_MAP 生成键值对存于堆栈,最终通过 STORE_NAME 将堆栈中长度为 2 的两个键值对最为字典数据类型存储在 a 中
3.6 数学运算
字节码中显示先对局部变量 a、b 赋值,通过 LOAD_NAME 加载局部变量,调用加法 BINARY_ADD,生成结果存储与堆栈中,使用 STORE_NAME 将堆栈中的计算结果存储与局部变量 c
加减乘除的运算字节码相似,不不再赘述,读者可以自行分析,如下图:
上图中为对 a、b 做加减乘除的字节码,因为没有存储计算结果,所以每次运算完没有使用 STORE_NAME 方法存储,解释器默认调用 POP_TOP 方法将计算结果从堆栈顶部弹出,以保证堆栈平衡。
3.7 循环 FOR
上图显示一个 FOR 循环的过程。SETUP_LOOP 表明循环开始,参数说明此循环知道字节码偏移 28 字节的指令结束(也就是 28 字节开始不是循环)。调用 range 方法生成 generator 存于堆栈。FOR_ITER 调用堆栈,声明 generator 作用到字节码偏移位置 27 字节。从第 16 字节起到 27 为 generator 迭代作用域。其中为一个 print 函数。
3.8 判断 IF
以一个简单的 IF 判断为例,先加载需要比较的常量,调用 COMPARE_OP 指令对堆栈中两个常量进行比较,将结果存入堆栈。调用 POP_JUMP_IF_FALSE 指令,判断栈顶值来决定程序运行顺序实现判断功能。
四、参考
本文试图让读者能够通过简单的例子具备阅读字节码的能力,上文只是对字节码的阅读做了简单的讲解,文章难免有疏漏敬请包涵。如果读者对字节码的阅读有更多的解读需求可以前往这里:https://bbs.pediy.com/thread-246683.htm。通过官方文档https://docs.python.org/2/library/dis.html可以对更多的字节码指令了解。