Python逆向(五)—— Python字节码解读

一、前言

前些章节我们对 python 编译、反汇编的原理及相关模块已经做了解读。读者应该初步掌握了通过反汇编获取 python 程序可读字节码的能力。python 逆向或者反汇编的目的就是在没有源码的基础上,通过字节码来理解源代码的运行内容,并且进一步对源码的远行进行调试。因此本次我们尝试对 python 字节码进行解读。

二、字节码结构

字节码结构如下
源码行号 | 跳转注释符 | 指令在函数中的偏移 | 指令符号(助记符) | 指令参数 | 实际参数值

上图表示

  • 该字节码指令在源码中对应 59 行
  • 此处是跳转的目的地址
  • 82 该字节指令的字节码偏移
  • 操作指令对应的助记符为 LOAD_GLOBAL
  • 操作参数为 6
  • 操作参数对应的实际值为 disassemble

三、字节码实战

3.1 常量

加载常量只有一行 LOAD_CONST,对应源码第 1 行,字节码偏移地址 0 字节,常量数组中索引 0,实际常量值‘123’

3.2 局部变量

加载局部变量 a:LOAD_CONST 加载常量 1,调用 STORE_NAME(参数 a),并将变量 a 存储为 1
同理加载局部变量 b

3.3 全局变量

加载全局变量 a,与加载局部变量不同的是通过 STORE_GLOBAL 在存储变量。

3.4 数据类型 list

先将所有的 list 元素加载,调用 BUILD_LIST 方法生成 list 于内存中,通过 STORE_NAME 将堆栈中的 list 存储于局部变量 a 中

3.5 数据类型 dict

BUILD_MAP 声明字典元素数量,通过两次 LOAD_CONST 后,调用 STORE_MAP 生成键值对存于堆栈,最终通过 STORE_NAME 将堆栈中长度为 2 的两个键值对最为字典数据类型存储在 a 中

3.6 数学运算

字节码中显示先对局部变量 a、b 赋值,通过 LOAD_NAME 加载局部变量,调用加法 BINARY_ADD,生成结果存储与堆栈中,使用 STORE_NAME 将堆栈中的计算结果存储与局部变量 c
加减乘除的运算字节码相似,不不再赘述,读者可以自行分析,如下图:

上图中为对 a、b 做加减乘除的字节码,因为没有存储计算结果,所以每次运算完没有使用 STORE_NAME 方法存储,解释器默认调用 POP_TOP 方法将计算结果从堆栈顶部弹出,以保证堆栈平衡。

3.7 循环 FOR

上图显示一个 FOR 循环的过程。SETUP_LOOP 表明循环开始,参数说明此循环知道字节码偏移 28 字节的指令结束(也就是 28 字节开始不是循环)。调用 range 方法生成 generator 存于堆栈。FOR_ITER 调用堆栈,声明 generator 作用到字节码偏移位置 27 字节。从第 16 字节起到 27 为 generator 迭代作用域。其中为一个 print 函数。

3.8 判断 IF

以一个简单的 IF 判断为例,先加载需要比较的常量,调用 COMPARE_OP 指令对堆栈中两个常量进行比较,将结果存入堆栈。调用 POP_JUMP_IF_FALSE 指令,判断栈顶值来决定程序运行顺序实现判断功能。

四、参考

本文试图让读者能够通过简单的例子具备阅读字节码的能力,上文只是对字节码的阅读做了简单的讲解,文章难免有疏漏敬请包涵。如果读者对字节码的阅读有更多的解读需求可以前往这里:https://bbs.pediy.com/thread-246683.htm。通过官方文档https://docs.python.org/2/library/dis.html可以对更多的字节码指令了解。