如何计算一段自编程序的带宽?

一般认为限制CFD程序的瓶颈往往是内存的带宽,那么请问对于一段自编的代码,如何计算带宽呢?

习惯用mbw测试(Linux)

大的算例还是要上集群跑的