实战CUDA应用软件

xdd6622 · 发表于 2011-3-11 17:03

本帖最后由 xdd6622 于 2011-3-11 22:56 编辑

         随着显卡的发展，GPU越来越强大，在计算上已经超越了通用的CPU。如此强大的芯片如果只是作为显卡就太浪费了，因此N卡厂商推出CUDA，让显卡可以用于图像计算以外的目的。
CUDA（Compute Unified Device Architecture）是一个新的基础架构，这个架构可以使用GPU来解决商业、工业以及科学方面的复杂计算问题。
CUDA采用C语言作为编程语言提供大量的高性能计算指令开发能力，使开发者能够在GPU的强大计算能力的基础上建立起一种效率更高的密集数据计算解决方案。
目前在视频和音频编码到石油天然气勘探、产品设计、医学成像以及科学研究等领域都有了CUDA的产品，比如视频转换软件：Badaboom、MediaCoder，视频处理软件：MotionDSP、Arcsoft Totalmedia，分布式医学研究软件：Folding@home 等，让我们来体验一下这些软件。
         平台准备：
   1 CPU:    E8400 EO（默认3G)
   2 主板： DFI DK P45-T2RS PLUS
   3 内存：威刚红色威龙极速版 DDR2 800+ 1G*2
   4 硬盘：西数 WD6400AAKS*1 WD10EADS*1
   5 散热器: 利民U120E + EVERFLOW 12025SM 单风扇
   6 电源：台达 GPS-1000GB A
   7 显卡：影驰 GTX275黑将版
   8 机箱：金河田+ EVERFLOW 12025SM 机箱风扇
   9 显示器：  翰视奇 HG281D
   10 操作系统：WIN7 旗舰版

1 CUDA在视频转码中的应用
      传统的CPU转码工具耗时耗力，往往花费了大量了精力。不过随着Win7和NVIDIA的CUDA应用的成熟，用户已经迎来了新的视觉时代。

      1 Badaboom是一款由NVIDIA和Elemental联合推出的消费级视频转码软件。软件操作界面简约直观，操方式简单易懂，用户很容易上手。
            利用Badaboom可以把快速的把普通视频转换成便携设备可以使用的视频格式。Badaboom高质量的H.264视频编码器和双通道立体声音频输出特别为现代便携式媒体设备而设计，其中包括苹果iPod和索尼便携式Playstation，未加密DVD(没有版权保护的DVD)、电视录像和AVCHD影片等输入源可以快捷、方便地进行转码。
            Badaboom采用了NVIDIA的CUDA通用计算技术，所以使用NVIDIA的显卡转换速度会非常快。Badaboom利用GPU进行大部分转码工作，因此CPU的占用率很低。BadaBOOM的转码性能基本和GPU流处理器数量成线性关系。
            进入软件界面，设置很简单，点击左边选择源文件，点击右边选择输出格式，设置好输出地址，点击开始，好快！一部容量7.33G，时长2小时24分钟的DVD电影：黑鹰坠落，转换成SONY PSP格式，仅仅用了17分14秒，平均帧速251帧，是播放速度的8倍多!

      这是转换完后播放画面的截图：

      转换超人归来DVD电影，也仅仅用了16分18秒，平均帧数达到226帧：

   2    MediaCoder采用CUDA加速了H.264编码。下面介绍一下CUDA加速H.264格式的转码的设置及性能测试。
            下面实战一下,选用高清电影《皇家赌场未剪辑版》中的第二段视频文件：
            进入软件界面，设置好转换内容和路径，视频音频规格，注意编码器要选CUDA，点击开始：

转码速度达到26帧：

这是测试结果，平均是播放速度的1.09倍：

         同样的设置，编码器选自动，也就是用CPU来转码，速度只有10.9帧，慢了好几倍

2       CUDA在视频修复中的应用
      vReveal具备CSI式（引自Crime Scene Investigation，《犯罪现场调查》）的超高分辨率专利技术，该技术的原型是执法和情报部门所采用的法庭专用应用程序。通过支持NVIDIA（英伟达）CUDA的GPU（图形处理器）所具备的大规模并行处理能力，vReveal可以即刻清除视频中抖动、灰暗、噪音和模糊的部分。在NVIDIA（英伟达）GPU（图形处理器）的帮助之下，vReveal提升视频质量的速度最高可达CPU的5倍。
      这里选用迈克杰克逊.德国历史演唱会视频看看实际表现，进入软件界面，出现未经处理的视频画面：

点击如图所示一键修复，画面立即变的清晰：

左右对比，差别明显：

当然也有更高级的修复手段：

            通过上述的演示，可以看到，其效果就象尘封的照片被水洗了一样，一切都变得清晰明艳，而操作却是如此简单。许多珍贵的个人或历史的影视资料都可以通过这个软件修复，实在是太有用了。

xdd6622 · 发表于 2011-3-11 17:04

本帖最后由 xdd6622 于 2011-3-11 23:24 编辑

3 CUDA在医学研究中的应用

Folding@home是一个研究研究蛋白质折叠，误折，聚合及由此引起的相关疾病的分布式计算工程。我们使用联网式的计算方式和大量的分布式计算能力来模拟蛋白质折叠的过程，并指引我们近期对由折叠引起的疾病的一系列研究。

　　什么是蛋白质？它们是怎么折叠的呢？

　　蛋白质是一个生物体系的网络基础，它们是一个个纳米级计算机。在蛋白质实现它的生物功能之前，它们会把自己装配起来，或者说是折叠；虽然蛋白质折叠对所
有的生物来说是最基本的和最明确的事实，但它的折叠过程对人类而言仍然是个未解之谜。此外，当蛋白质没有正确的折叠（误折）无疑会产生严重的后果，包括许多知名的疾病，比方阿兹海默症(Alzheimer's)，疯牛病(Mad Cow, BSE)，可传播性海绵状脑病(CJD)，肌萎缩性脊髓侧索硬化症(ALS)，还有帕金森氏症(Parkinson's)。

　　目前进行中的研究：

　　阿兹海默症

　　癌症

　　亨廷顿病

　　成骨不全症

　　帕金森氏症

　　核糖体与抗生素

　　Folding@home 科学

　　什么是蛋白质?

　　蛋白质是由氨基酸分子形成的长链。蛋白质是生物生存的基本条件。作为酶, 他们是所有生物化学反应的驱动力。作为结构的基本成分,它们是我们的骨骼、肌肉、头发、皮肤和血管的主要组成部分。作为抗体，它们可以识别入侵物体，使免疫系统工作从而清除这些物体。因此, 科学家对人类的基因组进行排序——生物圈蛋白质蓝图——但我们怎样可以了解这些蛋白质做了些什么？它们又是怎么运作的?

　　关系到人的染色体项目

　　蛋白质在生物学中充当如此重要的（原文为根本性）角色, 科学家开始对人类的基因组开始排序。基因组实际上是一张跟蛋白质有关的“蓝图”——基因组包含遗传密码（DNA Code），这些密码决定着氨基酸串成蛋白质长链的顺序。

　　蛋白质为什么“折叠”?

　　但是, 仅仅了解基因组序列并不能使我们充分了解蛋白质的工作，更无法了解它是如何工作的。为了发挥它的功能作用（比方作为酶和抗体），他们必须具有非常特定的形状, 亦称“折叠（Fold）”。蛋白质犹如一台令人惊奇的机器: 在他们进行工作之前, 他们自己组装自己! 这种自我装配被称为“折叠（Folding）”。

　　我们项目的目标之一是模仿蛋白质折叠，从而了解蛋白质是如何那么迅速可靠地折叠的，并了解如何使用这些蛋白质的属性来制造高分子聚合物。

　　蛋白质折叠和相关疾病: 疯牛病、阿兹海默氏症

　　如果蛋白质没有正确地折叠将发生什么？比方阿兹海默氏症(Alzheimer's)、囊肿纤维化（Cystic fibrosis）、疯牛病(Mad Cow, BSE), 一种遗传的肺气肿, 甚至许多癌症的起因都是蛋白质的非正常折叠。

　　当蛋白质非正常折叠，可能凝聚起来(“集合体”) 。这些凝聚物可能经常聚集在脑子里，这就是现在通常认为导致阿兹海默氏症和疯牛病的病因。

　　蛋白质折叠和纳米技术:建造纳米级的仪器！

　　除生物医学的应用之外，了解蛋白质的折叠同时也将教会我们应该如何设计我们自己的、像蛋白质大小的“纳米仪器”进行相似的工作。当然，在纳米仪器可能执行任何任务前，他们也必须进行组装。

　　为什么蛋白质折叠那么难搞清?

　　最令人惊讶的不仅是蛋白质本身能够自我组装—— 折叠，而且是它们自我组装的速度是如此之快:一些蛋白质能够在百万分之一秒之内完成自我折叠。虽然这个时间在人的时间表中是非常快的，但是用计算机进行模拟，这个时间就显得相当长了。实际上，计算机模拟1纳秒（1/1,000,000,000秒）需要花费大约一天的时间。不幸的是，蛋白质折叠是以数十毫秒（10000纳秒）作为时间表的。这样，这将需要10000台计算机花费数天的时间来模仿折叠。——例如，这将需要30台计算机花费数年的时间。这样等一个结果出来需要的时间太多。

　　一种解答: 分布动力学

　　要解决蛋白质折叠的问题，我们需要冲破微秒障碍。我们的小组开发了一种新的模仿蛋白质折叠的方式——一种“将工作单元分解成多个部分，使用多台处理器来模拟”的办法来冲破毫秒障碍。因而，有1000个处理器, 我们就能冲破微秒障碍从而帮助了解蛋白质是如何折叠的奥秘。

　　我们到目前为止做了什么？我们将做什么？

　　Folding@home 1.0是成功的。在从2000年10月到2001年10月的一年内，我们已经使用了我们实验性检验的方法折叠了一些小且快速被折叠的蛋白质。我们现在正在进一步开发我们的方法，并推广到模仿折叠一些更加复杂、更加有趣的蛋白质和“蛋白质正常折叠与非正常折叠”的问题。您能从我们的结果页上了解更多。

　　运作方式

　　Folding@home并不依靠强大的超级电脑进行计算，反而主要的贡献者是成千上万的个人电脑。每部参与的电脑都安装了一个在背景执行的客户端程序，在系统不忙碌的时候调用中央处理器执行模拟工作。现时世界上绝大部分的个人电脑，在一般的情况下都很少用尽本身的计算能力。Folding@home就是使用这些本来都浪费了的运算力量。

　　Folding@Home的客户端会定时连接设于史丹佛大学的服务器去取得“工作单元”（work units），即一种存有实验资料的数据包，根据实验资料进行计算。每个工作单元计算完成后，再传回服务器。

　　分析软件

　　Folding@home的用户端利用了经修改的TINKER、GROMACS、AMBER及CPMD这四款分子模拟程式进行运算，并会在许可的情况下作出优化，以把运算速度加快。这四款模拟程式也被修改成多个不同版本，供多款作业平台使用，每款程式的变体会以编号“Core xx”作分类。

　　Folding@home Console version是Folding@home的命令行界面版本接口版本，由史丹佛大学化学系的潘德小组（Pande Group）主持，于2000年10月1日正式启动，可精确地模拟蛋白质折叠和错误折叠的过程，以便能更好地了解多种疾病的起因和发展，Folding@home目前是世界上最大的分布式计算计划。

下面实战一下Folding@home for NVIDIA：

运行Folding@home for NVIDIA程序后，进入设置页面，填上你的个人用户名，组号填上3213就是中国组：

再按图示设置后，程序将自动运行，显卡温度很快就到了67°：

这是打开Folding@home 运行显示后的截图，CPU占有率一下就到了77%，所以最好不要打开显示：

想看看你有什么贡献吗？打开个人统计资料就可看到：

怎么样？当你的电脑仅仅是在上网或玩QQ游戏时，有没有考虑也加入到这一伟大的项目中？特别是当你有一块支持CUDA架构的NVIDIA显卡时，可以让你在不知不觉中进行史上最艰巨的医学研究，荣幸吧？还不赶快行动起来！

royalk · 发表于 2011-3-11 17:45

好像第一个图挂了- -
不过这种文章确实很实用~

xdd6622 · 发表于 2011-3-11 17:59

回复 3# royalk

谢谢提醒，已经编辑。

junweb · 发表于 2011-3-11 18:16

vReveal有没有可用的？
试用版就不要说了

flight8848 · 发表于 2011-3-11 19:14

不错的帖子，LZ有CUDA玩家的勋章……我要弄一个:)

xdd6622 · 发表于 2011-3-11 19:17

回复 6# flight8848

这个比进5G俱乐部容易多了，快去捡CUDA勋章:lol

jasu30 · 发表于 2011-3-11 23:11

嘿嘿，正好你们发文了，我写的就简单许多，可以引用啊

xixim · 发表于 2011-3-23 21:15

学习了，真正的知识啊。

zhuxiaohui · 发表于 2011-3-24 15:10

mediacoder一直在用，确实不错，但是压的视频有条纹感，在小屏幕下看没关系，在大屏幕下就看着有点奇怪了

cloud_lee · 发表于 2011-4-24 22:07

这还是玩家吗？明明是砖家！

实战CUDA应用软件

本帖子中包含更多资源

本帖子中包含更多资源

评分