
出品| 木青生信大模型
作者| 穆易青、kimi
头图| 大地老周
引言
8月20日,发布的《黑神话:悟空》全球同步上线(Steam、Wegame、EGS、PlayStation)。单日销量超过450万份,销售额超15亿元,并诞生多项纪录:霸榜 Steam 在线人数第一、创单机游戏在线人数纪录,位列 Steam 全球周销量冠军,横扫欧美地区榜单。在通过观看直播和个人试玩第一章前半段后,尽管电脑配置有限,但我对这个游戏中的美术,文案及游戏本身的可玩性也是持相当高度的评价。游戏测评本不是我的长项,但我喜欢玩游戏,并且对于游戏制作背景多少还是会去了解一下。如仙剑系列北软与上软的故事,武林群侠传智冠与河洛的矛盾。至于游戏科学,自从4年前发布了预告片后,江湖上就一直有传出一些小道消息,却鲜有大动作。而对于CEO冯骥,除了知道曾经入职腾讯外,其他也是知之甚少。这段采访则是游戏发布1个月前,由新华网记者前往公司进行采访,为我们揭开了这个团队的神秘面纱。我看完之后发现制作人的对工作认知和大模型的训练技巧有共通之处,因此写下来分享给大家。
正反馈与定位
冯骥本科是生物医学工程专业,在中科院做毕设的时候,他就观察到自己不适合做生物(这里没有劝退读者的意思)。

冯骥认为,人喜欢的东西一定是自己能够更容易获得正反馈的东西,人要反思的不是自己爱什么,而是自己擅长什么。“正反馈”这个词其实经常出现在游戏中,是让玩家持续时间投入的一个关键因素。那么,或许一个爱好,一份工作,一项事业也是如此,生信亦是如此。看文档是否让你头晕眼胀?安装软件是否让你时时抓狂?写代码是享受丝滑运行带来的流畅体验,还是苦于无尽bug的调试和数据的反复挖掘。
“知道自己不想要什么比知道自己想要什么更重要”,这里讲的其实是定位。
最近在给同事做大模型培训,有一个非常关键的技巧就是角色定位(Role Prompting)。这个技巧也很容易理解,就是在问问题之前,给大模型赋予角色信息。比如:“作为一个生物信息工程师,请给我介绍一下RNA-seq分析流程”、“你是一个基因组学专家,请帮我翻译下面这段内容……”有些问题过于专业,哪怕不进行角色定位,大模型可能也可以回答,但是有些问题,比如专业术语的翻译,使用角色定位后,可以增加翻译结果的准确度。
专注与务实
游戏里面有一个妖怪,叫狼斥候,玩家只要升到3级就能用一记蓄力重击将狼斥候消灭。它天性要强,由于道行浅薄,它拜访各路大妖,讨教秘法,却又因各家修习时间过短感觉助益甚少,到头来什么都使不好。


有没有感觉在说自己
回到采访,冯骥提到,选择了更容易获得正反馈的路之后,下一步仍然还是需要去专注。打游戏,大家都喜欢,喜欢程度却也不一样,或者说专注度不一样。比如,同样喜欢玩游戏的我们,单机游戏是速通过剧情还是全成就,对战游戏是否会熟悉游戏不同角色、文明的机制,复盘对战情况,是否对各个技战法都有所了解。再专注一些,玩游戏是一回事,做游戏又是另一回事,有没有自己开发过mod,是否把游戏作为自己从事的工作(游戏开发,游戏主播,职业选手等)。
大语言模型同样需要专注。
提示工程基础技巧里面的另一个对提示类似专注的要求,官方文档的用词是具体化(Specificity)。即完善问题相关信息,补充背景,或者说描述出更符合实际问题的情境。
我以咨询“nanopore direct RNA sequencing(DRS)测序技术”为例,给大家展示具体性是一个示例:
示例一:在缺乏专业领域及术语认知的描述下进行提问
Q:什么是DRS?
A:DRS可以指多个不同的概念,具体取决于上下文。以下是一些可能的含义:
Differential Rate Sensitivity:在生物学或医学领域,DRS可能指的是不同速率的敏感性,比如在药物反应或疾病进程中不同个体对治疗的反应差异。
Data Readiness System:在信息技术领域,DRS可能指的是数据准备系统,这是一种用于数据管理和分析的工具。
……
示例一说明了对于大语言模型,在没有具体指明内容之前,其回答也是相当模糊的。那么我们试试对这个问题进行具体化描述。
示例二:补充专业领域,使用全称术语,并对结果要求详细介绍
Q:请从生物测序方面详细介绍nanopore direct RNA sequencing技术
A:Nanopore direct RNA sequencing (dRNA-seq) 是一种利用牛津纳米孔技术进行的单分子实时测序方法,它允许对RNA分子进行直接测序,无需进行传统的逆转录步骤。这项技术提供了一种新颖的途径来研究RNA的转录后修饰、剪接变异和表达水平。以下是对nanopore dRNA-seq技术的详细介绍:
技术原理
……
技术优势
……
应用领域
……
实验流程
……
很明显,对问题进行具体化描述后,大语言模型给出的答案就更加准确、详细。除了具体化描述,还可以通过上下文理解(context)提高大模型的专注程度。
所谓上下文理解,其实就是向模型提供信息,告诉他你在哪个知识范围进行检索。提供内容的形式简单点的可以是通过多次提问,完善情境,让模型不断缩小知识范围,另外可以向大语言模型提供本地文档。比如,我们可以将公司的结题报告上传,然后让模型写一个生信分析的材料方法,又或者将差异分析的表达结果进行上传,让模型帮我们写一段讨论;线上则可以粘贴网页链接,快速上手不熟悉的软件,比如直接把qiime2的官方文档链接传给模型(大部分模型只支持当前网页读取,不支持子网页爬取),学习qiime2的分析流程。这两个方式,学习软件的时候可以交替使用,可以上传本地文档或者将github说明文档的链接发给模型,询问软件的具体使用命令,以此最大程度上避免模型幻觉(LLMs hallucination)进一步的,我们甚至可以在本地构建相应的知识库,对大模型进行个性化定制。
结语
学生物医学工程的冯骥做出了《黑神话:悟空》,而“狼斥候”们也并不想止步于此,讨教学问,修习自身,升仙不敢奢望,若是一朝得道,作“虎先锋”,镇守一方,也未可知。国民狂欢的盛况还在持续,写完文章的我也将继续与魑魅魍魉战斗。截至发稿前,网上已经有了全成就,全攻略视频。我不打算看,因为:
踏上取经路,比到达灵山更重要。