zinc数据库(清华大学——重大突破!速度提升1000万倍,《秒杀30年研发99%》)

zinc数据库(清华大学——重大突破!速度提升1000万倍,《秒杀30年研发99%》)
清华大学——重大突破!速度提升1000万倍,《秒杀30年研发99%》

最近老黄提到AI医疗是万亿美元赛道,那么我们清华这次在AI制药上的重大突破,给人类健康带来巨大希望,有兴趣的读者建议读完文章。

一、AI医疗是什么概念?

我们正站在一个超酷的医疗健康大变革门口!AI带着大语言模型和深度学习这些“秘密武器”,有报告显示2024年全球AI医疗市场已经达到约266.5亿美元,而且还以每年38.8%的速度疯狂增长,到2033年能突破5000亿美元大关。意味着咱们看病、管理健康,还有研发新药的方式都要来一场大变身!

最近OpenAI搞了个大动作,推出了“ChatGPT Health”。它厉害在哪呢?它能把你的电子医疗记录和各种健康应用安全地连接起来。以后它给你的健康建议,可不是那种泛泛而谈的套话,而是结合你自己的病史、实时身体数据、用药记录等等,给你量身定制的个性化指导。

不过药物研发这个医疗健康的“老大哥”却遇到了大麻烦。咱们身体里大概有2万个和疾病有关的蛋白质靶点,可现有的药物只能搞定其中大概10%。传统的“分子对接”这些虚拟筛选方法,虽然用计算代替了一部分实验,但还是又慢又贵,就像在茫茫大海里捞一根针,效率低得让人着急。所以科学家都盼着能找到一种又快又准的新方法,把剩下的90%“难搞”的基因组都搞定。这时候清华登场!DrugCLIP:药物虚拟筛选来了。

二、清华大学AI制药,效率提升1000万倍。

面对药物研发这个大难题,清华大学的联合研究团队在《科学》杂志上发表了一个超厉害的研究成果——DrugCLIP。带来了一种全新的“解法”。他们提出了一个“AI对比深度学习”框架,把虚拟筛选这个复杂的计算化学问题,变成了一个“密集检索”任务。

怎么理解呢?想象一下有个超级厉害的药物化学家,记忆力超强,归纳能力也一流。传统的方法就像让他对每个候选分子都做精细的物理实验和计算,虽然严谨,但慢得像蜗牛。而DrugCLIP呢,就像先让这个“化学家”通过海量数据学习,给每个蛋白质结合口袋和每个小分子都提炼出一个独特的“特征向量”或者“语义指纹”,然后把它们都放到同一个特征空间里。筛选的时候,不用再搞那些复杂的模拟计算,只要看看目标蛋白口袋的“指纹”和海量分子“指纹”有多像,就能快速判断它们能不能结合。这就好比从慢慢算变成快速找,效率一下子就提升了好几个数量级。

三、AI竟能“偷看”蛋白质记忆?清华团队揭秘:550万组数据训练出“药物预言家”!

研究团队为了实现这个目标在预训练阶段,开发了ProFSA框架,利用蛋白质结构数据库里的天然蛋白质结构,生成了大概550万对训练样本。他们把蛋白质里的短肽片段当成“伪配体”,周围环境当成“伪结合口袋”,让模型从蛋白质自己稳定存在的相互作用里,先学习结合位点的物理化学规律和几何特征。这就解决了真实蛋白 - 配体复合物数据不够的问题。

到了微调阶段,模型就用真实的蛋白 - 小分子复合物结构来优化。为了让模型更厉害,能应对虚拟筛选中分子构象不知道的情况,团队还用了随机生成分子构象的方法来增强数据,让模型变得更“皮实”。最后训练出来的DrugCLIP模型,在实际应用中筛选速度比传统分子对接方法快上千万倍,而且在好多基准测试里精度都一直领先,真正做到了又快又准。从理论到实战:GenPack策略和全基因组筛选的“疯狂之旅”

DrugCLIP可不只是在电脑上模拟厉害,在真实的湿实验里也经受住了考验。针对去甲肾上腺素转运体靶点,DrugCLIP的实验命中率达到了15%,研究人员还成功解析了两种全新抑制剂和靶蛋白的复合物结构,证明了它的预测很靠谱。对于甲状腺激素受体相互作用因子12(TRIP12)这种没有任何已知小分子结合结构的“难成药”靶点,DrugCLIP只靠AlphaFold2的预测结构,就实现了17.5%的命中率,这说明它在开拓新靶点方面潜力巨大。

四、AI药物筛选突破物理极限:1天干完人类300年的活!

为了让AI预测结构在药物研发里发挥更大作用,研究团队又想出了一个新点子——GenPack(生成 - 包装)策略。传统方法直接用预测结构筛选,侧链构象的误差可能会影响结果。GenPack策略就反着来,先在固定的蛋白骨架上,用模型生成可能和口袋匹配的虚拟分子,这个过程会间接让蛋白质口袋的侧链调整到更利于结合的状态,然后再进行结构精修。这一招大大提升了DrugCLIP在预测结构和非结合态结构上找到活性分子的能力,打通了从理论预测到实际药物研发的“最后一公里”。

清华研究团队还干了一件超疯狂的事——全基因组尺度虚拟筛选。他们在一台有8张A100 GPU的服务器上,只用了大概24小时,就完成了对ZINC和Enamine REAL数据库里超过5亿个类药小分子,针对近1万个人类靶点上2万多个结合口袋的筛选,总共进行了超过10万亿次蛋白 - 配体打分计算。这效率简直惊人!在筛选包含264万个分子的标准测试集时,传统软件要花好几天,而DrugCLIP在GPU并行模式下只要0.023秒

基于这个成果,团队还建了GenomeScreenDB数据库,里面有200多万个潜在的高质量命中小分子信息,还免费开放给全球学术界。这可不只是数据多,它第一次系统性地画出了化学空间和人类基因组靶点空间之间的潜在关联图,给全球的研究者提供了一个探索“可成药基因组”的强大新起点,开启了后AlphaFold时代的药物研发新玩法。

五、2033年看病只需3秒?

清华大学的DrugCLIP和OpenAI的ChatGPT Health,一个在药物研发前端“大显身手”,一个在健康管理后端“贴心陪伴”,它们一起描绘出了AI赋能医疗健康的完整未来。它们代表了AI在这个领域深度渗透的两个重要方向:一个是超高效率地解读和设计微观生命复杂系统(DrugCLIP),另一个是深度理解并个性化满足宏观个体健康需求(ChatGPT Health)。

zinc数据库(清华大学——重大突破!速度提升1000万倍,《秒杀30年研发99%》)

以后随着AlphaFold3、RoseTTAFold All - Atom这些能精准预测蛋白 - 配体复合物结构的新模型出现,虚拟筛选会从“快速搜索”变成“精准决策”。我们可以把DrugCLIP这种超高速筛选框架,和新一代高精度结构建模、亲和力预测技术,还有能理解生物医学知识、设计分子的生成式AI结合起来,打造一个从靶点发现到临床前评估的闭环智能系统。

我们正见证一场由AI驱动的医疗健康大革命。从能解锁“不可成药”靶点的超高速智能筛选,到触手可及的个性化健康守护,AI正在编织一张更精密、高效又人性化的医疗健康网络。这条通往万亿级市场的路,可不只是赚钱那么简单,它最终能让咱们对生命健康有更深的理解,更好地守护咱们的健康,让疾病变得更可防、更可治,咱们就等着迎接一个更美好的未来吧!

文章版权声明:除非注明,否则均为边学边练网络文章,版权归原作者所有