Skip to content

GENOME 进度

在线的低代码生信平台

形式: 对话框 + 表格

参考产品: coze, cursor …

特点:

  • 深度前端交互: 可以手动操作, 也可以指挥 AI 操作表格
  • 完整回路: 让 AI 自主规划
  • 联网搜索: 查阅相关论文 / 数据库, 当然本地 RAG 也可以
  • 多模态整合: 可以选择不同的大模型, 支持文字 / csv 输入, 文字 / 图片输出
  • 关键: 整合 alphagenome 辅助研究 (微服务 MCP 形式)

技术栈和架构设计

已经完成:

  1. 搭建HTTP 服务器用于获取公共数据库数据
  2. 将基因注释数据写入本地数据库
  3. 预先编译 protos 文件, 对 alphagenome 源码做定制化修改

为什么要用数据库?

  1. 不用每次都下载, 节约时间
  2. 方便扩展, 可以使用自己的数据
  3. SQL 语句更加简洁, 而且速度比 pandas 快

为什么要修改源码?

  1. 简化代码, 直接通过 SQL 语句查询
  2. 模块分离, 不限制于 python 语言, 便于接入个人的 typescript 项目

使用示例:

conn = sqlite3.connect("./gtf_annotations.db")
def filter_protein_coding_sql(conn, df: pd.DataFrame) -> pd.DataFrame:
"""
使用 SQL 查询方式提取 protein_id 列
"""
query = "SELECT DISTINCT protein_id FROM gtf WHERE protein_id IS NOT NULL"
result = pd.read_sql_query(query, conn)
return result
gtf_transcripts = (
filter_protein_coding_sql(conn, "gtf")
# .pipe(gene_annotation.filter_to_longest_transcript_sql)
)
print(gtf_transcripts)

接下来的计划:

  1. 继续探索模型的功能
  2. 构建 MCP 服务, 为大模型提供基因预测的能力
  3. 整合 AI-Agent, 让用户可以通过自然语言和数据交互