GENOME 进度

项目构想

在线的低代码生信平台

形式: 对话框 + 表格

参考产品: coze, cursor …

特点:

深度前端交互: 可以手动操作, 也可以指挥 AI 操作表格
完整回路: 让 AI 自主规划
联网搜索: 查阅相关论文 / 数据库, 当然本地 RAG 也可以
多模态整合: 可以选择不同的大模型, 支持文字 / csv 输入, 文字 / 图片输出
关键: 整合 alphagenome 辅助研究 (微服务 MCP 形式)

技术栈和架构设计

Alphagenome 相关

已经完成:

搭建HTTP 服务器用于获取公共数据库数据
将基因注释数据写入本地数据库
预先编译 protos 文件, 对 alphagenome 源码做定制化修改

为什么要用数据库?

不用每次都下载, 节约时间
方便扩展, 可以使用自己的数据
SQL 语句更加简洁, 而且速度比 pandas 快

为什么要修改源码?

简化代码, 直接通过 SQL 语句查询
模块分离, 不限制于 python 语言, 便于接入个人的 typescript 项目

使用示例:

conn = sqlite3.connect("./gtf_annotations.db")

def filter_protein_coding_sql(conn, df: pd.DataFrame) -> pd.DataFrame:
    """
    使用 SQL 查询方式提取 protein_id 列
    """
    query = "SELECT DISTINCT protein_id FROM gtf WHERE protein_id IS NOT NULL"
    result = pd.read_sql_query(query, conn)
    return result


gtf_transcripts = (
    filter_protein_coding_sql(conn, "gtf")
    # .pipe(gene_annotation.filter_to_longest_transcript_sql)
)

print(gtf_transcripts)

接下来的计划:

继续探索模型的功能
构建 MCP 服务, 为大模型提供基因预测的能力
整合 AI-Agent, 让用户可以通过自然语言和数据交互