GENOME 进度
在线的低代码生信平台
形式: 对话框 + 表格
参考产品: coze, cursor …
特点:
- 深度前端交互: 可以手动操作, 也可以指挥 AI 操作表格
- 完整回路: 让 AI 自主规划
- 联网搜索: 查阅相关论文 / 数据库, 当然本地 RAG 也可以
- 多模态整合: 可以选择不同的大模型, 支持文字 / csv 输入, 文字 / 图片输出
- 关键: 整合 alphagenome 辅助研究 (微服务 MCP 形式)
技术栈和架构设计
Alphagenome 相关
Section titled “Alphagenome 相关”已经完成:
- 搭建HTTP 服务器用于获取公共数据库数据
- 将基因注释数据写入本地数据库
- 预先编译 protos 文件, 对 alphagenome 源码做定制化修改
为什么要用数据库?
- 不用每次都下载, 节约时间
- 方便扩展, 可以使用自己的数据
- SQL 语句更加简洁, 而且速度比 pandas 快
为什么要修改源码?
- 简化代码, 直接通过 SQL 语句查询
- 模块分离, 不限制于 python 语言, 便于接入个人的 typescript 项目
使用示例:
conn = sqlite3.connect("./gtf_annotations.db")
def filter_protein_coding_sql(conn, df: pd.DataFrame) -> pd.DataFrame: """ 使用 SQL 查询方式提取 protein_id 列 """ query = "SELECT DISTINCT protein_id FROM gtf WHERE protein_id IS NOT NULL" result = pd.read_sql_query(query, conn) return result
gtf_transcripts = ( filter_protein_coding_sql(conn, "gtf") # .pipe(gene_annotation.filter_to_longest_transcript_sql))
print(gtf_transcripts)
接下来的计划:
- 继续探索模型的功能
- 构建 MCP 服务, 为大模型提供基因预测的能力
- 整合 AI-Agent, 让用户可以通过自然语言和数据交互