graphRAG实战生成西游记知识图谱

Posted by lanesky on July 27, 2024

安装

1
2
git clone https://github.com/microsoft/graphrag.git
pip install graphrag

python version >= 3.10

创建项目&放入数据源

1
2
3
4
mkdir xiyouji
cd xiyouji
mkdir input
curl https://www.gutenberg.org/cache/epub/23962/pg23962.txt > ./input/book.txt

初始化项目

1
python3 -m graphrag.index --init --root ./xiyouji

修改.ENV和settings.yaml

索引化

1
python3 -m graphrag.index --root ./xiyouji

查询

1
python3 -m graphrag.query --root ./xiyouji --method global "这篇文章讲的什么主题“
1
python3 -m graphrag.query --root ./xiyouji --method local "六耳猕猴是怎么死的"

知识图谱(Graph)

西游记知识图谱

FAQ

花了多少钱?

《西游记》的Index化在8月8日重新统计,这一步花了1.44美金。其中,GPT4o-mini是1.44美金,Embedding是<0.01美金。视频中提到的是0.08美金是狄更斯的《圣诞颂歌》的索引化的费用。

为什么我在索引化过程中遇到了OpenAI Rate Limit?

有可能是OpenAI的Usage Tier的问题。简单来说,OpenAI会根据用户的不同情况设置不同的Tier,限制使用。我在《西游记》的索引话没有遇到该问题。

  • https://platform.openai.com/docs/guides/rate-limits/usage-tiers
  • https://platform.openai.com/docs/guides/rate-limits/free-tier-rate-limits

视频地址

上集

下集