分类 二、深度学习 下的文章

1.官网

chatpdf没有论文,属于chatgpt的一个应用。
https://www.chatpdf.com/
中文类似网站:
http://www.chatspdf.cn/

2.测试页面

900.png
切割错误情况:

63710.png

3.技术原理

1.pdf转文本

读取PDF文件,将其转换为txt格式的文本文件。

2.数据预处理

对文件进行清理和标准化,例如去除特殊字符,保留标题和文本,按照自然段落进行分割。

3.段落embedding

ChatPDF使用OpenAI的Embeddings API将每个分段转换为向量,这个向量将对文本中的语义进行编码,以便于与问题的向量进行比较

4.用户query问题embedding

当用户提出问题时,ChatPDF使用OpenAI的Embeddings API将问题转换为一个向量,并与每个分段的向量进行比较,以找到最相似的分段。这个相似度计算可以使用余弦相似度等常见的方法进行。

5.prompt工程

ChatPDF将找到的最相似的分段与问题作为prompt,调用OpenAI的Completion API,让ChatGPT学习分段内容后,再回答对应的问题。

难点思考:
1.切断粒度的划分:以什么为维度切片,chatpdf也有切错情况,如上图。
2.提示语句的实验
3.chatpdf存在的问题:
(1)概括性的问题无法找到答案
(2)对于语义非常相似的文本能找到对应位置,但是上下文语义可能存在切错误情况。
4.推荐先通过chatgpt快速实验一版方案,然后替换大模型自研

4.复现代码参考

https://www.alanwang.site/blog/chatgpt-pdf
https://blog.csdn.net/m0_55868614/article/details/129639067