Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

原文档内容和翻译结果重叠,是否存在屏蔽原文档内容选项 #446

Open
tomatolike-self opened this issue Jan 9, 2025 · 9 comments

Comments

@tomatolike-self
Copy link

问题描述

我在使用 pdf2zh 时遇到了一些问题:

  • 设备信息: Mac M1
  • Python 版本: Python 3.12.7
  • pdf2zh 版本: pdf2zh v1.8.8
image

翻译文档时出现了 原文档内容和翻译结果重叠 的现象,导致阅读体验较差

是否存在类似 pdf2zh example.pdf -f xxx 的功能,能够将翻译页面中的原文档内容屏蔽,单纯只保留翻译结果?

测试文档

Chankin - jou.roalof ggcloar materials.pdf

@tomatolike-self
Copy link
Author

#444 中提到新版本已经有这一功能了,等新版发布吧

@hellofinch
Copy link
Contributor

你这个是扫描件,需要OCR,暂时处理不了。
#19
: )

@tomatolike-self
Copy link
Author

好吧,但是我看翻译页面其实是有翻译后结果的,而且原文档是支持选中文字的。
image
我想的是能不能存在一个选项,能够在翻译页面关闭原文档的图像画面,以免重叠
之前提到的 #444 中说下版本会出现一个新的关闭选项,所以之前关掉了这个issue,但今天看似乎和我这里不是一个需求?

@tomatolike-self
Copy link
Author

另外翻译页面中pdf的文字层其实已经是中文翻译结果了
image
原文档的内容似乎是直接作为背景图给贴上去了?

@hellofinch
Copy link
Contributor

这个PDF是个扫描件,你能复制不是PDF本身能复制,是你的阅读器让你能复制。
原始的内容不是我们不想去,是它去不了。
所以,等OCR功能吧。
: )

@awwaawwa
Copy link
Contributor

@hellofinch 其实我们应该是能去掉这个图片内容的hhhhhhh

等我把手上事情做一做之后来看一看这个需求,请耐心等待,感谢。

@hellofinch
Copy link
Contributor

我之前试着删过,没删掉。。。。

@awwaawwa
Copy link
Contributor

这是我在新后端上移除ops_base后的测试效果。ps 空白区域有字,只是由于bug显示为空白。
CleanShot 2025-01-12 at 03 03 54@2x

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants