硬字幕提取篇
文章转自草莓餐厅。在此感谢。一、需要使用的工具
电影魔方(或会声会影、premiere、nero video、sony vegas等其他非编工具)(非必须,后面说明)
AviSynth
esrXP(本教程使用esrXP,同类软件还有subrip、AVISubDetector和sublog等)
microsoft office onenote(ocr使用,可以使用其他工具代替,如ABBYY FineReader、adobe acrobat pro等)
aegisub(字幕编辑工具,可以使用srtedit、时间机器、popsub等)
二、视频剪切处理
该步骤非必须,但是事前做好剪切工作可以为后续操作省事不少。
这里我们使用电影魔方来剪。
注意:剪切的关键是要剪掉后面的演职员表,尤其是从下自上滚动播放的那种演职员表,一定要剪掉,可以为后面的工作省事不少。
三、使用esrXP提取硬字幕
1、初次使用esrXP需修改软件界面语言
2、在esrXP内打开影片
注意:因为esrXP支持的视频格式非常有限(支持最好的是rmvb),所以我们需要通过avs脚本导入影片,当然你也可以选择使用格式工厂或media coder来转码。
2.1 编写AVS脚本
将这个文件保存为*.avs即可。
2.2 通过avs脚本打开影片
2.3 查看打开的影片
过滤器在字幕菜单里面。
3、esrXP相关抓取设置
3.1 拖动进度条,查看字幕
3.2 指定硬字幕显示的区域和字幕颜色
3.3 启动过滤器,并进行进阶设置
3.4 后处理设置
3.5 抓取设置
4、抓取字幕
5、对抓取的字幕进行处理
6、OCR识别字幕文字
6.1 保存图像
6.2 使用noenote进行OCR
7、字幕文本校对
8、导出srt原始字幕
四、字幕后期处理
字幕后期处理主要是帧率转换、调轴等操作。
1、帧率转换
因为我国的广播电视采用PAL_D制,所以录制的视频的帧率都是25fps,而大部分蓝光都是23.976fps的帧率,所以需要进行征率转换。
注意:在进行帧率转换之前,最好用mediainfo查看一下目的视频的帧率。
2、时间轴调整
经本人多次使用发现,使用esrXP抓取的字幕时间轴非常精准,所以,如果原视频硬字幕的时间轴很精准的话,那么只需要看看有没有删减部分,如果没有删减的话,基本做做帧率转化,对齐第一条字幕就可以了。如果,原视频硬字幕的时间轴很糟糕的话,那么就使用aegisub或srtedit之类的字幕工具来调,具体教程这里就不说了。
注意:使用aegisub调轴的时候可能会出现延迟现象,就是说,你在potplayer和srtedit里面看都是准的,但是在aegisub里面会慢几帧,出现这个问题的时候,使用avs脚本导入视频到aegisub里面即可解决,不要用aegisub直接导入视频。
全文完
2015年11月11日更新字幕OCR方法
对抓取的字幕进行处理后(主要是删除空白行,合并重复行)我们把原始字幕保存为idx+sub格式(DVD的字幕格式)
使用IDXSUBOCR来识别字幕
IDXSUBOCR需要调用office 2003的MODI识别引擎,所以使用它需要先安装office2003,识别效率很高和onenote的识别率一致(微软这么多年可能就没改进过中文识别引擎)
识别速度很快,识别完成后会自动保存srt,可以拿到其它文本字幕编辑工具里面修改和校对 倆木大給力 来好好学习一下,谢谢楼主的用心分享和转载:) liannasa 发表于 2016-4-19 18:06
来好好学习一下,谢谢楼主的用心分享和转载
我想說一下 小子你小看倆木大 完全是他自己寫的教程 並非轉載:lol 谢谢双木写出这么详细的教程,长知识了,辛苦了,认真学习下 好复杂,看到眼都花了 哇 技术贴~ 硬字幕还可以提取! 不知道对MP4格式的支持如何谢谢分享 这个也可以呀,太厉害了! 學習了,表示還需要消化吸收,最關鍵要用於實踐,感謝大版主的強貼!!:P:P 谢谢分享好教程