当前位置: 首页 > news >正文

开源一套Trados Sdlxliff 对比工具

开源一套Trados Sdlxliff 对比工具

在Trados翻译过程中经常对需要进行版本控制和对比,例如对比不同设置下生成的sdlxliff文件,对比不同的机器翻译结果以及对比机器翻译和人工翻译,对比翻译和审校等等。

当然SDL官方也提供了对比工具
https://appstore.rws.com/Plugin/43?tab=releases
但官方的这种是基于TradosAPI的比较笨重,可定制化程度不高,因此还是单独又制作了一个sdlxliff对比工具:
https://github.com/Dark-20001/CompareSdlxliff/

这个和官方工具不同,官方使用Trados内置API来做因此2017,2019,2021,2022各个版本都不一样要下载对应的版本,所以此版本按照xliff文件标准来执行,独立运行,不依赖于Trados.

程序不是XML直接读取sdlxliff,因为sdlxliff会以base64编码形式讲小于25MB的文件编入sdlxliff这部分其实意义不大,所以我跳过这个部分。(sdlxliff这么多年也应该改进一下了,这种基于xml的文件结构经常出现问题,越来越多的软件企业使用zip格式二次封装文件,这样能够将不同独立的组件部分,嵌入部分进行分离,例如docx,xlsx)

string line1 = xlifflines.First();
List<string> base64lines = new List<string>();int s = line1.IndexOf(bmark);if (s != -1)
{string lineb = line1.Substring(s + 29);base64lines.Add(lineb);line1 = line1.Substring(0, s + 29);xlifflinesClean.Add(line1);int cc = 1;for (int i = 1; i < xlifflines.Count; i++){if (xlifflines[i].StartsWith(bmarkStop)){xlifflinesClean.Add(xlifflines[i]);cc = i;break;}else{base64lines.Add((string)xlifflines[i]);}}for (int i = cc+1; i < xlifflines.Count; i++){xlifflinesClean.Add(xlifflines[i]);}}

之后在进行xml解析

doc = XDocument.Parse(String.Join("\r\n", xlifflinesClean));
doc = XDocument.Parse(string.Join("\r\n",xlifflines));

解析之后就是常规操作,提取TranslationUnits和ID

IEnumerable<XElement> transunits = doc.Descendants(XName.Get("trans-unit", xnxliff));
string tuid = transunit.Attribute("id").Value;

由于文件是带有XML命名空间的,这里要提前声明,这样对比Xml.Linq确实方便

string xnsdl = "http://sdl.com/FileTypes/SdlXliff/1.0";
string xnxliff = "urn:oasis:names:tc:xliff:document:1.2";

开两个文件得到两组数据,类型如下

Dictionary<Guid, string> keyValuePairs = new Dictionary<Guid, string>();

然后进行比较,这里没有引入自定义类型,使用Dictionary,效率更高
匹配成功的分别存入paired1,paired2并且ID相同,匹配不上的存入unpaired
这样即使两文件差异较大也能存留记录

Dictionary<Guid, string> keyValuePairs1 = ReadSdlxliff(file1, mtOnly, isTarget);
Dictionary<Guid, string> keyValuePairs2 = ReadSdlxliff(file2, mtOnly, isTarget);Dictionary<Guid, string> paired1 = new Dictionary<Guid, string>();
Dictionary<Guid, string> paired2 = new Dictionary<Guid, string>();
Dictionary<Guid, string> unpaired = new Dictionary<Guid, string>();//match
foreach (KeyValuePair<Guid, string> unit1 in keyValuePairs1)
{IEnumerable<KeyValuePair<Guid,string>> selectedUnits = from unit in keyValuePairs2 where unit.Key == unit1.Key select unit;if (selectedUnits.Count() > 0){paired1.Add(unit1.Key, unit1.Value);paired2.Add(unit1.Key, selectedUnits.First().Value);}else{unpaired.Add(unit1.Key,unit1.Value);}
}

开始比较,使用了异地第三方开源的库,支持按字符和按单词的两种文本比较

public enum ComparisonType
{Words,Characters
}
foreach (KeyValuePair<Guid, string> unit1 in paired1)
{StringBuilder cb = new StringBuilder();List<string> list1 = new List<string>();List<string> list2 = new List<string>();list1.Add(unit1.Value);list2.Add(paired2[unit1.Key]);List<ComparisonTextUnit> comparisonTextUnits = comparer.GetComparisonTextUnits(list1, list2, comparisonType);foreach (ComparisonTextUnit u in comparisonTextUnits){switch (u.ComparisonTextUnitType){case ComparisonTextUnitType.Identical:cb.Append(u.Text);break;case ComparisonTextUnitType.Removed:cb.Append("<span class='removed'>");cb.Append(u.Text);cb.Append("</span>");changeRate.Removed += u.Text.Length;changeRate.RemovedCount++;break;case ComparisonTextUnitType.New:cb.Append("<span class='added'>");cb.Append(u.Text);cb.Append("</span>");changeRate.Added += u.Text.Length;changeRate.AddedCount++;break;default:break;}}}

剩下就是输出报告,并且在比较之前可以增加根据TranslationUnit属性,状态做一些筛选

最后项目地址:
https://github.com/Dark-20001/CompareSdlxliff

相关文章:

  • 以太坊==使用IDE remix.ethereum搭配metamask发布合约到测试网
  • 【C++】优先队列的使用及模拟实现
  • MetaGPT: Merging Large Language Models Using Model Exclusive Task Arithmetic
  • Linux rm命令由于要删的文件太多报-bash: /usr/bin/rm:参数列表过长,无法删除的解决办法
  • AI:音乐创作的未来还是毁灭的序曲?
  • 在自托管基础设施上使用 GitOps 部署 MinIO
  • 数据通信与网络(五)
  • Oracle day10
  • 【Linux系统】多线程
  • go的context总结
  • 开源项目壮大和创新
  • 颍川文明的传承
  • 微信小程序毕业设计-餐厅点餐系统项目开发实战(附源码+论文)
  • 设计模式——设计模式原则
  • [Django学习]查询过滤器(lookup types)
  • django开发-定时任务的使用
  • JavaScript 事件——“事件类型”中“HTML5事件”的注意要点
  • js ES6 求数组的交集,并集,还有差集
  • Otto开发初探——微服务依赖管理新利器
  • 给Prometheus造假数据的方法
  • 给自己的博客网站加上酷炫的初音未来音乐游戏?
  • 更好理解的面向对象的Javascript 1 —— 动态类型和多态
  • 快速体验 Sentinel 集群限流功能,只需简单几步
  • 爬虫模拟登陆 SegmentFault
  • 学习笔记:对象,原型和继承(1)
  • 一份游戏开发学习路线
  • Prometheus VS InfluxDB
  • Semaphore
  • ​​​​​​​sokit v1.3抓手机应用socket数据包: Socket是传输控制层协议,WebSocket是应用层协议。
  • ​linux启动进程的方式
  • ​Redis 实现计数器和限速器的
  • #android不同版本废弃api,新api。
  • #pragma data_seg 共享数据区(转)
  • #调用传感器数据_Flink使用函数之监控传感器温度上升提醒
  • #快捷键# 大学四年我常用的软件快捷键大全,教你成为电脑高手!!
  • (k8s中)docker netty OOM问题记录
  • (Redis使用系列) Springboot 使用redis实现接口Api限流 十
  • (web自动化测试+python)1
  • (创新)基于VMD-CNN-BiLSTM的电力负荷预测—代码+数据
  • (几何:六边形面积)编写程序,提示用户输入六边形的边长,然后显示它的面积。
  • (免费领源码)Java#Springboot#mysql农产品销售管理系统47627-计算机毕业设计项目选题推荐
  • (十)DDRC架构组成、效率Efficiency及功能实现
  • (十五)使用Nexus创建Maven私服
  • (转)3D模板阴影原理
  • (转)淘淘商城系列——使用Spring来管理Redis单机版和集群版
  • (转载)OpenStack Hacker养成指南
  • (最优化理论与方法)第二章最优化所需基础知识-第三节:重要凸集举例
  • * CIL library *(* CIL module *) : error LNK2005: _DllMain@12 already defined in mfcs120u.lib(dllmodu
  • *算法训练(leetcode)第四十七天 | 并查集理论基础、107. 寻找存在的路径
  • .Net FrameWork总结
  • .NET 漏洞分析 | 某ERP系统存在SQL注入
  • .NETCORE 开发登录接口MFA谷歌多因子身份验证
  • .NET命名规范和开发约定
  • /dev下添加设备节点的方法步骤(通过device_create)
  • @Not - Empty-Null-Blank