数据来源

最后更新:2026-05-10

辿り道把数据分成两层:一层是自行编撰的核心,涵盖华人 JLPT 学习者最常用的词汇与汉字;另一层是 JMdict / KANJIDIC2 fallback,接住阅读器中贴进来的冷僻词。本页完整列出哪一块来自哪里、以什么授权使用。

辿り道自行编撰

以下内容版权归 Mason AI Lab 所有:

  • vocab_entries — 8,047 词核心词库:中文(繁/简)/ 英文释义 / 学习者笔记 / 例句 / 搭配 / 语域 / 领域 / 30+ metadata 字段,皆由 Claude(Anthropic)从日文出发直接生成并经审核。词条 id 为自有命名(tdrm-XXXXX),不继承任何外部数据来源的编号。
  • kanji — 2,682 汉字核心:中英文意义、声符组分析、部件拆解、记忆口诀、形似字、复合词选词、学习者笔记,全部原创。
  • grammar_points — 723 条 JLPT N1–N5 句型:pattern 句型、用法规则、相似句型辨析、例句,从零撰写。
  • articles — JLPT 分级阅读文章:每篇正文、摘要、词汇标注、句型标注、metadata 皆为辿り道原创。
  • UI、设计、代码、学习算法、模拟考逻辑:皆为 Mason AI Lab 所有。

事实数据层

部分数据属于客观语言事实(在我们运营的所有司法管辖区皆不受著作权保护),与原创内容并存于 DB 之中:

  • 汉字字形本身、笔画数、音读训读
  • 康熙部首归类(公有领域古典参考)
  • 词性分类(动词 / 形容词 / 名词 等)
  • 词汇频率(JPDB / 每日新闻语料库)
  • JLPT 等级标记(根据公开的考试大纲整理)

JMdict / KANJIDIC2 fallback

核心 8,047 词范围外的日文词汇,阅读器 hover 查询会 fallback 至 JMdict(日多语字典)与 KANJIDIC2 社区项目。涵盖专有名词、古语、行业术语等冷僻词,以及使用者贴到阅读器里的任意文章用词。

对导入数据的修改:只保留长尾子集(已被核心涵盖的词条不重复),其余 JMdict / KANJIDIC2 记录维持原样。

其他社区资源

  • JLPT 词汇等级标记 — 来自 yomitan-jlpt-vocab(社区维护,标明来源)。
  • JLPT N4 汉字等级补齐 — 来自 davidluzgouveia/kanji-data(MIT,jlpt_new 字段)。用于补上 KANJIDIC2 旧四级制没有的新制 N4 等级。
  • 重音字典 — 来自 mifunetoshiro/kanjium(社区整理之 NHK《日本語発音アクセント新辞典》资料,可自由再分发)。
  • 词汇频率 — JPDB / 每日新闻语料库。
  • 分词器kuromoji.js(Apache 2.0)。

语音合成(TTS)

本站词汇、汉字、句型、文章阅读的日文语音为预生成音频,合成引擎为 VOICEVOX(开源日语语音合成引擎), 使用声音角色为 VOICEVOX:四国めたん(Shikoku Metan,ノーマル style)。选用此角色的原因:VOICEVOX 提供 per-mora 重音控制,可以精确对齐本站显示的重音编号,这是 Web Speech API 做不到的,故采取预生成方式。

  • 引擎VOICEVOX/voicevox_engine,LGPL-3.0 授权。
  • 声音角色 — VOICEVOX:四国めたん。该角色有其独立 使用规约,允许含致谢标示之商业再分发。角色本身著作权归其权利人所有,本站不主张任何角色相关权利。

衍生数据授权

依照 CC BY-SA 4.0 share-alike 义务,本站 jmdict_fallback* 表中存放的 JMdict / KANJIDIC2 长尾子集,若再散布,会以同样的 CC BY-SA 4.0 授权释出。本站自行编撰的 vocab_entries / kanji / grammar_points / articles 表不对外散布,维持自有授权。

联络

关于数据来源、授权、或自编内容之商业使用问题,请寄 [email protected]