資料來源

最後更新:2026-05-10

辿り道把資料分成兩層:一層是自行編撰的核心,涵蓋華人 JLPT 學習者最常用的詞彙與漢字;另一層是 JMdict / KANJIDIC2 fallback,接住閱讀器中貼進來的冷僻詞。本頁完整列出哪一塊來自哪裡、以什麼授權使用。

辿り道自行編撰

以下內容版權歸 Mason AI Lab 所有:

  • vocab_entries — 8,047 詞核心詞庫:中文(繁/簡)/ 英文釋義 / 學習者筆記 / 例句 / 搭配 / 語域 / 領域 / 30+ metadata 欄位,皆由 Claude(Anthropic)從日文出發直接生成並經審核。詞條 id 為自有命名(tdrm-XXXXX),不繼承任何外部資料來源的編號。
  • kanji — 2,682 漢字核心:中英文意義、聲符組分析、部件拆解、記憶口訣、形似字、複合詞選詞、學習者筆記,全部原創。
  • grammar_points — 723 條 JLPT N1–N5 句型:pattern 句型、用法規則、相似句型辨析、例句,從零撰寫。
  • articles — JLPT 分級閱讀文章:每篇本文、摘要、詞彙標注、句型標注、metadata 皆為辿り道原創。
  • UI、設計、程式碼、學習演算法、模擬考邏輯:皆為 Mason AI Lab 所有。

事實資料層

部分資料屬於客觀語言事實(在我們營運的所有司法管轄區皆不受著作權保護),與原創內容並存於 DB 之中:

  • 漢字字形本身、筆畫數、音讀訓讀
  • 康熙部首歸類(公有領域古典參考)
  • 詞性分類(動詞 / 形容詞 / 名詞 等)
  • 詞彙頻率(JPDB / 每日新聞語料庫)
  • JLPT 等級標記(根據公開的考試大綱整理)

JMdict / KANJIDIC2 fallback

核心 8,047 詞範圍外的日文詞彙,閱讀器 hover 查詢會 fallback 至 JMdict(日多語字典)與 KANJIDIC2 社群專案。涵蓋專有名詞、古語、行業術語等冷僻詞,以及使用者貼到閱讀器裡的任意文章用詞。

對匯入資料的修改:只保留長尾子集(已被核心涵蓋的詞條不重複),其餘 JMdict / KANJIDIC2 紀錄維持原樣。

其他社群資源

  • JLPT 詞彙等級標記 — 來自 yomitan-jlpt-vocab(社群維護,標明來源)。
  • JLPT N4 漢字等級補齊 — 來自 davidluzgouveia/kanji-data(MIT,jlpt_new 欄位)。用於補上 KANJIDIC2 舊四級制沒有的新制 N4 等級。
  • 重音字典 — 來自 mifunetoshiro/kanjium(社群整理之 NHK《日本語発音アクセント新辭典》資料,可自由再散布)。
  • 詞彙頻率 — JPDB / 每日新聞語料庫。
  • 分詞器kuromoji.js(Apache 2.0)。

語音合成(TTS)

本站詞彙、漢字、句型、文章閱讀的日文語音為預生成音檔,合成引擎為 VOICEVOX(開源日語語音合成引擎), 使用聲音角色為 VOICEVOX:四国めたん(Shikoku Metan,ノーマル style)。選用此角色的原因:VOICEVOX 提供 per-mora 重音控制,可以精確對齊本站顯示的重音編號,這是 Web Speech API 做不到的,故採取預生成方式。

  • 引擎VOICEVOX/voicevox_engine,LGPL-3.0 授權。
  • 聲音角色 — VOICEVOX:四国めたん。該角色有其獨立 利用規約,允許含信用標示之商業再散布。角色本身著作權歸其權利人所有,本站不主張任何角色相關權利。

衍生資料授權

依照 CC BY-SA 4.0 share-alike 義務,本站 jmdict_fallback* 表中存放的 JMdict / KANJIDIC2 長尾子集,若再散布,會以同樣的 CC BY-SA 4.0 授權釋出。本站自行編撰的 vocab_entries / kanji / grammar_points / articles 表不對外散布,維持自有授權。

聯絡

關於資料來源、授權、或自編內容之商業使用問題,請寄 [email protected]