feat: correctly resolve documentation links

vitlinda · nicolasfara · commit 26f4ed7dd957 · 2022-07-18T15:32:12.000+02:00
diff --git a/src/main/scala/dev/atedeg/Errors.scala b/src/main/scala/dev/atedeg/Errors.scala
@@ -13,6 +13,10 @@ final case class EntityNotFound(baseEntity: BaseEntity) extends Error {
   override def toString: String = s"Could not find entity '$baseEntity'"
 }
 
+final case class MissingLink(name: String) extends Error {
+  override def toString: String = s"Could not find link for entity '$name'"
+}
+
 final case class FileNotFound(lookupDir: File, path: String) extends Error {
   override def toString: String = s"Could not find file '$path' in directory '${lookupDir.pathAsString}'"
 }
diff --git a/src/main/scala/dev/atedeg/HtmlParsing.scala b/src/main/scala/dev/atedeg/HtmlParsing.scala
@@ -12,27 +12,47 @@ object HtmlParsing {
   def extractTermAndDefinition(file: File, entity: Entity, allEntities: Set[Entity]): Either[Error, (String, String)] =
     for {
       document <- JsoupBrowser().parseFile(file.toJava).asRight
-      doc <- extractDoc(file, document, entity)
+      doc <- extractDoc(file, document, entity, allEntities)
     } yield (entity.name, doc)
 
-  def extractDoc(file: File, document: Browser#DocumentType, entity: Entity): Either[Error, String] = {
+  def extractDoc(
+      file: File,
+      document: Browser#DocumentType,
+      entity: Entity,
+      allEntities: Set[Entity],
+  ): Either[Error, String] = {
     val searchQuery = s"#${entity.entityId.map(_ + " > ").getOrElse("")}div.cover > div.doc"
-    extractTagFromDocument(file, document, searchQuery)
+    extractTagFromDocument(file, document, searchQuery, allEntities)
   }
 
-  private def extractTagFromDocument(file: File, doc: Browser#DocumentType, tag: String): Either[Error, String] =
-    doc.tryExtract(element(tag)).map(_.childNodes).map(toMarkdown).toRight(ParseError(file, tag))
+  private def extractTagFromDocument(
+      file: File,
+      doc: Browser#DocumentType,
+      tag: String,
+      allEntities: Set[Entity],
+  ): Either[Error, String] =
+    doc.tryExtract(element(tag)).map(_.childNodes).toRight(ParseError(file, tag)).flatMap(toMarkdown(_, allEntities))
 
-  private def toMarkdown(es: Iterable[Node]): String = {
+  private def toMarkdown(es: Iterable[Node], allEntities: Set[Entity]): Either[Error, String] = {
     def isLink(e: Element): Boolean = e.tagName == "a"
-    def toMarkdownLink(e: Element): String = s"[${extractName(e.text)}](${e.text})"
-    def extractName(fullPath: String): String = fullPath.split('.').last
+    def toMarkdownLink(e: Element) = lookupLinkFor(extractName(e)).map(l => s"[$l](${e.text})")
+    def extractName(e: Element): String = e.attr("href").replace(".html", "")
+    def lookupLinkFor(name: String): Either[Error, String] =
+      allEntities.find(_.name == name).map(_.link.replace("/", ".")).toRight(MissingLink(name))
 
-    es.foldLeft("") { (acc, elem) =>
+    es.foldLeft("".asRight[Error]) { (acc, elem) =>
       elem match {
-        case TextNode(s) => acc + s
-        case ElementNode(e) if isLink(e) => acc + toMarkdownLink(e)
-        case ElementNode(e) => acc + toMarkdown(e.childNodes)
+        case TextNode(s) => acc.map(_ + s)
+        case ElementNode(e) if isLink(e) =>
+          for {
+            a <- acc
+            l <- toMarkdownLink(e)
+          } yield a + l
+        case ElementNode(e) =>
+          for {
+            a <- acc
+            m <- toMarkdown(e.childNodes, allEntities)
+          } yield a + m
       }
     }
   }

Original file line number	Diff line number	Diff line change
`@@ -13,6 +13,10 @@ final case class EntityNotFound(baseEntity: BaseEntity) extends Error {`
`13`	`13`	`override def toString: String = s"Could not find entity '$baseEntity'"`
`14`	`14`	`}`
`15`	`15`
	`16`	`+final case class MissingLink(name: String) extends Error {`
	`17`	`+ override def toString: String = s"Could not find link for entity '$name'"`
	`18`	`+}`
	`19`	`+`
`16`	`20`	`final case class FileNotFound(lookupDir: File, path: String) extends Error {`
`17`	`21`	`override def toString: String = s"Could not find file '$path' in directory '${lookupDir.pathAsString}'"`
`18`	`22`	`}`